POLITECNICO DI BARI

FACOLTÀ DI INGEGNERIA
CORSO DI LAUREA TRIENNALE IN INGEGNERIA INFORMATICA
Dipartimento di Elettrotecnica ed Elettronica


TESI DI LAUREA
in
ELEMENTI DI SISTEMI ESPERTI


RICONOSCIMENTO INTELLIGENTE
DELLE EMOZIONI DALLE ESPRESSIONI
FACCIALI
AN INTELLIGENT SYSTEM FOR EMOTION
RECOGNITION FROM FACIAL EXPRESSIONS


Relatore:
Prof. Ing. Vitoantonio BEVILACQUA
Laureando:
Marco SUMA


ANNO ACCADEMICO 2010/2011










A Dio.
Alla mia Famiglia.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Ringraziamenti


II
RINGRAZIAMENTI
Ringrazio sinceramente il Prof. Vitoantonio Bevilacqua, un vero e proprio punto di
riferimento; a lui devo buona parte delle nozioni acquisite in questi tre anni di studio e
durante questo lavoro di tesi.

Ringrazio la mia Famiglia; grazie a tutti gli sforzi economici sostenuti e al loro affetto sono
riuscito ad arrivare a questo traguardo.

Ringrazio i miei colleghi Dario D‟Ambruoso e Giovanni Mandolino, con i quali ho
collaborato per la realizzazione di questo progetto e non solo.

Un ringraziamento è rivolto a tutti gli amici e le persone con cui ho condiviso questi tre
anni; il loro contributo, seppur indiretto, è stato fondamentale soprattutto nei momenti più
impegnativi.

Il raggiungimento di questo tipo di traguardo non può e non deve far crescere solo
didatticamente, ma sotto ogni punto di vista. È per questo che ringrazio tutti i professori
che ho incontrato nel mio percorso di studi.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Prefazione

III
PREFAZIONE
Il riconoscimento delle emozioni da parte di una macchina per mezzo delle espressioni
facciali umane è una problematica piuttosto interessante. Essa rientra in buona sostanza in
quella che viene definita interazione uomo-macchina. Negli ultimi anni ci si è concentrati
molto sul miglioramento degli aspetti legati a questa disciplina. L‟obiettivo che ci si pone
in questi casi è quello di fare in modo che la macchina possa comportarsi in qualche modo
come un essere umano.
Gli esseri umani interagiscono tra loro attraverso la comunicazione verbale, ma molto
spesso le parole vengono affiancate da movimenti del corpo e da espressioni facciali, i
quali facilitano la comprensione dello stato emotivo degli interlocutori che stanno
comunicando. Le emozioni sono quindi espresse per mezzo di aspetti sia visivi che sonori
dell‟interlocutore. L‟abilità nel riconoscere le emozioni rientra in ciò che noi comunemente
chiamiamo “intelligenza”. Il modo più diretto attraverso il quale un essere umano esprime
le proprie emozioni è attraverso le espressioni facciali. Possiamo evidentemente sfruttare
questi concetti per rendere “intelligente” una macchina, cioè renderla in grado di
riconoscere le emozioni attraverso l‟individuazione e l‟analisi del volto di un essere
umano.
Dal punto di vista della cultura, della storia della filosofia occidentale, l‟evoluzione dello
studio delle emozioni può partire da Cartesio e dalla sua tendenza a scindere tra quelle che
erano, secondo lui, le proprietà prettamente umane, come la razionalità, e le proprietà di
tipo più animale. Indubbiamente per Cartesio le emozioni appartenevano al cosiddetto
“esprit des bêtes”, allo "spirito degli animali". Tuttavia un primo avvicinamento più
concreto al concetto di emozione lo si è avuto con Darwin[1]. Secondo la teoria di Darwin
“le emozioni possono essere pensate come entità innate e uguali per tutti”. Questa teoria
permette di descrivere le emozioni come elementi funzionali ed adattativi, e pertanto
classificabili. Studiosi come Ekman, Friesen e Ellsworth [2] hanno confermato questa tesi,
individuando anche uno stretto legame appunto tra espressioni facciali ed emozioni. In
particolare, attraverso gli studi di Ekman è stato possibile constatare una stretta relazione
tra movimenti dei muscoli facciali ed espressioni facciali e tra espressioni facciali ed
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Prefazione

IV
emozioni, indipendentemente da fattori legati alla cultura e alla società. Per esempio anche
in un gruppo della Nuova Guinea, di cultura primitiva, le espressioni facciali relative a
particolari emozioni somigliano molto a quelle delle società più avanzate; ciò accade in
particolare per l‟emozione della rabbia, del disgusto, della felicità, della tristezza, della
paura e della sorpresa, che sembrano universalmente espresse allo stesso modo,
probabilmente perché biologicamente più primitive e dunque universali.
Negli ultimi anni gli studi della psicologia si sono concentrati molto sull‟interpretazione
delle espressioni facciali e sulla decodifica delle emozioni durante la vita quotidiana di un
essere umano. Albert Mehrabian[3], ad esempio, dimostrò che, in una generica
conversazione, la parte verbale di un discorso contribuisce solo per il 7% sull‟effetto del
messaggio, la parte vocale (tonalità, intensità, timbro,…) contribuisce per il 38%, mentre le
espressioni facciali hanno un effetto peri al 55%. È per questo motivo che, nella
realizzazione di un sistema complesso in grado di implementare un interazione uomo-
macchina, ci si proietta maggiormente nell‟analisi delle espressioni facciali; tuttavia questo
non esclude la generalizzazione di un sistema multimodale che acquisisca parallelamente
informazioni visive, auditive e gestuali.
L‟Affective Computing, ossia lo studio dello sviluppo di sistemi in grado di riconoscere,
interpretare e simulare le emozioni umane, introduce le problematiche relative
all‟interfacciamento tra le emozioni e i calcolatori, e ha come fondatrice Rosalind W.
Picard, che lavora presso il MIT [4]. Il problema del riconoscimento delle espressioni
facciali ha interessato molto la comunità della computer-vision. [5][6].
Le tecniche per l‟individuazione e la codifica delle espressioni facciali si sono basate
sostanzialmente su due approcci: elaborazione delle immagini (image processing) e reti
neurali (Neural Network).
L‟elaborazione delle immagini è una vera e propria disciplina che interpreta ed elabora le
immagini per il tramite di operatori matematici, permettendo così di estrapolare le
informazioni contenute all‟interno dell‟immagine: ad esempio è piuttosto intuitivo capire
che, all‟interno di un certo fattore di probabilità, il colore della pelle di un essere umano di
razza bianca rientri in un determinato intervallo della scala di colori, il quale è tuttavia
dipendente anche dalla luminosità; oppure, nella regione degli occhi, le pupille occupano la
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Prefazione

V
zona più scura, tendente al nero. Tutte queste semplici caratteristiche possono essere
esaltate da questi operatori matematici.
Le reti neurali sono un modello matematico fortemente sviluppatosi nel XX° secolo
attraverso il quale è possibile risolvere problemi di elevata complessità non lineare, cioè
problemi per i quali risulta molto complesso determinare una funziona analitica. L‟utilizzo
delle reti neurali è fortemente correlato con aspetti dell‟intelligenza artificiale. In
particolare nel nostro caso faremo riferimento a reti neurali con apprendimento
supervisionato basate su un algoritmo di tipo error back propagation. Questa tipologia di
rete prevede sostanzialmente una fase di apprendimento e di addestramento nella quale la
rete neurale viene istruita a seguire una determinata logica: nel nostro caso la rete neurale
riceverà in ingresso determinate regioni del volto e dovrà fornire una risposta presunta
sullo stato emotivo dell‟individuo.
Il lavoro svolto all‟interno di questa tesi di laurea, con la collaborazione dei colleghi Dario
D‟Ambruoso e Giovanni Mandolino, rientra in un progetto che ha come obiettivo la
realizzazione di un software in grado di acquisire immagini da webcam, riconoscere il
volto all‟interno dell‟immagine e rilevare le emozioni sull‟analisi delle espressioni facciali.
Il progetto, coordinato dal professore Vitoantonio Bevilacqua, coinvolge anche altri
studenti, tra cui il dottorando Alessandro Ciccimarra, ideatore di una prima parte del
software di riconoscimento dei punti caratteristici del volto. Nello stesso ambito, abbiamo
realizzato due pubblicazioni scientifiche: [7] presentata al convegno internazionale
“MeMeA 2011”, tenutosi a Bari il 30-31 Maggio 2011, e [8] presentata ad “ICIC 2011”,
tenutasi a Zhengzhou (Cina) dal 11 al 14 Agosto 2011.
Un sistema automatico in grado di riconoscere le emozioni facciali può essere utilizzato in
diversi scenari con caratteristiche molto diverse:
- In ambito medico, il legame tra le emozioni e le malattie neurodegenerative può
essere sfruttato nel tracciare l‟andamento emotivo di un paziente durante una visita
specialistica, fornendo così un ausilio alla diagnosi precoce;
- In ambito lavorativo, durante una videoconferenza, sarebbe utile tenere traccia
dell‟andamento emotivo dei vari interlocutori;
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Prefazione

VI
- Nell‟ambito del mondo virtuale, dei social network, il sistema potrebbe interpretare
lo stato emotivo del soggetto sulla base della sua immagine profilo scelta.
Nel Capitolo 1 verrà affrontata una visione generale sulle emozioni, e la correlazione con
le espressioni facciali.
Nel Capitolo 2 si parlerà delle utilizzo delle Action Units come mezzo di riconoscimento
delle emozioni.
Nel Capitolo 3 vengono presentate le tecniche legate all‟elaborazione delle immagini
utilizzate nel software.
Nel Capitolo 4 si argomenta l‟utilizzo delle reti neurali con apprendimento supervisionato.
Infine verranno esposte le considerazioni finali sugli sviluppi del progetto.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI


VII
SOMMARIO
RINGRAZIAMENTI ................................................................................................................................... II
PREFAZIONE ...........................................................................................................................................III
SOMMARIO ............................................................................................................................................. VII
CAPITOLO 1 LE EMOZIONI E LE ESPRESSIONI FACCIALI ........................................................ 1
1.1 INTRODUZIONE ....................................................................................................................... 2
1.2 I MUSCOLI MIMICI .................................................................................................................. 4
1.2.1 MUSCOLI DELLA VOLTA DEL CRANIO................................................................................ 5
1.2.2 MUSCOLI ESTRINSECI DEL PADIGLIONE AURICOLARE .................................................. 6
1.2.3 MUSCOLI DELLE PALPEBRE ................................................................................................ 6
1.2.4 MUSCOLI DEL NASO ............................................................................................................. 7
1.2.5 MUSCOLI DELLA BOCCA ...................................................................................................... 8
1.2.6 MUSCOLO PLATISMA ............................................................................................................ 9
1.2.7 AZIONE COMBINATA DEI MUSCOLI MIMICI ...................................................................... 9
1.3 LE EMOZIONI ............................................................................................................................ 9
1.3.1 CLASSIFICAZIONE DELLE EMOZIONI ............................................................................... 12
1.3.2 SORPRESA ............................................................................................................................ 16
1.3.3 TRISTEZZA ............................................................................................................................ 16
1.3.4 PAURA................................................................................................................................... 17
1.3.5 DISGUSTO ............................................................................................................................ 18
1.3.6 RABBIA .................................................................................................................................. 18
1.3.7 FELICITÀ .............................................................................................................................. 19
CAPITOLO 2 DECIFRARE LE EMOZIONI: LE ACTION UNITS .................................................. 21
2.1 INTRODUZIONE ..................................................................................................................... 22
2.2 UPPER FACE ACTION UNITS ................................................................................................ 22
2.2.1. AU-4: ABBASSAMENTO DELLE SOPRACCIGLIA ............................................................... 23
2.2.2. AU-1: INNALZAMENTO INTERNO DELLE SOPRACCIGLIA .............................................. 24
2.2.3. AU-2: INNALZAMENTO ESTERNO DELLE SOPRACCIGLIA .............................................. 24
2.2.4. AU-5: INNALZAMENTO DELLE PALPEBRE ....................................................................... 25
2.2.5. AU-6: INNALZAMENTO GUANCE E COMPRESSIONE PALPEBRE ................................... 26
2.2.6. AU-7: RESTRINGIMENTO DELLE PALPEBRE .................................................................... 26
2.2.7. AU-43: CHIUSURA DEGLI OCCHI ...................................................................................... 27
2.2.8. AU-45: CHIUSURA E RIAPERTURA DELL’OCCHIO .......................................................... 27
2.2.9. AU-46: “L’OCCHIOLINO” ................................................................................................... 27
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI


VIII
2.3 LOWER FACE ACTION UNITS: SU/GIÙ................................................................................ 28
2.3.1 AU-9: “ARRICCIAMENTO” DEL NASO ............................................................................... 28
2.3.2 AU-10: SOLLEVAMENTO DEL LABBRO SUPERIORE ........................................................ 29
2.3.3 AU-17: SOLLEVAMENTO DEL MENTO ............................................................................... 29
2.3.4 AU-15: DEPRESSIONE DEGLI ANGOLI DELLA BOCCA .................................................... 30
2.3.5 AU-25, AU-26, AU-27 ............................................................................................................ 31
2.3.6 AU-16: DEPRESSIONE DEL LABBRO INFERIORE ............................................................. 31
2.4 LOWER FACE ACTION UNITS: ORIZZONTALI ................................................................... 32
2.4.1 AU-20: STIRAMENTO DELLE LABBRA................................................................................ 32
2.4.2 AU-14: GENERAZIONE DELLE FOSSETTE ......................................................................... 33
2.5 LOWER FACE ACTION UNITS: OBLIQUA ........................................................................... 33
2.5.1 AU-11: APPROFONDIMENTO DEL SOLCO NASO – LABIALE .......................................... 34
2.5.2 AU-12: TRAZIONE DEGLI ANGOLI DELLE LABBRA.......................................................... 34
2.5.3 AU-13: ARROTONDAMENTO DEGLI ANGOLI DELLE LABBRA ........................................ 35
2.6 LOWER FACE ACTION UNITS: ORBITALE ......................................................................... 36
2.6.1 AU-18: CORRUGAZIONE DELLE LABBRA.......................................................................... 36
2.6.2 AU-22: LABBRA AD IMBUTO ............................................................................................... 37
2.6.3 AU-23: TENSIONE DELLE LABBRA ..................................................................................... 37
2.6.4 AU-24: PRESSIONE DELLE LABBRA ................................................................................... 38
2.6.5 AU-28: “RISUCCHIO” DELLE LABBRA .............................................................................. 38
2.7 TABELLA RIASSUNTIVA ....................................................................................................... 39
2.8 AUS E LE EMOZIONI PRIMARIE ........................................................................................... 42
CAPITOLO 3 RICONOSCIMENTO DELLE AUS MEDIANTE ELABORAZIONE DELLE
IMMAGINI ...................................................................................................................................... 45
3.1 INTRODUZIONE ..................................................................................................................... 46
3.2 L’ALGORITMO ........................................................................................................................ 46
3.3 ACQUISIZIONE FRAME DA WEBCAM ................................................................................. 49
3.4 RICONOSCIMENTO DEL VOLTO E DELLA ZONA DEGLI OCCHI .................................... 49
3.4.1 IMAGE CLUSTERING ........................................................................................................... 51
3.4.2 IMAGE BINARIZATION ........................................................................................................ 52
3.4.3 OPERATORI DI MATHEMATICAL MORPHOLOGY ............................................................ 52
3.4.4 TEMPLATE MATCHING ....................................................................................................... 56
3.4.5 CROSS CORRELAZIONE NORMALIZZATA ......................................................................... 57
3.4.6 SUPPORT VECTOR MACHINE (SVM) ................................................................................. 58
3.4.7 CONNECTED COMPONENTS LABELING ........................................................................... 61
3.4.8 EQUALIZZAZIONE DELL’ISTOGRAMMA ........................................................................... 62
3.5 RICERCA DEI PUNTI CARATTERISTICI.............................................................................. 64
3.5.1 RICONOSCIMENTO DEGLI OCCHI .................................................................................... 64
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI


IX
3.5.2 RICONOSCIMENTO DELLE SOPRACCIGLIA ..................................................................... 68
3.5.3 RICONOSCIMENTO DELLA BOCCA ................................................................................... 69
3.6 COSTRUZIONE POLIGONI PER IL RICONOSCIMENTO DELLE AUS .............................. 73
3.7 IMPLEMENTAZIONE DEL SOFTWARE ............................................................................... 77
CAPITOLO 4 RICONOSCIMENTO DELLE AUS MEDIANTE RETI NEURALI ............................ 80
4.1 INTRODUZIONE ..................................................................................................................... 81
4.2 APPLICAZIONI ........................................................................................................................ 83
4.3 RETI NEURALI BIOLOGICHE ............................................................................................... 86
4.4 NEURONI ARTIFICIALI ......................................................................................................... 88
4.5 RETI NEURALI ARTIFICIALI ................................................................................................ 90
4.5.1 RETI FEED-FORWARD MULTISTRATO .............................................................................. 91
4.6 APPRENDIMENTO .................................................................................................................. 93
4.7 COME RICONOSCERE LE AUS CON UNA RETE NEURALE .............................................. 98
4.7.1 REGIONE DELLA BOCCA .................................................................................................. 103
4.7.2 REGIONE DEL NASO ......................................................................................................... 105
CAPITOLO 5 CONCLUSIONI E SVILUPPI FUTURI .................................................................... 106
5.1 CONCLUSIONI ...................................................................................................................... 107
5.2 SVILUPPI FUTURI ................................................................................................................ 107
5.3 A CHI È RIVOLTO.................................................................................................................. 108
BIBLIOGRAFIA ...................................................................................................................................... 110










CAPITOLO 1
Le emozioni e le espressioni facciali

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


2
“Il volto umano – a riposo e in movimento, in punto di morte così come in vita, in
silenzio e nel parlare, visto o sentito dall’interno, nella realtà o rappresentato in forma
artistica o ripreso da una telecamera – è una fonte di informazioni complicata che si
impone e a volte confonde.” (Ekman, Friesen e Ellsworth, 1972)
1.1 INTRODUZIONE
Quando si parla di “comunicazione”, il pensiero è rivolto alla comunicazione verbale o
scritta. In realtà il 70% del flusso comunicativo tra due o più interlocutori si basa sulla
cosiddetta comunicazione non verbale, costituita da:
- Variazioni nell‟intonazione – intensità vocale;
- Postura;
- Gesti non intenzionali/spontanei;
- Prossemica (“è un’interessante branca della comunicazione che studia come ci
poniamo fisicamente davanti o di lato alle persone, quanto stiamo loro vicino, dove
ci andiamo a sedere in una stanza quando ci sono altre persone e perché”);
- Espressioni mimico – facciali.
Lo studio delle espressioni facciali rappresenta uno dei campi più importanti e affascinanti
della psicologia della comunicazione non verbale. Infatti il volto, e in particolare le
espressioni che lo caratterizzano, costituisce un canale molto importante sul piano
comunicativo ed espressivo. L‟importanza di questa parte del corpo nel trasmettere
messaggi è evidenziata dal bisogno che spesso abbiamo di vedere in faccia il nostro
interlocutore. Attraverso il volto siamo in grado di esprimere con precisione il nostro stato
emotivo, così come anche atteggiamenti interpersonali difficilmente controllabili. Poeti e
filosofi hanno da sempre parlato di emozioni e, nelle opere di molti scrittori, antichi e
medievali, di ogni provenienza, possono essere rintracciate osservazioni circa l‟apparire
delle emozioni sul volto.
Charles Darwin [9] è stato il primo a indicare il significato delle emozioni, il loro valore
adattativo, ad interpretarle cioè in termini di utilità e di comunicazione. I concetti di
“espressione” e di “emozione” sono stati utilizzati da Darwin in un‟accezione distante da
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


3
come potrebbero essere utilizzati in un approccio attuale. Ad esempio egli intese per
espressione un “azione di ogni genere” e invece di riferirsi ad una lista di emozioni di base
lavorò con una serie di “stati della mente”, in termini di emozioni, tratti motivazionali,
sensazioni, ecc.
I primi studi compiuti all‟inizio del Novecento si basarono sul presupposto che i volti
esprimono emozioni. Sulla base di tale filosofia, sorsero spontanee due domande:
innanzitutto essi si chiesero che cosa possano inferire gli osservatori dai volti. Alcuni
studiosi analizzarono le espressioni facciali in laboratorio, altri cercarono di suscitare
emozioni autentiche in situazioni controllate. Il secondo grande interrogativo riguarda il
ruolo e l‟importanza che il contesto può assumere nella percezione delle espressioni
facciali.
Dagli anni Ottanta le ricerche furono coordinate dal Programma Espressione Facciale. Esso
si basava su un insieme di teorie e metodi centrati principalmente su una lista di specifiche
emozioni primarie. Tomkins, Ekman e Izard furono in grado di identificare alcune
configurazioni facciali associabili indistintamente alle varie emozioni. Essi formularono
l‟ipotesi che le espressioni facciali sono collegate alle emozioni e si usano per trasmettere
informazioni, ed evidenziarono l‟importanza di una manifestazione coerente delle
emozioni all‟interno di un contesto sociale. L‟importanza dello studio approfondito delle
emozioni nelle espressioni facciali nasce proprio dalla forte influenza che esse manifestano
all‟interno delle nostre interazioni sociali. L‟interpretazione corretta di espressioni facciali
distinte costituiscono un sistema di segnalazione che fornisce un adattamento evolutivo ad
alcuni dei maggiori problemi della vita.
L‟interazione sociale viene modificata dalle espressioni facciali per tre motivi:
1. Le espressioni facciali rappresentano una ricca fonte di informazione per gli
interlocutori circa lo stato d‟animo dell‟emittente;
2. Le espressioni facciali delle emozioni sono “contagiose”, cioè suscitano delle reazioni
nell‟osservatore;
3. Le espressioni facciali delle emozioni forniscono incentivi per i comportamenti sociali
delle altre persone.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


4
Possiamo quindi affermare che, nonostante una delle più importanti funzioni della
comunicazione non verbale rimanga quella di esprimere emozioni, le manifestazioni del
volto sono più che espressioni di stati interni.
L‟emozione (dal latino “emotus” = muovere da, movimento) indica un particolare
movimento corporeo, spontaneo o simulato, dettato da stati mentali e fisiologici associati a
precisi stimoli interni o esterni. Il volto, principale culla delle emozioni, risulta quindi
essere un sistema di risposta multisegnale – multimessaggio, capace di un‟enorme
flessibilità e specificità. Tale sistema è in grado di produrre diciotto differenti messaggi
tramite l‟uso dei muscoli facciali i quali distorcono temporaneamente la forma degli occhi,
delle sopracciglia, delle labbra e la sembianza delle pieghe, le rughe e i rigonfiamenti della
pelle. La durata di queste manifestazioni oscilla tra i 250 millisecondi e i 5 secondi. I
muscoli coinvolti, i muscoli della testa, si dividono in epicranica, orbitaria, buccale, nasale
ed auricolare. Più in generale i muscoli facciali si dividono in mimici e scheletrici. I primi
sono costituiti dai muscoli che consentono i cambiamenti delle espressioni facciali; i
secondi determinano il movimento di un preciso osso.
1.2 I MUSCOLI MIMICI

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


5

Fig. 1.1. I muscoli mimici
I muscoli mimici, situati appena sotto la pelle, sono quindi quelli che ci consentono di
esprimere emozioni attraverso una varietà di espressioni facciali. Questi muscoli esercitano
anche varie funzioni come la pressione, la masticazione e altro ancora. I muscoli mimici di
maggiore interesse sono i seguenti [10]:
- Muscoli della volta del cranio;
- Muscoli estrinseci del padiglione auricolare;
- Muscoli delle palpebre;
- Muscoli del naso;
- Muscoli della bocca;
- Muscolo platisma.
Una breve presentazione dei muscoli interessati al movimento del volto è necessaria in
quanto la loro combinazione costituisce, come vedremo in seguito, la costituzione di unità
fondamentali (Action Units) il cui utilizzo diventa fondamentale per il riconoscimento
delle emozioni, specialmente in un sistema automatizzato che necessita di uno strumento di
misura.
1.2.1 MUSCOLI DELLA VOLTA DEL CRANIO
I muscoli della volta del cranio si dividono in muscolo epicranico e muscolo procerus.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


6

(a) (b)
Fig. 1.2. Il muscolo epicranico (a) e il muscolo procerus (b).
Il muscolo epicranico si estende sulla volta cranica ed è formato da tre porzioni: muscolo
frontale, muscolo occipitale e galea capitis (o aponeurosi epicranica).
Il muscolo procerus (o piramidale) è costituito da fibre, tramite le quali è possibile eseguire
movimenti più raffinati ed evoluti.
1.2.2 MUSCOLI ESTRINSECI DEL PADIGLIONE AURICOLARE
Questi muscoli sono rappresentati dal muscolo auricolare antero-superiore e dal muscolo
auricolare posteriore. I muscoli auricolari consentono spostamenti in direzioni anteriore,
superiore e posteriore del padiglione auricolare.
1.2.3 MUSCOLI DELLE PALPEBRE
I muscoli delle palpebre comprendono il muscolo orbicolare dell‟occhio e il muscolo
corrugatore del sopracciglio.
Il muscolo orbicolare dell‟occhio ha un estrema importanza nella manifestazione degli stati
d‟animo, in particolare nella risata (si forma un solco tra la parte inferiore della palpebra,
che si rialza, e la guancia).
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


7

Fig. 1.3. Il muscolo orbicolare dell’occhio.
Il muscolo corrugatore del sopracciglio, contraendosi, porta medialmente e in basso la cute
del sopracciglio, permettendo la formazione di pieghe longitudinali ai lati della radice del
naso. È anche responsabile dell‟incurvatura del sopracciglio. Insieme ad altri muscoli, è
utilizzato per esprimere uno stato di concentrazione o uno sforzo muscolare.

Fig. 1.4. Il muscolo corrugatore del sopracciglio.
1.2.4 MUSCOLI DEL NASO
I muscoli del naso comprendono il muscolo nasale e il muscolo dilatatore delle narici.
Il muscolo nasale può comprimere la parete laterale del naso, restringendo la narice; è
formato da una parte traversa e da una parte alare.
Il muscolo dilatatore delle narici, contraendosi, sposta lateralmente l‟ala del naso dilatando
la narice e il vestibolo.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


8

(a) (b) (c)
Fig. 1.5. Il muscolo nasale: parte traversa (a), parte alare (b); muscolo dilatore delle narici (c).
1.2.5 MUSCOLI DELLA BOCCA
Questa zona del volto è ricca di muscoli; basti pensare al fatto che abbiamo bisogno di
masticare e di parlare, per cui questi stessi muscoli intervengono nella manifestazione delle
emozioni: il muscolo zigomatico, il muscolo quadrato del labbro superiore, il muscolo
canino, il muscolo buccinatore, il muscolo risorio, il muscolo triangolare, il muscolo
quadrato del labbro inferiore, il muscolo mentale, i muscoli incisivi del labbro superiore e
del labbro inferiore e il muscolo orbicolare della bocca.

(a) (b) (c) (d) (e) (f)

(g) (h) (i) (l) (m)
Fig. 1.6. Il muscolo zigomatico minore (a); il muscolo zigomatico maggiore (b); il muscolo quadrato del
labbro superiore (c); il muscolo canino (d); il muscolo buccinatore (e); il muscolo risorio (f); il muscolo
triangolare delle labbra (g); il muscolo quadrato del labbro inferiore (h); il muscolo mentale (i); il
muscolo orbicolare della bocca (l); il muscolo elevatore del labbro superiore (m).
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


9
1.2.6 MUSCOLO PLATISMA
Il muscolo platisma è un ampio muscolo laminare del collo, ma comunque è responsabile
di alcuni movimenti facciali. È associato al movimento della parte inferiore del labbro,
consentendone l‟allungamento e la tensione. Insieme ad altri muscoli, aumenta
l‟espressività di questi nella collera, nello spavento, nel terrore, nella sofferenza.

Fig. 1.7. Il muscolo platisma.
1.2.7 AZIONE COMBINATA DEI MUSCOLI MIMICI
Di solito questi muscoli non entrano in azione singolarmente, ma mediante un azione
combinata. Ad esempio, nel sorriso interviene una contrazione moderata del complesso
buccinatore-zigomatico-risorio; se il sorriso si converte in riso, le commessure labiali sono
sollevate più fortemente per l‟intensa contrazione dei muscoli zigomatici, che danno allora
al solco naso-labiale una forma ad S caratteristica. Nel riso è pure tipico l‟increspamento
delle palpebre e la comparsa di rughe. Nella tristezza, invece, vi è la contrazione del
triangolare delle labbra e del corrugatore del sopracciglio. Infine, nel pianto, si accentua
l‟apertura palpebrale e l‟ala del naso discende.
1.3 LE EMOZIONI
In generale, le emozioni sono determinate geneticamente, sono universali e distinte. In
particolare, l‟universalità delle stesse è stata sperimentata da Ekman nei suoi studi; da qui
nasce la necessità di dichiarare formalmente l‟esistenza delle cosiddette emozioni
primarie; infatti, una distinzione che emerge dalla letteratura sulle emozioni è quella tra
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


10
emozioni primarie e emozioni secondarie. Secondo la tradizione filosofica, le emozioni
primarie erano generalmente considerate il fondamento di tutta la vita umana.
Le più importanti teorie formulate nel corso della storia (Ekman – Tomkins – Izard) si
sono basate sull‟universalità delle espressioni facciali di queste emozioni primarie: si è
giunti alla conclusione che “l’esperienza emozionale è radicata nel biologico ed è legata
più alla memoria filogenetica che all’apprendimento individuale” (Galati, 1993). Queste
teorie, chiamate teorie differenziali o discrete, sostengono che alcune risposte emozionali
di base, cioè le emozioni primarie, si sono evolute per fornire risposte di adattamento
efficaci ai problemi posti dall‟ambiente. Queste emozioni, inoltre, costituiscono le
componenti elementari a partire dalle quali si costruiscono tutte le emozioni secondarie.
Contrapposte a queste teorie, vi sono le teorie componenziali delle emozioni, che
prendono come riferimento teorico i modelli della psicologia cognitiva. Secondo questo
punto di vista, non esistono emozioni primarie innate intese come unità elementari a partire
dalle quali si costruiscono le emozioni secondarie o complesse, ma le emozioni sono
concepite come composti di diversi elementi (fisiologici e mentali) che possono comparire
in più di un‟emozione e anche in stati psicologici diversi dalle emozioni. Per esempio,
secondo la teoria di Shachter e Singer (1962), poi ripresa da Mandler (1984), l‟emozione è
la risultante di due componenti: l‟attivazione fisiologica e i processi cognitivi.
Per ultimo, esistono anche teorie dimensionali, secondo le quali l‟esperienza emozionale
si struttura non sulla base di emozioni primarie, ma a partire da strutture generali di
organizzazione della risposta, come la tendenza all‟avvicinamento o all‟allontanamento, la
valutazione della piacevolezza o della spiacevolezza degli eventi che causano l‟emozione.
Lo specchio delle nostre emozioni è il volto. Il volto è il miglior mezzo espressivo
attraverso il quale esprimiamo le nostre emozioni; è per questo motivo che nel corso dei
nostri studi ci si è maggiormente concentrati sia sul volto, inteso come principale fonte di
informazioni per analizzare le emozioni, sia sulle teorie differenziali, in quanto sono
strettamente legate ad aspetti particolari delle emozioni, come le espressioni facciali, che
mettono in risalto la specificità delle emozioni primarie.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


11
Il volto, come più volte detto precedentemente, è il luogo dove si concentrano la maggior
parte delle informazioni sensoriali. Esso, quindi, emette dei “segnali” classificabili come:
- Segnali facciali statici: rappresentano fondamentalmente i tratti somatici del volto, e
sono quindi permanenti;
- Segnali facciali lenti: rappresentano le variazioni che avvengono sul volto nella
crescita dell‟individuo (rughe, caratteristiche della pelle);
- Segnali artificiali: causati dalla presenza di occhiali o cosmetici;
- Segnali facciali rapidi: scaturiscono dall‟effetto di attività neuromuscolari che
comportano variazioni nell‟apparenza estetica.
L‟insieme di questi segnali contribuisce al riconoscimento facciale. I segnali facciali rapidi
sono quelli più complessi da analizzare, ma allo stesso tempo sono segnali che ci
permettono di veicolare la maggior parte informazioni secondo la seguente classificazione:
- Le emozioni;
- Gli emblemi: movimenti simbolici (es.: ammiccare, fare la linguaccia);
- I manipolatori: movimenti di auto-manipolazione (es.: mordersi le labbra);
- Gli illustratori: movimenti che accompagnano il “parlato” (es.: alzare le
sopracciglia);
- I regolatori: movimenti intrinseci nella comunicazione non verbale (es.: sorridere,
assentire).
Tra i messaggi riguardanti i segnali facciali rapidi, quello che interessa maggiormente sono
le emozioni. La complessità del volto e la capacità intrinseca dell‟essere umano di poter
trasmettere più messaggi di diverso tipo contemporaneamente, rende piuttosto delicata
l‟identificazione perfetta dell‟emozione. In altri termini, quello che può succedere è che
segnali facciali rapidi siano “sporcati” ad esempio da segnali artificiali o segnali facciali
lenti. Un altro “fattore inquinante” è lo stato d‟animo; ad esempio se una persona ha un
umore negativo, questo potrebbe influire sulla fisionomia temporanea del volto.


RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


12
1.3.1 CLASSIFICAZIONE DELLE EMOZIONI
In primo luogo, sorge spontanea la necessità di classificare univocamente le emozioni.
Occorre, tuttavia, fare delle osservazioni:
- Sin dai primi giorni di vita, l‟essere umano è in grado di manifestare emozioni quali
la paura, l‟amore e l‟ira (emozioni innate);
- Entro i primi cinque anni, vengono sviluppate anche altre emozioni: vergogna, ansia,
gelosia e invidia;
- Dopo il sesto anno di età si è in grado non solo di manifestare qualsiasi emozione
possibile, ma anche di mascherarle e simularle.
In seguito, tra le tante teorie differenziali esistenti, ne presentiamo due: la teoria di
Plutchik, e la teoria di Ekman; tuttavia prenderemo come riferimento solo la teoria di
Ekman.
Teoria di Plutchik
Robert Plutchik (21 Ottobre 1927 – 29 Aprile 2006) è stato un emerito professore
universitario della “Albert Einstein College of Medicine” e della “University of South
Florida”, e ha presentato più di 260 articoli sulle emozioni e su studi psicologici.

Fig. 1.8. Robert Plutchik.

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


13
Egli afferma che le emozioni primarie sono biologicamente primitive e si sono evolute in
modo da consentire alla specie di sopravvivere. Secondo questa teoria esistono 8 emozioni
primarie, definite a coppie:
- Gioia – Tristezza;
- Fiducia – Disgusto;
- Rabbia – Paura;
- Sorpresa – Anticipazione.

Fig. 1.9. La ruota delle emozioni (R.Plutchik).
Ogni colore rappresenta un emozione nelle sue varie intensità; al diminuire dell‟intensità le
emozioni si possono facilmente confondere.
Teoria di Ekman
Paul Ekman (Washington D.C., 15 Febbraio 1934) è uno psicologo statunitense. Egli è
divenuto un pioniere nel riconoscere le emozioni e le espressioni facciali; è considerato
uno dei 100 psicologi più importanti del ventesimo secolo ed è valso a Ekman l‟ingresso
nella lista delle 100 persone più influenti al mondo.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


14

Fig. 1.10. Paul Ekman.
Questa teoria si basa su un analisi e un raffronto interculturale; in altri termini, le emozioni
definite come primarie, secondo questa teoria, sono quelle riconosciute universalmente,
indipendenti dal contesto culturale in cui ci si trova:

Felicità Tristezza Rabbia

Paura Sorpresa Disgusto
Fig. 1.11. Le emozioni primarie (Ekman).
L‟esperimento è stato condotto su 21 gruppi di studio in stati differenti e consisteva nel
mostrare a ciascun gruppo le 6 foto rappresentanti le 6 emozioni; il risultato è stato che:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


15
- In tutti e 21 gli stati le persone hanno associato univocamente felicità, tristezza e
disgusto;
- In 20 su 21 stati la maggioranza ha concordato anche sulla sorpresa;
- In 19 su 21 stati la maggioranza ha concordato anche sulla paura;
- In 18 su 21 stati la maggioranza ha concordato anche sulla rabbia.
Oltre a questo risultato, Ekman giunse anche alla definizione di emozione primaria, la
quale deve possedere le seguenti 11 caratteristiche per essere definita tale:
1. Segnali universali distintivi: l‟emozione primaria dev‟essere caratterizzata da
precisi e dedicati segnali;
2. Fisiologia distintiva: ogni emozione primaria dev‟essere associata ad una risposta
fisiologica specifica;
3. Valutazione automatica: l‟emozione primaria è riconoscibile anche
inconsciamente;
4. Eventi precedenti distintivi: devono esistere una serie di stimoli esterni in grado
di stimolare la particolare emozione primaria;
5. Apparizione distintiva nella crescita: le emozioni primarie dovrebbero apparire in
momenti differenti della crescita del bambino;
6. Presenza in altri primati: le emozioni primarie dovrebbero essere presenti anche
negli altri primati;
7. Attivazione rapida: l‟emozione primaria deve attivarsi velocemente e, per tale
ragione, la percezione avviene solo dopo la sua completa manifestazione;
8. Durata breve: l‟emozione primaria si svolge in pochi secondi o millisecondi;
9. Attivazione non controllabile: l‟apparizione di un emozione primaria dovrebbe
essere spontanea;
10. Pensieri e immagini distintive: deve esistere un associazione fra emozioni
primarie e certe tipologie di pensiero e di immagini mentali;
11. Esperienza soggettiva distintiva: ogni individuo è in grado di distinguere le varie
emozioni primarie.
Queste caratteristiche non sono universalmente riconosciute, ma comunque rappresentano
un‟ottima base di partenza per la ricerca.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


16
In seguito, facendo riferimento alla classificazione basata sulla teoria di Ekman, verranno
presentate le emozioni primarie e, nei capitoli successivi, le tecniche di identificazione.
1.3.2 SORPRESA
La sorpresa è l‟emozione più breve, scatta all‟improvviso; è sicuramente l‟emozione più
difficile da controllore, e quindi più spontanea. Solitamente la sorpresa è seguita da un
sentimento: ad esempio si pensi a cosa succede quando si è completamente assorti nella
lettura di un libro e improvvisamente qualcuno da dietro ci spaventa: la reazione
immediata consiste nella sorpresa, ma immediatamente dopo si ha paura.
Le espressioni facciali associate a questa emozione sono caratterizzate dal formarsi di
pieghe parallele sulla fronte, dallo spalancarsi degli occhi e il dischiudersi della bocca. I
muscoli coinvolti sono: il frontale, gli orbicolari, il risorio e il buccinatore:

Fig. 1.12. Sorpresa.

1.3.3 TRISTEZZA
La tristezza trasmette un espressione di sofferenza. Si manifesta silenziosamente in un
tempo relativamente lungo, soprattutto quando ci rendiamo conto di non avere più la
possibilità di raggiungere un nostro obiettivo prefissato. I cambiamenti causati da
quest‟emozione sono molteplici: il viso impallidisce, i muscoli sono molli, le palpebre si
abbassano, la testa pende sul petto, le labbra, le guance e la mascella sono portate verso il
basso.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


17
L‟aspetto del volto viene modificato nel seguente modo: le sopracciglia sono sollevate e
tendono a unirsi, gli occhi sono aperti, la palpebra inferiore è tesa, le labbra sono tese
indietro e verso il basso. La glabella si restringe e i solchi naso-labiali si approfondiscono:

Fig. 1.13. Tristezza.
1.3.4 PAURA
La paura scaturisce da una forte situazione di disagio, che può essere fisica, psicologica o
entrambe. Si assomiglia molto alla sorpresa, ma in questo caso l‟esperienza a cui è
associata la paura è sempre sgradevole e la durata della sua manifestazione è più lunga.
Similmente alla sorpresa, si nota l‟apertura massima degli occhi, le sopracciglia tendono ad
unirsi e a sollevarsi nel mezzo, con la presenza di rughe sulla fronte:

Fig. 1.14. Paura.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


18
1.3.5 DISGUSTO
Il disgusto è un emozione associata ad una sensazione di repulsione, dovuta al gusto,
all‟odore, al tatto, alla vista, all‟udito o ad un semplice pensiero. È un emozione
assolutamente soggettiva.
La manifestazione sul volto avviene soprattutto tramite la parte medio – bassa del volto: il
labbro superiore del volto è sollevato, il naso è arricciato, le palpebre inferiori sono
sollevate e le sopracciglia abbassate:

Fig. 1.15. Disgusto.
1.3.6 RABBIA
La rabbia è l‟emozione associata ad uno stato d‟animo pericoloso dell‟individuo in esame;
in questa circostanza l‟essere umano è potenzialmente propenso a fare del male a qualcuno.
Sul volto, la rabbia si manifesta attraverso il rossore, la vistosità delle vene sulla fronte, le
sopracciglia abbassate e ravvicinate, le palpebre inferiori tese, quelle inferiori abbassate,
gli occhi rigidi e quasi spalancati e la bocca serrata o squadrata.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


19

Fig. 1.16. Rabbia.
1.3.7 FELICITÀ
La felicità è l‟emozione più piacevole; ci si augurerebbe di essere sempre felici. Si può
essere felici per un piacere o per uno stato euforico, eccitante. Siamo felici quando accade
qualcosa che migliora la nostra immagine, quando dobbiamo fare qualcosa che ci interessa,
ci entusiasma, quando riceviamo un complimento, quando scopriamo di piacere a una
persona e in molte altre situazioni. Tuttavia all‟emozione della felicità non necessariamente
dev‟essere associato il sorriso sul volto.
La felicità si manifesta sul volto attraverso il sollevarsi degli angoli della bocca, la quale
può essere chiusa o aperta in modo da rendere visibili i denti, le pieghe naso – labiali
maggiormente marcate, le guance e le palpebre inferiori che si sollevano verso l‟alto e gli
angoli esterni degli occhi che formano delle zampe di gallina:

Fig. 1.17. Felicità.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 1 – Le emozioni nelle espressioni facciali


20










CAPITOLO 2
Decifrare le emozioni: le Action Units

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


22
2.1 INTRODUZIONE
La breve descrizione dei muscoli mimici e la presentazione delle emozioni nel capitolo
precedente, ci consentono di introdurre e spiegare in maniera opportuna le Action Units.
La domanda che ci si pone è la seguente: “C’è una relazione tra l’espressione facciale
delle emozioni e quello che una persona sta provando?” Lo strumento che può fornirci
risposte valide a questa domanda è il FACs (Facial Action Coding System) [11][12][13]. Il
FACs è un sistema sviluppato da Ekman e Friesen che è in grado di sfruttare il fatto che
esistono espressioni specifiche che esprimono diverse emozioni. In particolare, come già
spiegato, è la combinazione dei movimenti dei muscoli mimici a garantire l‟espressività
del volto; per formare un legame tra la muscolatura facciale e le emozioni introduciamo le
Action Units (AUs): le AUs sono unità fondamentali che rappresentano azioni facciali
minime, non ulteriormente scomponibili; sono costituite dall‟azione combinata di uno o
più muscoli; in altre parole, non c‟è una corrispondenza tra un muscolo e una AU.
Le AUs sono suddivise in gruppi a seconda della posizione o al tipo di azione:
- AUs per la parte superiore del volto (Upper Face) e riguardano le sopracciglia, la
fronte e le palpebre;
- AUs per la parte inferiore del volto (Lower Face) e sono divisi in cinque gruppi:
su/giù, orizzontali, oblique, orbitali e varie;
2.2 UPPER FACE ACTION UNITS
In figura vengono mostrati i muscoli, descritti in precedenza, che sono coinvolti nelle AUs
della parte alta del volto:

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


23


(a) (b) (c) (d)
Fig. 2.1. Muscoli coinvolti nell’Upper Face Action Units.
Elenchiamo ora le AUs associate a questi muscoli, per poi analizzarle in dettaglio:
o AU-4: azione di movimento contemporaneo verso il basso delle sopracciglia;
o AU-1: azione di sollevamento dell‟angolo interno della fronte;
o AU-2: azione di sollevamento dell‟angolo esterno della fronte;
o AU-5: azione di sollevamento della palpebra superiore, ampliando l‟apertura
dell‟occhio;
o AU-6: azione di “arrotondamento” dell‟occhio;
o AU-7: azione di restringimento delle palpebre riducendo l‟apertura dell‟occhio;
AUs più complesse, cioè ottenute dalla combinazione di altre AUs, sono le seguenti:
o AU-43: azione di abbassamento della palpebra superiore, per la quale si passa dalla
“caduta” della palpebra alla chiusura rilassata degli occhi;
o AU-45: azione di chiusura e riapertura dell‟occhio;
o AU-46: azione di chiusura e riapertura repentina dell‟occhio (occhiolino).
2.2.1. AU-4: ABBASSAMENTO DELLE SOPRACCIGLIA

Fig. 2.2. Manifestazione dell’ AU-4.
Come mostrato in figura, gli effetti di questa AU possono essere elencati come segue:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


24
- Abbassamento delle sopracciglia: può abbassarsi solo la parte interna, o le due parti
interne centrali, o l‟intero sopracciglio;
- Movimento dell‟occhio verso il basso;
- Avvicinamento delle sopracciglia;
- Produzione di rughe verticali (o con angolatura di 45°) tra sopracciglia.
- Produzione di una ruga obliqua o rigonfiamenti dei muscoli che vanno dal centro
della fronte verso l‟angolo interno della stessa.
2.2.2. AU-1: INNALZAMENTO INTERNO DELLE SOPRACCIGLIA

Fig. 2.3. Manifestazione dell’ AU-1.
Questa AU è associata al movimento della parte centrale del muscolo frontale. Nel
complesso, possiamo descrivere i seguenti effetti:
- Spostamento della parte interna del sopracciglio verso l‟alto;
- Il sopracciglio può assumere un orientamento obliquo;
- Formazione di rughe orizzontali nel centro della fronte.
2.2.3. AU-2: INNALZAMENTO ESTERNO DELLE SOPRACCIGLIA

Fig. 2.4. Manifestazione dell’ AU-2.
In questo caso, la parte del muscolo frontale che si contrae è quella esterna; gli effetti legati
a questa AU sono:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


25
- Trazione della porzione laterale del sopracciglio verso l‟esterno;
- Produzione di una forma arcuata delle sopracciglia;
- Allungamento parziale della parte laterale della piega che copre l‟occhio;
- Presenza, in alcuni volti, di rughe orizzontali di piccole dimensioni.
2.2.4. AU-5: INNALZAMENTO DELLE PALPEBRE

Fig. 2.5. Manifestazione dell’ AU-5.
Questa AU è legata allo spostamento indietro della palpebra superiore verso la cavità
oculare; quando la palpebra superiore è rilassata, essa poggia sul bulbo oculare (AU-43),
mentre quando è completamente rilassata consente all‟occhio di chiudersi (AU-43E). La
presenza di tale AU è rappresentata da:
- Allargamento dell‟apertura degli occhi;
- Sollevamento della palpebra superiore in modo che essa possa scomparire
parzialmente o definitivamente;
- Esposizione accentuata del bulbo oculare;
- La forma laterale dell‟occhio risulta variata, con un‟esposizione di sclera al di sopra
dell‟iride;
- Il soggetto pare guardare fisso in un punto;
- Sollevamento della palpebra inferiore.


RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


26
2.2.5. AU-6: INNALZAMENTO GUANCE E COMPRESSIONE
PALPEBRE

Fig. 2.6. Manifestazione dell’ AU-6.
La presenza di questa AU è rappresentata da:
- Aumento del triangolo infraorbitale e sollevamento delle guance;
- Pressione della pelle che circonda l‟occhio;
- Presenza delle cosiddette zampe di gallina e rughe;
- Aumento della profondità del solco della palpebra inferiore;
2.2.6. AU-7: RESTRINGIMENTO DELLE PALPEBRE

Fig. 2.7. Manifestazione dell’ AU-7.
Gli effetti di questa AU sono:
- Restringimento delle palpebre;
- Restringimento dell‟apertura degli occhi;
- Sollevamento della palpebra inferiore in modo da coprire buona parte del bulbo
oculare;
- Variazione della forma delle sopracciglia che assumono una forma curvata;
- Si genera un rigonfiamento della palpebra inferiore;
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


27
- Generazione di un solco al di sotto della palpebra inferiore;
2.2.7. AU-43: CHIUSURA DEGLI OCCHI

Fig. 2.8. Manifestazione dell’ AU-43.
Questa AU nasce dalla fusione tra AU-5 e AU-7. È caratterizzata da:
- La palpebra si piega verso il basso, riducendo l‟apertura degli occhi;
- Maggiore esposizione della palpebra superiore, rispetto alle condizioni normali.
La presenza di tale AU implica che l‟occhio sia semplicemente chiuso, ma non ci devono
essere segni di tensione sulle palpebre.
2.2.8. AU-45: CHIUSURA E RIAPERTURA DELL’OCCHIO
Anche questa AU nasce dalla fusione dell‟AU-5 e AU-7; la presenza di tale AU avviene
quando:
- L‟occhio si chiude e riapre, senza presentare alcuna esitazione o pausa;
- Se bilaterale, gli occhi non possono stare chiusi per più di mezzo secondo,
altrimenti l‟AU sarà quella precedente (AU-43).
2.2.9. AU-46: “L’OCCHIOLINO”
Anche questa AU nasce dalla fusione dell‟AU-5 e AU-7; i cambiamenti introdotti da tale
AU sono:
- Chiusura di un solo occhio, per un tempo breve, ma tuttavia con una pausa prima
della successiva riapertura;
- La chiusura non deve avere durata inferiore ai 2 secondi;
- Presentazione delle zampe di gallina, se molto intensa.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


28
2.3 LOWER FACE ACTION UNITS: SU/GIÙ

(a) (b) (c) (d) (e)
Fig. 2.9. Muscoli coinvolti nelle Lower Face AUs – Su/Giù.
I muscoli mostrati in figura sono i responsabili degli spostamenti della pelle diretti verso
l‟alto e verso il basso. Le AUs associate all‟azione di questi muscoli sono:
o AU-9: “arricciamento” del naso;
o AU-10: azione di sollevamento del labbro superiore;
o AU-15: azione di depressione degli angoli della bocca;
o AU-16: azione di depressione del labbro inferiore;
o AU-17: azione di sollevamento del mento.
La combinazione di queste AUs crea altre AUs complesse:
o AU-25: azione di divisione delle labbra;
o AU-26: azione di divisione della mascella;
o AU-27: azione di divisione e “trazione” della mandibola.
2.3.1 AU-9: “ARRICCIAMENTO” DEL NASO

Fig. 2.10.Manifestazione dell’AU-9.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


29
La presenza di tale AU comporta:
- La generazione di rughe lungo i lati del naso, a causa della trazione della pelle lungo
gli stessi;
- Trazione verso l‟alto del triangolo infraorbitale;
- Depressione della zona centrale delle sopracciglia;
- Diminuzione dell‟apertura degli occhi;
- Trazione del centro del labbro verso l‟alto (non sempre).
2.3.2 AU-10: SOLLEVAMENTO DEL LABBRO SUPERIORE

Fig. 2.11.Manifestazione dell’AU-10.
Con la presenza di questa AU, possiamo osservare:
- Il sollevamento del labbro superiore;
- La generazione di una forma curvata del labbro superiore;
- La spinta del triangolo infraorbitale verso l‟alto;
- Il solco naso – labiale maggiormente profondo, con il sollevamento della parte
superiore dello stesso;
- L‟allargamento e l‟innalzamento delle ali delle narici;
- In casi di elevata intensità, vi è anche la separazione delle labbra.
2.3.3 AU-17: SOLLEVAMENTO DEL MENTO

Fig. 2.12.Manifestazione dell’AU-17.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


30
Con questa AU possiamo notare:
- Il sollevamento della “testa” del mento;
- La spinta verso l‟alto del labbro inferiore;
- La possibile generazione di rughe sulla “testa” del mento, e la depressione sotto il
centro del labbro inferiore;
- La bocca assume una forma a U rovesciata.
2.3.4 AU-15: DEPRESSIONE DEGLI ANGOLI DELLA BOCCA

Fig. 2.13.Manifestazione dell’AU-15.
I cambiamenti del volto associati a questa AU sono:
- La depressione degli angoli delle labbra verso il basso;
- La variazione della forma delle labbra, in modo che gli angoli siano diretti verso il
basso; solitamente ne consegue un allungamento del labbro inferiore;
- La produzione di alcuni rigonfiamenti, borse, e grinze della pelle sotto gli angoli
delle labbra;
- L‟appiattimento o rigonfiamento della “testa” del mento.



RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


31
2.3.5 AU-25, AU-26, AU-27

Fig. 2.14.Manifestazione delle AUs 25, 26 e 27 (in ordine).
La presenza dell‟AU-25 determina un esposizione dell‟area interna delle labbra, con
possibile esposizione di denti e gengive; per quanto riguarda l‟AU-26, essa è molto simile
all‟AU-25, ma vi è la presenza di una mandibola aperta e in condizione di rilassamento e la
durata della sua manifestazione è più lunga; infine, l‟AU-27, oltre ai cambiamenti visti per
l‟AU-25, presenta una maggiore trazione della mandibola verso il basso, un apertura molto
più accentuata della bocca a formare una O e un appiattimento delle guance.
2.3.6 AU-16: DEPRESSIONE DEL LABBRO INFERIORE

Fig. 2.15.Manifestazione dell’AU-16.
I cambiamenti introdotti da questa AU sono:
- Trazione del labbro inferiore verso il basso;
- Allungamento del labbro inferiore, con trazione laterale;
- L‟appiattimento e la sporgenza del labbro inferiore;
- L‟allungamento della “testa” del mento lateralmente e verso il basso;
- La presenza di rughe sotto il labbro inferiore.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


32
2.4 LOWER FACE ACTION UNITS:
ORIZZONTALI

(a) (b)
Fig. 2.16. Muscoli coinvolti nelle Lower Face AUs – Orizzontali.
I muscoli mostrati in figura sono i responsabili degli spostamenti della pelle diretti
orizzontalmente. Le AUs associate all‟azione di questi muscoli sono:
o AU-20: azione di stiramento delle labbra;
o AU-14: azione di “generazione” delle fossette.
2.4.1 AU-20: STIRAMENTO DELLE LABBRA

Fig. 2.17.Manifestazione dell’AU-20.
La presenza di tale AU comporta:
- La trazione laterale delle labbra; gli angoli delle labbra possono alzarsi o abbassarsi
lievemente;
- L‟allungamento della bocca e l‟appiattimento delle labbra;
- La trazione della pelle lateralmente al di là degli angoli delle labbra;
- La formazione di rughe in corrispondenza degli angoli della bocca;
- La distensione della pelle della “testa” del mento lateralmente;
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


33
- Allungamento delle ali della narice.
2.4.2 AU-14: GENERAZIONE DELLE FOSSETTE

Fig. 2.18.Manifestazione dell’AU-14.
La presenza di questa AU comporta:
- Il restringimento degli angoli della bocca, con piccolissima trazione degli stessi
verso l‟interno;
- La formazione di rughe e/o il rigonfiamento degli angoli delle labbra;
- La formazione di rughe oltre gli angoli delle labbra;
- La formazione di fossette laterali in misura limitata ed appiattita;
- Approfondimento del solco naso – labiale;
- La trazione della pelle fra la parte inferiore degli angoli delle labbra e la “testa” del
mento, con appiattimento e allungamento della stessa “testa” del mento.
2.5 LOWER FACE ACTION UNITS:
OBLIQUA

(a) (b) (c)
Fig. 2.19. Muscoli coinvolti nelle Lower Face AUs – Obliqua.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


34
I muscoli mostrati in figura sono i responsabili degli spostamenti della pelle diretti
obliquamente. Le AUs associate all‟azione di questi muscoli sono:
o AU-11: azione di “approfondimento” del solco naso – labiale;
o AU-12: azione di trazione degli angoli delle labbra;
o AU-13: azione di “arrotondamento” degli angoli delle labbra.
2.5.1 AU-11: APPROFONDIMENTO DEL SOLCO NASO – LABIALE

Fig. 2.20.Manifestazione dell’AU-11.
La presenza ti questa AU comporta:
- La trazione del labbro superiore verso l‟alto e verso il lato;
- La trazione della pelle sotto la parte superiore del solco naso – labiale obliquamente
verso l‟alto;
- L‟approfondimento della parte superiore centrale del solco naso – labiale;
- Sollevamento, se pur debole, della parte superiore del triangolo mediale
infraorbitale;
- Con un elevata intensità, vi è “l‟approfondimento” della parte superiore del solco
infraorbitale.
2.5.2 AU-12: TRAZIONE DEGLI ANGOLI DELLE LABBRA

Fig. 2.21.Manifestazione dell’AU-12.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


35
I cambiamenti legati alla presenza di questa AU sono:
- Trazione degli angoli delle labbra verso l‟alto e in maniera obliqua;
- Approfondimento del solco naso – labiale, trazione laterale verso l‟alto;
o In caso di bassa intensità vi è un sollevamento del triangolo infraorbitale, e
potrebbe esserci anche un approfondimento del solco infraorbitale;
o In caso di alta intensità vi è:
 un sollevamento più evidente del triangolo infraorbitale;
 un approfondimento più evidente del solco infraorbitale;
 la presenza di borse sotto la palpebra inferiore;
 la presenza di zampe di gallina;
 il restringimento dell‟apertura degli occhi;
 il sollevamento delle guance e della pelle sotto la palpebra inferiore;
 l‟innalzamento e l‟allargamento delle narici;
 l‟appiattimento della “testa” del mento.
2.5.3 AU-13: ARROTONDAMENTO DEGLI ANGOLI DELLE
LABBRA

Fig. 2.22.Manifestazione dell’AU-13.
La seguente AU si manifesta come segue:
- “evidenziazione” delle guance e del triangolo infraorbitale;
- Trazione degli angoli delle labbra, ma con un angolo più acuto rispetto all‟AU-12;
- Può esserci un “approfondimento” del solco naso – labiale, ed un appiattimento del
labbro superiore;
- Se molto internsa vi è:
o La presenza delle zampe di gallina;
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


36
o La creazione di rigonfiamenti e rughe sotto le palpebre inferiori;
o “L‟approfondimento” del solco infraorbitale.
2.6 LOWER FACE ACTION UNITS:
ORBITALE

Fig. 2.23. Muscoli coinvolti nelle Lower Face AUs – Orbitale.
Il muscolo rappresentato in figura, mostrato come unico muscolo, si divide in diverse parti,
a ognuna delle quali è associata una AU; le AUs coinvolte sono:
o AU-18: azione di corrugazione delle labbra;
o AU-22: labbra ad “imbuto”;
o AU-23: azione di “stiramento” delle labbra;
o AU-24: azione di pressione delle labbra;
o AU-28: azione di “risucchio” delle labbra;
2.6.1 AU-18: CORRUGAZIONE DELLE LABBRA

Fig. 2.24.Manifestazione dell’AU-18.

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


37
La presenza di tale AU comporta:
- Lo spostamento delle labbra in avanti e la trazione delle stesse nel centro;
- La diminuzione della dimensione orizzontale della bocca, dandole una forma
tondeggiante;
- La sporgenza delle labbra in avanti;
- La forma della bocca è la stessa di quella assunta per pronunciare la “u”;
- La formazione di rughe sul labbro superiore e sotto il labbro inferiore.
2.6.2 AU-22: LABBRA AD IMBUTO

Fig. 2.25.Manifestazione dell’AU-22.
Questa AU determina la presenza di:
- Labbra ad imbuto verso l‟esterno;
- Trazione centrale agli angoli delle labbra;
- Esposizione dei denti e delle gengive;
- Esposizione della zona “rossa” delle labbra (maggiormente del labbro inferiore);
- Appiattimento delle rughe sulla “testa” del mento.
2.6.3 AU-23: TENSIONE DELLE LABBRA

Fig. 2.26.Manifestazione dell’AU-23.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


38
La presenza di questa AU è connessa al:
- Restringimento delle labbra, rendendo le “zone rosse” meno visibili, le quali
scivolano verso l‟interno;
- la sporgenza delle labbra;
- la formazione di piccole rughe e linee sopra e sotto la parte rossa delle labbra;
- rigonfiamento al di sotto del labbro inferiore;
- l‟appiattimento o formazione di grinze sulla “testa” del mento, seppur in maniera
limitata;
- la manifestazione può essere unilaterale.
2.6.4 AU-24: PRESSIONE DELLE LABBRA

Fig. 2.27.Manifestazione dell’AU-24.
Questa AU determina la presenza di:
- Labbra compresse, senza spinta del mento;
- Abbassamento del labbro superiore e innalzamento di quello inferiore;
- Restringimento del centro delle labbra;
- Possibili piccole rughe o linee al di sopra del labbro superiore;
2.6.5 AU-28: “RISUCCHIO” DELLE LABBRA

Fig. 2.28.Manifestazione dell’AU-28.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


39
Con la presenza di questa AU, possiamo osservare che:
- La “zona rossa” delle labbra risulta risucchiata, coprendo i denti;
- La “zona rossa” delle labbra tende a scomparire;
- Sopra e sotto le labbra la pelle si distende maggiormente;
- La “testa” del mento si appiattisce;
- Può presentarsi anche unilateralmente;
- Sono presenti delle rughe o rigonfiamenti agli angoli delle labbra.
2.7 TABELLA RIASSUNTIVA
Riportiamo qui di seguito un riassunto in tabella di tutte le AUs, associando anche il
muscolo principale interessato all‟azione:
Tabella 2.1. Tabella riassuntiva delle AUs.
AU Descrizione Muscolo Immagine
1
Innalzamento interno delle
sopracciglia
Frontale parte centrale

2
Innalzamento esterno delle
sopracciglia
Frontale parte laterale

4
Abbassamento delle
sopracciglia
Corrugatore – Depressore

5
Innalzamento della palpebra
superiore
Elevatore della palpebra
superiore

6 Innalzamento delle guance
Orbicolare dell‟occhio – parte
orbitale

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


40
7 Compressione delle palpebre
Orbicolare dell‟occhio – parte
palpebrale

9 “Arricciamento” del naso Elevatore

10
Innalzamento del labbro
superiore
Elevatore del labbro superiore

11
Approfondimento del solco
naso – labiale
Zigomatico minore

12
Trazione degli angoli delle
labbra
Zigomatico maggiore

13
Arrotondamento degli angoli
delle labbra
Canino – Zigomatico –
Quadrilatero superiore

14 Generazione delle fossette Buccinatore

15
Depressione degli angoli
della bocca
Triangolare

16
Depressione del labbro
inferiore
Depressore del labbro
inferiore
/
17 Innalzamento del mento Mentale

18 Corrugazione delle labbra Incisivo

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


41
20 Stiramento delle labbra Risorio – Platisma

22 Labbra ad imbuto Orbicolare della bocca

23 Tensione delle labbra Orbicolare della bocca

24 Compressione delle labbra Orbicolare della bocca /
25
Separazione delle labbra
(lieve)
Depressore del labbro
inferiore
/
26
Separazione della labbra (in
rilassamento)
Massetere (Muscolo
masticatore)
/
27
Separazione delle labbra (in
tensione)
Muscolo pterigoideo /
28 Risucchio delle labbra Orbicolare della bocca /
41
Chiusura degli occhi
(iniziale)
Elevatore delle palpebre
superiori
/
42
Chiusura degli occhi
(parziale)
Orbicolare degli occhi

43 Chiusura degli occhi (totale)
Orbicolare degli occhi – parte
palpebrale
/
44 Guardare obliquamente
Orbicolare degli occhi – parte
palpebrale

45
Chiusura e riapertura
dell‟occhio (Batter d‟occhio)
Elevatore delle palpebre
superiori – orbicolare degli
occhi
/
46 “Occhiolino” Orbicolare degli occhi /
Alla presenza di una AU viene associata l‟intensità con cui essa viene manifestata. Essa si
basa su una scala di cinque punti, distinte mediante le lettere A, B, C, D, E (es. AU-4B):
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


42
- A: presenza di “tracce” dell‟AU;
- B: presenza lieve dell‟AU;
- C: presenza pronunciata dell‟AU;
- D: presenza grave (o estrema) dell‟AU;
- E: presenza massima (o completa) dell‟AU;

Fig. 2.29. Scala dell’intensità.
Infine, per le AUs la cui manifestazione può essere anche unilaterale, vi è la possibilità di
aggiungere la lettera L (left) o R (right) per indicare il lato su cui si manifesta.
2.8 AUS E LE EMOZIONI PRIMARIE
Qui di seguito riportiamo in una tabella in cui mostriamo il legame tra le AUs mostrate in
precedenza e le emozioni primarie secondo diverse fonti (suddivise in colonne):
Tabella 2.2. AUs e le emozioni primarie: (a) (b) (c) (d) (e) (f) (g).
(a): Facial Expression Recognition in Image Sequences using Geometric Deformation Features and
Support Vector Machines (2007) Irene Kotsiay Ioannis Pitasy,Senior Member IEEE;
(b): Expert system for automatic analysis of facial expressions (2000) M. Pantic, Rothkrantz;
(c): Selection for Universal Facial Emotion (2008) Bridget M. Waller, James J. Cray Jr.;
(d): Classification of Upper and Lower Face Action Units and FacialExpressions using Hybrid
Tracking System and Probabilistic Neural Networks (2006);
(e): Emfacs (1984) Friesen & Kalman;
(f): Investigator’s guide di Ekman;
(g): “Worth a Thousand Words”: Absolute and Relative Decoding of Nonlinguistic Affect
Vocalizations (supplement) (2009) Skyler T. Hawk, Gerben A. van Kleef, Agneta H. Fischer, and Job van
der Schalk;
AU (a) (b) (c) (d) (e) (f) (g)
1
Paura
Tristezza
Sorpresa
Disgusto
Tristezza
Sorpresa
Paura
Tristezza
Sorpresa

Paura
Tristezza
Sorpresa
Paura
Sorpresa
Tristezza
Paura
Tristezza
Sorpresa
Disgusto
2 Sorpresa Sorpresa
Paura
Sorpresa

Paura
Sorpresa
Paura
Sorpresa
Paura
Sorpresa
Orgoglio
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


43
4
Rabbia
Paura
Tristezza
Disgusto
Paura
Tristezza
Rabbia
Paura
Tristezza

Rabbia
Paura
Tristezza
Paura
Tristezza
Rabbia
Tristezza
Disgusto
Rabbia
Paura
Sorpresa
5
Paura
Sorpresa
Tristezza,
Sorpresa
Rabbia
Paura
Sorpresa
Sorpresa Rabbia
Sorpresa
Rabbia
Paura
Sorpresa
Rabbia
6 Felicità Rabbia Felicità Felicità Felicità
Felicità
Disgusto
7
Rabbia
Paura
Paura
Tristezza
Rabbia Felicità Rabbia
Disgusto
Tristezza
9 Disgusto Disgusto Disgusto Disgusto Disgusto Disgusto
10
Rabbia
Disgusto

Rabbia
Disgusto
Disgusto
Disgusto
Rabbia
Disgusto
Rabbia
11 Tristezza Tristezza Tristezza
12 Felicità Rabbia Felicità Felicità Felicità Felicità
Felicità
Disgusto
14 Felicita
15 Tristezza Disgusto
Disgusto
Tristezza
Tristezza Tristezza
Tristezza
Disgusto
16
Rabbia
Felicità
Rabbia
Paura
Disgusto Disgusto
17
Rabbia
Disgusto
Tristezza
Disgusto
Felicità
Rabbia
Disgusto
Tristezza Disgusto
Disgusto
Tristezza
Felicità
Rabbia
Paura
18 Rabbia
19 Disgusto
20 Paura Paura Paura Paura
Paura
Disgusto
23+24 Rabbia Rabbia Rabbia Rabbia Rabbia
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 2 – Decifrare le emozioni: le Action Units


44
25
Tutte
Tranne
Sorpresa
Tutte
Tranne
Sorpresa
Paura Rabbia
Paura
Sorpresa
Gioia
Disgusto
Rabbia
26 Tutte Tutte
Paura
Sorpresa
Sorpresa
Paura
Sorpresa
Disgusto
Rabbia
Paura
Felicità
Sorpresa
Disgusto
Questa tabella rappresenta il fulcro del problema legato al riconoscimento delle emozioni
dalle espressioni facciali: attraverso essa sarà possibile, una volta rintracciata la presenza
eventuale di una AU, stimare in modo automatizzato la presenza di un emozione.
Nei prossimi due capitoli mostreremo le due modalità di individuazione delle AUs: la
prima è più legata all‟elaborazione delle immagini, la seconda è correlata a tecniche soft-
compunting, come le reti neurali.










CAPITOLO 3
RICONOSCIMENTO DELLE AUs
MEDIANTE ELABORAZIONE DELLE
IMMAGINI
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


46
3.1 INTRODUZIONE
In questo capitolo viene rivolta l‟attenzione sulle tecniche di elaborazione delle immagini
(image processing) necessarie per l‟individuazione delle AUs descritte nel capitolo
precedente. Le fasi fondamentali che caratterizzano l‟elaborazione delle immagini
possiamo distinguerle in:
- Acquisizione immagine: in questa fase l‟immagine viene acquisita in forma digitale
mediante il software di riferimento (nel nostro caso l‟immagine contenente il volto
viene acquisita da webcam in real-time);
- Segmentazione immagine: in questa fase l‟immagine viene segmentata (suddivisa)
in diverse parti logicamente indipendenti secondo un criterio di omogeneità (ad
esempio il volto viene suddiviso in una parte superiore, una parte centrale, e una
parte inferiore);
- Determinazione dei punti caratteristici: in questa fase vengono determinati in
punti caratteristici (features) dell‟immagine tramite i quali è possibile effettuare le
operazioni di calcolo richieste (ad esempio i punti caratteristici del volto possono
essere gli angoli degli occhi, della bocca, delle sopracciglia, etc.);
- Processing dei punti caratteristici: questa è la fase in cui le features vengono
interpretate e vengono elaborati i risultati.
3.2 L’ALGORITMO
Come già detto, il cammino percorso in questo progetto parte dal lavoro svolto dal
Dottorando Alessandro Ciccimarra, dal quale è stato preso spunto la parte inerente
all‟individuazione dei punti caratteristici; l‟algoritmo si divide in 5 fasi:
1) Cattura di frame dalla webcam ad intervalli regolari ;
2) Riconoscimento del volto:
a. Riconoscimento dell‟area degli occhi;
b. Riconoscimento dell‟area delle sopracciglia;
c. Riconoscimento dell‟area del naso;
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


47
d. Riconoscimento dell‟area della bocca;
3) “Scansione” delle diverse aree in cui la faccia viene suddivisa per la ricerca dei punti
caratteristici;
a. Banda degli occhi;
b. Banda delle sopracciglia;
c. Area del naso;
d. Banda della bocca;
4) Tracciamento di poligoni aventi come vertici i punti caratteristici trovati;
5) Valutazione delle area dei poligoni e individuazione delle AUs mediante rapporti di
normalizzazione e confronto aree;
Il processo continua in maniera iterativa, fin quando non si interrompe il flusso di
acquisizione da webcam. In seguito viene mostrato il flow chart dell‟algoritmo da noi
utilizzato:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


48

Fig. 3.1. Flow chart.
Nei paragrafi successivi affronteremo i vari punti evidenziati nel flow-chart in maniera più
dettagliata.
Start
Face and eyes detection
Face/eyes
individuati
Acquisizione nuovo frame
Eliminazione
frame
F

Segmentazione parziale del volto
V

Ricerca dei punti caratteristici degli occhi
nella banda degli stessi
Ricerca dei punti caratteristici delle
sopracciglia nella banda di interesse
Ricerca dei punti caratteristici della bocca
nella banda di interesse
Ricerca dei punti caratteristici del naso
nella banda di interesse
Tracciamento dei poligoni congiungenti i
punti ritrovati
Valutazione delle aree e “stampa” dei risultati
Chiudi

F

V

End
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


49
3.3 ACQUISIZIONE FRAME DA WEBCAM
L‟acquisizione dei frame contenenti potenzialmente un volto è stata possibile mediante
l‟utilizzo di librerie molto potenti sviluppate dalla Intel: OpenCV (Open Source Computer
Vision Library):

Fig. 3.2. Logo della libreria OpenCV.
Questa libreria è compatibile con i più noti linguaggi di programmazione, tra cui il C++, ed
è uno strumento molto potente per l‟acquisizione e l‟elaborazione di immagini in tempo
reale, ma non solo.
3.4 RICONOSCIMENTO DEL VOLTO E DELLA
ZONA DEGLI OCCHI
Questa è una fase fondamentale, attraverso la quale si decide la presenza eventuale di un
volto nel frame catturato. Per questo è stata utilizzata la Machine Perception Toolbox
(MPT) [14]; essa fornisce librerie multi – piattafroma per operazioni real – time, come il
face – detection, eye – detection, blink – detection e il color – tracking.




RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


50
Qui di seguito riportiamo alcuni esempi che mostrano le potenzialità dello strumento:


Fig. 3.3. Esempi di funzionamento delle MPT.
La ricerca della zona degli occhi è senz'altro la fase più importante dell'intero algoritmo di
segmentazione. Infatti, se si riesce ad individuare con esattezza l'eye band, diventa
semplice ricercare le altri componenti del viso sfruttando semplici considerazioni
antropometriche (ad es. la bocca si trova al di sotto degli occhi e il naso si trova tra la
bocca e gli occhi).
Il primo vero passo di segmentazione del volto è la ricerca della zona degli occhi (eye
band). Attraverso l'eye band, la ricerca delle altre componenti facciali viene notevolmente
semplificata. L'immagine in ingresso alla funzione che ricerca la zona degli occhi è
l'immagine ristretta al volto. Se consideriamo l'immagine di un volto in scala di grigi
possiamo notare che le zone come occhi e bocca sono generalmente più scure delle altre
(hanno quindi valori di grigio più bassi). Per isolare tali zone si procede quindi al
clustering dell'immagine.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


51
Riportiamo, di seguito, alcune tra le tecniche più note per la ricerca della zona degli occhi
e, più in generale, per l‟object – tracking e l‟object – detection.
3.4.1 IMAGE CLUSTERING
Il clustering dei dati è una tecnica comunemente usata nell'analisi statistica dei dati che
viene usata in numerosi campi quali la bioinformatica, il data mining, il machine learning e
l'elaborazione delle immagini. Per clustering si intende la classificazione di oggetti in
gruppi diversi, o più precisamente il partizionamento di un insieme di dati in sottoinsiemi
(clusters) secondo una logica vicinanza rispetto a una certa misura di distanza. Nel nostro
caso, il clustering di un'immagine consiste sostanzialmente nella riduzione dei colori
presenti in essa. Una volta deciso il numero di cluster desiderati, ad ogni pixel
dell'immagine viene assegnato un indice di colore corrispondente al cluster a cui
appartiene. Tra i più diffusi algoritmi di clustering vanno menzionati il k-means, il fuzzy
Cmeans e il QT clustering [15][16][17]. Sperimentalmente è stato rilevato che il numero di
clusters ideale per individuare la zona degli occhi è tre.



Fig. 3.4. Esempio di clustering di un immagine con k-means.



RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


52
3.4.2 IMAGE BINARIZATION
La binarizzazione di un immagine consiste semplicemente nel trasformare l‟immagine
iniziale in un insieme di pixel che possono assumere solo due valori: 0 e 1 (nero e bianco);
qui di seguito viene mostrato un esempio:



Fig. 3.5. Esempio di binarizzazione di un immagine con k-means.
3.4.3 OPERATORI DI MATHEMATICAL MORPHOLOGY
La Mathematical Morphology è uno strumento per estrarre componenti di un'immagine
utili per la sua rappresentazione e descrizione. È costituita da metodi di analisi delle
immagini che si fondano sulla teoria degli insiemi e forniscono una descrizione
quantitativa di strutture geometriche.
Gli operatori principali che analizziamo si basano su operazioni di espansione e riduzione.
Tali operatori trovano la loro applicazione principale nelle immagini binarie. Tuttavia
esistono varianti utilizzabili in immagini in scala di grigi.
Gli operatori morfologici di base sono due: erosion (erosione) e dilation (dilatazione). Tali
operazioni riguardano l'interazione tra un'immagine A (che è l'oggetto di interesse) ed una
maschera B detta structuring element (SE). Tipicamente B è un cerchio o un quadrato, ma
può assumere una forma qualsiasi (ad esempio un quadrato 3x3). L‟idea principale è quella
di:
- Esaminare la struttura geometrica di un immagine analizzando il matching di
elementi strutturanti in varie posizioni;
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


53
- Mediante variazioni di forma e dimensione dell‟elemento strutturante è possibile
estrarre informazioni utili sulla forma delle diverse parti dell‟immagine e sulle loro
relazioni;
- Ottenere un‟analisi geometrica sulla struttura topologica dell‟immagine stessa.
Gli operatori di Mathematical Morphology vengono spesso utilizzati nell‟elaborazione
delle immagini nelle fasi di pre – processing e post – processing.
Erosione
In questa operazione, un esempio di SE può essere il seguente:

Fig. 3.6. Esempio di SE per l’erosione.
Questo elemento viene usato come una maschera di convoluzione, viene cioè fatto scorrere
lungo l'immagine binaria A. Un generico pixel in posizione (i,j) dell'immagine in uscita
sarà 1 (bianco) solo se A(i,j) è 1 (bianco) e tutti i pixel limitrofi ad esso (cioè contenuti in
un quadrato 3x3 il cui centro è il pixel sotto esame) sono 1 (bianchi). In caso contrario il
pixel in uscita avrà valore 0 (nero). Dunque l'unico caso in cui un pixel bianco di A
rimane bianco dopo l'erosione si ha quando tutti suoi pixel limitrofi sono bianchi. Si
può pensare a questo operatore come ad un operatore logico di AND tra la maschera B e
l'immagine A. Il simbolo che rappresenta l'operazione di erosione è il “-”. L'erosione di A
con uno structuring element B si indica quindi con: A-B. L‟obiettivo di questa operazione
è quello di ridurre, erodere, i bordi di un immagine binaria. Per comprendere meglio il
funzionamento dell'operatore di erosione vediamo due esempi:


RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


54


Fig. 3.7. Esempi di erosione di un immagine binaria.
Dilatazione
In questa operazione, un esempio di SE può essere il seguente:

Fig. 3.8. Esempio di SE per la dilatazione.
La dilatazione è l‟operazione duale dell‟erosione; anche in questo caso lo structuring
element è una maschera di convoluzione che scorre lungo l‟immagine da dilatare. In questo
caso un pixel nero dell‟immagine originale A rimarrà nero solo se tutti i pixel intorno sono
neri. Questa operazione è paragonabile all‟operatore logico OR tra l‟immagine e lo SE. Il
simbolo è “+”: A+B. Per una maggiore comprensione viene mostrato un esempio:



RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


55


Fig. 3.9. Esempio di dilatazione di un immagine binaria.
Apertura
L‟operazione di apertura O(A,B) è un operazione composta, ottenuta tramite l‟applicazione
di un erosione e di una dilatazione:
( ) ( ) ()
Ecco degli esempi:


Fig. 3.10. Esempi di apertura di un immagine binaria.
Chiusura
L‟operazione di chiusura C(A,B) è anch‟essa un‟operazione composta, ottenuta tramite
l‟applicazione di una dilatazione e di un‟erosione:
( ) ( ) ()
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


56
Ecco degli esempi:


Fig. 3.11. Esempi di chiusura di un immagine binaria.
Ecco un esempio in cui viene utilizzato l‟operatore di chiusura per evidenziare
maggiormente la zona degli occhi:

Fig. 3.12. Operatore di chiusura per la zona degli occhi.
3.4.4 TEMPLATE MATCHING
Il template matching è una delle tecniche utilizzate per il riconoscimento di oggetti
generici in un immagine mediante una rappresentazione memorizzata dell‟oggetto da
riconoscere. Questa tecnica, molto semplicemente, consiste nel confrontare l‟immagine
con la rappresentazione dell‟oggetto, tenendo conto però del fatto che non si conosce a
priori la posizione eventuale dell‟oggetto nell‟immagine ne tantomeno la dimensione
scalata dell‟oggetto stesso all‟interno dell‟immagine; mostriamo un esempio di template
utilizzabile per la zona degli occhi:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


57

Fig. 3.13. Template della zona degli occhi.
Nel caso della zona degli occhi, riguardo al secondo problema evidenziato, si può tenere
conto del fatto che la larghezza di questa regione è circa l‟80% della larghezza del volto
trovato.
3.4.5 CROSS CORRELAZIONE NORMALIZZATA
La cross correlazione normalizzata offre una soluzione al problema di definire un grado di
similarità per il template matching.
Definita un immagine f di dimensione

, indichiamo con ( ) il valore del pixel
alla posizione ( ), con {

} e {

}; indichiamo con t il template, di
dimensione

. Il valore della cross-correlazione normalizzata ( ) in un punto
( ) tra f e il template t che è stato traslato di u pixel in direzione X e di v pixel in
direzione Y è dato da:
( )
∑ (( )

)(( ) )


∑ (( )

)

∑ (( ) )

()

rappresenta il valore medio di f nell‟area del template t traslato di ( ) ed è
calcolato come:

∑ ∑ ( )

()
Analogamente, rappresenta il valore medio del template . Il denominatore in (1)
contiene la varianza della funzione a valor medio nullo dell‟immagine (( )

)
del template (( )

) Grazie a questa normalizzazione, ( ) è
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


58
indipendente dalle variazioni in illuminazione e contrasto dell‟immagine, che sono legate
al valor medio e alla deviazione standard.
La posizione dell‟oggetto ricercato nell‟immagine sarà data dalle coordinate (

)
del massimo valore di ( ). L‟aspetto negativo della cross correlazione normalizzata è il
costo computazionale necessario.
Per il denominatore che normalizza la cross correlazione, per ogni punto ( )
dell‟immagine, {

} e {

} vanno ricalcolati il valor medio
della porzione di immagine estratta

() e l‟energia della funzione a valor medio nullo
dell‟immagine:

( ) ∑ ∑ .( )

/

()
Il valor medio del template e l‟energia della funzione a valor medio nullo del template
possono essere calcolati una sola volta.

( ) ∑ ∑ .( )

/

()
Il numeratore di (1) può essere calcolato mediante la trasformata di Fourier nel caso in cui
la dimensione del template non sia molto più piccola della dimensione dell‟immagine [18].
3.4.6 SUPPORT VECTOR MACHINE (SVM)
Le macchine a vettori di supporto (SVM), o macchine kernel, sono state sviluppate negli
anni ‟90 da Vladimir Vapnik ed il suo team presso i laboratori Bell AT&T. L‟algoritmo su
cui si basano questi metodi rientra nella statistical learning theory o teoria di Vapnik
In un contesto industriale, possiamo collocarne l‟utilizzo nei seguenti lavori:
- Riconoscimento oggetti;
- Identificazione di volti in immagini;
- Classificazione di testi;
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


59
- OCR (Optical Character recognition);
Una SVM è un classificatore binario ad apprendimento supervisionato. In una prima
fase di addestramento, la SVM riceve in ingresso degli esempi tramite i quali dovrà essere
in grado di generalizzare quanto appreso mediante gli stessi. La classificazione è realizzata
mappando gli esempi dati in uno spazio multi–dimensionale e costruendo un iperpiano
N–dimensionale che li separa in modo ottimale in due diverse categorie (è un
classificatore binario). Come si potrà capire maggiormente in seguito, le SVM, da un punto
di vista concettuale, sono strettamente legate alle reti neurali.
Nel linguaggio usato in letteratura, i dati degli esempi sono chiamati attributi; gli attributi
mappati in un altro spazio per ricercare l‟iperpiano sono detti caratteristiche (features).
L‟insieme di features costituiscono un vettore (vector). Il risultato dell‟algoritmo di una
SVM è quello di ottenere un iperpiano che separi i vettori nelle due categorie evidenziate; i
vettori che si trovano vicino all‟iperpiano sono detti vettori di supporto (support
vectors). Qui di seguito mostriamo una rappresentazione grafica di quanto descritto:

Fig. 3.14. Rappresentazione di una classificazione binaria mediante una SVM.
In questo esempio l‟iperpiano è unidimensionale, e riguarda la necessità di separare due
classi di diverse figure geometriche. Esistono infiniti iperpiani, quindi l‟obiettivo è quello
di scegliere il migliore iperpiano che separi le classi. Le linee tratteggiate in figura
rappresentano la distanza tra i vettori di supporto e l‟iperpiano scelto; questa distanza è
chiamata margine (margin).
In realtà la maggior parte dei problemi reali richiede una classificazione non lineare, che
richiederebbe la necessità di trovare una curva non lineare che separi le due classi:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


60

Fig. 3.15. Distinzione tra un problema linearmente separabile e uno non linearmente separabile.
In questi casi la soluzione preferita è quella di utilizzare una kernel function per mappare i
dati in un diverso spazio in cui si possa trovare un iperpiano che separa le due classi:

Fig. 3.16. Mappatura in un altro spazio
Tramite la mappatura con kernel functions è possibile ottenere una separazione tra classi
anche in casi molto complessi; le funzioni più note sono:
- Lineare: (

)

; (3.7)
- Polinomiale: (

) (

)

(3.8)
- Radial Basis Function (RBF): (

)
.|

|

/
(3.9)
- Sigmoidea: (

) (

) (3.10)
Dove sono parametric delle kernel functions.
Poiche non è sempre possibile trovare un iperpiano che separi completamente le due classi
(over fitting), si definisce un parametro di costo, detto C, che controlla il trade-off tra il
permettere errori di addestramento e il forzare margini rigidi.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


61
3.4.7 CONNECTED COMPONENTS LABELING
Nell‟image processing risulta molto importante effettuare operazioni di raggruppamento ed
etichettatura di componenti connesse e disgiunte. Quindi l‟immagine viene scansionata e i
suoi pixel vengono raggruppati in base alla loro connettività, rappresentate da uno stesso
valore (o insieme) di intensità K. Per questo motivo introduciamo il concetto di vicinato
(neighborhood):
“Dato un pixel p con coordinate (x,y), l‟insieme di pixel formato da:

() *( ) ( ) ( ) ( )+ ()
costituiscono i suoi 4-neighbors. I suoi 8-neighbors saranno quindi:

()

() *( ) ( ) ( ) ( )+ ()”
Definiamo il concetto di 4-connettività e 8-connettività:
“Due pixel p e q, entrambi appartenenti allo stesso insieme K, sono 4-connessi (8-connessi)
se q fa parte dell‟insieme

() (

()). La connettività gode della proprietà transitiva.
Ecco due esempi di applicazione di questo algoritmo:


Fig. 3.17. Esempi di applicazione del labeling di componenti connesse.
L'algoritmo di ricerca delle componenti connesse è abbastanza semplice. Ci limiteremo ad
osservare quello per la 8-connettività, premettendo che la logica è sempre la stessa. Si
esamina l'immagine spostandosi lungo le righe fino a quando si trova un punto p (dove p
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


62
rappresenta un pixel che deve essere etichettato ad un qualsiasi passo del processo di
scansione) per il quale V={1}. Fatto ciò si esaminano i 4 pixel limitrofi a p che sono già
stati incontrati durante il processo di scansione (i pixel a sinistra, sopra e lungo le due
diagonali superiori).

Fig. 3.18. Rappresentazione dei 4 pixel limitrofi che vengono controllati per la 8-connettività.
Sulla base di queste informazioni, l'etichettatura avviene in questo modo:
1. se tutti i 4 vicini hanno valore 0 viene assegnata una nuova etichetta a p;
2. se solo un pixel limitrofo ha valore V={1}, la sua etichetta viene assegnata a p;
3. se più di uno dei vicini ha valore V={1}, una delle etichette è assegnata a p e si
prende nota delle equivalenze.
Dopo aver completato la scansione, le coppie di etichette equivalenti sono separate in
classi di equivalenza e una etichetta univoca è assegnata a ciascuna classe. Infine, una
seconda scansione è effettuata sull'immagine durante la quale ogni etichetta è sostituita
dall'etichetta assegnata alla sua classe di equivalenza. Per la visualizzazione le etichette
possono essere colorate in modo diverso.
3.4.8 EQUALIZZAZIONE DELL’ISTOGRAMMA
L‟equalizzazione dell‟istogramma è una tecnica molto utilizzata nell‟image processing in
quanto fornisce la possibilità di distinguere regioni a basso contrasto tuttavia diverse tra
loro; questo è possibile aumentando il contrasto tra le stesse senza però influire sul
contrasto globale dell‟immagine.
Si tratta di un operatore la cui funzione è invertibile (quindi si può ritornare all‟immagine
iniziale) e non è di elevata complessità computazionale.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


63
Data un immagine A in scala di grigi, la probabilità con cui il colore k
i
si presenta
all‟interno dell‟immagine è data da:
(

)

()
Dove n
i
è il numero di volte in cui il colore k
i
si presenta negli n pixel dell‟immagine A, e
L è il numero di livelli di grigio considerati. La funzione di distribuzione cumulativa di
probabilità (cdf) è data da:
(

) ∑(

)

()
L‟obiettivo è quello di restituire una nuova immagine la cui cdf risulti linearizzata sulla
gamma di valori possibili; per ottenere ciò si applica una trasformazione del tipo:
() ()
In particolare:

(

) ( ) ()
Ecco l‟esempio dell‟equalizzazione di un istogramma di un immagine in scala di grigi:

Fig. 3.19. Equalizzazione di un istogramma di un immagine in scala di grigi.



RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


64
3.5 RICERCA DEI PUNTI CARATTERISTICI
La ricerca dei punti caratteristici avviene all‟interno della regione del volto individuato, per
cui questa fase è strettamente propedeutica alla precedente. I punti caratteristici ricercati
sono:
o Pupilla dell‟occhio destro e dell‟occhio sinistro;
o Angolo esterno dell‟occhio destro e dell‟occhio sinistro;
o Angolo interno dell‟occhio destro e dell‟occhio sinistro;
o Estremi interni delle sopracciglia;
o Estremi esterni delle sopracciglia;
o Estremo superiore della bocca;
o Estremo inferiore della bocca;
o Estremo destro della bocca;
o Estremo sinistro della bocca
3.5.1 RICONOSCIMENTO DEGLI OCCHI
Il riconoscimento dei punti caratteristici degli occhi avviene ovviamente all‟interno delle
due regioni degli occhi precedentemente individuate. Ciò che si sfrutta è il fatto che la
parte intorno agli occhi sia leggermente più scusa rispetto al resto, mentre l‟occhio stesso è
la regione con maggiore concentrazione di bianco.

Fig. 3.20. Regione dell’occhio.
Dopo operazioni di saturazione, binarizzazione e chiusura con uno structuring element
3x3, si ottiene la seguente immagine:

Fig. 3.21. Binarizzazione e chiusura della regione dell’occhio.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


65
A questo punto, l‟obiettivo è quello di eliminare eventuali pixel bianchi sparsi; quindi,
banalmente, se intorno a un pixel bianco ci sono pochi pixel bianchi, tale pixel non farà
parte dell‟occhio. Viceversa, se un pixel nero ha molti pixel bianchi intorno, verrà marcato
come bianco. Il risultato è il seguente:

Fig. 3.22. Creazione di “zone” nella regione dell’occhio.
Il passo successivo, è quello di escludere le zone ottenute che non rappresentano l‟occhio.
Per fare questo si utilizza la tecnica del labeling delle componenti connesse:
1) Si etichetta l‟immagine binaria;
2) Si ordinano le componenti connesse trovate in base alla loro posizione verticale; gli
occhi si troveranno tra le componenti connesse più vicine al bordo inferiore
dell‟immagine;
3) Si cerca la componente connessa più grande e se ne calcola la dimensione;
4) Partendo dal basso si prendono in esame le componenti connesse alla ricerca di una
di esse che soddisfi le seguenti condizioni:
a. La sua dimensione deve essere maggiore del 70% della dimensione della
componente connessa più grande;
b. Il rapporto tra la sua altezza e la sua larghezza deve essere inferiore a 0.8;
5) Se tali vincoli sono rispettati, la componente connessa in esame è quella contente gli
occhi e ci si ferma. In caso contrario si ritorna al punto 4).
Il risultato di questa elaborazione è il seguente:

Fig. 3.23. Individuazione della “zona” dell’occhio.

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


66
A questo punto, noti i rettangoli contenenti gli occhi, passiamo all‟individuazione dei
seguenti punti:

Fig. 3.24. Nomenclatura dei punti caratteristici dell’occhio.
Il primo passo è quello di ricercare il centro dell‟iride e il suo raggio; per far questo si
procede ad una equalizzazione dell‟istogramma del rettangolo dell‟occhio in modo tale che
la pupilla sia in assoluto la regione più scura. Successivamente si procede ad una
binarizzazione dell‟immagine, e si procede con il labeling delle componenti connesse:

Fig. 3.25. Individuazione dell’iride.
Individuata la regione connessa più grande, il raggio dell‟iride viene calcolato come la
metà della media tra la larghezza e l‟altezza della regione connessa individuata:

(

) ()
Le coordinate del centro della pupilla (

) sono ottenute calcolando il
centroide della regione connessa più grande, e ottimizzato mediante una ricerca della
circonferenza più scura trovata nell‟intorno di quel centroide.
Per l‟individuazione degli angoli degli occhi si procede ad un‟ulteriore riduzione del
rettangolo di ricerca, le cui coordinate del vertice superiore sinistro sono:
()
()
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


67
Mentre la larghezza e l‟altezza diventano:
()
()
Dal seguente rettangolo, vengono considerate solo le parti estreme, come mostrato in
figura:

Fig. 3.26. Processo di ricerca degli angoli degli occhi.
Nei rettangolini ottenuti, il punto viene ottenuto come media del 20% dei pixel a maggiore
varianza.
Risultati sperimentali
Ecco alcuni esempi che mostrano il tracciamento dei punti caratteristici degli occhi:

Fig. 3.27. Esempi di individuazione dei punti caratteristici dell’occhio.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


68

Fig. 3.28. Esempi di individuazione della pupilla.
3.5.2 RICONOSCIMENTO DELLE SOPRACCIGLIA
La ricerca delle sopracciglia avviene successivamente all‟individuazione della zone degli
occhi e ai punti caratteristici dell‟occhio. Se consideriamo il rettangolo contenente il
sopracciglio sinistro e definiamo con x l‟ascissa del pixel superiore sinistro del rettangolo,
con y l‟ordinata dello stesso pixel, con w e h rispettivamente la larghezza e l‟altezza del
rettangolo, possiamo dire che:
()

()
()

()
Il procedimento si ripete per il sopracciglio destro: Indicando con x e y rispettivamente
l‟ascissa e l‟ordinata del pixel superiore sinistro del rettangolo che contiene il sopracciglio
destro, abbiamo che:

()
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


69

()
Una volta individuati i rettangoli che contengono con maggiore probabilità le sopracciglia,
passiamo all‟individuazione dei punti. Per questo motivo viene effettuata un operazione di
chiusura, di dilatazione e, infine, di labeling delle componenti connesse. I punti verranno
individuati come le estremità della regione più grande ottenuta:

Fig. 3.29. Elaborazione della regione delle sopracciglia.
Risultati sperimentali
Ecco alcuni esempi riguardo al tracciamento dei punti caratteristici delle sopracciglia:

Fig. 3.30. Nomenclatura dei punti caratteristici dell’occhio.
3.5.3 RICONOSCIMENTO DELLA BOCCA
Anche per la bocca si parte dalla conoscenza dei punti degli occhi. Il procedimento
prevede dapprima un individuazione più approssimata della regione della bocca, per poi
approfondirne la ricerca. Il tutto si basa su considerazioni antropometriche. Poiché le
immagini in esame presentano volti frontali o leggermente ruotati, le estremità degli occhi
sono un punto di riferimento per la limitazione della regione della bocca; verticalmente la
ricerca può partire spostandosi al di sotto del valore medio delle ordinate delle pupille di
una distanza circa uguale alla distanza orizzontale tra le pupille.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


70
Indicando con x e y le coordinate del vertice superiore sinistro del rettangolo contenente la
bocca e con w e h rispettivamente la sua larghezza e la sua altezza, abbiamo che:
()
( )
( ) ()
()
()
Una volta individuata la regione in maniera grossolana, si procede all‟analisi delle
cosiddette projection functions della zona appena trovata.
Projection Functions
Le funzioni di proiezione hanno lo scopo di individuare, all‟interno di un‟immagine,
confini di regioni diverse. La presenza di un confine tra due regioni omogenee è
evidenziata da un valore alto della PF. Le PF più utilizzate sono: Integral Projection
Function e Variance Projection Function.
Integral Projection Functions
Se indichiamo con I(x,y) l‟intensità del pixel in posizione (x,y), la IPF
v
(Integral Projection
Functions verticale) e la IPF
h
(Integral Projection Functions orizzontale) sono così definite:

() ∫ ( )

()

() ∫ ( )

()
Più frequentemente vengono utilizzate le IPF medie, così definite:

()

∫ ( )

()
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


71

()

∫ ( )

()
Variance Projection Functions
Le VPF (Variance Projection Functions) sono state introdotte da Feng e Huen [19]. Se
consideriamo I(x,y) il valore di intensità alla posizione (x,y), la VPF
v
e la VPF
h
sono così
definite:

()

∑,(

)

()-

()

()

∑,(

)

()-

()
Per la ricerca della bocca sono state scelta la VPF e la sua derivata come strumento di
analisi:

Fig. 3.31. Esempi di calcolo della VPF e della sua derivata.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


72
Come risulta dagli esempi, la zona della bocca è quella corrispondete al massimo delle
funzioni calcolate. I punti sono calcolati come segue:
(

()) ()
()
()
()
Una volta trovato il rettangolo che meglio individua la regione della bocca, possiamo
passare all‟individuazione delle coordinate dei punti caratteristici della bocca:

Fig. 3.32. Punti caratteristici della bocca da individuare.
Inizialmente viene applicata la Integral Projection Function orizzontale per poter
individuare il tratto di separazione delle due labbra (lip cut), il quale è sicuramente il tratto
più scuro (senza tenere conto della presenza di baffi o barba). In questo modo viene
sostanzialmente rimpicciolita la regione della bocca.
Per l‟individuazione delle estremità della bocca, il rettangolo viene centrato intorno al lip
cut individuato tramite la IPF; l‟immagine viene divisa in due clusters e successivamente
binarizzata; eccone un‟esempio:

Fig. 3.33. Fase di individuazione dei punti estremi della bocca.
A questo punto le coordinate dell‟estremità della bocca corrisponderanno verosimilmente
alle estremità della regione bianca, ottenuta ancora una volta attraverso il labeling delle
componenti connesse.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


73
Per individuare gli estremi superiori e inferiori, il procedimento varia esclusivamente nella
scelta della restrizione del rettangolo: per l‟estremo superiore il lip cut costituisce il lato
inferiore del rettangolo di ricerca, mentre per l‟estremo superiore il lip cut costituisce il
lato superiore del rettangolo di ricerca; eccone due esempi:

Fig. 3.34. Rettangolo per l’individuazione dell’estremo superiore.

Fig. 3.35. Rettangolo per l’individuazione dell’estremo inferiore.
Risultati sperimentali
Vengono mostrati alcuni esempi di tracciamento dei punti caratteristici della bocca:

Fig. 3.36. Esempi di calcolo della VPF e della sua derivata.
3.6 COSTRUZIONE POLIGONI PER IL
RICONOSCIMENTO DELLE AUs
Una volta trovati i punti caratteristici del volto, essi possono essere utilizzati come vertici
di particolari poligoni le cui aree costituiscono la variabile di analisi delle AUs.

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


74
I poligoni utilizzati sono i seguenti:
- Il poligono avente come vertici gli angoli del sopracciglio destro e gli angoli
dell‟occhio destro;
- Il poligono avente come vertici gli angoli del sopracciglio sinistro e gli angoli
dell‟occhio sinistro;
- Il triangolo avente come vertici gli angoli dell‟occhio sinistro e l‟angolo sinistro delle
labbra;
- Il triangolo avente come vertici gli angoli dell‟occhio destro e l‟angolo destro delle
labbra;
- Il rombo avente come vertici i punti della bocca.
Ecco un esempio di quanto detto:

Fig. 3.37. Tracciamento poligoni sul volto.
Un problema piuttosto rilevante è quello di normalizzare le dimensioni dei poligoni; in altri
termini, non è possibile stabilire a priori che la dimensione di un‟area corrisponda alla
presenza di un emozione particolare senza un riferimento iniziale; per questo motivo, per il
momento, si è scelto di:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


75
1. Catturare il primo frame, il quale si assume corrisponda alla manifestazione di
un‟emozione neutrale dell‟individuo; per cui le aree calcolate (A
r)
da questo
frame possono essere assunte come sistema di riferimento;
2. In funzione delle aree precedentemente calcolate, viene calcolata l‟area
massima raggiungibile dai poligoni (A
max
);
3. Il rapporto viene così calcolato:

; in questo modo S
%

rappresenta la percentuale di aumento dell‟area del relativo poligono; è evidente
che quando A
t
è massima (A
max
), anche S
%
è massimo; quando A
t
è minimo (A
r
),
S
%
sarà nullo.
Questo è quello che succede nell‟analisi dei poligoni relativi alla zona degli occhi:

Fig. 3.38. Analisi della variazione dell’area.
Con queste variazioni, siamo in grado di riconoscere le AU-4 (area decrescente) e AU-1
(area crescente) (vedi capitolo 2).




RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


76
Mostriamo due esempi su ciò che succede nell‟analisi dei poligoni calcolati:

Aree di calibrazione

Diminuzione aree dei
triangoli, mentre l‟area del
poligono della bocca resta
pressoché invariata

Diminuzione aree dei
triangoli, mentre quella del
poligono della bocca aumenta
Fig. 3.39. Esempio di valutazione delle AU-12 e AU-13.
Riepilogando, mediante l‟utilizzo di questi poligoni, siamo in grado di riconoscere le
seguenti AUs:




RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


77
Tabella 3.1. Descrizione e metodi di riconoscimento delle AUs.
AUs Descrizione Metodo Immagine
1
Innalzamento interno
delle sopracciglia
L‟area del poligono costruito tra
gli occhi e le sopracciglia
aumenta

4
Abbassamento delle
sopracciglia
L‟area del poligono costruito tra
gli occhi e le sopracciglia
diminuisce

7
Compressione delle
palpebre
L‟area del poligono costruito tra
gli occhi e le sopracciglia
aumenta, ma diminuisce il
raggio della pupilla

12
Trazione degli angoli
delle labbra
L‟area del poligono della bocca
resta pressoché costante, ma si
riduce l‟area dei triangoli
costruiti con gli occhi e gli
angoli della bocca

13
Arrotondamento degli
angoli delle labbra
L‟area del poligono della bocca
aumenta, mentre l‟area dei
triangoli costruiti con gli angoli
della bocca e gli occhi si riduce
leggermente

20 Stiramento delle labbra
L‟area del poligono della bocca
si riduce

3.7 IMPLEMENTAZIONE DEL SOFTWARE
L‟algoritmo è stato sviluppato in linguaggio C++. Per il momento lo sviluppo del software
è realizzato su piattaforma Linux (distribuzione Ubuntu 10.04), sull‟ambiente di sviluppo
Qt Creator, poiché l‟interfaccia grafica e altre classi geometriche sono state implementate
mediante le librerie Qt. Per il face-detection e l‟eye-detection la libreria utilizzata è la
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


78
MPT (Machine Perception Toolbox), mentre per i metodi di image processing la libreria
utilizzata è l‟Open CV.
Ecco un esempio di interfaccia grafica con relativa elaborazione di un frame:

Fig. 3.40. Interfaccia del software.
Come si può notare, l‟interfaccia del software è suddivisa in due macro aree: la parte a
sinistra è riservata alla visualizzazione del frame catturato, la parte a destra contiene la
valutazione e l‟analisi del frame considerato: in particolare viene monitorato lo stato
emotivo dell‟individuo (negativo o positivo) e le percentuali di probabilità di presenza
delle emozioni.






RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap.3 – Riconoscimento delle AUs mediante elaborazione delle immagini


79
Qui di seguito viene mostrato un esempio di funzionamento del software:

Fig. 3.41. Esempio di funzionamento del software.










CAPITOLO 4
RICONOSCIMENTO DELLE AUs
MEDIANTE RETI NEURALI
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


81
“L’intelligenza dei computer è un dato di fatto almeno a partire dal 1956, quando il
programma LT (Logic Theorist) trovò una dimostrazione migliore di quella di Whitehead e
Russel, o quando gli ingegneri della Westinghouse scrissero un programma che progettava
automaticamente motori elettrici.” (H. Simon, 1996)
4.1 INTRODUZIONE
Le reti neurali artificiali costituiscono un nuovo settore scientifico-tecnologico. L‟idea di
realizzare questi nuovi modelli matematici ispirati alle reti neurali biologiche nasce nella
prima metà del 1800.
Da un punto di vista prettamente filosofico, è oggi più vivo che mai il dibattito che ha per
oggetto la domanda “Può un calcolatore realmente pensare?” o anche “È veramente
possibile realizzare un intelligenza artificiale?”. I pionieri di questo dibattito sono forse G.
Leibniz e G. Boole: il primo riteneva che il pensiero coincidesse con il calcolo e propose
infatti le prime macchine logiche, capaci di eseguire sillogismi; il secondo intitola
addirittura “Le leggi del pensiero” il suo trattato sulla logica proposizionale. In tempi
moderni, chi si pose seriamente questa domanda fu il matematico inglese A. Turing che
propose un famoso testi per verificare l‟intelligenza di un essere, artificiale o meno. Il test
di Turing è riassumibile nel seguente modo: supponiamo che vi sia una “scatola nera” alla
quale forniamo in input domande in linguaggio naturale (inserite tramite tastiera, ad
esempio) e che restituisce in output risposte sensate e congruenti nello stesso linguaggio.
Se tali risposte fossero indistinguibili da quelle che, nelle stesse circostanze, ci
aspetteremmo da un essere umano, allora potremmo asserire, secondo Turing, che la
scatola nera manifesta un comportamento intelligente, almeno nell‟ambito delle tematiche
del dialogo in questione.
Le ricerche sulla neurofisiologia evidenziarono come il cervello sia composto da un gran
numero di cellule nervose (neuroni) interconnesse, ciascuna delle quali esegue una
elaborazione molto semplice. Il comportamento intelligente emerge dal gran numero di
elementi e di connessioni tra cellule: più connessioni (sinapsi) ci sono, più intelligente è
una persona!
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


82
Quando si parla di “intelligenza”, immediatamente pensiamo alla capacità che ha l‟essere
umano di apprendere e di ragionare sulla base delle sue conoscenze. Questa caratteristica è
stata sfruttata proprio nei modelli neurali artificiali, i quali sono in grado di configurare i
propri parametri interni di funzionamento per adeguarsi agli stimoli esterni, fino a imparare
il comportamento desiderato da un numero sufficiente di esempi significativi, e di
“ragionare” conseguentemente dinanzi a situazioni nuove.
Secondo alcuni scienziati, l‟intelligenza è davvero “una manipolazione (sia pure
complessa) di simboli e quindi un opportuno computer, dotato di software adeguato,
potrebbe manifestare un comportamento intelligente.”(interpretazione forte). Altri
scienziati, invece, considerano il paradigma simbolico solo un‟utile metafora e opera una
netta distinzione tra la mente reale e i suoi modelli, così come un paesaggio reale non
coincide con una sua mappa molto fedele o un complicato sistema di equazioni che
rappresenta il volo di un aeroplano non è un aeroplano. Quindi, secondo quest‟idea, anche
un sistema che soddisfacesse il test di Turing non sarebbe necessariamente intelligente
(interpretazione debole). Un paladino dell‟interpretazione debole è il filosofo americano
J.Searle che ha proposto il “test della stanza cinese” (Searle, 1990): in una stanza, che
comunica con l‟esterno attraverso una finestrella, si trova una persona che ignora
completamente la lingua cinese (ad esempio un italiano). Un cinese pone dall‟esterno
domande nella sua lingua, consistenti in sequenze di simboli (ideogrammi) introdotti
attraverso la finestrella. L‟italiano è dotato di varie scatole contenenti anche altri simboli,
nonché di un libro di regole (in italiano: linguaggio macchina) che prescrivono come
manipolare i simboli stessi. Seguendo meccanicamente le regole, l‟italiano può allora
assemblare una sequenza di simboli che fornisce al cinese attraverso la finestrella. Se le
regole sono adeguate, il cinese comprenderà la risposta e ne sarà soddisfatto. Tuttavia
l‟italiano non ha evidentemente capito né la domanda, né il significato dei simboli
manipolati, né la risposta.
Tra cervello e computer sembra comunque esistere una differenza irriducibile: ciò che è
semplice per il cervello è difficile per il computer e viceversa. In compiti come la visione,
il linguaggio e il coordinamento senso-motorio il cervello è più potente di 1000 super-
computer; tuttavia in compiti semplici, come fare moltiplicazioni, è superato anche da una
calcolatrice tascabile.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


83
Le reti neurali artificiali possono essere descritte secondo due linguaggi:
- Il linguaggio matematico, per questo ostico;
- Il linguaggio informatico, attraverso un linguaggio di programmazione.
L‟architettura di un programma per un computer tradizionale e l‟architettura del computer
tradizionale stesso (Von Neumann) sono radicalmente diverse dal modo in cui funziona il
nostro cervello: ecco perché risulta difficile ad una macchina “poter riconoscere una
penna in mezzo ai libri” e per un essere umano “effettuare complessi calcoli matematici e
geometrici nel giro di pochi secondi”; da un lato abbiamo un‟unità di calcolo in grado di
conoscere esattamente un numero preciso di istruzioni e in grado di comunicare con
memorie veloci o capienti, mentre dall‟altra parte abbiamo una rete distribuita di molte
piccole unità operative che comunicano tra loro. Il successo della sollecitazione del
neurone è fortemente stocastico, così come il grado di vitalità di ciascun neurone.
In definitiva potremmo definire un analogia tra una rete neurale e un‟immensa società
fittizia (cervellopoli): ciascuna persona rappresenta un neurone e l‟instaurazione dei
rapporti tra due persone è la sinapsi; più le persone comunicano e scambiano segnali
informativi, più accresce la cultura e l‟intelligenza della società.
4.2 APPLICAZIONI
Le reti neurali sono modelli computazionali molto versatili, capaci di realizzare qualsiasi
compito possa essere realizzato mediante algoritmi tradizionali. Tuttavia, il prezzo della
loro versatilità è la scarsa efficienza computazionale quando devono trattare problemi che
gli algoritmi tradizionali sono in grado di gestire con facilità (per esempio, problemi
linearizzabili o facilmente descrivibili in termini procedurali). Per esempio, opportune
combinazioni di neuroni di McCulloch e Pitts sono in grado di realizzare le operazioni
logiche elementari (quali AND, OR, e NOT), impiegando però un numero di operazioni
molto elevato rispetto alla banalità del problema considerato. Analogamente, sebbene sia
possibile istruire una rete neurale a indicare quale fra due parole precede l‟altra nell‟ordine
alfabetico, questo è più semplicemente realizzabile con un algoritmo di ordinamento
tradizionale.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


84
La versatilità delle reti neurali si rivela assolutamente preziosa per risolvere problemi non
lineari, per i quali non sia nota una soluzione algoritmica efficiente, ma siano disponibili
sufficienti esempi ben descrittivi del comportamento desiderato. Tipiche applicazioni delle
reti neurali riguardano infatti casi complessi di classificazione, approssimazione di
funzioni, controllo ed elaborazione di segnali ed immagini.
La classificazione consiste nell‟individuare una relazione tra un insieme di caratteristiche
(generalmente multidimensionale) e un insieme (finito) di classi. Problemi di
classificazione si possono trovare in applicazioni biomediche (per esempio, predire la
propensione a una malattia dai dati delle analisi) o industriali (per esempio, valutare la
qualità del prodotto). In modo analogo, quando le classi non siano note a priori, il
clustering identifica le classi nell‟insieme degli esempi, cercando di raggruppare questi
ultimi in funzione della loro intrinseca similarità.
L‟approssimazione di funzioni individua, tra le funzioni rappresentabili da una rete
neurale, quella che meglio approssima un insieme di esempi. Poiché usualmente gli esempi
sono affetti da rumore, l‟interpolazione non è infatti una soluzione sufficientemente
accettabile. Applicazioni di questo tipo sono molto diffuse quando si devono trattare dati
acquisiti tramite misurazione. Una volta ottenuta la funzione approssimante, questa può
essere utilizzata per successive elaborazioni (per esempio, individuare il massimo e il
minimo) e predire i valori intermedi agli esempi disponibili.
Controllare un sistema significa mantenerne il comportamento entro limiti prefissati e,
specificatamente, governare l‟evoluzione del suo stato in modo che descriva una traiettoria
desiderata nello spazio degli stati, agendo opportunamente su alcuni ingressi del sistema.
Se il sistema è di tipo dinamico, la sua evoluzione dipende, oltre che dagli stimoli
provenienti dall‟esterno, anche da un certo numero di fattori interni, i quali a loro volta
potranno risentire dell‟influenza esterna. Questa è la situazione tipica in applicazioni di
automazione industriale, controllo di sistemi, robotica, e in ambito biomedico, che possono
essere affrontate tramite reti neurali ricorrenti.
L‟elaborazione di segnali e di immagini consiste nell‟analisi e nella manipolazione dei
segnali e delle immagini al fine di estrarre l‟informazione in essi contenuta. Si tratta quindi
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


85
di una categoria di applicazioni molto ampia e variegata: dal filtraggio del rumore, alla
estrazione di caratteristiche, al riconoscimento di pattern di interesse.
In letteratura sono raccolti moltissimi esempi dell‟uso efficiente ed efficace delle reti
neurali per applicazioni come quelle sopra brevemente menzionate. Si noti però che le reti
neurali non sono la panacea che risolve qualunque problema applicativo: esse sono
applicabili solo quando sussistono specifiche condizioni, in particolare riguardo alla
capacità di descrivere il comportamento desiderato con gli esempi considerati per
l‟apprendimento. Inoltre, le reti neurali sono efficienti solo per problemi non lineari e
dovrebbero essere considerate solo se non esiste già una soluzione algoritmica efficiente.
Quando però sussistono queste condizioni, le reti neurali si dimostrano spesso tecniche
computazionali straordinarie per l‟efficienza e la qualità dei risultati prodotti.
Riassumendo, i possibili campi d‟impiego sono:
- INFORMATICA:
o Compressione dati;
o Eliminazione del rumore;
o Riconoscimento di segnali sonar
o Riconoscimento caratteri;
o Riconoscimento oggetti;
o Riconoscimento del parlato e scrittura simultanea;
- SISTEMI DI CONTROLLO:
o Piloti automatici;
o Robot intelligenti;
- ANALISI FINANZIARIE:
o Predizioni finanziarie;
o Calcolo del rischio di prestiti e investimenti;
- MEDICINA:
o Diagnosi e prognosi di patologie;
o Individuazione della cura di una malattia sulla base di sintomi.

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


86
4.3 RETI NEURALI BIOLOGICHE
Una rete neurale biologica (per esempio, il sistema nervoso centrale umano) è composto
da particolari cellule, dette neuroni, tra loro interconnesse.
In particolare il sistema nervoso è caratterizzato da tre elementi costitutivi: neurone
principale, neurone intrinseco e fibre nervose; quest‟ultime trasportano i segnali da e
verso entrambi i tipi di neuroni, a cui sono collegati attraverso le sinapsi. Il neurone
principale trasmette le proprie informazioni anche in altri moduli di cui è composto il
sistema nervoso, mentre il neurone intrinseco rimane nella propria regione.
Il funzionamento di una rete neurale biologica si basa sullo scambio di segnali elettrici tra i
neuroni.

Fig. 4.1. Rappresentazione di un neurone biologico.
Un neurone biologico è dotato di un corpo cellulare, detto soma, dal quale si propagano
numerosi prolungamenti brevi, detti dendriti, e un prolungamento lungo, detto assone. I
dendriti e gli assoni sono dotati di ramificazioni, terminate da strutture di connessione,
dette sinapsi, che costituiscono il punto di giunzione tra il terminale assonico di un
neurone (presinaptico) e il ramo dendritico di un altro neurone (postsinaptico); è
caratterizzata da un piccolo spazio tra le due membrane di giunzione: il segnale elettrico
proveniente dal neurone presinaptico emette sostanze chimiche che permettono l‟apertura
di microcanali sulla membrana connessa al neurone postsinaptico che sollecita il passaggio
di ioni e quindi di un segnale elettrico che giunge al neurone postsinaptico.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


87
Ciascun neurone acquisisce, attraverso i suoi dendriti, i segnali provenienti dall‟assone dei
neuroni in ingresso, elabora la risposta a tali stimoli nel soma e trasmette il segnale di
uscita ai neuroni collegati al proprio assone: quando la somma dei segnali provenienti dai
neuroni in ingresso supera una certa soglia, il soma emette un impulso mediante una
variazione di potenziale elettrico. Questo segnale si propaga fino alle sinapsi dei dendriti
appartenenti ai neuroni collegati a valle e raggiunge tali dendriti mediante stimolazione
effettuata da neurotrasmettitori chimici. La sinapsi può assumere due forme: eccitatoria e
inibitoria, a seconda che il segnale da essa trasmesso vada a favorire o a contrastare il
raggiungimento della soglia di emissione dell‟impulso del neurone ricevente.
I neuroni possiedono proprietà locali: due neuroni morfologicamente uguali possono
rispondere in maniera diversa a seconda della regione in cui si trovano. L‟attivazione/non
attivazione dipende dal superamento di una soglia di potenziale inerente alla d.d.p. tra
membrana esterna e interna. In stato di riposo la d.d.p. è circa -70mV.
Sebbene i segnali scambiati tra cellule neurali siano di tipo elettrico (mediato da
neurotrasmettitori chimici), la velocità con la quale essi vengono elaborati dal singolo
neurone è piuttosto bassa: raramente i neuroni possono generare più di 100 impulsi al
secondo. Poiché i tempi di reazione sono dell‟ordine dei decimi di secondo (quanto
impieghiamo per riconoscere il volto di un amico?), risulta evidente che l‟elaborazione
non può transitare per più di una decina di livelli di neuroni. La capacità di elaborazione
del sistema nervoso risiede quindi nell‟elevato numero di elementi e nella densa rete di
connessioni tra gli elementi stessi: si stima che il cervello umano sia composto da 100
miliardi (10
11
) di neuroni e 100 bilioni (10
14
) di sinapsi. Assumendo 4 bit/sinapsi, la
memoria del cervello umano sarebbe di

bit e, con un tempo di commutazione di 10
msec, si avrebbe una velocità di

attivazioni di sinapsi/sec (misura denominata CPS =
connessioni per secondo).
Una caratteristica fondamentale del cervello è la capacità di apprendimento: ci
ricordiamo il viso delle persone che abbiamo conosciuto, impariamo a fare operazioni
(prima maldestramente, poi con maggiore naturalezza), riusciamo a valutare come si
evolverà una certa situazione con l‟esperienza di casi analoghi. Ciò è possibile perché
alcune caratteristiche dei neuroni possono essere modificate. Questo è principalmente
dovuto a due fenomeni: la permeabilità della membrana della cellula e la plasticità
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


88
sinaptica. La permeabilità influenza la soglia di reazione della cellula. La plasticità
sinaptica è la capacità delle sinapsi di modulare la forza della connessione tra i neuroni: un
collegamento debole farà sì che l‟attività del neurone ricevente sia poco influenzata
all‟attività del neurone trasmettitore.
4.4 NEURONI ARTIFICIALI
Il neurone artificiale è un modello matematico caratterizzato da una funzione, detta
funzione di attivazione. Gli ingressi pesati di tale funzione sono in analogia con gli
stimoli che il neurone biologico riceve dagli altri neuroni, mentre il risultato calcolato
(uscita) descrive il segnale trasmesso dal neurone lungo l‟assone. Quindi, la funzione di
attivazione del neurone artificiale crea una corrispondenza tra i valori dell‟insieme degli
ingressi (spazio degli ingressi) e i valori nell‟insieme delle uscite (spazio delle uscite).
Nel modello del neurone artificiale non si fa una distinzione tra fibra nervosa e sinapsi,
così come vengono ignorati i ritardi di trasmissione dovuti alla lunghezza delle fibre
nervose.

Fig. 4.2. Analogia tra un neurone biologico e un neurone artificiale.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


89
Le caratteristiche dei neuroni descritte nel paragrafo precedente suggeriscono che il
neurone artificiale sia un modello avente parametri capaci di modellare la soglia di
reazione e la forza della connessione sinaptica: i primi caratterizzano il comportamento di
una singola cella, mentre i secondi descrivono l‟interazione tra coppie di cellule.
Il primo modello formale (matematico) di neurone è stato proposto da McCulloch e Pitts
nel 1943, ben prima che i calcolatori digitali si diffondessero. La sua funzione di
attivazione può assumere due valori: neurone attivo, 1, o silente, 0. Anche i pesi sinaptici,
che modellano la forza della connessione tra una coppia di neuroni possono avere solo due
valori: eccitatorio, 1, o inibitorio, -1. Il neurone di McCulloch e Pitts esegue la somma
pesata degli stati dei neuroni a esso connessi, e, a seconda che tale valore sia maggiore o
minore della soglia, assume lo stato attivo o passivo. Formalmente, lo stato del neurone i-
esimo è descritto dalla seguente funzione di attivazione:

{

()
Dove S
j
è lo stato del neurone j-esimo, w
ij
è il perso del contributo dell‟uscita del neurone j
al neurone i, e θ
i
è la soglia del neurone i-esimo. I pesi w
ij
sono modificabili in fase di
apprendimento. Le sommatorie sono estese all‟insieme di neuroni che sono connessi al
neurone considerato, i.

Fig. 4.3. Rappresentazione schematica di un neurone artificiale proposto da McCulloch e Pitts.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


90
È evidente che il modello proposto è basato su diverse semplificazioni del neurone
biologico. La cellula neurale biologica integra nel tempo i contributi (asincroni) dei
neuroni connessi, mentre nel modello matematico viene utilizzata la somma dei contributi.
Inoltre, l‟uscita è del tipo “tutto-o-niente”, e non modulata nel tempo. Nonostante queste
semplificazioni, una rete di questi neuroni, con i parametri opportunamente impostati, è in
grado di calcolare qualsiasi funzione binaria (esattamente come le moderne macchine da
calcolo) e, quindi, una qualsiasi funzione calcolabile.
Sono state formulate diverse varianti del modello di McCulloch e Pitts (detto anche a
soglia, o a gradino). Esse si differenziano per le diverse funzioni di attivazione adottate,
dalle quali i diversi modelli di neurone prendono il nome. Ponendo, per semplificare la
notazione, ∑

, citiamo le seguenti funzioni di attivazione:
- segno (bipolare):

{


(4.2)
- sigmoide:

(4.3)
- arcotangente:

(4.4)
- tangente iperbolica:

(4.5)
- lineare:

(4.6)
- lineare a tratti (rampa):

{

(4.7)
Tutte queste funzioni (eccetto quella lineare) sono generalizzazione della funzione gradino:
aggiungendo un parametro per modificarne la pendenza, queste funzioni possono infatti
ridursi alla funzione gradino.
4.5 RETI NEURALI ARTIFICIALI
Le reti neurali artificiali sono costituite dall‟insieme di neuroni artificiali opportunamente
collegati tra loro. Il comportamento esibito da tali reti mima alcuni comportamenti
peculiari del nostro cervello, tra cui le capacità di memorizzare un oggetto, richiamare
dalla memoria tale oggetto partendo da una descrizione parziale (come ricordarsi una
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


91
canzone partendo dalla melodia), generalizzare a partire da esempi e raggruppare oggetti in
base alle somiglianze tra essi.
Nonostante risultati validi sarebbero ottenibili anche senza un organizzazione sistemistica
dei neuroni, l‟utilizzo di schemi semplici e ordinati consente lo studio delle proprietà di tali
modelli computazionali. Lo schema dei collegamenti è infatti spesso il fattore più
caratterizzante dei modelli di rete neurale.
I modelli principali utilizzati sono: le reti di Hopfield, le reti feed-forward, le reti ricorrenti
e le reti competitive. Ci soffermeremo solo sulle reti feed-forward, che rappresentano il
modello da noi scelto.
4.5.1 RETI FEED-FORWARD MULTISTRATO
Le reti feed-forward multistrato sono così chiamate perché il flusso di informazioni tra i
neuroni procede in modo unidirezionale, senza anelli di retroazione (i segnali si propagano
da monte a valle). Si tratta quindi di reti parzialmente connesse nelle quali i neuroni sono
organizzati logicamente in sottoinsiemi, detti strati (layer). Il layer i-esimo può
comunicare esclusivamente con i layer ad esso adiacenti: in particolare gli ingressi
deriveranno dal layer antecedente, mentre le uscite saranno destinate al layer successivo.
Quindi ciascun neurone riceve in ingresso tutte le uscite dei neuroni del layer a monte,
opportunamente pesate. Una rete multistrato è costituita da un minimo di tre layers; il
primo strato (quello che riceve gli stimoli dall‟esterno) viene detto strato di ingresso,
mentre l‟ultimo strato (quello che fornisce la risposta della rete) viene detto strato di uscita.
Gli strati intermedi vengono detti strati nascosti (hidden layer). Si può dimostrare che le
reti neurali sigmoidali multistrato con almeno tre strati sono approssimatori universali di
funzioni continue: mediante reti neurali di questo tipo, è possibile approssimare qualsiasi
funzione continua con un accuratezza prefissata. Se i neuroni dello strato di uscita sono di
tipo discreto (per esempio, a soglia), l‟uscita della rete potrà assumere un insieme finito di
valori discreti; si può così realizzare la classificazione degli ingressi, cioè associare a
ciascun ingresso un valore tra le uscite, il quale identifica la sua classe di appartenenza.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


92

Fig. 4.4. Rappresentazione schematica di una rete feed-forward multistrato.
Tipicamente, i neuroni dello stesso strato hanno la stessa funzione di attivazione mentre
strati diversi possono avere funzioni di attivazioni differenti.
L‟uscita di ciascun neurone i, del k-esimo strato della rete è definibile come:

()

()
(∑

()

()

()

) ()
dove lo stimolo per il livello di ingresso,

()
, corrisponde agli esempi forniti alla rete, e

()
è la funzione di attivazione utilizzata per lo strato k-esimo. In forma matriciale,
considerati gli m neuroni di uno strato, con le relative uscite

()
e gli n
ingressi dei neuroni presinaptici, possiamo definire:

,

-

,

-
[

]
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


93

(4.9 (a))
oppure
(4.9 (b))
4.6 APPRENDIMENTO
La capacità di apprendere da parte di una rete neurale dipende dalla configurazione dei
suoi parametri. Può anche essere possibile partire da una configurazione iniziale di questi
parametri in maniera del tutto casuale. Tramite un opportuno algoritmo, detto di
apprendimento (learning) o addestramento (training), la scelta dei valori dei parametri
della rete può essere effettuata a partire da un insieme di esempi del comportamento
desiderato. Al termine dell‟apprendimento, la rete neurale deve essere in grado di
generalizzare il comportamento descritto dagli esempi presentati e di estrapolarne il
significato logico, cioè deve essere capace di produrre una risposta significativa anche se
sollecitata da un ingresso non noto.
Occorre tuttavia rilevare che, mentre per una data applicazione il numero degli input e
quello dei neuroni output è perfettamente definito, non esiste alcun criterio rigoroso per
definire il numero ottimale di strati intermedi o quello dei neuroni di questi strati. Questa
scelta deve essere generalmente operata in base all‟esperienza acquisita in applicazioni
analoghe e a un certo “fiuto”. Moltiplicando il numero degli strati nascosti, aumentano
anche le dimensioni del training set necessario e si moltiplica il numero delle connessioni
da aggiornare durante l‟apprendimento. Ne deriva un aumento notevole del tempo di
addestramento. Inoltre se i neuroni di uno strato nascosto sono troppi, non solo ci sono più
pesi sinaptici da aggiornare, ma la rete ha anche la tendenza a imparare troppo gli esempi
del training set, derivandone una scarsa capacità di generalizzazione. D‟altra parte se i
neuroni nascosti sono troppo pochi, la rete non è in grado di apprendere nemmeno gli
esempi del training set.
In mancanza di una teoria adeguata per effettuare queste scelte, si può adottare, come
vedremo, l‟espediente di modificare il numero di neuroni di uno strato durante
l‟addestramento:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


94
- Se la rete stenta a imparare il training set, si aumenta il numero di neuroni;
- Se i pesi sinaptici delle connessioni sono troppo piccoli, si eliminano i neuroni
relativi;
- Se la capacità di generalizzazione della rete è scarsa, si tolgono neuroni.
In letteratura sono stati proposti diversi algoritmi di apprendimento a secondo del modello
di neurone e dello schema di collegamento adottato per strutturare la rete. Si possono
individuare due categorie di algoritmi di apprendimento: l‟apprendimento supervisionato
e l‟apprendimento non supervisionato.
Nell‟apprendimento supervisionato, alla rete neurale vengono forniti gli esempi in
ingresso, con i relativi valori di uscita corretti. Questa modalità di apprendimento è
tipicamente usata per configurare reti neurali per l‟approssimazione di funzioni e per la
classificazione.
Nell‟apprendimento non supervisionato, è fornito solo l‟insieme degli esempi da applicare
agli ingressi; la rete neurale autonomamente organizzerà la propria configurazione. Questa
modalità di apprendimento è adatta per il clustering e per le memorie associative.
Noi ci occuperemo esclusivamente dell‟apprendimento supervisionato.
4.6.1 APPRENDIMENTO SUPERVISIONATO
Come già detto, l‟apprendimento con supervisione si basa sulla disponibilità di una
collezione di coppie:
[dati del problema/soluzione corrispondente]
Per esempio nel caso di un sistema diagnostico, avremo le coppie [sintomi/diagnosi] che
derivano da una raccolta di cartelle cliniche. Questa collezione di coppie viene
generalmente suddivisa in due gruppi: il training set e il validation set. Il training set sarà
utile per l‟addestramento vero e proprio, mentre il validation set sarà utile per accertare che
la rete non sia incapace di generalizzare quanto appreso dagli esempi. Il concetto di
“supervisione” sta ad indicare la presenza di un insegnante che verifichi l‟efficienza della
rete neurale, premiandola o bocciandola.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


95
Tra i vari algoritmi di apprendimento supervisionato i più significativi sono:
- l‟algoritmo di retropropagazione (backpropagation);
- l’apprendimento ibrido (hybrid learning);
- l’apprendimento per rinforzo (reinforcement learning).
Ci soffermeremo esclusivamente sull‟algoritmo backpropation.
4.6.2 ALGORITMO BACKPROPAGATION
L‟algoritmo detto retropropagazione (backpropagation) è quello più utilizzato per
l‟apprendimento supervisionato. Questa tecnica si basa sul concetto di errore, inteso come
la distanza tra il risultato ottenuto e quello desiderato. L‟obiettivo è quello di valutare
questa funzione errore in funzione dei parametri della rete stessa e di ottenere la sua
diminuzione tramite una modifica dei parametri operata nella direzione del gradiente della
funzione errore stessa. Per via della necessità di calcolare il gradiente della funzione
calcolata dalla rete neurale, tale tecnica può essere utilizzata solo se la funzione di
attivazione dei neuroni è derivabile rispetto ai parametri da configurare. A ogni passo
di apprendimento, viene presentato un esempio agli ingressi della rete neurale, si calcola la
relativa uscita prodotta dalla rete, e la si confronta con il valore di uscita atteso, ottenendo
l‟errore relativo commesso. Procedendo a ritroso dall‟uscita della rete verso i neuroni più
interni, si calcola il gradiente dell‟errore rispetto ai parametri dei neuroni considerati e lo si
utilizza per modificare i parametri stessi in modo da far diminuire l‟errore. La funzione
errore quadratico medio viene definita come:

∑∑(

)

()
Dove S
rj
è l‟output del neurone S
j
alla presentazione dell‟esempio C
r
e D
rj
è il suo valore
desiderato.
Per esempio, si consideri una rete feed-forward multistrato a due strati nascosti realizzata
con l‟intento di approssimare una funzione (quindi, con un neurone di ingresso
ed uno di uscita). L‟insieme di addestramento sarà composto da un insieme di coppie di
numeri reali, *(

)+, che descrivono il comportamento di tale funzione. Il neurone dello
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


96
strato di ingresso funge da distributore del valore presentato in ingresso e ha funzione di
attivazione lineare (

()
). L‟uscita dei neuroni del primo strato sarà:
|
.
|

\
|
÷ =
¿
k
j k j
x w f S
) 1 ( ) 1 ( ) 1 ( ) 1 (
u (4.11)
Tali valori costituiscono l‟ingresso del secondo strato nascosto, che fornirà in uscita:
|
|
.
|

\
|
÷ =
¿
j
i j j i i
S w f S
) 2 ( ) 1 ( ) 2 (
,
) 2 ( ) 2 (
u (4.12)
Infine, lo strato finale (per semplicità un neurone lineare) produrrà l‟uscita della rete
neurale:
¿
=
i
i i
S w y
) 2 ( ) 3 ( ~
(4.13)
La presentazione alla rete dell‟esempio (x, y) comporta un errore di approssimazione, E,
pari a:
( )
2
~
y y E ÷ = (4.14)
L‟algoritmo di backpropagation, sfruttando la proprietà della derivata di funzioni
composte, aggiorna i pesi sinaptici con le seguenti regole:
) 3 ( ) 3 (
) 3 (
~
~
i i
i
w
y
y
E
w
E
w
c
c
c
c
÷ =
c
c
÷ = A q q (4.15)
) 2 (
,
) 2 (
) 2 ( ) 2 (
,
) 2 (
,
~
~
j i
i
i j i
j i
w
S
S
y
y
E
w
E
w
c
c
c
c
÷ =
c
c
÷ = A q q (4.16)
) 1 (
) 1 (
) 1 (
) 2 (
) 2 ( ) 1 (
) 1 (
~
~
j
j
j
i
i j
j
w
S
S
S
S
y
y
E
w
E
w
c
c
c
c
÷ =
c
c
÷ = A q q (4.17)
dove η è il fattore di adattamento (o tasso di apprendimento) che “pesa” la velocità con cui
si cerca di discendere verso il minimo dell‟errore in funzione dei nuovi esempi. Analoghe
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


97
formule possono essere derivate per gli altri parametri della rete (per esempio per le
soglie).
In generale, definita la stessa funzione di trasferimento per tutti i neuroni f(P), dove P è il
relativo potenziale, e S
k
il generico neurone pre-sinaptico, possiamo scrivere:

(

)

(

)

()
Ponendo:

(

)

(

) ()
Possiamo scrivere:

()
- j = neurone di arrivo;
- k = neurone di partenza;
- = pattern di attivazione;
- = tasso di apprendimento;
- = garantisce che l‟errore sia proporzionale all‟attivazione proveniente dal neurone
k;
Tuttavia, l‟algoritmo di backpropagation soffre di alcuni problemi. Il più grave è
l’incapacità di riuscire a evitare i minimi locali della funzione errore. Quando si verifica
questa situazione, si ha che piccole variazioni dei parametri fanno aumentare l‟errore,
mentre una variazione dei parametri di ampia entità consentirebbe di diminuirlo, ma il
valore di η adottato non consente di spostarsi a sufficienza. Inoltre, l‟algoritmo di
backpropagation non dà garanzie sul numero di iterazioni (epoche) necessarie per giungere
nel minimo dell‟errore. Per questi motivi, sono generalmente adottate alcune varianti
dell‟algoritmo di backpropagation, quali il simulated annealing e l‟uso dei momenti. Il
simulated annealing prende il nome da una tecnica utilizzata in metallurgia, che consiste
nel riscaldare un metallo e poi raffreddarlo seguendo una ben determinata curva di
raffreddamento che consente di orientare i cristalli in maniera ottimale. Nell‟algoritmo di
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


98
backpropagation, il simulated annealing consiste nell‟aggiungere nella funzione errore un
termine casuale che la renda priva di minimi locali all‟inizio dell‟addestramento. Il valore
di questo termine si riduce progressivamente con il procedere dell‟addestramento, facendo
emergere pian piano la vera forma dell‟errore. L‟ipotesi su cui si fonda questa tecnica è che
il minimo globale emerga prima degli altri minimi e che la rete riesca a individuarlo prima
che emergano gli altri minimi locali. Lo svantaggio principale è il notevole incremento del
costo computazionale. La tecnica dei momenti consiste nell‟aggiungere un termine
moltiplicativo al tasso di apprendimento, η, in modo che quest‟ultimo aumenti se si sta
seguendo un percorso che riduce l‟errore, ma che diminuisca se invece l‟errore tende a
crescere.
4.7 COME RICONOSCERE LE AUs CON UNA RETE
NEURALE
Tramite l‟utilizzo di reti neurali, siamo stati in grado di riconoscere, per il momento, le
AU-10, AU-12 e AU-13. La presenza dell‟AU-10 ci permette di appurare, con buona
probabilità, la presenza del disgusto; viceversa, la presenza delle AU-12 e AU-13 è
strettamente connessa alla felicità. Per questo motivo, attraverso questo sistema, possiamo
contribuire nel riconoscimento di due emozioni: il disgusto e la felicità. In futuro, con la
stessa logica, si potranno riconoscere altre AUs e quindi altre emozioni.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


99



AU-10






AU-12






AU-13

Fig. 4.5. Differenze visive introdotte dalla presenza delle AUs.
Ciò che è stato notato nel corso di questo lavoro è stato che le reti neurali ad
apprendimento supervisionato basate su algoritmo EBP risultano particolarmente
adatte nella capacità di effettuare distinzioni binarie (presenza dell‟AU/non-presenza
dell‟AU)
Il lavoro è consistito nella realizzazione di due reti neurali che lavorano in parallelo:
1) la prima rete neurale riceve la parte bassa del volto contenente la bocca; quando la
forma della bocca è curvata in su, cioè gli angoli della bocca si alzano, ed
eventualmente i denti sono parzialmente o completamente visibili, allora si può
affermare con buona probabilità che l‟individuo è felice; in caso contrario non
potremo dire nulla;
2) la seconda rete neurale riceve la parte centrale del volto contenente il naso; nel
disgusto, vi è una maggiore presenza di grinze ai lati del naso (nasolabial furrows), e
questo può essere riconosciuto dal sistema.
L‟operazione di segmentazione e di estrazione delle regioni di interesse (ROI) è stata
effettuata mediante il tool descritto nel capitolo precedente; sono state utilizzate sia nostre
immagini ottenute dalla webcam, sia immagini ottenute mediante [20][21][22]. Nella
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


100
figura seguente viene mostrata, in maniera schematica, la fase di pre-processing che ha
come risultato il vettore di ingresso alla rete neurale:

Fig. 4.6. Fase di segmentazione del volto.

Fig. 4.7. Fase di vettorizzazione dei segmenti del volto.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


101

Fig. 4.8. Rappresentazione schematica e completa della fase pre-processing (segmentazione e
vettorizzazione).
Ciascuna ROI estratta viene convertita su scala di grigi e viene normalizzata in
un‟immagine di dimensione 40x80 pixel; successivamente, per ogni quadrato 8x8, viene
calcolata una media dei valori di ciascun pixel e, infine, l‟immagine viene vettorizzata in
modo tale da poter essere utilizzata come ingresso alla rete neurale.
L‟uscita della rete neurale potrà assumere due valori: 0 nel caso di assenza delle AUs, 1 nel
caso di presenza delle AUs). La funzione di trasferimento scelta per ciascun livello è
logaritmica.
Per realizzare le reti neurali, sono state utilizzate le librerie fornite da Matlab; ecco i
risultati ottenuti:
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


102

Fig. 4.9. Risultati ottenuti dalla rete neurale per la bocca.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


103

Fig. 4.10. Risultati ottenuti dalla rete neurale per il naso.
4.7.1 REGIONE DELLA BOCCA
Per l‟addestramento di questa prima rete neurale, abbiamo utilizzato un training set di 200
bocche: 100 di queste costituivano esempi positivi, mentre le restanti 100 rappresentavano
esempi negativi. L‟addestramento è avvenuto in 20000.

Fig. 4.11. Esempi di bocche estratte dalle nostre immagini da webcam.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


104

Fig. 4.12. Esempi di bocche estratte dalle immagini di database pubblici.
La rete neurale è costituita da 4 livelli (300x200x10x1). I risultati sono piuttosto
attendibili: nel 90% dei casi la rete è stata in grado di fornire la giusta risposta; ecco alcuni
esempi:
Tabella 4.1. Tabella contenente alcuni esempi di bocche elaborate dalla rete neurale.

Picture 1. Picture 5. Picture 9. Picture 10.

Picture 12. Picture 18. Picture 7. Picture 17.

Picture 1a. Picture 3a. Picture 6a. Picture 18a.

Picture 28a. Picture 32a. Picture 44a. Picture 47a.



Picture 86a. Picture 88a.
Picture number Output Picture number Outpu
1 0.9518 3a 0.0172
5 0.9518 6a 0.0386
9 0.9518 18a 0.0172
10 0.9518 28a 0.0172
12 0.9518 32a 0.0386
18 0.9518 44a 0.0386
7 0.0220 47a 0.0277
17 0.0331 86a 0.1871
1a 0.0172 88a 0.0172
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 4 – Riconoscimento delle AUs mediante reti neurali


105
4.7.2 REGIONE DEL NASO
Per l‟addestramento di questa seconda rete neurale, abbiamo utilizzato un training set di
100 esempi di naso: 50 di queste costituivano esempi positivi, mentre le restanti 50
rappresentavano esempi negativi. L‟addestramento è avvenuto in 20000.

Fig. 4.12. Esempi di nasi estratti dalle nostre immagini da webcam.

Fig. 4.13. Esempi di nasi estratti dalle immagini di database pubblici.
La rete neurale è costituita da 4 livelli (400x80x10x1): nell‟85% dei casi la rete è stata in
grado di fornire la giusta risposta; ecco alcuni esempi:
Tabella 4.2. Tabella contenente alcuni esempi di naso elaborati dalla rete neurale.

Picture 1b. Picture 3b. Picture 4b.

Picture 14b. Picture 22b. Picture 1c.

Picture 5c. Picture 10c. Picture 31c.
Picture number Output Picture number Output
1b 0,0105 1c 0,0105
3b 0.9660 5c 0,0105
4b 0.9660 10c 0,0105
14b 0.9660 31c 0,0105
22b 0.9660










CAPITOLO 5
CONCLUSIONI E SVILUPPI FUTURI
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 5 – Conclusioni e sviluppi futuri


107
5.1 CONCLUSIONI
Quando noi interagiamo con altri esseri umani, inviamo e riceviamo continuamente segnali
non verbali, contenenti numerose informazioni. Questi segnali sono fondamentali
nell‟interazione sociale e costituiscono un importante sostegno al discorso che si sta
affrontando. Nella comunicazione non verbale rientrano sia la gestualità e sia le espressioni
facciali.

L‟obiettivo principale di questo progetto è quello di approfondire lo studio sulla relazione
tra le emozioni e le interazioni sociali tra esseri umani da un punto di vista ingegneristico,
mediante la realizzazione di un sistema multimodale in grado di riconoscere le
caratteristiche emotive dell‟uomo. In particolare, lo scopo è quello di unire le capacità
fornire dalle reti neurali con le potenzialità delle tecniche di image processing.

Il lavoro qui presentato costituisce ancora un cantiere aperto; l‟obiettivo è quello di
arrivare alla creazione di un progetto robusto e completo, che possa unire tutte le
conoscenze disponibili, creando così un prodotto commerciale.
5.2 SVILUPPI FUTURI
In futuro si cercherà di migliorare la costruzione e il numero dei poligoni, in maniera tale
da avere un miglioramento nell‟analisi delle AUs e, di conseguenza, nel riconoscimento
delle emozioni. Inoltre, si cercherà di ottenere una maggiore robustezza del software,
fondendo entrambe le tecniche che abbiamo visto: quella basata su image processing e
quella basata su soft computing; per il momento i due lavori sono completamente separati,
ma i risultati ottenuti ci fanno sperare di ottenere un potenziamento attraverso la fusione di
entrambi i progetti.

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 5 – Conclusioni e sviluppi futuri


108
Oltretutto, il lavoro svolto sulle reti neurali potrà essere ulteriormente ampliato, se si pensa
al fatto che non è stata ancora presa in considerazione la parte alta del volto; attraverso la
valutazione dell‟apertura degli occhi (in funzione della presenza di zone bianche della
regione) e delle grinze sui lati degli occhi, si potranno riconoscere altre AUs.

Un altro punto in fase di sviluppo è l‟ottimizzazione del software in termini di velocità: per
questo motivo la soluzione è il multithreading, e i risultati sono nettamente in
miglioramento.
5.3 A CHI È RIVOLTO
L‟idea di creare un prodotto simile ha le seguenti tre finalità:
1. Reclutamento personale: in un ipotetico colloqui di lavoro, il reclutatore potrebbe
essere interessato ad analizzare lo stato emotivo del soggetto in analisi. Nello
specifico, potrebbe essere utile valutare in maniera approfondita la reazione emotiva
nel corso del colloquio;
2. Diagnosi precoce di patologie neurodegenerative come Alzheimer, Parkinson, etc.: le
malattie neurodegenerative rappresentano un onere notevole per la Sanità Pubblica;
la soluzione potrebbe essere quella di effettuare prevenzione sugli adulti di 50 anni
ed oltre, mediante una diagnosi precoce e non invasiva: è appurato che soggetti
affetti da patologie di questo tipo, presentano il cosiddetto flat affect, ossia una grave
riduzione sia dell‟espressività emotiva e sia nella capacità di riconoscere le emozioni;
3. Social networking: in un‟epoca in cui il social network è diventato parte integrante
della vita di quasi tutti i giovani e non solo, potrebbe essere utile e comodo
comunicare ai propri amici il proprio stato d‟animo mediante l‟immagine
caratteristica del proprio profilo; in questa circostanza, quindi, il software
analizzerebbe la foto del profilo di ciascun utente e aggiungerebbe al profilo stesso lo
stato emotivo rilevato dall‟immagine.

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Cap. 5 – Conclusioni e sviluppi futuri


109

RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Bibliografia


110
BIBLIOGRAFIA
1. Darwin, Charles. The Expression of the Emotions in Man and Animals. s.l. : Bollati
Boringhieri, 1872;
2. Darwin, Charles e Ekman, Paul. The Expression of the Emotions in Man and
Animals 2nd Ed. s.l. : Bollati Boringhieri, 1982;
3. A.Mehrabian, “Communication without words,” Psychology today, vol.2, no.4,
pp.53-56, 1968;
4. R.W. Picard, Affective Computing. Cambridge.MA : MIT Press, 1997
5. D. Beymer, A. Shashua, and T. Poggio, Example Based Image Analysis and
Synthesis, M.I.T. A.I. Memo No. 1431,1993;
6. Y.Yacob and L Devis, “Recognizing Human facial expression from long image
sequences using optical flow”, IEEE transaction on Pattern Analysis and Machine
Intelligence [PAMI], 18{6}: 636-642, 1996;
7. A New Tool to Support Diagnosis of Neurological Disorders by Means of Facial
Expressions - Vitoantonio Bevilacqua, Dario D‟Ambruoso, Giovanni Mandolino,
Marco Suma, M.:. In: IEEE Proc. of MeMeA, pp. 544–549;
8. A Supervised Approach to Support the Analysis and the Classification of Non
Verbal Humans Communications - Vitoantonio Bevilacqua, Marco Suma, Dario
D„Ambruoso, Giovanni Mandolino, Michele Caccia, Simone Tucci, Emanuela De
Tommaso, and Giuseppe Mastronardi - D.-S. Huang et al. (Eds.): ICIC 2011,
LNCS 6838, pp. 426–431, 2011. © Springer-Verlag Berlin Heidelberg 2011;
9. The expression of emotions in man and animals;
10. manuale di Chiarugi e Bucciante;
11. http://en.wikipedia.org/wiki/Facial_Action_Coding_System;
12. http://www.face-and-emotion.com/index.html;
13. Facial Action Coding System by Paul Ekman, Ph.D. Wallace V. Friesen, Ph.D.
Joseph C. Hager, Ph.D. ISBN 0-931835-01-1;
14. http://mplab.ucsd.edu/grants/project1/free-software/mptwebsite/API;
15. R. Lanzarotti, “Facial feature detection and description”, Master thesis, Università
degli studi di Milano, 2003;
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Bibliografia


111
16. T. Uchimaya, M. A. Arbib, “Color Image Segmentation Using Competitive
Learning”, IEEE Trans. on Pattern Analysis and Machine Intelligence, 1994;
17. A. Mavrinac, “Competitive Learning Techniques for Color Image Segmentation”,
Machine Learning and Computer Vision, 2007;
18. J. P. Lewis, “Fast Normalized Cross Correlation”, Industrial Light and Magic,
1995;
19. G. C. Feng, P. C. Yuen, “Variance projection function and its application to eye
detection for human face recognition”, Pattern Recognition Letters,1998;
20. The Japanese Female Facial Expression (JAFFE) Database,
http://www.kasrl.org/jaffe.html;
21. Psychological Image Collection at Stirling (PICS), http://pics.psych.stir.ac.uk;
22. Project dedicated for researches on facial emotionality, http://www.emotional-
face.org;

Sign up to vote on this title
UsefulNot useful