Tesi SumaMarco

POLITECNICO DI BARI
FACOLT DI INGEGNERIA
CORSO DI LAUREA TRIENNALE IN INGEGNERIA INFORMATICA
Dipartimento di Elettrotecnica ed Elettronica

TESI DI LAUREA
in
ELEMENTI DI SISTEMI ESPERTI

RICONOSCIMENTO INTELLIGENTE
DELLE EMOZIONI DALLE ESPRESSIONI
FACCIALI
AN INTELLIGENT SYSTEM FOR EMOTION
RECOGNITION FROM FACIAL EXPRESSIONS

Relatore:
Prof. Ing. Vitoantonio BEVILACQUA
Laureando:
Marco SUMA

ANNO ACCADEMICO 2010/2011

A Dio.
Alla mia Famiglia.
RICONOSCIMENTO INTELLIGENTE DELLE EMOZIONI DALLE ESPRESSIONI FACCIALI
Ringraziamenti

II
RINGRAZIAMENTI
Ringrazio sinceramente il Prof. Vitoantonio Bevilacqua, un vero e proprio punto di
riferimento; a lui devo buona parte delle nozioni acquisite in questi tre anni di studio e
durante questo lavoro di tesi.

Ringrazio la mia Famiglia; grazie a tutti gli sforzi economici sostenuti e al loro affetto sono
riuscito ad arrivare a questo traguardo.

Ringrazio i miei colleghi Dario DAmbruoso e Giovanni Mandolino, con i quali ho
collaborato per la realizzazione di questo progetto e non solo.

Un ringraziamento rivolto a tutti gli amici e le persone con cui ho condiviso questi tre
anni; il loro contributo, seppur indiretto, stato fondamentale soprattutto nei momenti pi
impegnativi.

Il raggiungimento di questo tipo di traguardo non pu e non deve far crescere solo
didatticamente, ma sotto ogni punto di vista. per questo che ringrazio tutti i professori
che ho incontrato nel mio percorso di studi.
Prefazione

III
PREFAZIONE
Il riconoscimento delle emozioni da parte di una macchina per mezzo delle espressioni
facciali umane una problematica piuttosto interessante. Essa rientra in buona sostanza in
quella che viene definita interazione uomo-macchina. Negli ultimi anni ci si concentrati
molto sul miglioramento degli aspetti legati a questa disciplina. Lobiettivo che ci si pone
in questi casi quello di fare in modo che la macchina possa comportarsi in qualche modo
come un essere umano.
Gli esseri umani interagiscono tra loro attraverso la comunicazione verbale, ma molto
spesso le parole vengono affiancate da movimenti del corpo e da espressioni facciali, i
quali facilitano la comprensione dello stato emotivo degli interlocutori che stanno
comunicando. Le emozioni sono quindi espresse per mezzo di aspetti sia visivi che sonori
dellinterlocutore. Labilit nel riconoscere le emozioni rientra in ci che noi comunemente
chiamiamo intelligenza. Il modo pi diretto attraverso il quale un essere umano esprime
le proprie emozioni attraverso le espressioni facciali. Possiamo evidentemente sfruttare
questi concetti per rendere intelligente una macchina, cio renderla in grado di
riconoscere le emozioni attraverso lindividuazione e lanalisi del volto di un essere
umano.
Dal punto di vista della cultura, della storia della filosofia occidentale, levoluzione dello
studio delle emozioni pu partire da Cartesio e dalla sua tendenza a scindere tra quelle che
erano, secondo lui, le propriet prettamente umane, come la razionalit, e le propriet di
tipo pi animale. Indubbiamente per Cartesio le emozioni appartenevano al cosiddetto
esprit des btes, allo "spirito degli animali". Tuttavia un primo avvicinamento pi
concreto al concetto di emozione lo si avuto con Darwin[1]. Secondo la teoria di Darwin
le emozioni possono essere pensate come entit innate e uguali per tutti. Questa teoria
permette di descrivere le emozioni come elementi funzionali ed adattativi, e pertanto
classificabili. Studiosi come Ekman, Friesen e Ellsworth [2] hanno confermato questa tesi,
individuando anche uno stretto legame appunto tra espressioni facciali ed emozioni. In
particolare, attraverso gli studi di Ekman stato possibile constatare una stretta relazione
tra movimenti dei muscoli facciali ed espressioni facciali e tra espressioni facciali ed
Prefazione

IV
emozioni, indipendentemente da fattori legati alla cultura e alla societ. Per esempio anche
in un gruppo della Nuova Guinea, di cultura primitiva, le espressioni facciali relative a
particolari emozioni somigliano molto a quelle delle societ pi avanzate; ci accade in
particolare per lemozione della rabbia, del disgusto, della felicit, della tristezza, della
paura e della sorpresa, che sembrano universalmente espresse allo stesso modo,
probabilmente perch biologicamente pi primitive e dunque universali.
Negli ultimi anni gli studi della psicologia si sono concentrati molto sullinterpretazione
delle espressioni facciali e sulla decodifica delle emozioni durante la vita quotidiana di un
essere umano. Albert Mehrabian[3], ad esempio, dimostr che, in una generica
conversazione, la parte verbale di un discorso contribuisce solo per il 7% sulleffetto del
messaggio, la parte vocale (tonalit, intensit, timbro,) contribuisce per il 38%, mentre le
espressioni facciali hanno un effetto peri al 55%. per questo motivo che, nella
realizzazione di un sistema complesso in grado di implementare un interazione uomo-
macchina, ci si proietta maggiormente nellanalisi delle espressioni facciali; tuttavia questo
non esclude la generalizzazione di un sistema multimodale che acquisisca parallelamente
informazioni visive, auditive e gestuali.
LAffective Computing, ossia lo studio dello sviluppo di sistemi in grado di riconoscere,
interpretare e simulare le emozioni umane, introduce le problematiche relative
allinterfacciamento tra le emozioni e i calcolatori, e ha come fondatrice Rosalind W.
Picard, che lavora presso il MIT [4]. Il problema del riconoscimento delle espressioni
facciali ha interessato molto la comunit della computer-vision. [5][6].
Le tecniche per lindividuazione e la codifica delle espressioni facciali si sono basate
sostanzialmente su due approcci: elaborazione delle immagini (image processing) e reti
neurali (Neural Network).
Lelaborazione delle immagini una vera e propria disciplina che interpreta ed elabora le
immagini per il tramite di operatori matematici, permettendo cos di estrapolare le
informazioni contenute allinterno dellimmagine: ad esempio piuttosto intuitivo capire
che, allinterno di un certo fattore di probabilit, il colore della pelle di un essere umano di
razza bianca rientri in un determinato intervallo della scala di colori, il quale tuttavia
dipendente anche dalla luminosit; oppure, nella regione degli occhi, le pupille occupano la
Prefazione

V
zona pi scura, tendente al nero. Tutte queste semplici caratteristiche possono essere
esaltate da questi operatori matematici.
Le reti neurali sono un modello matematico fortemente sviluppatosi nel XX secolo
attraverso il quale possibile risolvere problemi di elevata complessit non lineare, cio
problemi per i quali risulta molto complesso determinare una funziona analitica. Lutilizzo
delle reti neurali fortemente correlato con aspetti dellintelligenza artificiale. In
particolare nel nostro caso faremo riferimento a reti neurali con apprendimento
supervisionato basate su un algoritmo di tipo error back propagation. Questa tipologia di
rete prevede sostanzialmente una fase di apprendimento e di addestramento nella quale la
rete neurale viene istruita a seguire una determinata logica: nel nostro caso la rete neurale
ricever in ingresso determinate regioni del volto e dovr fornire una risposta presunta
sullo stato emotivo dellindividuo.
Il lavoro svolto allinterno di questa tesi di laurea, con la collaborazione dei colleghi Dario
DAmbruoso e Giovanni Mandolino, rientra in un progetto che ha come obiettivo la
realizzazione di un software in grado di acquisire immagini da webcam, riconoscere il
volto allinterno dellimmagine e rilevare le emozioni sullanalisi delle espressioni facciali.
Il progetto, coordinato dal professore Vitoantonio Bevilacqua, coinvolge anche altri
studenti, tra cui il dottorando Alessandro Ciccimarra, ideatore di una prima parte del
software di riconoscimento dei punti caratteristici del volto. Nello stesso ambito, abbiamo
realizzato due pubblicazioni scientifiche: [7] presentata al convegno internazionale
MeMeA 2011, tenutosi a Bari il 30-31 Maggio 2011, e [8] presentata ad ICIC 2011,
tenutasi a Zhengzhou (Cina) dal 11 al 14 Agosto 2011.
Un sistema automatico in grado di riconoscere le emozioni facciali pu essere utilizzato in
diversi scenari con caratteristiche molto diverse:
- In ambito medico, il legame tra le emozioni e le malattie neurodegenerative pu
essere sfruttato nel tracciare landamento emotivo di un paziente durante una visita
specialistica, fornendo cos un ausilio alla diagnosi precoce;
- In ambito lavorativo, durante una videoconferenza, sarebbe utile tenere traccia
dellandamento emotivo dei vari interlocutori;
Prefazione

VI
- Nellambito del mondo virtuale, dei social network, il sistema potrebbe interpretare
lo stato emotivo del soggetto sulla base della sua immagine profilo scelta.
Nel Capitolo 1 verr affrontata una visione generale sulle emozioni, e la correlazione con
le espressioni facciali.
Nel Capitolo 2 si parler delle utilizzo delle Action Units come mezzo di riconoscimento
delle emozioni.
Nel Capitolo 3 vengono presentate le tecniche legate allelaborazione delle immagini
utilizzate nel software.
Nel Capitolo 4 si argomenta lutilizzo delle reti neurali con apprendimento supervisionato.
Infine verranno esposte le considerazioni finali sugli sviluppi del progetto.

VII
SOMMARIO
RINGRAZIAMENTI ................................................................................................................................... II
PREFAZIONE ...........................................................................................................................................III
SOMMARIO ............................................................................................................................................. VII
CAPITOLO 1 LE EMOZIONI E LE ESPRESSIONI FACCIALI ........................................................ 1
1.1 INTRODUZIONE ....................................................................................................................... 2
1.2 I MUSCOLI MIMICI .................................................................................................................. 4
1.2.1 MUSCOLI DELLA VOLTA DEL CRANIO................................................................................ 5
1.2.2 MUSCOLI ESTRINSECI DEL PADIGLIONE AURICOLARE .................................................. 6
1.2.3 MUSCOLI DELLE PALPEBRE ................................................................................................ 6
1.2.4 MUSCOLI DEL NASO ............................................................................................................. 7
1.2.5 MUSCOLI DELLA BOCCA ...................................................................................................... 8
1.2.6 MUSCOLO PLATISMA ............................................................................................................ 9
1.2.7 AZIONE COMBINATA DEI MUSCOLI MIMICI ...................................................................... 9
1.3 LE EMOZIONI ............................................................................................................................ 9
1.3.1 CLASSIFICAZIONE DELLE EMOZIONI ............................................................................... 12
1.3.2 SORPRESA ............................................................................................................................ 16
1.3.3 TRISTEZZA ............................................................................................................................ 16
1.3.4 PAURA................................................................................................................................... 17
1.3.5 DISGUSTO ............................................................................................................................ 18
1.3.6 RABBIA .................................................................................................................................. 18
1.3.7 FELICIT .............................................................................................................................. 19
CAPITOLO 2 DECIFRARE LE EMOZIONI: LE ACTION UNITS .................................................. 21
2.1 INTRODUZIONE ..................................................................................................................... 22
2.2 UPPER FACE ACTION UNITS ................................................................................................ 22
2.2.1. AU-4: ABBASSAMENTO DELLE SOPRACCIGLIA ............................................................... 23
2.2.2. AU-1: INNALZAMENTO INTERNO DELLE SOPRACCIGLIA .............................................. 24
2.2.3. AU-2: INNALZAMENTO ESTERNO DELLE SOPRACCIGLIA .............................................. 24
2.2.4. AU-5: INNALZAMENTO DELLE PALPEBRE ....................................................................... 25
2.2.5. AU-6: INNALZAMENTO GUANCE E COMPRESSIONE PALPEBRE ................................... 26
2.2.6. AU-7: RESTRINGIMENTO DELLE PALPEBRE .................................................................... 26
2.2.7. AU-43: CHIUSURA DEGLI OCCHI ...................................................................................... 27
2.2.8. AU-45: CHIUSURA E RIAPERTURA DELLOCCHIO .......................................................... 27
2.2.9. AU-46: LOCCHIOLINO ................................................................................................... 27

VIII
2.3 LOWER FACE ACTION UNITS: SU/GI................................................................................ 28
2.3.1 AU-9: ARRICCIAMENTO DEL NASO ............................................................................... 28
2.3.2 AU-10: SOLLEVAMENTO DEL LABBRO SUPERIORE ........................................................ 29
2.3.3 AU-17: SOLLEVAMENTO DEL MENTO ............................................................................... 29
2.3.4 AU-15: DEPRESSIONE DEGLI ANGOLI DELLA BOCCA .................................................... 30
2.3.5 AU-25, AU-26, AU-27 ............................................................................................................ 31
2.3.6 AU-16: DEPRESSIONE DEL LABBRO INFERIORE ............................................................. 31
2.4 LOWER FACE ACTION UNITS: ORIZZONTALI ................................................................... 32
2.4.1 AU-20: STIRAMENTO DELLE LABBRA................................................................................ 32
2.4.2 AU-14: GENERAZIONE DELLE FOSSETTE ......................................................................... 33
2.5 LOWER FACE ACTION UNITS: OBLIQUA ........................................................................... 33
2.5.1 AU-11: APPROFONDIMENTO DEL SOLCO NASO LABIALE .......................................... 34
2.5.2 AU-12: TRAZIONE DEGLI ANGOLI DELLE LABBRA.......................................................... 34
2.5.3 AU-13: ARROTONDAMENTO DEGLI ANGOLI DELLE LABBRA ........................................ 35
2.6 LOWER FACE ACTION UNITS: ORBITALE ......................................................................... 36
2.6.1 AU-18: CORRUGAZIONE DELLE LABBRA.......................................................................... 36
2.6.2 AU-22: LABBRA AD IMBUTO ............................................................................................... 37
2.6.3 AU-23: TENSIONE DELLE LABBRA ..................................................................................... 37
2.6.4 AU-24: PRESSIONE DELLE LABBRA ................................................................................... 38
2.6.5 AU-28: RISUCCHIO DELLE LABBRA .............................................................................. 38
2.7 TABELLA RIASSUNTIVA ....................................................................................................... 39
2.8 AUS E LE EMOZIONI PRIMARIE ........................................................................................... 42
CAPITOLO 3 RICONOSCIMENTO DELLE AUS MEDIANTE ELABORAZIONE DELLE
IMMAGINI ...................................................................................................................................... 45
3.1 INTRODUZIONE ..................................................................................................................... 46
3.2 LALGORITMO ........................................................................................................................ 46
3.3 ACQUISIZIONE FRAME DA WEBCAM ................................................................................. 49
3.4 RICONOSCIMENTO DEL VOLTO E DELLA ZONA DEGLI OCCHI .................................... 49
3.4.1 IMAGE CLUSTERING ........................................................................................................... 51
3.4.2 IMAGE BINARIZATION ........................................................................................................ 52
3.4.3 OPERATORI DI MATHEMATICAL MORPHOLOGY ............................................................ 52
3.4.4 TEMPLATE MATCHING ....................................................................................................... 56
3.4.5 CROSS CORRELAZIONE NORMALIZZATA ......................................................................... 57
3.4.6 SUPPORT VECTOR MACHINE (SVM) ................................................................................. 58
3.4.7 CONNECTED COMPONENTS LABELING ........................................................................... 61
3.4.8 EQUALIZZAZIONE DELLISTOGRAMMA ........................................................................... 62
3.5 RICERCA DEI PUNTI CARATTERISTICI.............................................................................. 64
3.5.1 RICONOSCIMENTO DEGLI OCCHI .................................................................................... 64

IX
3.5.2 RICONOSCIMENTO DELLE SOPRACCIGLIA ..................................................................... 68
3.5.3 RICONOSCIMENTO DELLA BOCCA ................................................................................... 69
3.6 COSTRUZIONE POLIGONI PER IL RICONOSCIMENTO DELLE AUS .............................. 73
3.7 IMPLEMENTAZIONE DEL SOFTWARE ............................................................................... 77
CAPITOLO 4 RICONOSCIMENTO DELLE AUS MEDIANTE RETI NEURALI ............................ 80
4.1 INTRODUZIONE ..................................................................................................................... 81
4.2 APPLICAZIONI ........................................................................................................................ 83
4.3 RETI NEURALI BIOLOGICHE ............................................................................................... 86
4.4 NEURONI ARTIFICIALI ......................................................................................................... 88
4.5 RETI NEURALI ARTIFICIALI ................................................................................................ 90
4.5.1 RETI FEED-FORWARD MULTISTRATO .............................................................................. 91
4.6 APPRENDIMENTO .................................................................................................................. 93
4.7 COME RICONOSCERE LE AUS CON UNA RETE NEURALE .............................................. 98
4.7.1 REGIONE DELLA BOCCA .................................................................................................. 103
4.7.2 REGIONE DEL NASO ......................................................................................................... 105
CAPITOLO 5 CONCLUSIONI E SVILUPPI FUTURI .................................................................... 106
5.1 CONCLUSIONI ...................................................................................................................... 107
5.2 SVILUPPI FUTURI ................................................................................................................ 107
5.3 A CHI RIVOLTO.................................................................................................................. 108
BIBLIOGRAFIA ...................................................................................................................................... 110

CAPITOLO 1
Le emozioni e le espressioni facciali

Cap. 1 Le emozioni nelle espressioni facciali

2
Il volto umano a riposo e in movimento, in punto di morte cos come in vita, in
silenzio e nel parlare, visto o sentito dallinterno, nella realt o rappresentato in forma
artistica o ripreso da una telecamera una fonte di informazioni complicata che si
impone e a volte confonde. (Ekman, Friesen e Ellsworth, 1972)
1.1 INTRODUZIONE
Quando si parla di comunicazione, il pensiero rivolto alla comunicazione verbale o
scritta. In realt il 70% del flusso comunicativo tra due o pi interlocutori si basa sulla
cosiddetta comunicazione non verbale, costituita da:
- Variazioni nellintonazione intensit vocale;
- Postura;
- Gesti non intenzionali/spontanei;
- Prossemica ( uninteressante branca della comunicazione che studia come ci
poniamo fisicamente davanti o di lato alle persone, quanto stiamo loro vicino, dove
ci andiamo a sedere in una stanza quando ci sono altre persone e perch);
- Espressioni mimico facciali.
Lo studio delle espressioni facciali rappresenta uno dei campi pi importanti e affascinanti
della psicologia della comunicazione non verbale. Infatti il volto, e in particolare le
espressioni che lo caratterizzano, costituisce un canale molto importante sul piano
comunicativo ed espressivo. Limportanza di questa parte del corpo nel trasmettere
messaggi evidenziata dal bisogno che spesso abbiamo di vedere in faccia il nostro
interlocutore. Attraverso il volto siamo in grado di esprimere con precisione il nostro stato
emotivo, cos come anche atteggiamenti interpersonali difficilmente controllabili. Poeti e
filosofi hanno da sempre parlato di emozioni e, nelle opere di molti scrittori, antichi e
medievali, di ogni provenienza, possono essere rintracciate osservazioni circa lapparire
delle emozioni sul volto.
Charles Darwin [9] stato il primo a indicare il significato delle emozioni, il loro valore
adattativo, ad interpretarle cio in termini di utilit e di comunicazione. I concetti di
espressione e di emozione sono stati utilizzati da Darwin in unaccezione distante da

3
come potrebbero essere utilizzati in un approccio attuale. Ad esempio egli intese per
espressione un azione di ogni genere e invece di riferirsi ad una lista di emozioni di base
lavor con una serie di stati della mente, in termini di emozioni, tratti motivazionali,
sensazioni, ecc.
I primi studi compiuti allinizio del Novecento si basarono sul presupposto che i volti
esprimono emozioni. Sulla base di tale filosofia, sorsero spontanee due domande:
innanzitutto essi si chiesero che cosa possano inferire gli osservatori dai volti. Alcuni
studiosi analizzarono le espressioni facciali in laboratorio, altri cercarono di suscitare
emozioni autentiche in situazioni controllate. Il secondo grande interrogativo riguarda il
ruolo e limportanza che il contesto pu assumere nella percezione delle espressioni
facciali.
Dagli anni Ottanta le ricerche furono coordinate dal Programma Espressione Facciale. Esso
si basava su un insieme di teorie e metodi centrati principalmente su una lista di specifiche
emozioni primarie. Tomkins, Ekman e Izard furono in grado di identificare alcune
configurazioni facciali associabili indistintamente alle varie emozioni. Essi formularono
lipotesi che le espressioni facciali sono collegate alle emozioni e si usano per trasmettere
informazioni, ed evidenziarono limportanza di una manifestazione coerente delle
emozioni allinterno di un contesto sociale. Limportanza dello studio approfondito delle
emozioni nelle espressioni facciali nasce proprio dalla forte influenza che esse manifestano
allinterno delle nostre interazioni sociali. Linterpretazione corretta di espressioni facciali
distinte costituiscono un sistema di segnalazione che fornisce un adattamento evolutivo ad
alcuni dei maggiori problemi della vita.
Linterazione sociale viene modificata dalle espressioni facciali per tre motivi:
1. Le espressioni facciali rappresentano una ricca fonte di informazione per gli
interlocutori circa lo stato danimo dellemittente;
2. Le espressioni facciali delle emozioni sono contagiose, cio suscitano delle reazioni
nellosservatore;
3. Le espressioni facciali delle emozioni forniscono incentivi per i comportamenti sociali
delle altre persone.

4
Possiamo quindi affermare che, nonostante una delle pi importanti funzioni della
comunicazione non verbale rimanga quella di esprimere emozioni, le manifestazioni del
volto sono pi che espressioni di stati interni.
Lemozione (dal latino emotus = muovere da, movimento) indica un particolare
movimento corporeo, spontaneo o simulato, dettato da stati mentali e fisiologici associati a
precisi stimoli interni o esterni. Il volto, principale culla delle emozioni, risulta quindi
essere un sistema di risposta multisegnale multimessaggio, capace di unenorme
flessibilit e specificit. Tale sistema in grado di produrre diciotto differenti messaggi
tramite luso dei muscoli facciali i quali distorcono temporaneamente la forma degli occhi,
delle sopracciglia, delle labbra e la sembianza delle pieghe, le rughe e i rigonfiamenti della
pelle. La durata di queste manifestazioni oscilla tra i 250 millisecondi e i 5 secondi. I
muscoli coinvolti, i muscoli della testa, si dividono in epicranica, orbitaria, buccale, nasale
ed auricolare. Pi in generale i muscoli facciali si dividono in mimici e scheletrici. I primi
sono costituiti dai muscoli che consentono i cambiamenti delle espressioni facciali; i
secondi determinano il movimento di un preciso osso.
1.2 I MUSCOLI MIMICI


5

Fig. 1.1. I muscoli mimici
I muscoli mimici, situati appena sotto la pelle, sono quindi quelli che ci consentono di
esprimere emozioni attraverso una variet di espressioni facciali. Questi muscoli esercitano
anche varie funzioni come la pressione, la masticazione e altro ancora. I muscoli mimici di
maggiore interesse sono i seguenti [10]:
- Muscoli della volta del cranio;
- Muscoli estrinseci del padiglione auricolare;
- Muscoli delle palpebre;
- Muscoli del naso;
- Muscoli della bocca;
- Muscolo platisma.
Una breve presentazione dei muscoli interessati al movimento del volto necessaria in
quanto la loro combinazione costituisce, come vedremo in seguito, la costituzione di unit
fondamentali (Action Units) il cui utilizzo diventa fondamentale per il riconoscimento
delle emozioni, specialmente in un sistema automatizzato che necessita di uno strumento di
misura.
1.2.1 MUSCOLI DELLA VOLTA DEL CRANIO
I muscoli della volta del cranio si dividono in muscolo epicranico e muscolo procerus.

6

(a) (b)
Fig. 1.2. Il muscolo epicranico (a) e il muscolo procerus (b).
Il muscolo epicranico si estende sulla volta cranica ed formato da tre porzioni: muscolo
frontale, muscolo occipitale e galea capitis (o aponeurosi epicranica).
Il muscolo procerus (o piramidale) costituito da fibre, tramite le quali possibile eseguire
movimenti pi raffinati ed evoluti.
1.2.2 MUSCOLI ESTRINSECI DEL PADIGLIONE AURICOLARE
Questi muscoli sono rappresentati dal muscolo auricolare antero-superiore e dal muscolo
auricolare posteriore. I muscoli auricolari consentono spostamenti in direzioni anteriore,
superiore e posteriore del padiglione auricolare.
1.2.3 MUSCOLI DELLE PALPEBRE
I muscoli delle palpebre comprendono il muscolo orbicolare dellocchio e il muscolo
corrugatore del sopracciglio.
Il muscolo orbicolare dellocchio ha un estrema importanza nella manifestazione degli stati
danimo, in particolare nella risata (si forma un solco tra la parte inferiore della palpebra,
che si rialza, e la guancia).

7

Fig. 1.3. Il muscolo orbicolare dellocchio.
Il muscolo corrugatore del sopracciglio, contraendosi, porta medialmente e in basso la cute
del sopracciglio, permettendo la formazione di pieghe longitudinali ai lati della radice del
naso. anche responsabile dellincurvatura del sopracciglio. Insieme ad altri muscoli,
utilizzato per esprimere uno stato di concentrazione o uno sforzo muscolare.

Fig. 1.4. Il muscolo corrugatore del sopracciglio.
1.2.4 MUSCOLI DEL NASO
I muscoli del naso comprendono il muscolo nasale e il muscolo dilatatore delle narici.
Il muscolo nasale pu comprimere la parete laterale del naso, restringendo la narice;
formato da una parte traversa e da una parte alare.
Il muscolo dilatatore delle narici, contraendosi, sposta lateralmente lala del naso dilatando
la narice e il vestibolo.

8

(a) (b) (c)
Fig. 1.5. Il muscolo nasale: parte traversa (a), parte alare (b); muscolo dilatore delle narici (c).
1.2.5 MUSCOLI DELLA BOCCA
Questa zona del volto ricca di muscoli; basti pensare al fatto che abbiamo bisogno di
masticare e di parlare, per cui questi stessi muscoli intervengono nella manifestazione delle
emozioni: il muscolo zigomatico, il muscolo quadrato del labbro superiore, il muscolo
canino, il muscolo buccinatore, il muscolo risorio, il muscolo triangolare, il muscolo
quadrato del labbro inferiore, il muscolo mentale, i muscoli incisivi del labbro superiore e
del labbro inferiore e il muscolo orbicolare della bocca.

(a) (b) (c) (d) (e) (f)

(g) (h) (i) (l) (m)
Fig. 1.6. Il muscolo zigomatico minore (a); il muscolo zigomatico maggiore (b); il muscolo quadrato del
labbro superiore (c); il muscolo canino (d); il muscolo buccinatore (e); il muscolo risorio (f); il muscolo
triangolare delle labbra (g); il muscolo quadrato del labbro inferiore (h); il muscolo mentale (i); il
muscolo orbicolare della bocca (l); il muscolo elevatore del labbro superiore (m).

9
1.2.6 MUSCOLO PLATISMA
Il muscolo platisma un ampio muscolo laminare del collo, ma comunque responsabile
di alcuni movimenti facciali. associato al movimento della parte inferiore del labbro,
consentendone lallungamento e la tensione. Insieme ad altri muscoli, aumenta
lespressivit di questi nella collera, nello spavento, nel terrore, nella sofferenza.

Fig. 1.7. Il muscolo platisma.
1.2.7 AZIONE COMBINATA DEI MUSCOLI MIMICI
Di solito questi muscoli non entrano in azione singolarmente, ma mediante un azione
combinata. Ad esempio, nel sorriso interviene una contrazione moderata del complesso
buccinatore-zigomatico-risorio; se il sorriso si converte in riso, le commessure labiali sono
sollevate pi fortemente per lintensa contrazione dei muscoli zigomatici, che danno allora
al solco naso-labiale una forma ad S caratteristica. Nel riso pure tipico lincrespamento
delle palpebre e la comparsa di rughe. Nella tristezza, invece, vi la contrazione del
triangolare delle labbra e del corrugatore del sopracciglio. Infine, nel pianto, si accentua
lapertura palpebrale e lala del naso discende.
1.3 LE EMOZIONI
In generale, le emozioni sono determinate geneticamente, sono universali e distinte. In
particolare, luniversalit delle stesse stata sperimentata da Ekman nei suoi studi; da qui
nasce la necessit di dichiarare formalmente lesistenza delle cosiddette emozioni
primarie; infatti, una distinzione che emerge dalla letteratura sulle emozioni quella tra

10
emozioni primarie e emozioni secondarie. Secondo la tradizione filosofica, le emozioni
primarie erano generalmente considerate il fondamento di tutta la vita umana.
Le pi importanti teorie formulate nel corso della storia (Ekman Tomkins Izard) si
sono basate sulluniversalit delle espressioni facciali di queste emozioni primarie: si
giunti alla conclusione che lesperienza emozionale radicata nel biologico ed legata
pi alla memoria filogenetica che allapprendimento individuale (Galati, 1993). Queste
teorie, chiamate teorie differenziali o discrete, sostengono che alcune risposte emozionali
di base, cio le emozioni primarie, si sono evolute per fornire risposte di adattamento
efficaci ai problemi posti dallambiente. Queste emozioni, inoltre, costituiscono le
componenti elementari a partire dalle quali si costruiscono tutte le emozioni secondarie.
Contrapposte a queste teorie, vi sono le teorie componenziali delle emozioni, che
prendono come riferimento teorico i modelli della psicologia cognitiva. Secondo questo
punto di vista, non esistono emozioni primarie innate intese come unit elementari a partire
dalle quali si costruiscono le emozioni secondarie o complesse, ma le emozioni sono
concepite come composti di diversi elementi (fisiologici e mentali) che possono comparire
in pi di unemozione e anche in stati psicologici diversi dalle emozioni. Per esempio,
secondo la teoria di Shachter e Singer (1962), poi ripresa da Mandler (1984), lemozione
la risultante di due componenti: lattivazione fisiologica e i processi cognitivi.
Per ultimo, esistono anche teorie dimensionali, secondo le quali lesperienza emozionale
si struttura non sulla base di emozioni primarie, ma a partire da strutture generali di
organizzazione della risposta, come la tendenza allavvicinamento o allallontanamento, la
valutazione della piacevolezza o della spiacevolezza degli eventi che causano lemozione.
Lo specchio delle nostre emozioni il volto. Il volto il miglior mezzo espressivo
attraverso il quale esprimiamo le nostre emozioni; per questo motivo che nel corso dei
nostri studi ci si maggiormente concentrati sia sul volto, inteso come principale fonte di
informazioni per analizzare le emozioni, sia sulle teorie differenziali, in quanto sono
strettamente legate ad aspetti particolari delle emozioni, come le espressioni facciali, che
mettono in risalto la specificit delle emozioni primarie.

11
Il volto, come pi volte detto precedentemente, il luogo dove si concentrano la maggior
parte delle informazioni sensoriali. Esso, quindi, emette dei segnali classificabili come:
- Segnali facciali statici: rappresentano fondamentalmente i tratti somatici del volto, e
sono quindi permanenti;
- Segnali facciali lenti: rappresentano le variazioni che avvengono sul volto nella
crescita dellindividuo (rughe, caratteristiche della pelle);
- Segnali artificiali: causati dalla presenza di occhiali o cosmetici;
- Segnali facciali rapidi: scaturiscono dalleffetto di attivit neuromuscolari che
comportano variazioni nellapparenza estetica.
Linsieme di questi segnali contribuisce al riconoscimento facciale. I segnali facciali rapidi
sono quelli pi complessi da analizzare, ma allo stesso tempo sono segnali che ci
permettono di veicolare la maggior parte informazioni secondo la seguente classificazione:
- Le emozioni;
- Gli emblemi: movimenti simbolici (es.: ammiccare, fare la linguaccia);
- I manipolatori: movimenti di auto-manipolazione (es.: mordersi le labbra);
- Gli illustratori: movimenti che accompagnano il parlato (es.: alzare le
sopracciglia);
- I regolatori: movimenti intrinseci nella comunicazione non verbale (es.: sorridere,
assentire).
Tra i messaggi riguardanti i segnali facciali rapidi, quello che interessa maggiormente sono
le emozioni. La complessit del volto e la capacit intrinseca dellessere umano di poter
trasmettere pi messaggi di diverso tipo contemporaneamente, rende piuttosto delicata
lidentificazione perfetta dellemozione. In altri termini, quello che pu succedere che
segnali facciali rapidi siano sporcati ad esempio da segnali artificiali o segnali facciali
lenti. Un altro fattore inquinante lo stato danimo; ad esempio se una persona ha un
umore negativo, questo potrebbe influire sulla fisionomia temporanea del volto.


12
1.3.1 CLASSIFICAZIONE DELLE EMOZIONI
In primo luogo, sorge spontanea la necessit di classificare univocamente le emozioni.
Occorre, tuttavia, fare delle osservazioni:
- Sin dai primi giorni di vita, lessere umano in grado di manifestare emozioni quali
la paura, lamore e lira (emozioni innate);
- Entro i primi cinque anni, vengono sviluppate anche altre emozioni: vergogna, ansia,
gelosia e invidia;
- Dopo il sesto anno di et si in grado non solo di manifestare qualsiasi emozione
possibile, ma anche di mascherarle e simularle.
In seguito, tra le tante teorie differenziali esistenti, ne presentiamo due: la teoria di
Plutchik, e la teoria di Ekman; tuttavia prenderemo come riferimento solo la teoria di
Ekman.
Teoria di Plutchik
Robert Plutchik (21 Ottobre 1927 29 Aprile 2006) stato un emerito professore
universitario della Albert Einstein College of Medicine e della University of South
Florida, e ha presentato pi di 260 articoli sulle emozioni e su studi psicologici.

Fig. 1.8. Robert Plutchik.


13
Egli afferma che le emozioni primarie sono biologicamente primitive e si sono evolute in
modo da consentire alla specie di sopravvivere. Secondo questa teoria esistono 8 emozioni
primarie, definite a coppie:
- Gioia Tristezza;
- Fiducia Disgusto;
- Rabbia Paura;
- Sorpresa Anticipazione.

Fig. 1.9. La ruota delle emozioni (R.Plutchik).
Ogni colore rappresenta un emozione nelle sue varie intensit; al diminuire dellintensit le
emozioni si possono facilmente confondere.
Teoria di Ekman
Paul Ekman (Washington D.C., 15 Febbraio 1934) uno psicologo statunitense. Egli
divenuto un pioniere nel riconoscere le emozioni e le espressioni facciali; considerato
uno dei 100 psicologi pi importanti del ventesimo secolo ed valso a Ekman lingresso
nella lista delle 100 persone pi influenti al mondo.

14

Fig. 1.10. Paul Ekman.
Questa teoria si basa su un analisi e un raffronto interculturale; in altri termini, le emozioni
definite come primarie, secondo questa teoria, sono quelle riconosciute universalmente,
indipendenti dal contesto culturale in cui ci si trova:

Felicit Tristezza Rabbia

Paura Sorpresa Disgusto
Fig. 1.11. Le emozioni primarie (Ekman).
Lesperimento stato condotto su 21 gruppi di studio in stati differenti e consisteva nel
mostrare a ciascun gruppo le 6 foto rappresentanti le 6 emozioni; il risultato stato che:

15
- In tutti e 21 gli stati le persone hanno associato univocamente felicit, tristezza e
disgusto;
- In 20 su 21 stati la maggioranza ha concordato anche sulla sorpresa;
- In 19 su 21 stati la maggioranza ha concordato anche sulla paura;
- In 18 su 21 stati la maggioranza ha concordato anche sulla rabbia.
Oltre a questo risultato, Ekman giunse anche alla definizione di emozione primaria, la
quale deve possedere le seguenti 11 caratteristiche per essere definita tale:
1. Segnali universali distintivi: lemozione primaria devessere caratterizzata da
precisi e dedicati segnali;
2. Fisiologia distintiva: ogni emozione primaria devessere associata ad una risposta
fisiologica specifica;
3. Valutazione automatica: lemozione primaria riconoscibile anche
inconsciamente;
4. Eventi precedenti distintivi: devono esistere una serie di stimoli esterni in grado
di stimolare la particolare emozione primaria;
5. Apparizione distintiva nella crescita: le emozioni primarie dovrebbero apparire in
momenti differenti della crescita del bambino;
6. Presenza in altri primati: le emozioni primarie dovrebbero essere presenti anche
negli altri primati;
7. Attivazione rapida: lemozione primaria deve attivarsi velocemente e, per tale
ragione, la percezione avviene solo dopo la sua completa manifestazione;
8. Durata breve: lemozione primaria si svolge in pochi secondi o millisecondi;
9. Attivazione non controllabile: lapparizione di un emozione primaria dovrebbe
essere spontanea;
10. Pensieri e immagini distintive: deve esistere un associazione fra emozioni
primarie e certe tipologie di pensiero e di immagini mentali;
11. Esperienza soggettiva distintiva: ogni individuo in grado di distinguere le varie
emozioni primarie.
Queste caratteristiche non sono universalmente riconosciute, ma comunque rappresentano
unottima base di partenza per la ricerca.

16
In seguito, facendo riferimento alla classificazione basata sulla teoria di Ekman, verranno
presentate le emozioni primarie e, nei capitoli successivi, le tecniche di identificazione.
1.3.2 SORPRESA
La sorpresa lemozione pi breve, scatta allimprovviso; sicuramente lemozione pi
difficile da controllore, e quindi pi spontanea. Solitamente la sorpresa seguita da un
sentimento: ad esempio si pensi a cosa succede quando si completamente assorti nella
lettura di un libro e improvvisamente qualcuno da dietro ci spaventa: la reazione
immediata consiste nella sorpresa, ma immediatamente dopo si ha paura.
Le espressioni facciali associate a questa emozione sono caratterizzate dal formarsi di
pieghe parallele sulla fronte, dallo spalancarsi degli occhi e il dischiudersi della bocca. I
muscoli coinvolti sono: il frontale, gli orbicolari, il risorio e il buccinatore:

Fig. 1.12. Sorpresa.

1.3.3 TRISTEZZA
La tristezza trasmette un espressione di sofferenza. Si manifesta silenziosamente in un
tempo relativamente lungo, soprattutto quando ci rendiamo conto di non avere pi la
possibilit di raggiungere un nostro obiettivo prefissato. I cambiamenti causati da
questemozione sono molteplici: il viso impallidisce, i muscoli sono molli, le palpebre si
abbassano, la testa pende sul petto, le labbra, le guance e la mascella sono portate verso il
basso.

17
Laspetto del volto viene modificato nel seguente modo: le sopracciglia sono sollevate e
tendono a unirsi, gli occhi sono aperti, la palpebra inferiore tesa, le labbra sono tese
indietro e verso il basso. La glabella si restringe e i solchi naso-labiali si approfondiscono:

Fig. 1.13. Tristezza.
1.3.4 PAURA
La paura scaturisce da una forte situazione di disagio, che pu essere fisica, psicologica o
entrambe. Si assomiglia molto alla sorpresa, ma in questo caso lesperienza a cui
associata la paura sempre sgradevole e la durata della sua manifestazione pi lunga.
Similmente alla sorpresa, si nota lapertura massima degli occhi, le sopracciglia tendono ad
unirsi e a sollevarsi nel mezzo, con la presenza di rughe sulla fronte:

Fig. 1.14. Paura.

18
1.3.5 DISGUSTO
Il disgusto un emozione associata ad una sensazione di repulsione, dovuta al gusto,
allodore, al tatto, alla vista, alludito o ad un semplice pensiero. un emozione
assolutamente soggettiva.
La manifestazione sul volto avviene soprattutto tramite la parte medio bassa del volto: il
labbro superiore del volto sollevato, il naso arricciato, le palpebre inferiori sono
sollevate e le sopracciglia abbassate:

Fig. 1.15. Disgusto.
1.3.6 RABBIA
La rabbia lemozione associata ad uno stato danimo pericoloso dellindividuo in esame;
in questa circostanza lessere umano potenzialmente propenso a fare del male a qualcuno.
Sul volto, la rabbia si manifesta attraverso il rossore, la vistosit delle vene sulla fronte, le
sopracciglia abbassate e ravvicinate, le palpebre inferiori tese, quelle inferiori abbassate,
gli occhi rigidi e quasi spalancati e la bocca serrata o squadrata.

19

Fig. 1.16. Rabbia.
1.3.7 FELICIT
La felicit lemozione pi piacevole; ci si augurerebbe di essere sempre felici. Si pu
essere felici per un piacere o per uno stato euforico, eccitante. Siamo felici quando accade
qualcosa che migliora la nostra immagine, quando dobbiamo fare qualcosa che ci interessa,
ci entusiasma, quando riceviamo un complimento, quando scopriamo di piacere a una
persona e in molte altre situazioni. Tuttavia allemozione della felicit non necessariamente
devessere associato il sorriso sul volto.
La felicit si manifesta sul volto attraverso il sollevarsi degli angoli della bocca, la quale
pu essere chiusa o aperta in modo da rendere visibili i denti, le pieghe naso labiali
maggiormente marcate, le guance e le palpebre inferiori che si sollevano verso lalto e gli
angoli esterni degli occhi che formano delle zampe di gallina:

Fig. 1.17. Felicit.

20

CAPITOLO 2
Decifrare le emozioni: le Action Units

Cap. 2 Decifrare le emozioni: le Action Units

22
2.1 INTRODUZIONE
La breve descrizione dei muscoli mimici e la presentazione delle emozioni nel capitolo
precedente, ci consentono di introdurre e spiegare in maniera opportuna le Action Units.
La domanda che ci si pone la seguente: C una relazione tra lespressione facciale
delle emozioni e quello che una persona sta provando? Lo strumento che pu fornirci
risposte valide a questa domanda il FACs (Facial Action Coding System) [11][12][13]. Il
FACs un sistema sviluppato da Ekman e Friesen che in grado di sfruttare il fatto che
esistono espressioni specifiche che esprimono diverse emozioni. In particolare, come gi
spiegato, la combinazione dei movimenti dei muscoli mimici a garantire lespressivit
del volto; per formare un legame tra la muscolatura facciale e le emozioni introduciamo le
Action Units (AUs): le AUs sono unit fondamentali che rappresentano azioni facciali
minime, non ulteriormente scomponibili; sono costituite dallazione combinata di uno o
pi muscoli; in altre parole, non c una corrispondenza tra un muscolo e una AU.
Le AUs sono suddivise in gruppi a seconda della posizione o al tipo di azione:
- AUs per la parte superiore del volto (Upper Face) e riguardano le sopracciglia, la
fronte e le palpebre;
- AUs per la parte inferiore del volto (Lower Face) e sono divisi in cinque gruppi:
su/gi, orizzontali, oblique, orbitali e varie;
2.2 UPPER FACE ACTION UNITS
In figura vengono mostrati i muscoli, descritti in precedenza, che sono coinvolti nelle AUs
della parte alta del volto:


23

(a) (b) (c) (d)
Fig. 2.1. Muscoli coinvolti nellUpper Face Action Units.
Elenchiamo ora le AUs associate a questi muscoli, per poi analizzarle in dettaglio:
o AU-4: azione di movimento contemporaneo verso il basso delle sopracciglia;
o AU-1: azione di sollevamento dellangolo interno della fronte;
o AU-2: azione di sollevamento dellangolo esterno della fronte;
o AU-5: azione di sollevamento della palpebra superiore, ampliando lapertura
dellocchio;
o AU-6: azione di arrotondamento dellocchio;
o AU-7: azione di restringimento delle palpebre riducendo lapertura dellocchio;
AUs pi complesse, cio ottenute dalla combinazione di altre AUs, sono le seguenti:
o AU-43: azione di abbassamento della palpebra superiore, per la quale si passa dalla
caduta della palpebra alla chiusura rilassata degli occhi;
o AU-45: azione di chiusura e riapertura dellocchio;
o AU-46: azione di chiusura e riapertura repentina dellocchio (occhiolino).
2.2.1. AU-4: ABBASSAMENTO DELLE SOPRACCIGLIA

Fig. 2.2. Manifestazione dell AU-4.
Come mostrato in figura, gli effetti di questa AU possono essere elencati come segue:

24
- Abbassamento delle sopracciglia: pu abbassarsi solo la parte interna, o le due parti
interne centrali, o lintero sopracciglio;
- Movimento dellocchio verso il basso;
- Avvicinamento delle sopracciglia;
- Produzione di rughe verticali (o con angolatura di 45) tra sopracciglia.
- Produzione di una ruga obliqua o rigonfiamenti dei muscoli che vanno dal centro
della fronte verso langolo interno della stessa.
2.2.2. AU-1: INNALZAMENTO INTERNO DELLE SOPRACCIGLIA

Questa AU associata al movimento della parte centrale del muscolo frontale. Nel
complesso, possiamo descrivere i seguenti effetti:
- Spostamento della parte interna del sopracciglio verso lalto;
- Il sopracciglio pu assumere un orientamento obliquo;
- Formazione di rughe orizzontali nel centro della fronte.
2.2.3. AU-2: INNALZAMENTO ESTERNO DELLE SOPRACCIGLIA

In questo caso, la parte del muscolo frontale che si contrae quella esterna; gli effetti legati
a questa AU sono:

25
- Trazione della porzione laterale del sopracciglio verso lesterno;
- Produzione di una forma arcuata delle sopracciglia;
- Allungamento parziale della parte laterale della piega che copre locchio;
- Presenza, in alcuni volti, di rughe orizzontali di piccole dimensioni.
2.2.4. AU-5: INNALZAMENTO DELLE PALPEBRE

Questa AU legata allo spostamento indietro della palpebra superiore verso la cavit
oculare; quando la palpebra superiore rilassata, essa poggia sul bulbo oculare (AU-43),
mentre quando completamente rilassata consente allocchio di chiudersi (AU-43E). La
presenza di tale AU rappresentata da:
- Allargamento dellapertura degli occhi;
- Sollevamento della palpebra superiore in modo che essa possa scomparire
parzialmente o definitivamente;
- Esposizione accentuata del bulbo oculare;
- La forma laterale dellocchio risulta variata, con unesposizione di sclera al di sopra
delliride;
- Il soggetto pare guardare fisso in un punto;
- Sollevamento della palpebra inferiore.


26
2.2.5. AU-6: INNALZAMENTO GUANCE E COMPRESSIONE
PALPEBRE

La presenza di questa AU rappresentata da:
- Aumento del triangolo infraorbitale e sollevamento delle guance;
- Pressione della pelle che circonda locchio;
- Presenza delle cosiddette zampe di gallina e rughe;
- Aumento della profondit del solco della palpebra inferiore;
2.2.6. AU-7: RESTRINGIMENTO DELLE PALPEBRE

Gli effetti di questa AU sono:
- Restringimento delle palpebre;
- Restringimento dellapertura degli occhi;
- Sollevamento della palpebra inferiore in modo da coprire buona parte del bulbo
oculare;
- Variazione della forma delle sopracciglia che assumono una forma curvata;
- Si genera un rigonfiamento della palpebra inferiore;

27
- Generazione di un solco al di sotto della palpebra inferiore;
2.2.7. AU-43: CHIUSURA DEGLI OCCHI

Questa AU nasce dalla fusione tra AU-5 e AU-7. caratterizzata da:
- La palpebra si piega verso il basso, riducendo lapertura degli occhi;
- Maggiore esposizione della palpebra superiore, rispetto alle condizioni normali.
La presenza di tale AU implica che locchio sia semplicemente chiuso, ma non ci devono
essere segni di tensione sulle palpebre.
2.2.8. AU-45: CHIUSURA E RIAPERTURA DELLOCCHIO
Anche questa AU nasce dalla fusione dellAU-5 e AU-7; la presenza di tale AU avviene
quando:
- Locchio si chiude e riapre, senza presentare alcuna esitazione o pausa;
- Se bilaterale, gli occhi non possono stare chiusi per pi di mezzo secondo,
altrimenti lAU sar quella precedente (AU-43).
2.2.9. AU-46: LOCCHIOLINO
Anche questa AU nasce dalla fusione dellAU-5 e AU-7; i cambiamenti introdotti da tale
AU sono:
- Chiusura di un solo occhio, per un tempo breve, ma tuttavia con una pausa prima
della successiva riapertura;
- La chiusura non deve avere durata inferiore ai 2 secondi;
- Presentazione delle zampe di gallina, se molto intensa.

28
2.3 LOWER FACE ACTION UNITS: SU/GI

(a) (b) (c) (d) (e)
Fig. 2.9. Muscoli coinvolti nelle Lower Face AUs Su/Gi.
I muscoli mostrati in figura sono i responsabili degli spostamenti della pelle diretti verso
lalto e verso il basso. Le AUs associate allazione di questi muscoli sono:
o AU-9: arricciamento del naso;
o AU-10: azione di sollevamento del labbro superiore;
o AU-15: azione di depressione degli angoli della bocca;
o AU-16: azione di depressione del labbro inferiore;
o AU-17: azione di sollevamento del mento.
La combinazione di queste AUs crea altre AUs complesse:
o AU-25: azione di divisione delle labbra;
o AU-26: azione di divisione della mascella;
o AU-27: azione di divisione e trazione della mandibola.
2.3.1 AU-9: ARRICCIAMENTO DEL NASO

Fig. 2.10.Manifestazione dellAU-9.

29
La presenza di tale AU comporta:
- La generazione di rughe lungo i lati del naso, a causa della trazione della pelle lungo
gli stessi;
- Trazione verso lalto del triangolo infraorbitale;
- Depressione della zona centrale delle sopracciglia;
- Diminuzione dellapertura degli occhi;
- Trazione del centro del labbro verso lalto (non sempre).
2.3.2 AU-10: SOLLEVAMENTO DEL LABBRO SUPERIORE

Con la presenza di questa AU, possiamo osservare:
- Il sollevamento del labbro superiore;
- La generazione di una forma curvata del labbro superiore;
- La spinta del triangolo infraorbitale verso lalto;
- Il solco naso labiale maggiormente profondo, con il sollevamento della parte
superiore dello stesso;
- Lallargamento e linnalzamento delle ali delle narici;
- In casi di elevata intensit, vi anche la separazione delle labbra.
2.3.3 AU-17: SOLLEVAMENTO DEL MENTO


30
Con questa AU possiamo notare:
- Il sollevamento della testa del mento;
- La spinta verso lalto del labbro inferiore;
- La possibile generazione di rughe sulla testa del mento, e la depressione sotto il
centro del labbro inferiore;
- La bocca assume una forma a U rovesciata.
2.3.4 AU-15: DEPRESSIONE DEGLI ANGOLI DELLA BOCCA

I cambiamenti del volto associati a questa AU sono:
- La depressione degli angoli delle labbra verso il basso;
- La variazione della forma delle labbra, in modo che gli angoli siano diretti verso il
basso; solitamente ne consegue un allungamento del labbro inferiore;
- La produzione di alcuni rigonfiamenti, borse, e grinze della pelle sotto gli angoli
delle labbra;
- Lappiattimento o rigonfiamento della testa del mento.


31
2.3.5 AU-25, AU-26, AU-27

Fig. 2.14.Manifestazione delle AUs 25, 26 e 27 (in ordine).
La presenza dellAU-25 determina un esposizione dellarea interna delle labbra, con
possibile esposizione di denti e gengive; per quanto riguarda lAU-26, essa molto simile
allAU-25, ma vi la presenza di una mandibola aperta e in condizione di rilassamento e la
durata della sua manifestazione pi lunga; infine, lAU-27, oltre ai cambiamenti visti per
lAU-25, presenta una maggiore trazione della mandibola verso il basso, un apertura molto
pi accentuata della bocca a formare una O e un appiattimento delle guance.
2.3.6 AU-16: DEPRESSIONE DEL LABBRO INFERIORE

I cambiamenti introdotti da questa AU sono:
- Trazione del labbro inferiore verso il basso;
- Allungamento del labbro inferiore, con trazione laterale;
- Lappiattimento e la sporgenza del labbro inferiore;
- Lallungamento della testa del mento lateralmente e verso il basso;
- La presenza di rughe sotto il labbro inferiore.

32
2.4 LOWER FACE ACTION UNITS:
ORIZZONTALI

(a) (b)
Fig. 2.16. Muscoli coinvolti nelle Lower Face AUs Orizzontali.
I muscoli mostrati in figura sono i responsabili degli spostamenti della pelle diretti
orizzontalmente. Le AUs associate allazione di questi muscoli sono:
o AU-20: azione di stiramento delle labbra;
o AU-14: azione di generazione delle fossette.
2.4.1 AU-20: STIRAMENTO DELLE LABBRA

- La trazione laterale delle labbra; gli angoli delle labbra possono alzarsi o abbassarsi
lievemente;
- Lallungamento della bocca e lappiattimento delle labbra;
- La trazione della pelle lateralmente al di l degli angoli delle labbra;
- La formazione di rughe in corrispondenza degli angoli della bocca;
- La distensione della pelle della testa del mento lateralmente;

33
- Allungamento delle ali della narice.
2.4.2 AU-14: GENERAZIONE DELLE FOSSETTE

La presenza di questa AU comporta:
- Il restringimento degli angoli della bocca, con piccolissima trazione degli stessi
verso linterno;
- La formazione di rughe e/o il rigonfiamento degli angoli delle labbra;
- La formazione di rughe oltre gli angoli delle labbra;
- La formazione di fossette laterali in misura limitata ed appiattita;
- Approfondimento del solco naso labiale;
- La trazione della pelle fra la parte inferiore degli angoli delle labbra e la testa del
mento, con appiattimento e allungamento della stessa testa del mento.
OBLIQUA

(a) (b) (c)
Fig. 2.19. Muscoli coinvolti nelle Lower Face AUs Obliqua.

34
I muscoli mostrati in figura sono i responsabili degli spostamenti della pelle diretti
obliquamente. Le AUs associate allazione di questi muscoli sono:
o AU-11: azione di approfondimento del solco naso labiale;
o AU-12: azione di trazione degli angoli delle labbra;
o AU-13: azione di arrotondamento degli angoli delle labbra.
2.5.1 AU-11: APPROFONDIMENTO DEL SOLCO NASO LABIALE

La presenza ti questa AU comporta:
- La trazione del labbro superiore verso lalto e verso il lato;
- La trazione della pelle sotto la parte superiore del solco naso labiale obliquamente
verso lalto;
- Lapprofondimento della parte superiore centrale del solco naso labiale;
- Sollevamento, se pur debole, della parte superiore del triangolo mediale
infraorbitale;
- Con un elevata intensit, vi lapprofondimento della parte superiore del solco
infraorbitale.
2.5.2 AU-12: TRAZIONE DEGLI ANGOLI DELLE LABBRA


35
I cambiamenti legati alla presenza di questa AU sono:
- Trazione degli angoli delle labbra verso lalto e in maniera obliqua;
- Approfondimento del solco naso labiale, trazione laterale verso lalto;
o In caso di bassa intensit vi un sollevamento del triangolo infraorbitale, e
potrebbe esserci anche un approfondimento del solco infraorbitale;
o In caso di alta intensit vi :
un sollevamento pi evidente del triangolo infraorbitale;
un approfondimento pi evidente del solco infraorbitale;
la presenza di borse sotto la palpebra inferiore;
la presenza di zampe di gallina;
il restringimento dellapertura degli occhi;
il sollevamento delle guance e della pelle sotto la palpebra inferiore;
linnalzamento e lallargamento delle narici;
lappiattimento della testa del mento.
2.5.3 AU-13: ARROTONDAMENTO DEGLI ANGOLI DELLE
LABBRA

La seguente AU si manifesta come segue:
- evidenziazione delle guance e del triangolo infraorbitale;
- Trazione degli angoli delle labbra, ma con un angolo pi acuto rispetto allAU-12;
- Pu esserci un approfondimento del solco naso labiale, ed un appiattimento del
labbro superiore;
- Se molto internsa vi :
o La presenza delle zampe di gallina;

36
o La creazione di rigonfiamenti e rughe sotto le palpebre inferiori;
o Lapprofondimento del solco infraorbitale.
ORBITALE

Fig. 2.23. Muscoli coinvolti nelle Lower Face AUs Orbitale.
Il muscolo rappresentato in figura, mostrato come unico muscolo, si divide in diverse parti,
a ognuna delle quali associata una AU; le AUs coinvolte sono:
o AU-18: azione di corrugazione delle labbra;
o AU-22: labbra ad imbuto;
o AU-23: azione di stiramento delle labbra;
o AU-24: azione di pressione delle labbra;
o AU-28: azione di risucchio delle labbra;
2.6.1 AU-18: CORRUGAZIONE DELLE LABBRA



37
- Lo spostamento delle labbra in avanti e la trazione delle stesse nel centro;
- La diminuzione della dimensione orizzontale della bocca, dandole una forma
tondeggiante;
- La sporgenza delle labbra in avanti;
- La forma della bocca la stessa di quella assunta per pronunciare la u;
- La formazione di rughe sul labbro superiore e sotto il labbro inferiore.
2.6.2 AU-22: LABBRA AD IMBUTO

Questa AU determina la presenza di:
- Labbra ad imbuto verso lesterno;
- Trazione centrale agli angoli delle labbra;
- Esposizione dei denti e delle gengive;
- Esposizione della zona rossa delle labbra (maggiormente del labbro inferiore);
- Appiattimento delle rughe sulla testa del mento.
2.6.3 AU-23: TENSIONE DELLE LABBRA


38
La presenza di questa AU connessa al:
- Restringimento delle labbra, rendendo le zone rosse meno visibili, le quali
scivolano verso linterno;
- la sporgenza delle labbra;
- la formazione di piccole rughe e linee sopra e sotto la parte rossa delle labbra;
- rigonfiamento al di sotto del labbro inferiore;
- lappiattimento o formazione di grinze sulla testa del mento, seppur in maniera
limitata;
- la manifestazione pu essere unilaterale.
2.6.4 AU-24: PRESSIONE DELLE LABBRA

Questa AU determina la presenza di:
- Labbra compresse, senza spinta del mento;
- Abbassamento del labbro superiore e innalzamento di quello inferiore;
- Restringimento del centro delle labbra;
- Possibili piccole rughe o linee al di sopra del labbro superiore;
2.6.5 AU-28: RISUCCHIO DELLE LABBRA


39
Con la presenza di questa AU, possiamo osservare che:
- La zona rossa delle labbra risulta risucchiata, coprendo i denti;
- La zona rossa delle labbra tende a scomparire;
- Sopra e sotto le labbra la pelle si distende maggiormente;
- La testa del mento si appiattisce;
- Pu presentarsi anche unilateralmente;
- Sono presenti delle rughe o rigonfiamenti agli angoli delle labbra.
2.7 TABELLA RIASSUNTIVA
Riportiamo qui di seguito un riassunto in tabella di tutte le AUs, associando anche il
muscolo principale interessato allazione:
Tabella 2.1. Tabella riassuntiva delle AUs.
AU Descrizione Muscolo Immagine
1
Innalzamento interno delle
sopracciglia
Frontale parte centrale

2
Innalzamento esterno delle
sopracciglia
Frontale parte laterale

4
Abbassamento delle
sopracciglia
Corrugatore Depressore

5
Innalzamento della palpebra
superiore
Elevatore della palpebra
superiore

6 Innalzamento delle guance
Orbicolare dellocchio parte
orbitale


40
7 Compressione delle palpebre
Orbicolare dellocchio parte
palpebrale

9 Arricciamento del naso Elevatore

10
Innalzamento del labbro
superiore
Elevatore del labbro superiore

11
Approfondimento del solco
naso labiale
Zigomatico minore

12
Trazione degli angoli delle
labbra
Zigomatico maggiore

13
Arrotondamento degli angoli
delle labbra
Canino Zigomatico
Quadrilatero superiore

14 Generazione delle fossette Buccinatore

15
Depressione degli angoli
della bocca
Triangolare

16
Depressione del labbro
inferiore
Depressore del labbro
inferiore
/
17 Innalzamento del mento Mentale

18 Corrugazione delle labbra Incisivo


41
20 Stiramento delle labbra Risorio Platisma

22 Labbra ad imbuto Orbicolare della bocca

23 Tensione delle labbra Orbicolare della bocca

24 Compressione delle labbra Orbicolare della bocca /
25
Separazione delle labbra
(lieve)
Depressore del labbro
inferiore
/
26
Separazione della labbra (in
rilassamento)
Massetere (Muscolo
masticatore)
/
27
Separazione delle labbra (in
tensione)
Muscolo pterigoideo /
28 Risucchio delle labbra Orbicolare della bocca /
41
Chiusura degli occhi
(iniziale)
Elevatore delle palpebre
superiori
/
42
Chiusura degli occhi
(parziale)
Orbicolare degli occhi

43 Chiusura degli occhi (totale)
Orbicolare degli occhi parte
palpebrale
/
44 Guardare obliquamente
Orbicolare degli occhi parte
palpebrale

45
Chiusura e riapertura
dellocchio (Batter docchio)
Elevatore delle palpebre
superiori orbicolare degli
occhi
/
46 Occhiolino Orbicolare degli occhi /
Alla presenza di una AU viene associata lintensit con cui essa viene manifestata. Essa si
basa su una scala di cinque punti, distinte mediante le lettere A, B, C, D, E (es. AU-4B):

42
- A: presenza di tracce dellAU;
- B: presenza lieve dellAU;
- C: presenza pronunciata dellAU;
- D: presenza grave (o estrema) dellAU;
- E: presenza massima (o completa) dellAU;

Fig. 2.29. Scala dellintensit.
Infine, per le AUs la cui manifestazione pu essere anche unilaterale, vi la possibilit di
aggiungere la lettera L (left) o R (right) per indicare il lato su cui si manifesta.
2.8 AUS E LE EMOZIONI PRIMARIE
Qui di seguito riportiamo in una tabella in cui mostriamo il legame tra le AUs mostrate in
precedenza e le emozioni primarie secondo diverse fonti (suddivise in colonne):
Tabella 2.2. AUs e le emozioni primarie: (a) (b) (c) (d) (e) (f) (g).
(a): Facial Expression Recognition in Image Sequences using Geometric Deformation Features and
Support Vector Machines (2007) Irene Kotsiay Ioannis Pitasy,Senior Member IEEE;
(b): Expert system for automatic analysis of facial expressions (2000) M. Pantic, Rothkrantz;
(c): Selection for Universal Facial Emotion (2008) Bridget M. Waller, James J. Cray Jr.;
(d): Classification of Upper and Lower Face Action Units and FacialExpressions using Hybrid
Tracking System and Probabilistic Neural Networks (2006);
(e): Emfacs (1984) Friesen & Kalman;
(f): Investigators guide di Ekman;
(g): Worth a Thousand Words: Absolute and Relative Decoding of Nonlinguistic Affect
Vocalizations (supplement) (2009) Skyler T. Hawk, Gerben A. van Kleef, Agneta H. Fischer, and Job van
der Schalk;
AU (a) (b) (c) (d) (e) (f) (g)
1
Paura
Tristezza
Sorpresa
Disgusto
Tristezza
Sorpresa
Paura
Tristezza
Sorpresa

Paura
Tristezza
Sorpresa
Paura
Sorpresa
Tristezza
Paura
Tristezza
Sorpresa
Disgusto
2 Sorpresa Sorpresa
Paura
Sorpresa

Paura
Sorpresa
Paura
Sorpresa
Paura
Sorpresa
Orgoglio

43
4
Rabbia
Paura
Tristezza
Disgusto
Paura
Tristezza
Rabbia
Paura
Tristezza

Rabbia
Paura
Tristezza
Paura
Tristezza
Rabbia
Tristezza
Disgusto
Rabbia
Paura
Sorpresa
5
Paura
Sorpresa
Tristezza,
Sorpresa
Rabbia
Paura
Sorpresa
Sorpresa Rabbia
Sorpresa
Rabbia
Paura
Sorpresa
Rabbia
6 Felicit Rabbia Felicit Felicit Felicit
Felicit
Disgusto
7
Rabbia
Paura
Paura
Tristezza
Rabbia Felicit Rabbia
Disgusto
Tristezza
9 Disgusto Disgusto Disgusto Disgusto Disgusto Disgusto
10
Rabbia
Disgusto

Rabbia
Disgusto
Disgusto
Disgusto
Rabbia
Disgusto
Rabbia
11 Tristezza Tristezza Tristezza
12 Felicit Rabbia Felicit Felicit Felicit Felicit
Felicit
Disgusto
14 Felicita
15 Tristezza Disgusto
Disgusto
Tristezza
Tristezza Tristezza
Tristezza
Disgusto
16
Rabbia
Felicit
Rabbia
Paura
Disgusto Disgusto
17
Rabbia
Disgusto
Tristezza
Disgusto
Felicit
Rabbia
Disgusto
Tristezza Disgusto
Disgusto
Tristezza
Felicit
Rabbia
Paura
18 Rabbia
19 Disgusto
20 Paura Paura Paura Paura
Paura
Disgusto
23+24 Rabbia Rabbia Rabbia Rabbia Rabbia

44
25
Tutte
Tranne
Sorpresa
Tutte
Tranne
Sorpresa
Paura Rabbia
Paura
Sorpresa
Gioia
Disgusto
Rabbia
26 Tutte Tutte
Paura
Sorpresa
Sorpresa
Paura
Sorpresa
Disgusto
Rabbia
Paura
Felicit
Sorpresa
Disgusto
Questa tabella rappresenta il fulcro del problema legato al riconoscimento delle emozioni
dalle espressioni facciali: attraverso essa sar possibile, una volta rintracciata la presenza
eventuale di una AU, stimare in modo automatizzato la presenza di un emozione.
Nei prossimi due capitoli mostreremo le due modalit di individuazione delle AUs: la
prima pi legata allelaborazione delle immagini, la seconda correlata a tecniche soft-
compunting, come le reti neurali.

CAPITOLO 3
RICONOSCIMENTO DELLE AUs
MEDIANTE ELABORAZIONE DELLE
IMMAGINI
Cap.3 Riconoscimento delle AUs mediante elaborazione delle immagini

46
3.1 INTRODUZIONE
In questo capitolo viene rivolta lattenzione sulle tecniche di elaborazione delle immagini
(image processing) necessarie per lindividuazione delle AUs descritte nel capitolo
precedente. Le fasi fondamentali che caratterizzano lelaborazione delle immagini
possiamo distinguerle in:
- Acquisizione immagine: in questa fase limmagine viene acquisita in forma digitale
mediante il software di riferimento (nel nostro caso limmagine contenente il volto
viene acquisita da webcam in real-time);
- Segmentazione immagine: in questa fase limmagine viene segmentata (suddivisa)
in diverse parti logicamente indipendenti secondo un criterio di omogeneit (ad
esempio il volto viene suddiviso in una parte superiore, una parte centrale, e una
parte inferiore);
- Determinazione dei punti caratteristici: in questa fase vengono determinati in
punti caratteristici (features) dellimmagine tramite i quali possibile effettuare le
operazioni di calcolo richieste (ad esempio i punti caratteristici del volto possono
essere gli angoli degli occhi, della bocca, delle sopracciglia, etc.);
- Processing dei punti caratteristici: questa la fase in cui le features vengono
interpretate e vengono elaborati i risultati.
3.2 LALGORITMO
Come gi detto, il cammino percorso in questo progetto parte dal lavoro svolto dal
Dottorando Alessandro Ciccimarra, dal quale stato preso spunto la parte inerente
allindividuazione dei punti caratteristici; lalgoritmo si divide in 5 fasi:
1) Cattura di frame dalla webcam ad intervalli regolari ;
2) Riconoscimento del volto:
a. Riconoscimento dellarea degli occhi;
b. Riconoscimento dellarea delle sopracciglia;
c. Riconoscimento dellarea del naso;

47
d. Riconoscimento dellarea della bocca;
3) Scansione delle diverse aree in cui la faccia viene suddivisa per la ricerca dei punti
caratteristici;
a. Banda degli occhi;
b. Banda delle sopracciglia;
c. Area del naso;
d. Banda della bocca;
4) Tracciamento di poligoni aventi come vertici i punti caratteristici trovati;
5) Valutazione delle area dei poligoni e individuazione delle AUs mediante rapporti di
normalizzazione e confronto aree;
Il processo continua in maniera iterativa, fin quando non si interrompe il flusso di
acquisizione da webcam. In seguito viene mostrato il flow chart dellalgoritmo da noi
utilizzato:

48

Fig. 3.1. Flow chart.
Nei paragrafi successivi affronteremo i vari punti evidenziati nel flow-chart in maniera pi
dettagliata.
Start
Face and eyes detection
Face/eyes
individuati
Acquisizione nuovo frame
Eliminazione
frame
F

Segmentazione parziale del volto
V

Ricerca dei punti caratteristici degli occhi
nella banda degli stessi
Ricerca dei punti caratteristici delle
sopracciglia nella banda di interesse
Ricerca dei punti caratteristici della bocca
nella banda di interesse
Ricerca dei punti caratteristici del naso
nella banda di interesse
Tracciamento dei poligoni congiungenti i
punti ritrovati
Valutazione delle aree e stampa dei risultati
Chiudi

F

V

End

49
3.3 ACQUISIZIONE FRAME DA WEBCAM
Lacquisizione dei frame contenenti potenzialmente un volto stata possibile mediante
lutilizzo di librerie molto potenti sviluppate dalla Intel: OpenCV (Open Source Computer
Vision Library):

Fig. 3.2. Logo della libreria OpenCV.
Questa libreria compatibile con i pi noti linguaggi di programmazione, tra cui il C++, ed
uno strumento molto potente per lacquisizione e lelaborazione di immagini in tempo
reale, ma non solo.
3.4 RICONOSCIMENTO DEL VOLTO E DELLA
ZONA DEGLI OCCHI
Questa una fase fondamentale, attraverso la quale si decide la presenza eventuale di un
volto nel frame catturato. Per questo stata utilizzata la Machine Perception Toolbox
(MPT) [14]; essa fornisce librerie multi piattafroma per operazioni real time, come il
face detection, eye detection, blink detection e il color tracking.


50
Qui di seguito riportiamo alcuni esempi che mostrano le potenzialit dello strumento:

Fig. 3.3. Esempi di funzionamento delle MPT.
La ricerca della zona degli occhi senz'altro la fase pi importante dell'intero algoritmo di
segmentazione. Infatti, se si riesce ad individuare con esattezza l'eye band, diventa
semplice ricercare le altri componenti del viso sfruttando semplici considerazioni
antropometriche (ad es. la bocca si trova al di sotto degli occhi e il naso si trova tra la
bocca e gli occhi).
Il primo vero passo di segmentazione del volto la ricerca della zona degli occhi (eye
band). Attraverso l'eye band, la ricerca delle altre componenti facciali viene notevolmente
semplificata. L'immagine in ingresso alla funzione che ricerca la zona degli occhi
l'immagine ristretta al volto. Se consideriamo l'immagine di un volto in scala di grigi
possiamo notare che le zone come occhi e bocca sono generalmente pi scure delle altre
(hanno quindi valori di grigio pi bassi). Per isolare tali zone si procede quindi al
clustering dell'immagine.

51
Riportiamo, di seguito, alcune tra le tecniche pi note per la ricerca della zona degli occhi
e, pi in generale, per lobject tracking e lobject detection.
3.4.1 IMAGE CLUSTERING
Il clustering dei dati una tecnica comunemente usata nell'analisi statistica dei dati che
viene usata in numerosi campi quali la bioinformatica, il data mining, il machine learning e
l'elaborazione delle immagini. Per clustering si intende la classificazione di oggetti in
gruppi diversi, o pi precisamente il partizionamento di un insieme di dati in sottoinsiemi
(clusters) secondo una logica vicinanza rispetto a una certa misura di distanza. Nel nostro
caso, il clustering di un'immagine consiste sostanzialmente nella riduzione dei colori
presenti in essa. Una volta deciso il numero di cluster desiderati, ad ogni pixel
dell'immagine viene assegnato un indice di colore corrispondente al cluster a cui
appartiene. Tra i pi diffusi algoritmi di clustering vanno menzionati il k-means, il fuzzy
Cmeans e il QT clustering [15][16][17]. Sperimentalmente stato rilevato che il numero di
clusters ideale per individuare la zona degli occhi tre.

Fig. 3.4. Esempio di clustering di un immagine con k-means.


52
3.4.2 IMAGE BINARIZATION
La binarizzazione di un immagine consiste semplicemente nel trasformare limmagine
iniziale in un insieme di pixel che possono assumere solo due valori: 0 e 1 (nero e bianco);
qui di seguito viene mostrato un esempio:

Fig. 3.5. Esempio di binarizzazione di un immagine con k-means.
3.4.3 OPERATORI DI MATHEMATICAL MORPHOLOGY
La Mathematical Morphology uno strumento per estrarre componenti di un'immagine
utili per la sua rappresentazione e descrizione. costituita da metodi di analisi delle
immagini che si fondano sulla teoria degli insiemi e forniscono una descrizione
quantitativa di strutture geometriche.
Gli operatori principali che analizziamo si basano su operazioni di espansione e riduzione.
Tali operatori trovano la loro applicazione principale nelle immagini binarie. Tuttavia
esistono varianti utilizzabili in immagini in scala di grigi.
Gli operatori morfologici di base sono due: erosion (erosione) e dilation (dilatazione). Tali
operazioni riguardano l'interazione tra un'immagine A (che l'oggetto di interesse) ed una
maschera B detta structuring element (SE). Tipicamente B un cerchio o un quadrato, ma
pu assumere una forma qualsiasi (ad esempio un quadrato 3x3). Lidea principale quella
di:
- Esaminare la struttura geometrica di un immagine analizzando il matching di
elementi strutturanti in varie posizioni;

53
- Mediante variazioni di forma e dimensione dellelemento strutturante possibile
estrarre informazioni utili sulla forma delle diverse parti dellimmagine e sulle loro
relazioni;
- Ottenere unanalisi geometrica sulla struttura topologica dellimmagine stessa.
Gli operatori di Mathematical Morphology vengono spesso utilizzati nellelaborazione
delle immagini nelle fasi di pre processing e post processing.
Erosione
In questa operazione, un esempio di SE pu essere il seguente:

Fig. 3.6. Esempio di SE per lerosione.
Questo elemento viene usato come una maschera di convoluzione, viene cio fatto scorrere
lungo l'immagine binaria A. Un generico pixel in posizione (i,j) dell'immagine in uscita
sar 1 (bianco) solo se A(i,j) 1 (bianco) e tutti i pixel limitrofi ad esso (cio contenuti in
un quadrato 3x3 il cui centro il pixel sotto esame) sono 1 (bianchi). In caso contrario il
pixel in uscita avr valore 0 (nero). Dunque l'unico caso in cui un pixel bianco di A
rimane bianco dopo l'erosione si ha quando tutti suoi pixel limitrofi sono bianchi. Si
pu pensare a questo operatore come ad un operatore logico di AND tra la maschera B e
l'immagine A. Il simbolo che rappresenta l'operazione di erosione il -. L'erosione di A
con uno structuring element B si indica quindi con: A-B. Lobiettivo di questa operazione
quello di ridurre, erodere, i bordi di un immagine binaria. Per comprendere meglio il
funzionamento dell'operatore di erosione vediamo due esempi:


54

Fig. 3.7. Esempi di erosione di un immagine binaria.
Dilatazione
In questa operazione, un esempio di SE pu essere il seguente:

Fig. 3.8. Esempio di SE per la dilatazione.
La dilatazione loperazione duale dellerosione; anche in questo caso lo structuring
element una maschera di convoluzione che scorre lungo limmagine da dilatare. In questo
caso un pixel nero dellimmagine originale A rimarr nero solo se tutti i pixel intorno sono
neri. Questa operazione paragonabile alloperatore logico OR tra limmagine e lo SE. Il
simbolo +: A+B. Per una maggiore comprensione viene mostrato un esempio:


55

Fig. 3.9. Esempio di dilatazione di un immagine binaria.
Apertura
Loperazione di apertura O(A,B) un operazione composta, ottenuta tramite lapplicazione
di un erosione e di una dilatazione:
( ) ( ) ()
Ecco degli esempi:

Fig. 3.10. Esempi di apertura di un immagine binaria.
Chiusura
Loperazione di chiusura C(A,B) anchessa unoperazione composta, ottenuta tramite
lapplicazione di una dilatazione e di unerosione:
( ) ( ) ()

56
Ecco degli esempi:

Fig. 3.11. Esempi di chiusura di un immagine binaria.
Ecco un esempio in cui viene utilizzato loperatore di chiusura per evidenziare
maggiormente la zona degli occhi:

Fig. 3.12. Operatore di chiusura per la zona degli occhi.
3.4.4 TEMPLATE MATCHING
Il template matching una delle tecniche utilizzate per il riconoscimento di oggetti
generici in un immagine mediante una rappresentazione memorizzata delloggetto da
riconoscere. Questa tecnica, molto semplicemente, consiste nel confrontare limmagine
con la rappresentazione delloggetto, tenendo conto per del fatto che non si conosce a
priori la posizione eventuale delloggetto nellimmagine ne tantomeno la dimensione
scalata delloggetto stesso allinterno dellimmagine; mostriamo un esempio di template
utilizzabile per la zona degli occhi:

57

Fig. 3.13. Template della zona degli occhi.
Nel caso della zona degli occhi, riguardo al secondo problema evidenziato, si pu tenere
conto del fatto che la larghezza di questa regione circa l80% della larghezza del volto
trovato.
3.4.5 CROSS CORRELAZIONE NORMALIZZATA
La cross correlazione normalizzata offre una soluzione al problema di definire un grado di
similarit per il template matching.
Definita un immagine f di dimensione
, indichiamo con ( ) il valore del pixel

alla posizione ( ), con {
} e {
}; indichiamo con t il template, di

dimensione
. Il valore della cross-correlazione normalizzata ( ) in un punto

( ) tra f e il template t che stato traslato di u pixel in direzione X e di v pixel in
direzione Y dato da:
( )
(( )
)(( ) )
(( )
(( ) )
()
rappresenta il valore medio di f nellarea del template t traslato di ( ) ed

calcolato come:
( )
()
Analogamente, rappresenta il valore medio del template . Il denominatore in (1)
contiene la varianza della funzione a valor medio nullo dellimmagine (( )
)
del template (( )
) Grazie a questa normalizzazione, ( )


58
indipendente dalle variazioni in illuminazione e contrasto dellimmagine, che sono legate
al valor medio e alla deviazione standard.
La posizione delloggetto ricercato nellimmagine sar data dalle coordinate (
)
del massimo valore di ( ). Laspetto negativo della cross correlazione normalizzata il
costo computazionale necessario.
Per il denominatore che normalizza la cross correlazione, per ogni punto ( )
dellimmagine, {
} e {
} vanno ricalcolati il valor medio

della porzione di immagine estratta
() e lenergia della funzione a valor medio nullo

dellimmagine:
( ) .( )
()
Il valor medio del template e lenergia della funzione a valor medio nullo del template
possono essere calcolati una sola volta.
( ) .( )
()
Il numeratore di (1) pu essere calcolato mediante la trasformata di Fourier nel caso in cui
la dimensione del template non sia molto pi piccola della dimensione dellimmagine [18].
3.4.6 SUPPORT VECTOR MACHINE (SVM)
Le macchine a vettori di supporto (SVM), o macchine kernel, sono state sviluppate negli
anni 90 da Vladimir Vapnik ed il suo team presso i laboratori Bell AT&T. Lalgoritmo su
cui si basano questi metodi rientra nella statistical learning theory o teoria di Vapnik
In un contesto industriale, possiamo collocarne lutilizzo nei seguenti lavori:
- Riconoscimento oggetti;
- Identificazione di volti in immagini;
- Classificazione di testi;

59
- OCR (Optical Character recognition);
Una SVM un classificatore binario ad apprendimento supervisionato. In una prima
fase di addestramento, la SVM riceve in ingresso degli esempi tramite i quali dovr essere
in grado di generalizzare quanto appreso mediante gli stessi. La classificazione realizzata
mappando gli esempi dati in uno spazio multidimensionale e costruendo un iperpiano
Ndimensionale che li separa in modo ottimale in due diverse categorie ( un
classificatore binario). Come si potr capire maggiormente in seguito, le SVM, da un punto
di vista concettuale, sono strettamente legate alle reti neurali.
Nel linguaggio usato in letteratura, i dati degli esempi sono chiamati attributi; gli attributi
mappati in un altro spazio per ricercare liperpiano sono detti caratteristiche (features).
Linsieme di features costituiscono un vettore (vector). Il risultato dellalgoritmo di una
SVM quello di ottenere un iperpiano che separi i vettori nelle due categorie evidenziate; i
vettori che si trovano vicino alliperpiano sono detti vettori di supporto (support
vectors). Qui di seguito mostriamo una rappresentazione grafica di quanto descritto:

Fig. 3.14. Rappresentazione di una classificazione binaria mediante una SVM.
In questo esempio liperpiano unidimensionale, e riguarda la necessit di separare due
classi di diverse figure geometriche. Esistono infiniti iperpiani, quindi lobiettivo quello
di scegliere il migliore iperpiano che separi le classi. Le linee tratteggiate in figura
rappresentano la distanza tra i vettori di supporto e liperpiano scelto; questa distanza
chiamata margine (margin).
In realt la maggior parte dei problemi reali richiede una classificazione non lineare, che
richiederebbe la necessit di trovare una curva non lineare che separi le due classi:

60

Fig. 3.15. Distinzione tra un problema linearmente separabile e uno non linearmente separabile.
In questi casi la soluzione preferita quella di utilizzare una kernel function per mappare i
dati in un diverso spazio in cui si possa trovare un iperpiano che separa le due classi:

Fig. 3.16. Mappatura in un altro spazio
Tramite la mappatura con kernel functions possibile ottenere una separazione tra classi
anche in casi molto complessi; le funzioni pi note sono:
- Lineare: (
; (3.7)
- Polinomiale: (
) (
(3.8)
- Radial Basis Function (RBF): (
)
.|
/
(3.9)
- Sigmoidea: (
) (
) (3.10)
Dove sono parametric delle kernel functions.
Poiche non sempre possibile trovare un iperpiano che separi completamente le due classi
(over fitting), si definisce un parametro di costo, detto C, che controlla il trade-off tra il
permettere errori di addestramento e il forzare margini rigidi.

61
3.4.7 CONNECTED COMPONENTS LABELING
Nellimage processing risulta molto importante effettuare operazioni di raggruppamento ed
etichettatura di componenti connesse e disgiunte. Quindi limmagine viene scansionata e i
suoi pixel vengono raggruppati in base alla loro connettivit, rappresentate da uno stesso
valore (o insieme) di intensit K. Per questo motivo introduciamo il concetto di vicinato
(neighborhood):
Dato un pixel p con coordinate (x,y), linsieme di pixel formato da:
() *( ) ( ) ( ) ( )+ ()
costituiscono i suoi 4-neighbors. I suoi 8-neighbors saranno quindi:
()
() *( ) ( ) ( ) ( )+ ()
Definiamo il concetto di 4-connettivit e 8-connettivit:
Due pixel p e q, entrambi appartenenti allo stesso insieme K, sono 4-connessi (8-connessi)
se q fa parte dellinsieme
() (
()). La connettivit gode della propriet transitiva.

Ecco due esempi di applicazione di questo algoritmo:

Fig. 3.17. Esempi di applicazione del labeling di componenti connesse.
L'algoritmo di ricerca delle componenti connesse abbastanza semplice. Ci limiteremo ad
osservare quello per la 8-connettivit, premettendo che la logica sempre la stessa. Si
esamina l'immagine spostandosi lungo le righe fino a quando si trova un punto p (dove p

62
rappresenta un pixel che deve essere etichettato ad un qualsiasi passo del processo di
scansione) per il quale V={1}. Fatto ci si esaminano i 4 pixel limitrofi a p che sono gi
stati incontrati durante il processo di scansione (i pixel a sinistra, sopra e lungo le due
diagonali superiori).

Fig. 3.18. Rappresentazione dei 4 pixel limitrofi che vengono controllati per la 8-connettivit.
Sulla base di queste informazioni, l'etichettatura avviene in questo modo:
1. se tutti i 4 vicini hanno valore 0 viene assegnata una nuova etichetta a p;
2. se solo un pixel limitrofo ha valore V={1}, la sua etichetta viene assegnata a p;
3. se pi di uno dei vicini ha valore V={1}, una delle etichette assegnata a p e si
prende nota delle equivalenze.
Dopo aver completato la scansione, le coppie di etichette equivalenti sono separate in
classi di equivalenza e una etichetta univoca assegnata a ciascuna classe. Infine, una
seconda scansione effettuata sull'immagine durante la quale ogni etichetta sostituita
dall'etichetta assegnata alla sua classe di equivalenza. Per la visualizzazione le etichette
possono essere colorate in modo diverso.
3.4.8 EQUALIZZAZIONE DELLISTOGRAMMA
Lequalizzazione dellistogramma una tecnica molto utilizzata nellimage processing in
quanto fornisce la possibilit di distinguere regioni a basso contrasto tuttavia diverse tra
loro; questo possibile aumentando il contrasto tra le stesse senza per influire sul
contrasto globale dellimmagine.
Si tratta di un operatore la cui funzione invertibile (quindi si pu ritornare allimmagine
iniziale) e non di elevata complessit computazionale.

63
Data un immagine A in scala di grigi, la probabilit con cui il colore k
i
si presenta
allinterno dellimmagine data da:
(
()
Dove n
i
il numero di volte in cui il colore k
i
si presenta negli n pixel dellimmagine A, e
L il numero di livelli di grigio considerati. La funzione di distribuzione cumulativa di
probabilit (cdf) data da:
(
) (
()
Lobiettivo quello di restituire una nuova immagine la cui cdf risulti linearizzata sulla
gamma di valori possibili; per ottenere ci si applica una trasformazione del tipo:
() ()
In particolare:
) ( ) ()
Ecco lesempio dellequalizzazione di un istogramma di un immagine in scala di grigi:

Fig. 3.19. Equalizzazione di un istogramma di un immagine in scala di grigi.


64
3.5 RICERCA DEI PUNTI CARATTERISTICI
La ricerca dei punti caratteristici avviene allinterno della regione del volto individuato, per
cui questa fase strettamente propedeutica alla precedente. I punti caratteristici ricercati
sono:
o Pupilla dellocchio destro e dellocchio sinistro;
o Angolo esterno dellocchio destro e dellocchio sinistro;
o Angolo interno dellocchio destro e dellocchio sinistro;
o Estremi interni delle sopracciglia;
o Estremi esterni delle sopracciglia;
o Estremo superiore della bocca;
o Estremo inferiore della bocca;
o Estremo destro della bocca;
o Estremo sinistro della bocca
3.5.1 RICONOSCIMENTO DEGLI OCCHI
Il riconoscimento dei punti caratteristici degli occhi avviene ovviamente allinterno delle
due regioni degli occhi precedentemente individuate. Ci che si sfrutta il fatto che la
parte intorno agli occhi sia leggermente pi scusa rispetto al resto, mentre locchio stesso
la regione con maggiore concentrazione di bianco.

Fig. 3.20. Regione dellocchio.
Dopo operazioni di saturazione, binarizzazione e chiusura con uno structuring element
3x3, si ottiene la seguente immagine:

Fig. 3.21. Binarizzazione e chiusura della regione dellocchio.

65
A questo punto, lobiettivo quello di eliminare eventuali pixel bianchi sparsi; quindi,
banalmente, se intorno a un pixel bianco ci sono pochi pixel bianchi, tale pixel non far
parte dellocchio. Viceversa, se un pixel nero ha molti pixel bianchi intorno, verr marcato
come bianco. Il risultato il seguente:

Fig. 3.22. Creazione di zone nella regione dellocchio.
Il passo successivo, quello di escludere le zone ottenute che non rappresentano locchio.
Per fare questo si utilizza la tecnica del labeling delle componenti connesse:
1) Si etichetta limmagine binaria;
2) Si ordinano le componenti connesse trovate in base alla loro posizione verticale; gli
occhi si troveranno tra le componenti connesse pi vicine al bordo inferiore
dellimmagine;
3) Si cerca la componente connessa pi grande e se ne calcola la dimensione;
4) Partendo dal basso si prendono in esame le componenti connesse alla ricerca di una
di esse che soddisfi le seguenti condizioni:
a. La sua dimensione deve essere maggiore del 70% della dimensione della
componente connessa pi grande;
b. Il rapporto tra la sua altezza e la sua larghezza deve essere inferiore a 0.8;
5) Se tali vincoli sono rispettati, la componente connessa in esame quella contente gli
occhi e ci si ferma. In caso contrario si ritorna al punto 4).
Il risultato di questa elaborazione il seguente:

Fig. 3.23. Individuazione della zona dellocchio.


66
A questo punto, noti i rettangoli contenenti gli occhi, passiamo allindividuazione dei
seguenti punti:

Fig. 3.24. Nomenclatura dei punti caratteristici dellocchio.
Il primo passo quello di ricercare il centro delliride e il suo raggio; per far questo si
procede ad una equalizzazione dellistogramma del rettangolo dellocchio in modo tale che
la pupilla sia in assoluto la regione pi scura. Successivamente si procede ad una
binarizzazione dellimmagine, e si procede con il labeling delle componenti connesse:

Fig. 3.25. Individuazione delliride.
Individuata la regione connessa pi grande, il raggio delliride viene calcolato come la
met della media tra la larghezza e laltezza della regione connessa individuata:

) ()
Le coordinate del centro della pupilla (
) sono ottenute calcolando il

centroide della regione connessa pi grande, e ottimizzato mediante una ricerca della
circonferenza pi scura trovata nellintorno di quel centroide.
Per lindividuazione degli angoli degli occhi si procede ad unulteriore riduzione del
rettangolo di ricerca, le cui coordinate del vertice superiore sinistro sono:
()
()

67
Mentre la larghezza e laltezza diventano:
()
()
Dal seguente rettangolo, vengono considerate solo le parti estreme, come mostrato in
figura:

Fig. 3.26. Processo di ricerca degli angoli degli occhi.
Nei rettangolini ottenuti, il punto viene ottenuto come media del 20% dei pixel a maggiore
varianza.
Risultati sperimentali
Ecco alcuni esempi che mostrano il tracciamento dei punti caratteristici degli occhi:

Fig. 3.27. Esempi di individuazione dei punti caratteristici dellocchio.

68

Fig. 3.28. Esempi di individuazione della pupilla.
3.5.2 RICONOSCIMENTO DELLE SOPRACCIGLIA
La ricerca delle sopracciglia avviene successivamente allindividuazione della zone degli
occhi e ai punti caratteristici dellocchio. Se consideriamo il rettangolo contenente il
sopracciglio sinistro e definiamo con x lascissa del pixel superiore sinistro del rettangolo,
con y lordinata dello stesso pixel, con w e h rispettivamente la larghezza e laltezza del
rettangolo, possiamo dire che:
()

()
()

()
Il procedimento si ripete per il sopracciglio destro: Indicando con x e y rispettivamente
lascissa e lordinata del pixel superiore sinistro del rettangolo che contiene il sopracciglio
destro, abbiamo che:

()

69

()
Una volta individuati i rettangoli che contengono con maggiore probabilit le sopracciglia,
passiamo allindividuazione dei punti. Per questo motivo viene effettuata un operazione di
chiusura, di dilatazione e, infine, di labeling delle componenti connesse. I punti verranno
individuati come le estremit della regione pi grande ottenuta:

Fig. 3.29. Elaborazione della regione delle sopracciglia.
Ecco alcuni esempi riguardo al tracciamento dei punti caratteristici delle sopracciglia:

Fig. 3.30. Nomenclatura dei punti caratteristici dellocchio.
3.5.3 RICONOSCIMENTO DELLA BOCCA
Anche per la bocca si parte dalla conoscenza dei punti degli occhi. Il procedimento
prevede dapprima un individuazione pi approssimata della regione della bocca, per poi
approfondirne la ricerca. Il tutto si basa su considerazioni antropometriche. Poich le
immagini in esame presentano volti frontali o leggermente ruotati, le estremit degli occhi
sono un punto di riferimento per la limitazione della regione della bocca; verticalmente la
ricerca pu partire spostandosi al di sotto del valore medio delle ordinate delle pupille di
una distanza circa uguale alla distanza orizzontale tra le pupille.

70
Indicando con x e y le coordinate del vertice superiore sinistro del rettangolo contenente la
bocca e con w e h rispettivamente la sua larghezza e la sua altezza, abbiamo che:
()
( )
( ) ()
()
()
Una volta individuata la regione in maniera grossolana, si procede allanalisi delle
cosiddette projection functions della zona appena trovata.
Projection Functions
Le funzioni di proiezione hanno lo scopo di individuare, allinterno di unimmagine,
confini di regioni diverse. La presenza di un confine tra due regioni omogenee
evidenziata da un valore alto della PF. Le PF pi utilizzate sono: Integral Projection
Function e Variance Projection Function.
Integral Projection Functions
Se indichiamo con I(x,y) lintensit del pixel in posizione (x,y), la IPF
v
(Integral Projection
Functions verticale) e la IPF
h
(Integral Projection Functions orizzontale) sono cos definite:
() ( )
()
() ( )
()
Pi frequentemente vengono utilizzate le IPF medie, cos definite:
()
( )
()

71
()
( )
()
Variance Projection Functions
Le VPF (Variance Projection Functions) sono state introdotte da Feng e Huen [19]. Se
consideriamo I(x,y) il valore di intensit alla posizione (x,y), la VPF
v
e la VPF
h
sono cos
definite:
()
,(
()-
()
()
,(
()-
()
Per la ricerca della bocca sono state scelta la VPF e la sua derivata come strumento di
analisi:

Fig. 3.31. Esempi di calcolo della VPF e della sua derivata.

72
Come risulta dagli esempi, la zona della bocca quella corrispondete al massimo delle
funzioni calcolate. I punti sono calcolati come segue:
(
()) ()
()
()
()
Una volta trovato il rettangolo che meglio individua la regione della bocca, possiamo
passare allindividuazione delle coordinate dei punti caratteristici della bocca:

Fig. 3.32. Punti caratteristici della bocca da individuare.
Inizialmente viene applicata la Integral Projection Function orizzontale per poter
individuare il tratto di separazione delle due labbra (lip cut), il quale sicuramente il tratto
pi scuro (senza tenere conto della presenza di baffi o barba). In questo modo viene
sostanzialmente rimpicciolita la regione della bocca.
Per lindividuazione delle estremit della bocca, il rettangolo viene centrato intorno al lip
cut individuato tramite la IPF; limmagine viene divisa in due clusters e successivamente
binarizzata; eccone unesempio:

Fig. 3.33. Fase di individuazione dei punti estremi della bocca.
A questo punto le coordinate dellestremit della bocca corrisponderanno verosimilmente
alle estremit della regione bianca, ottenuta ancora una volta attraverso il labeling delle
componenti connesse.

73
Per individuare gli estremi superiori e inferiori, il procedimento varia esclusivamente nella
scelta della restrizione del rettangolo: per lestremo superiore il lip cut costituisce il lato
inferiore del rettangolo di ricerca, mentre per lestremo superiore il lip cut costituisce il
lato superiore del rettangolo di ricerca; eccone due esempi:

Fig. 3.34. Rettangolo per lindividuazione dellestremo superiore.

Fig. 3.35. Rettangolo per lindividuazione dellestremo inferiore.
Vengono mostrati alcuni esempi di tracciamento dei punti caratteristici della bocca:

Fig. 3.36. Esempi di calcolo della VPF e della sua derivata.
3.6 COSTRUZIONE POLIGONI PER IL
Una volta trovati i punti caratteristici del volto, essi possono essere utilizzati come vertici
di particolari poligoni le cui aree costituiscono la variabile di analisi delle AUs.


74
I poligoni utilizzati sono i seguenti:
- Il poligono avente come vertici gli angoli del sopracciglio destro e gli angoli
dellocchio destro;
- Il poligono avente come vertici gli angoli del sopracciglio sinistro e gli angoli
dellocchio sinistro;
- Il triangolo avente come vertici gli angoli dellocchio sinistro e langolo sinistro delle
labbra;
- Il triangolo avente come vertici gli angoli dellocchio destro e langolo destro delle
labbra;
- Il rombo avente come vertici i punti della bocca.
Ecco un esempio di quanto detto:

Fig. 3.37. Tracciamento poligoni sul volto.
Un problema piuttosto rilevante quello di normalizzare le dimensioni dei poligoni; in altri
termini, non possibile stabilire a priori che la dimensione di unarea corrisponda alla
presenza di un emozione particolare senza un riferimento iniziale; per questo motivo, per il
momento, si scelto di:

75
1. Catturare il primo frame, il quale si assume corrisponda alla manifestazione di
unemozione neutrale dellindividuo; per cui le aree calcolate (A
r)
da questo
frame possono essere assunte come sistema di riferimento;
2. In funzione delle aree precedentemente calcolate, viene calcolata larea
massima raggiungibile dai poligoni (A
max
);
3. Il rapporto viene cos calcolato:
; in questo modo S
%

rappresenta la percentuale di aumento dellarea del relativo poligono; evidente
che quando A
t
massima (A
max
), anche S
%
massimo; quando A
t
minimo (A
r
),
S
%
sar nullo.
Questo quello che succede nellanalisi dei poligoni relativi alla zona degli occhi:

Fig. 3.38. Analisi della variazione dellarea.
Con queste variazioni, siamo in grado di riconoscere le AU-4 (area decrescente) e AU-1
(area crescente) (vedi capitolo 2).


76
Mostriamo due esempi su ci che succede nellanalisi dei poligoni calcolati:

Aree di calibrazione

Diminuzione aree dei
triangoli, mentre larea del
poligono della bocca resta
pressoch invariata

Diminuzione aree dei
triangoli, mentre quella del
poligono della bocca aumenta
Fig. 3.39. Esempio di valutazione delle AU-12 e AU-13.
Riepilogando, mediante lutilizzo di questi poligoni, siamo in grado di riconoscere le
seguenti AUs:


77
Tabella 3.1. Descrizione e metodi di riconoscimento delle AUs.
AUs Descrizione Metodo Immagine
1
Innalzamento interno
delle sopracciglia
Larea del poligono costruito tra
gli occhi e le sopracciglia
aumenta

4
Abbassamento delle
sopracciglia
diminuisce

7
Compressione delle
palpebre
aumenta, ma diminuisce il
raggio della pupilla

12
Trazione degli angoli
delle labbra
Larea del poligono della bocca
resta pressoch costante, ma si
riduce larea dei triangoli
costruiti con gli occhi e gli
angoli della bocca

13
Arrotondamento degli
angoli delle labbra
aumenta, mentre larea dei
triangoli costruiti con gli angoli
della bocca e gli occhi si riduce
leggermente

20 Stiramento delle labbra
si riduce

3.7 IMPLEMENTAZIONE DEL SOFTWARE
Lalgoritmo stato sviluppato in linguaggio C++. Per il momento lo sviluppo del software
realizzato su piattaforma Linux (distribuzione Ubuntu 10.04), sullambiente di sviluppo
Qt Creator, poich linterfaccia grafica e altre classi geometriche sono state implementate
mediante le librerie Qt. Per il face-detection e leye-detection la libreria utilizzata la

78
MPT (Machine Perception Toolbox), mentre per i metodi di image processing la libreria
utilizzata lOpen CV.
Ecco un esempio di interfaccia grafica con relativa elaborazione di un frame:

Fig. 3.40. Interfaccia del software.
Come si pu notare, linterfaccia del software suddivisa in due macro aree: la parte a
sinistra riservata alla visualizzazione del frame catturato, la parte a destra contiene la
valutazione e lanalisi del frame considerato: in particolare viene monitorato lo stato
emotivo dellindividuo (negativo o positivo) e le percentuali di probabilit di presenza
delle emozioni.


79
Qui di seguito viene mostrato un esempio di funzionamento del software:

Fig. 3.41. Esempio di funzionamento del software.

CAPITOLO 4
MEDIANTE RETI NEURALI
Cap. 4 Riconoscimento delle AUs mediante reti neurali

81
Lintelligenza dei computer un dato di fatto almeno a partire dal 1956, quando il
programma LT (Logic Theorist) trov una dimostrazione migliore di quella di Whitehead e
Russel, o quando gli ingegneri della Westinghouse scrissero un programma che progettava
automaticamente motori elettrici. (H. Simon, 1996)
4.1 INTRODUZIONE
Le reti neurali artificiali costituiscono un nuovo settore scientifico-tecnologico. Lidea di
realizzare questi nuovi modelli matematici ispirati alle reti neurali biologiche nasce nella
prima met del 1800.
Da un punto di vista prettamente filosofico, oggi pi vivo che mai il dibattito che ha per
oggetto la domanda Pu un calcolatore realmente pensare? o anche veramente
possibile realizzare un intelligenza artificiale?. I pionieri di questo dibattito sono forse G.
Leibniz e G. Boole: il primo riteneva che il pensiero coincidesse con il calcolo e propose
infatti le prime macchine logiche, capaci di eseguire sillogismi; il secondo intitola
addirittura Le leggi del pensiero il suo trattato sulla logica proposizionale. In tempi
moderni, chi si pose seriamente questa domanda fu il matematico inglese A. Turing che
propose un famoso testi per verificare lintelligenza di un essere, artificiale o meno. Il test
di Turing riassumibile nel seguente modo: supponiamo che vi sia una scatola nera alla
quale forniamo in input domande in linguaggio naturale (inserite tramite tastiera, ad
esempio) e che restituisce in output risposte sensate e congruenti nello stesso linguaggio.
Se tali risposte fossero indistinguibili da quelle che, nelle stesse circostanze, ci
aspetteremmo da un essere umano, allora potremmo asserire, secondo Turing, che la
scatola nera manifesta un comportamento intelligente, almeno nellambito delle tematiche
del dialogo in questione.
Le ricerche sulla neurofisiologia evidenziarono come il cervello sia composto da un gran
numero di cellule nervose (neuroni) interconnesse, ciascuna delle quali esegue una
elaborazione molto semplice. Il comportamento intelligente emerge dal gran numero di
elementi e di connessioni tra cellule: pi connessioni (sinapsi) ci sono, pi intelligente
una persona!

82
Quando si parla di intelligenza, immediatamente pensiamo alla capacit che ha lessere
umano di apprendere e di ragionare sulla base delle sue conoscenze. Questa caratteristica
stata sfruttata proprio nei modelli neurali artificiali, i quali sono in grado di configurare i
propri parametri interni di funzionamento per adeguarsi agli stimoli esterni, fino a imparare
il comportamento desiderato da un numero sufficiente di esempi significativi, e di
ragionare conseguentemente dinanzi a situazioni nuove.
Secondo alcuni scienziati, lintelligenza davvero una manipolazione (sia pure
complessa) di simboli e quindi un opportuno computer, dotato di software adeguato,
potrebbe manifestare un comportamento intelligente.(interpretazione forte). Altri
scienziati, invece, considerano il paradigma simbolico solo unutile metafora e opera una
netta distinzione tra la mente reale e i suoi modelli, cos come un paesaggio reale non
coincide con una sua mappa molto fedele o un complicato sistema di equazioni che
rappresenta il volo di un aeroplano non un aeroplano. Quindi, secondo questidea, anche
un sistema che soddisfacesse il test di Turing non sarebbe necessariamente intelligente
(interpretazione debole). Un paladino dellinterpretazione debole il filosofo americano
J.Searle che ha proposto il test della stanza cinese (Searle, 1990): in una stanza, che
comunica con lesterno attraverso una finestrella, si trova una persona che ignora
completamente la lingua cinese (ad esempio un italiano). Un cinese pone dallesterno
domande nella sua lingua, consistenti in sequenze di simboli (ideogrammi) introdotti
attraverso la finestrella. Litaliano dotato di varie scatole contenenti anche altri simboli,
nonch di un libro di regole (in italiano: linguaggio macchina) che prescrivono come
manipolare i simboli stessi. Seguendo meccanicamente le regole, litaliano pu allora
assemblare una sequenza di simboli che fornisce al cinese attraverso la finestrella. Se le
regole sono adeguate, il cinese comprender la risposta e ne sar soddisfatto. Tuttavia
litaliano non ha evidentemente capito n la domanda, n il significato dei simboli
manipolati, n la risposta.
Tra cervello e computer sembra comunque esistere una differenza irriducibile: ci che
semplice per il cervello difficile per il computer e viceversa. In compiti come la visione,
il linguaggio e il coordinamento senso-motorio il cervello pi potente di 1000 super-
computer; tuttavia in compiti semplici, come fare moltiplicazioni, superato anche da una
calcolatrice tascabile.

83
Le reti neurali artificiali possono essere descritte secondo due linguaggi:
- Il linguaggio matematico, per questo ostico;
- Il linguaggio informatico, attraverso un linguaggio di programmazione.
Larchitettura di un programma per un computer tradizionale e larchitettura del computer
tradizionale stesso (Von Neumann) sono radicalmente diverse dal modo in cui funziona il
nostro cervello: ecco perch risulta difficile ad una macchina poter riconoscere una
penna in mezzo ai libri e per un essere umano effettuare complessi calcoli matematici e
geometrici nel giro di pochi secondi; da un lato abbiamo ununit di calcolo in grado di
conoscere esattamente un numero preciso di istruzioni e in grado di comunicare con
memorie veloci o capienti, mentre dallaltra parte abbiamo una rete distribuita di molte
piccole unit operative che comunicano tra loro. Il successo della sollecitazione del
neurone fortemente stocastico, cos come il grado di vitalit di ciascun neurone.
In definitiva potremmo definire un analogia tra una rete neurale e unimmensa societ
fittizia (cervellopoli): ciascuna persona rappresenta un neurone e linstaurazione dei
rapporti tra due persone la sinapsi; pi le persone comunicano e scambiano segnali
informativi, pi accresce la cultura e lintelligenza della societ.
4.2 APPLICAZIONI
Le reti neurali sono modelli computazionali molto versatili, capaci di realizzare qualsiasi
compito possa essere realizzato mediante algoritmi tradizionali. Tuttavia, il prezzo della
loro versatilit la scarsa efficienza computazionale quando devono trattare problemi che
gli algoritmi tradizionali sono in grado di gestire con facilit (per esempio, problemi
linearizzabili o facilmente descrivibili in termini procedurali). Per esempio, opportune
combinazioni di neuroni di McCulloch e Pitts sono in grado di realizzare le operazioni
logiche elementari (quali AND, OR, e NOT), impiegando per un numero di operazioni
molto elevato rispetto alla banalit del problema considerato. Analogamente, sebbene sia
possibile istruire una rete neurale a indicare quale fra due parole precede laltra nellordine
alfabetico, questo pi semplicemente realizzabile con un algoritmo di ordinamento
tradizionale.

84
La versatilit delle reti neurali si rivela assolutamente preziosa per risolvere problemi non
lineari, per i quali non sia nota una soluzione algoritmica efficiente, ma siano disponibili
sufficienti esempi ben descrittivi del comportamento desiderato. Tipiche applicazioni delle
reti neurali riguardano infatti casi complessi di classificazione, approssimazione di
funzioni, controllo ed elaborazione di segnali ed immagini.
La classificazione consiste nellindividuare una relazione tra un insieme di caratteristiche
(generalmente multidimensionale) e un insieme (finito) di classi. Problemi di
classificazione si possono trovare in applicazioni biomediche (per esempio, predire la
propensione a una malattia dai dati delle analisi) o industriali (per esempio, valutare la
qualit del prodotto). In modo analogo, quando le classi non siano note a priori, il
clustering identifica le classi nellinsieme degli esempi, cercando di raggruppare questi
ultimi in funzione della loro intrinseca similarit.
Lapprossimazione di funzioni individua, tra le funzioni rappresentabili da una rete
neurale, quella che meglio approssima un insieme di esempi. Poich usualmente gli esempi
sono affetti da rumore, linterpolazione non infatti una soluzione sufficientemente
accettabile. Applicazioni di questo tipo sono molto diffuse quando si devono trattare dati
acquisiti tramite misurazione. Una volta ottenuta la funzione approssimante, questa pu
essere utilizzata per successive elaborazioni (per esempio, individuare il massimo e il
minimo) e predire i valori intermedi agli esempi disponibili.
Controllare un sistema significa mantenerne il comportamento entro limiti prefissati e,
specificatamente, governare levoluzione del suo stato in modo che descriva una traiettoria
desiderata nello spazio degli stati, agendo opportunamente su alcuni ingressi del sistema.
Se il sistema di tipo dinamico, la sua evoluzione dipende, oltre che dagli stimoli
provenienti dallesterno, anche da un certo numero di fattori interni, i quali a loro volta
potranno risentire dellinfluenza esterna. Questa la situazione tipica in applicazioni di
automazione industriale, controllo di sistemi, robotica, e in ambito biomedico, che possono
essere affrontate tramite reti neurali ricorrenti.
Lelaborazione di segnali e di immagini consiste nellanalisi e nella manipolazione dei
segnali e delle immagini al fine di estrarre linformazione in essi contenuta. Si tratta quindi

85
di una categoria di applicazioni molto ampia e variegata: dal filtraggio del rumore, alla
estrazione di caratteristiche, al riconoscimento di pattern di interesse.
In letteratura sono raccolti moltissimi esempi delluso efficiente ed efficace delle reti
neurali per applicazioni come quelle sopra brevemente menzionate. Si noti per che le reti
neurali non sono la panacea che risolve qualunque problema applicativo: esse sono
applicabili solo quando sussistono specifiche condizioni, in particolare riguardo alla
capacit di descrivere il comportamento desiderato con gli esempi considerati per
lapprendimento. Inoltre, le reti neurali sono efficienti solo per problemi non lineari e
dovrebbero essere considerate solo se non esiste gi una soluzione algoritmica efficiente.
Quando per sussistono queste condizioni, le reti neurali si dimostrano spesso tecniche
computazionali straordinarie per lefficienza e la qualit dei risultati prodotti.
Riassumendo, i possibili campi dimpiego sono:
- INFORMATICA:
o Compressione dati;
o Eliminazione del rumore;
o Riconoscimento di segnali sonar
o Riconoscimento caratteri;
o Riconoscimento oggetti;
o Riconoscimento del parlato e scrittura simultanea;
- SISTEMI DI CONTROLLO:
o Piloti automatici;
o Robot intelligenti;
- ANALISI FINANZIARIE:
o Predizioni finanziarie;
o Calcolo del rischio di prestiti e investimenti;
- MEDICINA:
o Diagnosi e prognosi di patologie;
o Individuazione della cura di una malattia sulla base di sintomi.


86
4.3 RETI NEURALI BIOLOGICHE
Una rete neurale biologica (per esempio, il sistema nervoso centrale umano) composto
da particolari cellule, dette neuroni, tra loro interconnesse.
In particolare il sistema nervoso caratterizzato da tre elementi costitutivi: neurone
principale, neurone intrinseco e fibre nervose; questultime trasportano i segnali da e
verso entrambi i tipi di neuroni, a cui sono collegati attraverso le sinapsi. Il neurone
principale trasmette le proprie informazioni anche in altri moduli di cui composto il
sistema nervoso, mentre il neurone intrinseco rimane nella propria regione.
Il funzionamento di una rete neurale biologica si basa sullo scambio di segnali elettrici tra i
neuroni.

Fig. 4.1. Rappresentazione di un neurone biologico.
Un neurone biologico dotato di un corpo cellulare, detto soma, dal quale si propagano
numerosi prolungamenti brevi, detti dendriti, e un prolungamento lungo, detto assone. I
dendriti e gli assoni sono dotati di ramificazioni, terminate da strutture di connessione,
dette sinapsi, che costituiscono il punto di giunzione tra il terminale assonico di un
neurone (presinaptico) e il ramo dendritico di un altro neurone (postsinaptico);
caratterizzata da un piccolo spazio tra le due membrane di giunzione: il segnale elettrico
proveniente dal neurone presinaptico emette sostanze chimiche che permettono lapertura
di microcanali sulla membrana connessa al neurone postsinaptico che sollecita il passaggio
di ioni e quindi di un segnale elettrico che giunge al neurone postsinaptico.

87
Ciascun neurone acquisisce, attraverso i suoi dendriti, i segnali provenienti dallassone dei
neuroni in ingresso, elabora la risposta a tali stimoli nel soma e trasmette il segnale di
uscita ai neuroni collegati al proprio assone: quando la somma dei segnali provenienti dai
neuroni in ingresso supera una certa soglia, il soma emette un impulso mediante una
variazione di potenziale elettrico. Questo segnale si propaga fino alle sinapsi dei dendriti
appartenenti ai neuroni collegati a valle e raggiunge tali dendriti mediante stimolazione
effettuata da neurotrasmettitori chimici. La sinapsi pu assumere due forme: eccitatoria e
inibitoria, a seconda che il segnale da essa trasmesso vada a favorire o a contrastare il
raggiungimento della soglia di emissione dellimpulso del neurone ricevente.
I neuroni possiedono propriet locali: due neuroni morfologicamente uguali possono
rispondere in maniera diversa a seconda della regione in cui si trovano. Lattivazione/non
attivazione dipende dal superamento di una soglia di potenziale inerente alla d.d.p. tra
membrana esterna e interna. In stato di riposo la d.d.p. circa -70mV.
Sebbene i segnali scambiati tra cellule neurali siano di tipo elettrico (mediato da
neurotrasmettitori chimici), la velocit con la quale essi vengono elaborati dal singolo
neurone piuttosto bassa: raramente i neuroni possono generare pi di 100 impulsi al
secondo. Poich i tempi di reazione sono dellordine dei decimi di secondo (quanto
impieghiamo per riconoscere il volto di un amico?), risulta evidente che lelaborazione
non pu transitare per pi di una decina di livelli di neuroni. La capacit di elaborazione
del sistema nervoso risiede quindi nellelevato numero di elementi e nella densa rete di
connessioni tra gli elementi stessi: si stima che il cervello umano sia composto da 100
miliardi (10
11
) di neuroni e 100 bilioni (10
14
) di sinapsi. Assumendo 4 bit/sinapsi, la
memoria del cervello umano sarebbe di
bit e, con un tempo di commutazione di 10

msec, si avrebbe una velocit di
attivazioni di sinapsi/sec (misura denominata CPS =

connessioni per secondo).
Una caratteristica fondamentale del cervello la capacit di apprendimento: ci
ricordiamo il viso delle persone che abbiamo conosciuto, impariamo a fare operazioni
(prima maldestramente, poi con maggiore naturalezza), riusciamo a valutare come si
evolver una certa situazione con lesperienza di casi analoghi. Ci possibile perch
alcune caratteristiche dei neuroni possono essere modificate. Questo principalmente
dovuto a due fenomeni: la permeabilit della membrana della cellula e la plasticit

88
sinaptica. La permeabilit influenza la soglia di reazione della cellula. La plasticit
sinaptica la capacit delle sinapsi di modulare la forza della connessione tra i neuroni: un
collegamento debole far s che lattivit del neurone ricevente sia poco influenzata
allattivit del neurone trasmettitore.
4.4 NEURONI ARTIFICIALI
Il neurone artificiale un modello matematico caratterizzato da una funzione, detta
funzione di attivazione. Gli ingressi pesati di tale funzione sono in analogia con gli
stimoli che il neurone biologico riceve dagli altri neuroni, mentre il risultato calcolato
(uscita) descrive il segnale trasmesso dal neurone lungo lassone. Quindi, la funzione di
attivazione del neurone artificiale crea una corrispondenza tra i valori dellinsieme degli
ingressi (spazio degli ingressi) e i valori nellinsieme delle uscite (spazio delle uscite).
Nel modello del neurone artificiale non si fa una distinzione tra fibra nervosa e sinapsi,
cos come vengono ignorati i ritardi di trasmissione dovuti alla lunghezza delle fibre
nervose.

Fig. 4.2. Analogia tra un neurone biologico e un neurone artificiale.

89
Le caratteristiche dei neuroni descritte nel paragrafo precedente suggeriscono che il
neurone artificiale sia un modello avente parametri capaci di modellare la soglia di
reazione e la forza della connessione sinaptica: i primi caratterizzano il comportamento di
una singola cella, mentre i secondi descrivono linterazione tra coppie di cellule.
Il primo modello formale (matematico) di neurone stato proposto da McCulloch e Pitts
nel 1943, ben prima che i calcolatori digitali si diffondessero. La sua funzione di
attivazione pu assumere due valori: neurone attivo, 1, o silente, 0. Anche i pesi sinaptici,
che modellano la forza della connessione tra una coppia di neuroni possono avere solo due
valori: eccitatorio, 1, o inibitorio, -1. Il neurone di McCulloch e Pitts esegue la somma
pesata degli stati dei neuroni a esso connessi, e, a seconda che tale valore sia maggiore o
minore della soglia, assume lo stato attivo o passivo. Formalmente, lo stato del neurone i-
esimo descritto dalla seguente funzione di attivazione:
()
Dove S
j
lo stato del neurone j-esimo, w
ij
il perso del contributo delluscita del neurone j
al neurone i, e
i
la soglia del neurone i-esimo. I pesi w
ij
sono modificabili in fase di
apprendimento. Le sommatorie sono estese allinsieme di neuroni che sono connessi al
neurone considerato, i.

Fig. 4.3. Rappresentazione schematica di un neurone artificiale proposto da McCulloch e Pitts.

90
evidente che il modello proposto basato su diverse semplificazioni del neurone
biologico. La cellula neurale biologica integra nel tempo i contributi (asincroni) dei
neuroni connessi, mentre nel modello matematico viene utilizzata la somma dei contributi.
Inoltre, luscita del tipo tutto-o-niente, e non modulata nel tempo. Nonostante queste
semplificazioni, una rete di questi neuroni, con i parametri opportunamente impostati, in
grado di calcolare qualsiasi funzione binaria (esattamente come le moderne macchine da
calcolo) e, quindi, una qualsiasi funzione calcolabile.
Sono state formulate diverse varianti del modello di McCulloch e Pitts (detto anche a
soglia, o a gradino). Esse si differenziano per le diverse funzioni di attivazione adottate,
dalle quali i diversi modelli di neurone prendono il nome. Ponendo, per semplificare la
notazione,

, citiamo le seguenti funzioni di attivazione:
- segno (bipolare):
{

(4.2)
- sigmoide:
(4.3)
- arcotangente:
(4.4)
- tangente iperbolica:
(4.5)
- lineare:
(4.6)
- lineare a tratti (rampa):

(4.7)
Tutte queste funzioni (eccetto quella lineare) sono generalizzazione della funzione gradino:
aggiungendo un parametro per modificarne la pendenza, queste funzioni possono infatti
ridursi alla funzione gradino.
4.5 RETI NEURALI ARTIFICIALI
Le reti neurali artificiali sono costituite dallinsieme di neuroni artificiali opportunamente
collegati tra loro. Il comportamento esibito da tali reti mima alcuni comportamenti
peculiari del nostro cervello, tra cui le capacit di memorizzare un oggetto, richiamare
dalla memoria tale oggetto partendo da una descrizione parziale (come ricordarsi una

91
canzone partendo dalla melodia), generalizzare a partire da esempi e raggruppare oggetti in
base alle somiglianze tra essi.
Nonostante risultati validi sarebbero ottenibili anche senza un organizzazione sistemistica
dei neuroni, lutilizzo di schemi semplici e ordinati consente lo studio delle propriet di tali
modelli computazionali. Lo schema dei collegamenti infatti spesso il fattore pi
caratterizzante dei modelli di rete neurale.
I modelli principali utilizzati sono: le reti di Hopfield, le reti feed-forward, le reti ricorrenti
e le reti competitive. Ci soffermeremo solo sulle reti feed-forward, che rappresentano il
modello da noi scelto.
4.5.1 RETI FEED-FORWARD MULTISTRATO
Le reti feed-forward multistrato sono cos chiamate perch il flusso di informazioni tra i
neuroni procede in modo unidirezionale, senza anelli di retroazione (i segnali si propagano
da monte a valle). Si tratta quindi di reti parzialmente connesse nelle quali i neuroni sono
organizzati logicamente in sottoinsiemi, detti strati (layer). Il layer i-esimo pu
comunicare esclusivamente con i layer ad esso adiacenti: in particolare gli ingressi
deriveranno dal layer antecedente, mentre le uscite saranno destinate al layer successivo.
Quindi ciascun neurone riceve in ingresso tutte le uscite dei neuroni del layer a monte,
opportunamente pesate. Una rete multistrato costituita da un minimo di tre layers; il
primo strato (quello che riceve gli stimoli dallesterno) viene detto strato di ingresso,
mentre lultimo strato (quello che fornisce la risposta della rete) viene detto strato di uscita.
Gli strati intermedi vengono detti strati nascosti (hidden layer). Si pu dimostrare che le
reti neurali sigmoidali multistrato con almeno tre strati sono approssimatori universali di
funzioni continue: mediante reti neurali di questo tipo, possibile approssimare qualsiasi
funzione continua con un accuratezza prefissata. Se i neuroni dello strato di uscita sono di
tipo discreto (per esempio, a soglia), luscita della rete potr assumere un insieme finito di
valori discreti; si pu cos realizzare la classificazione degli ingressi, cio associare a
ciascun ingresso un valore tra le uscite, il quale identifica la sua classe di appartenenza.

92

Fig. 4.4. Rappresentazione schematica di una rete feed-forward multistrato.
Tipicamente, i neuroni dello stesso strato hanno la stessa funzione di attivazione mentre
strati diversi possono avere funzioni di attivazioni differenti.
Luscita di ciascun neurone i, del k-esimo strato della rete definibile come:
()

()
(
()
()

()
) ()
dove lo stimolo per il livello di ingresso,
()
, corrisponde agli esempi forniti alla rete, e
()
la funzione di attivazione utilizzata per lo strato k-esimo. In forma matriciale,
considerati gli m neuroni di uno strato, con le relative uscite
()
e gli n
ingressi dei neuroni presinaptici, possiamo definire:

-
[
]

93
(4.9 (a))
oppure
(4.9 (b))
4.6 APPRENDIMENTO
La capacit di apprendere da parte di una rete neurale dipende dalla configurazione dei
suoi parametri. Pu anche essere possibile partire da una configurazione iniziale di questi
parametri in maniera del tutto casuale. Tramite un opportuno algoritmo, detto di
apprendimento (learning) o addestramento (training), la scelta dei valori dei parametri
della rete pu essere effettuata a partire da un insieme di esempi del comportamento
desiderato. Al termine dellapprendimento, la rete neurale deve essere in grado di
generalizzare il comportamento descritto dagli esempi presentati e di estrapolarne il
significato logico, cio deve essere capace di produrre una risposta significativa anche se
sollecitata da un ingresso non noto.
Occorre tuttavia rilevare che, mentre per una data applicazione il numero degli input e
quello dei neuroni output perfettamente definito, non esiste alcun criterio rigoroso per
definire il numero ottimale di strati intermedi o quello dei neuroni di questi strati. Questa
scelta deve essere generalmente operata in base allesperienza acquisita in applicazioni
analoghe e a un certo fiuto. Moltiplicando il numero degli strati nascosti, aumentano
anche le dimensioni del training set necessario e si moltiplica il numero delle connessioni
da aggiornare durante lapprendimento. Ne deriva un aumento notevole del tempo di
addestramento. Inoltre se i neuroni di uno strato nascosto sono troppi, non solo ci sono pi
pesi sinaptici da aggiornare, ma la rete ha anche la tendenza a imparare troppo gli esempi
del training set, derivandone una scarsa capacit di generalizzazione. Daltra parte se i
neuroni nascosti sono troppo pochi, la rete non in grado di apprendere nemmeno gli
esempi del training set.
In mancanza di una teoria adeguata per effettuare queste scelte, si pu adottare, come
vedremo, lespediente di modificare il numero di neuroni di uno strato durante
laddestramento:

94
- Se la rete stenta a imparare il training set, si aumenta il numero di neuroni;
- Se i pesi sinaptici delle connessioni sono troppo piccoli, si eliminano i neuroni
relativi;
- Se la capacit di generalizzazione della rete scarsa, si tolgono neuroni.
In letteratura sono stati proposti diversi algoritmi di apprendimento a secondo del modello
di neurone e dello schema di collegamento adottato per strutturare la rete. Si possono
individuare due categorie di algoritmi di apprendimento: lapprendimento supervisionato
e lapprendimento non supervisionato.
Nellapprendimento supervisionato, alla rete neurale vengono forniti gli esempi in
ingresso, con i relativi valori di uscita corretti. Questa modalit di apprendimento
tipicamente usata per configurare reti neurali per lapprossimazione di funzioni e per la
classificazione.
Nellapprendimento non supervisionato, fornito solo linsieme degli esempi da applicare
agli ingressi; la rete neurale autonomamente organizzer la propria configurazione. Questa
modalit di apprendimento adatta per il clustering e per le memorie associative.
Noi ci occuperemo esclusivamente dellapprendimento supervisionato.
4.6.1 APPRENDIMENTO SUPERVISIONATO
Come gi detto, lapprendimento con supervisione si basa sulla disponibilit di una
collezione di coppie:
[dati del problema/soluzione corrispondente]
Per esempio nel caso di un sistema diagnostico, avremo le coppie [sintomi/diagnosi] che
derivano da una raccolta di cartelle cliniche. Questa collezione di coppie viene
generalmente suddivisa in due gruppi: il training set e il validation set. Il training set sar
utile per laddestramento vero e proprio, mentre il validation set sar utile per accertare che
la rete non sia incapace di generalizzare quanto appreso dagli esempi. Il concetto di
supervisione sta ad indicare la presenza di un insegnante che verifichi lefficienza della
rete neurale, premiandola o bocciandola.

95
Tra i vari algoritmi di apprendimento supervisionato i pi significativi sono:
- lalgoritmo di retropropagazione (backpropagation);
- lapprendimento ibrido (hybrid learning);
- lapprendimento per rinforzo (reinforcement learning).
Ci soffermeremo esclusivamente sullalgoritmo backpropation.
4.6.2 ALGORITMO BACKPROPAGATION
Lalgoritmo detto retropropagazione (backpropagation) quello pi utilizzato per
lapprendimento supervisionato. Questa tecnica si basa sul concetto di errore, inteso come
la distanza tra il risultato ottenuto e quello desiderato. Lobiettivo quello di valutare
questa funzione errore in funzione dei parametri della rete stessa e di ottenere la sua
diminuzione tramite una modifica dei parametri operata nella direzione del gradiente della
funzione errore stessa. Per via della necessit di calcolare il gradiente della funzione
calcolata dalla rete neurale, tale tecnica pu essere utilizzata solo se la funzione di
attivazione dei neuroni derivabile rispetto ai parametri da configurare. A ogni passo
di apprendimento, viene presentato un esempio agli ingressi della rete neurale, si calcola la
relativa uscita prodotta dalla rete, e la si confronta con il valore di uscita atteso, ottenendo
lerrore relativo commesso. Procedendo a ritroso dalluscita della rete verso i neuroni pi
interni, si calcola il gradiente dellerrore rispetto ai parametri dei neuroni considerati e lo si
utilizza per modificare i parametri stessi in modo da far diminuire lerrore. La funzione
errore quadratico medio viene definita come:

()
Dove S
rj
loutput del neurone S
j
alla presentazione dellesempio C
r
e D
rj
il suo valore
desiderato.
Per esempio, si consideri una rete feed-forward multistrato a due strati nascosti realizzata
con lintento di approssimare una funzione (quindi, con un neurone di ingresso
ed uno di uscita). Linsieme di addestramento sar composto da un insieme di coppie di
numeri reali, *(
)+, che descrivono il comportamento di tale funzione. Il neurone dello


96
strato di ingresso funge da distributore del valore presentato in ingresso e ha funzione di
attivazione lineare (
()
). Luscita dei neuroni del primo strato sar:
|
.
|
\
|
=

k
j k j
x w f S
) 1 ( ) 1 ( ) 1 ( ) 1 (
u (4.11)
Tali valori costituiscono lingresso del secondo strato nascosto, che fornir in uscita:
|
|
.
|
\
|
=

j
i j j i i
S w f S
) 2 ( ) 1 ( ) 2 (
,
) 2 ( ) 2 (
u (4.12)
Infine, lo strato finale (per semplicit un neurone lineare) produrr luscita della rete
neurale:
=
i
i i
S w y
) 2 ( ) 3 ( ~
(4.13)
La presentazione alla rete dellesempio (x, y) comporta un errore di approssimazione, E,
pari a:
( )
2
~
y y E = (4.14)
Lalgoritmo di backpropagation, sfruttando la propriet della derivata di funzioni
composte, aggiorna i pesi sinaptici con le seguenti regole:
) 3 ( ) 3 (
) 3 (
~
~
i i
i
w
y
y
E
w
E
w
c
c
c
c
=
c
c
= A q q (4.15)
) 2 (
,
) 2 (
) 2 ( ) 2 (
,
) 2 (
,
~
~
j i
i
i j i
j i
w
S
S
y
y
E
w
E
w
c
c
c
c
=
c
c
= A q q (4.16)
) 1 (
) 1 (
) 1 (
) 2 (
) 2 ( ) 1 (
) 1 (
~
~
j
j
j
i
i j
j
w
S
S
S
S
y
y
E
w
E
w
c
c
c
c
=
c
c
= A q q (4.17)
dove il fattore di adattamento (o tasso di apprendimento) che pesa la velocit con cui
si cerca di discendere verso il minimo dellerrore in funzione dei nuovi esempi. Analoghe

97
formule possono essere derivate per gli altri parametri della rete (per esempio per le
soglie).
In generale, definita la stessa funzione di trasferimento per tutti i neuroni f(P), dove P il
relativo potenziale, e S
k
il generico neurone pre-sinaptico, possiamo scrivere:
()
Ponendo:
) ()
Possiamo scrivere:
()
- j = neurone di arrivo;
- k = neurone di partenza;
- = pattern di attivazione;
- = tasso di apprendimento;
- = garantisce che lerrore sia proporzionale allattivazione proveniente dal neurone
k;
Tuttavia, lalgoritmo di backpropagation soffre di alcuni problemi. Il pi grave
lincapacit di riuscire a evitare i minimi locali della funzione errore. Quando si verifica
questa situazione, si ha che piccole variazioni dei parametri fanno aumentare lerrore,
mentre una variazione dei parametri di ampia entit consentirebbe di diminuirlo, ma il
valore di adottato non consente di spostarsi a sufficienza. Inoltre, lalgoritmo di
backpropagation non d garanzie sul numero di iterazioni (epoche) necessarie per giungere
nel minimo dellerrore. Per questi motivi, sono generalmente adottate alcune varianti
dellalgoritmo di backpropagation, quali il simulated annealing e luso dei momenti. Il
simulated annealing prende il nome da una tecnica utilizzata in metallurgia, che consiste
nel riscaldare un metallo e poi raffreddarlo seguendo una ben determinata curva di
raffreddamento che consente di orientare i cristalli in maniera ottimale. Nellalgoritmo di

98
backpropagation, il simulated annealing consiste nellaggiungere nella funzione errore un
termine casuale che la renda priva di minimi locali allinizio delladdestramento. Il valore
di questo termine si riduce progressivamente con il procedere delladdestramento, facendo
emergere pian piano la vera forma dellerrore. Lipotesi su cui si fonda questa tecnica che
il minimo globale emerga prima degli altri minimi e che la rete riesca a individuarlo prima
che emergano gli altri minimi locali. Lo svantaggio principale il notevole incremento del
costo computazionale. La tecnica dei momenti consiste nellaggiungere un termine
moltiplicativo al tasso di apprendimento, , in modo che questultimo aumenti se si sta
seguendo un percorso che riduce lerrore, ma che diminuisca se invece lerrore tende a
crescere.
4.7 COME RICONOSCERE LE AUs CON UNA RETE
NEURALE
Tramite lutilizzo di reti neurali, siamo stati in grado di riconoscere, per il momento, le
AU-10, AU-12 e AU-13. La presenza dellAU-10 ci permette di appurare, con buona
probabilit, la presenza del disgusto; viceversa, la presenza delle AU-12 e AU-13
strettamente connessa alla felicit. Per questo motivo, attraverso questo sistema, possiamo
contribuire nel riconoscimento di due emozioni: il disgusto e la felicit. In futuro, con la
stessa logica, si potranno riconoscere altre AUs e quindi altre emozioni.

99

AU-10

AU-12

AU-13

Fig. 4.5. Differenze visive introdotte dalla presenza delle AUs.
Ci che stato notato nel corso di questo lavoro stato che le reti neurali ad
apprendimento supervisionato basate su algoritmo EBP risultano particolarmente
adatte nella capacit di effettuare distinzioni binarie (presenza dellAU/non-presenza
dellAU)
Il lavoro consistito nella realizzazione di due reti neurali che lavorano in parallelo:
1) la prima rete neurale riceve la parte bassa del volto contenente la bocca; quando la
forma della bocca curvata in su, cio gli angoli della bocca si alzano, ed
eventualmente i denti sono parzialmente o completamente visibili, allora si pu
affermare con buona probabilit che lindividuo felice; in caso contrario non
potremo dire nulla;
2) la seconda rete neurale riceve la parte centrale del volto contenente il naso; nel
disgusto, vi una maggiore presenza di grinze ai lati del naso (nasolabial furrows), e
questo pu essere riconosciuto dal sistema.
Loperazione di segmentazione e di estrazione delle regioni di interesse (ROI) stata
effettuata mediante il tool descritto nel capitolo precedente; sono state utilizzate sia nostre
immagini ottenute dalla webcam, sia immagini ottenute mediante [20][21][22]. Nella

100
figura seguente viene mostrata, in maniera schematica, la fase di pre-processing che ha
come risultato il vettore di ingresso alla rete neurale:

Fig. 4.6. Fase di segmentazione del volto.

Fig. 4.7. Fase di vettorizzazione dei segmenti del volto.

101

Fig. 4.8. Rappresentazione schematica e completa della fase pre-processing (segmentazione e
vettorizzazione).
Ciascuna ROI estratta viene convertita su scala di grigi e viene normalizzata in
unimmagine di dimensione 40x80 pixel; successivamente, per ogni quadrato 8x8, viene
calcolata una media dei valori di ciascun pixel e, infine, limmagine viene vettorizzata in
modo tale da poter essere utilizzata come ingresso alla rete neurale.
Luscita della rete neurale potr assumere due valori: 0 nel caso di assenza delle AUs, 1 nel
caso di presenza delle AUs). La funzione di trasferimento scelta per ciascun livello
logaritmica.
Per realizzare le reti neurali, sono state utilizzate le librerie fornite da Matlab; ecco i
risultati ottenuti:

102

Fig. 4.9. Risultati ottenuti dalla rete neurale per la bocca.

103

Fig. 4.10. Risultati ottenuti dalla rete neurale per il naso.
4.7.1 REGIONE DELLA BOCCA
Per laddestramento di questa prima rete neurale, abbiamo utilizzato un training set di 200
bocche: 100 di queste costituivano esempi positivi, mentre le restanti 100 rappresentavano
esempi negativi. Laddestramento avvenuto in 20000.

Fig. 4.11. Esempi di bocche estratte dalle nostre immagini da webcam.

104

Fig. 4.12. Esempi di bocche estratte dalle immagini di database pubblici.
La rete neurale costituita da 4 livelli (300x200x10x1). I risultati sono piuttosto
attendibili: nel 90% dei casi la rete stata in grado di fornire la giusta risposta; ecco alcuni
esempi:
Tabella 4.1. Tabella contenente alcuni esempi di bocche elaborate dalla rete neurale.

Picture 1. Picture 5. Picture 9. Picture 10.

Picture 12. Picture 18. Picture 7. Picture 17.

Picture 1a. Picture 3a. Picture 6a. Picture 18a.

Picture 28a. Picture 32a. Picture 44a. Picture 47a.

Picture 86a. Picture 88a.
Picture number Output Picture number Outpu
1 0.9518 3a 0.0172
5 0.9518 6a 0.0386
9 0.9518 18a 0.0172
10 0.9518 28a 0.0172
12 0.9518 32a 0.0386
18 0.9518 44a 0.0386
7 0.0220 47a 0.0277
17 0.0331 86a 0.1871
1a 0.0172 88a 0.0172

105
4.7.2 REGIONE DEL NASO
Per laddestramento di questa seconda rete neurale, abbiamo utilizzato un training set di
100 esempi di naso: 50 di queste costituivano esempi positivi, mentre le restanti 50
rappresentavano esempi negativi. Laddestramento avvenuto in 20000.

Fig. 4.12. Esempi di nasi estratti dalle nostre immagini da webcam.

Fig. 4.13. Esempi di nasi estratti dalle immagini di database pubblici.
La rete neurale costituita da 4 livelli (400x80x10x1): nell85% dei casi la rete stata in
grado di fornire la giusta risposta; ecco alcuni esempi:
Tabella 4.2. Tabella contenente alcuni esempi di naso elaborati dalla rete neurale.

Picture 1b. Picture 3b. Picture 4b.

Picture 14b. Picture 22b. Picture 1c.

Picture 5c. Picture 10c. Picture 31c.
Picture number Output Picture number Output
1b 0,0105 1c 0,0105
3b 0.9660 5c 0,0105
4b 0.9660 10c 0,0105
14b 0.9660 31c 0,0105
22b 0.9660

CAPITOLO 5
CONCLUSIONI E SVILUPPI FUTURI
Cap. 5 Conclusioni e sviluppi futuri

107
5.1 CONCLUSIONI
Quando noi interagiamo con altri esseri umani, inviamo e riceviamo continuamente segnali
non verbali, contenenti numerose informazioni. Questi segnali sono fondamentali
nellinterazione sociale e costituiscono un importante sostegno al discorso che si sta
affrontando. Nella comunicazione non verbale rientrano sia la gestualit e sia le espressioni
facciali.

Lobiettivo principale di questo progetto quello di approfondire lo studio sulla relazione
tra le emozioni e le interazioni sociali tra esseri umani da un punto di vista ingegneristico,
mediante la realizzazione di un sistema multimodale in grado di riconoscere le
caratteristiche emotive delluomo. In particolare, lo scopo quello di unire le capacit
fornire dalle reti neurali con le potenzialit delle tecniche di image processing.

Il lavoro qui presentato costituisce ancora un cantiere aperto; lobiettivo quello di
arrivare alla creazione di un progetto robusto e completo, che possa unire tutte le
conoscenze disponibili, creando cos un prodotto commerciale.
5.2 SVILUPPI FUTURI
In futuro si cercher di migliorare la costruzione e il numero dei poligoni, in maniera tale
da avere un miglioramento nellanalisi delle AUs e, di conseguenza, nel riconoscimento
delle emozioni. Inoltre, si cercher di ottenere una maggiore robustezza del software,
fondendo entrambe le tecniche che abbiamo visto: quella basata su image processing e
quella basata su soft computing; per il momento i due lavori sono completamente separati,
ma i risultati ottenuti ci fanno sperare di ottenere un potenziamento attraverso la fusione di
entrambi i progetti.


108
Oltretutto, il lavoro svolto sulle reti neurali potr essere ulteriormente ampliato, se si pensa
al fatto che non stata ancora presa in considerazione la parte alta del volto; attraverso la
valutazione dellapertura degli occhi (in funzione della presenza di zone bianche della
regione) e delle grinze sui lati degli occhi, si potranno riconoscere altre AUs.

Un altro punto in fase di sviluppo lottimizzazione del software in termini di velocit: per
questo motivo la soluzione il multithreading, e i risultati sono nettamente in
miglioramento.
5.3 A CHI RIVOLTO
Lidea di creare un prodotto simile ha le seguenti tre finalit:
1. Reclutamento personale: in un ipotetico colloqui di lavoro, il reclutatore potrebbe
essere interessato ad analizzare lo stato emotivo del soggetto in analisi. Nello
specifico, potrebbe essere utile valutare in maniera approfondita la reazione emotiva
nel corso del colloquio;
2. Diagnosi precoce di patologie neurodegenerative come Alzheimer, Parkinson, etc.: le
malattie neurodegenerative rappresentano un onere notevole per la Sanit Pubblica;
la soluzione potrebbe essere quella di effettuare prevenzione sugli adulti di 50 anni
ed oltre, mediante una diagnosi precoce e non invasiva: appurato che soggetti
affetti da patologie di questo tipo, presentano il cosiddetto flat affect, ossia una grave
riduzione sia dellespressivit emotiva e sia nella capacit di riconoscere le emozioni;
3. Social networking: in unepoca in cui il social network diventato parte integrante
della vita di quasi tutti i giovani e non solo, potrebbe essere utile e comodo
comunicare ai propri amici il proprio stato danimo mediante limmagine
caratteristica del proprio profilo; in questa circostanza, quindi, il software
analizzerebbe la foto del profilo di ciascun utente e aggiungerebbe al profilo stesso lo
stato emotivo rilevato dallimmagine.


109

Bibliografia

110
BIBLIOGRAFIA
1. Darwin, Charles. The Expression of the Emotions in Man and Animals. s.l. : Bollati
Boringhieri, 1872;
2. Darwin, Charles e Ekman, Paul. The Expression of the Emotions in Man and
Animals 2nd Ed. s.l. : Bollati Boringhieri, 1982;
3. A.Mehrabian, Communication without words, Psychology today, vol.2, no.4,
pp.53-56, 1968;
4. R.W. Picard, Affective Computing. Cambridge.MA : MIT Press, 1997
5. D. Beymer, A. Shashua, and T. Poggio, Example Based Image Analysis and
Synthesis, M.I.T. A.I. Memo No. 1431,1993;
6. Y.Yacob and L Devis, Recognizing Human facial expression from long image
sequences using optical flow, IEEE transaction on Pattern Analysis and Machine
Intelligence [PAMI], 18{6}: 636-642, 1996;
7. A New Tool to Support Diagnosis of Neurological Disorders by Means of Facial
Expressions - Vitoantonio Bevilacqua, Dario DAmbruoso, Giovanni Mandolino,
Marco Suma, M.:. In: IEEE Proc. of MeMeA, pp. 544549;
8. A Supervised Approach to Support the Analysis and the Classification of Non
Verbal Humans Communications - Vitoantonio Bevilacqua, Marco Suma, Dario
DAmbruoso, Giovanni Mandolino, Michele Caccia, Simone Tucci, Emanuela De
Tommaso, and Giuseppe Mastronardi - D.-S. Huang et al. (Eds.): ICIC 2011,
LNCS 6838, pp. 426431, 2011. Springer-Verlag Berlin Heidelberg 2011;
9. The expression of emotions in man and animals;
10. manuale di Chiarugi e Bucciante;
11. http://en.wikipedia.org/wiki/Facial_Action_Coding_System;
12. http://www.face-and-emotion.com/index.html;
13. Facial Action Coding System by Paul Ekman, Ph.D. Wallace V. Friesen, Ph.D.
Joseph C. Hager, Ph.D. ISBN 0-931835-01-1;
14. http://mplab.ucsd.edu/grants/project1/free-software/mptwebsite/API;
15. R. Lanzarotti, Facial feature detection and description, Master thesis, Universit
degli studi di Milano, 2003;
Bibliografia

111
16. T. Uchimaya, M. A. Arbib, Color Image Segmentation Using Competitive
Learning, IEEE Trans. on Pattern Analysis and Machine Intelligence, 1994;
17. A. Mavrinac, Competitive Learning Techniques for Color Image Segmentation,
Machine Learning and Computer Vision, 2007;
18. J. P. Lewis, Fast Normalized Cross Correlation, Industrial Light and Magic,
1995;
19. G. C. Feng, P. C. Yuen, Variance projection function and its application to eye
detection for human face recognition, Pattern Recognition Letters,1998;
20. The Japanese Female Facial Expression (JAFFE) Database,
http://www.kasrl.org/jaffe.html;
21. Psychological Image Collection at Stirling (PICS), http://pics.psych.stir.ac.uk;
22. Project dedicated for researches on facial emotionality, http://www.emotional-
face.org;

Tesi SumaMarco

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tesi SumaMarco

Uploaded by

Copyright:

Available Formats

POLITECNICO DI BARI

, indichiamo con ( ) il valore del pixel

}; indichiamo con t il template, di

. Il valore della cross-correlazione normalizzata ( ) in un punto

rappresenta il valore medio di f nellarea del template t traslato di ( ) ed

) Grazie a questa normalizzazione, ( )

} vanno ricalcolati il valor medio

() e lenergia della funzione a valor medio nullo

()). La connettivit gode della propriet transitiva.

) sono ottenute calcolando il

bit e, con un tempo di commutazione di 10

attivazioni di sinapsi/sec (misura denominata CPS =

)+, che descrivono il comportamento di tale funzione. Il neurone dello

You might also like