You are on page 1of 7

Machine Translated by Google

TSception: un marco de aprendizaje profundo para


Detección de emociones mediante EEG
Yi Ding1 , Neethu Robinson1 ,Qiuhao Zeng1 , Duo Chen1 , Aung Aung Phyo Wai1 Tih­Shih ,
Lee2,3, Cuntai Guan1* 1Escuela de
Ingeniería y Ciencias de la Computación, Universidad Tecnológica de Nanyang, Singapur 2Programa
de Neurociencia y Trastornos del Comportamiento,
Universidad de Duke ­ Facultad de Medicina de la Universidad Nacional de Singapur , Singapur,
Singapur 3Hospital General de Singapur, Singapur,
1
Singapur {ding.yi, nrobinson, qiuhao.zeng, chenduo, apwaung, ctguan}
@ntu.edu.sg, 2, 3tihshih.lee@duke­nus.edu.sg

Resumen—En este artículo, proponemos un marco de aprendizaje Contiene información más completa sobre el estado mental humano y la
profundo, TSception, para la detección de emociones a partir de evaluación objetiva. La detección de la excitación emocional mediante EEG
electroencefalograma (EEG). TSception consta de capas convolucionales
contiene tres partes principales: preprocesamiento, extracción de
temporales y espaciales, que aprenden representaciones discriminativas
en los dominios de tiempo y canal simultáneamente. El alumno temporal características y entrenamiento del clasificador. El artefacto y el ruido (por
consta de núcleos convolucionales 1D de múltiples escalas cuyas ejemplo, parpadeos, ruido de 60 Hz) se eliminarán durante la etapa de
longitudes están relacionadas con la frecuencia de muestreo de la señal preprocesamiento. La densidad espectral de potencia (PSD) de diferentes
EEG, que aprende múltiples representaciones temporales y de frecuencia. bandas de frecuencia, la entropía diferencial (DE), las desincronizaciones/
El alumno espacial aprovecha la propiedad de asimetría de las respuestas
desincronizaciones relacionadas con eventos (ERD/ERS), los potenciales
emocionales en el área frontal del cerebro para aprender las
relacionados
representaciones discriminativas de los hemisferios izquierdo y derecho del cerebro. con eventos (ERP), etc., se extraen comúnmente como
En nuestro estudio, se diseña un sistema para estudiar la excitación características. Luego se selecciona un conjunto de características para entrenar un clasificad
emocional en un entorno inmersivo de realidad virtual (VR). Se recopilaron Se han realizado muchos trabajos de investigación para resolver el
datos de EEG de 18 sujetos sanos que utilizaron este sistema para problema de clasificación del estado emocional del EEG [1] [7]. Atkinson y
evaluar el rendimiento de la red de aprendizaje profundo propuesta para
cols. [8] propusieron un método de selección de características eficiente para
la clasificación de estados de excitación emocional alta y baja. El método
propuesto se compara con SVM, EEGNet y LSTM. mejorar el rendimiento del clasificador SVM en la detección de excitación
TSception logra una alta precisión de clasificación del 86,03%, lo que emocional, con una precisión del 73,14%. Zheng et al [9] investigaron
supera significativamente a los métodos anteriores (p<0,05). patrones estables de electroencefalograma (EEG) a lo largo del tiempo para
Términos del índice: aprendizaje profundo, red neuronal convolucional, el reconocimiento de emociones, utilizando una máquina de aprendizaje
electroencefalografía, excitación emocional, realidad virtual
extremo regularizada con gráficos discriminativos con funciones DE. Li y col.
[10] construyeron redes cerebrales relacionadas con las emociones con valor
I. INTRODUCCIÓN
de bloqueo de fase y adoptaron un enfoque de fusión de características
Las emociones son fundamentales en la vida diaria del ser humano. múltiples para el reconocimiento de emociones. Recientemente, los métodos
Las emociones se pueden mapear en las dimensiones de valencia, excitación de aprendizaje profundo han mostrado un rendimiento de clasificación
y dominancia (VAD) [1]. Entre tres dimensiones, la detección de la excitación prometedor en BCI, como la clasificación de imágenes motoras [11] [12] [13]
emocional (EA) juega un papel importante en el diagnóstico y la terapia de [14] [15], el reconocimiento de emociones [16] [17] [18] [19] y clasificación de
discapacidades psicológicas, como el trastorno de ansiedad [2] [3] y los tareas mentales [20] [21] [22]. Yang et. Alabama. [16] diseñaron una
trastornos del espectro autista (TEA) [4]. estructura de red jerárquica con nodos de subred para clasificar tres estados
La investigación [5] sobre la terapia centrada en las emociones (EFT) emocionales. Li y col. [17] propusieron redes neuronales convolucionales
demostró que la excitación emocional es fundamental para el éxito jerárquicas (HCNN) para extraer la información espacial de los electrodos de
psicoterapéutico. Sin embargo, la detección de la excitación emocional sigue EEG mapeando la señal de EEG en un mapa de ubicación 2D. Li et. Alabama.
siendo una tarea desafiante para el sistema de interacción hombre­máquina. [18] aplicaron 18 tipos de características lineales y no lineales para estudiar

El sistema de interfaz cerebro­computadora (BCI) permite a la computadora los problemas de reconocimiento de emociones entre sujetos, logrando un

percibir el estado mental de excitación del ser humano, utilizando tecnología 59,06% y un 83,33% en dos conjuntos de datos públicos. Aunque se han

de aprendizaje automático y procesamiento de señales [6]. La propuesto muchos métodos de aprendizaje automático para la detección de

electroencefalografía (EEG) se realiza mediante varios electrodos ubicados la excitación emocional, la mayoría de ellos dependen en gran medida de las

en la superficie de la cabeza humana, que reflejan directamente la actividad funciones extraídas manualmente. Vernon J Lawhern et al [14] propusieron

neuronal potencial. En comparación con otras señales emocionales, como la EEGNet, un marco de aprendizaje profundo de un extremo a otro que puede

expresión facial y el lenguaje natural, el EEG extraer los patrones temporales y espaciales ocultos de los datos EEG sin
procesar.
* Cuntai Guan es el autor correspondiente. Inspirándonos en el bloque Inception de GoogleNet [23],

978­1­7281­6926­2/20/$31.00 ©2020 IEEE


Uso autorizado con licencia limitado a: Universidad Tecnológica de Auckland. Descargado el 5 de octubre de 2020 a las 10:27:40 UTC desde IEEE Xplore. Se aplican restricciones.
Machine Translated by Google

propuso TSception, un marco de aprendizaje profundo para la clasificación de de la cabeza humana, la dimensión del canal contiene información espacial del
señales EEG. Utiliza estudiantes temporales y espaciales para aprender EEG; en cambio, la dimensión temporal está llena de información temporal. Para
representaciones más discriminativas de señales EEG en los dominios temporal y entrenar un clasificador, la señal EEG se dividirá en segmentos de tiempo más
espacial simultáneamente. Hay dos tipos de alumnos convolucionales en TSception: cortos mediante una ventana deslizante con cierta superposición a lo largo de la
alumnos temporales y alumnos espaciales. El aprendiz temporal tiene núcleos dimensión temporal. Cada segmento será una muestra de entrada para el clasificador.
convolucionales de múltiples escalas, aprendiendo múltiples representaciones
temporales y de frecuencia más discriminativas. La evidencia psicofisiológica [24] Recientemente, las redes neuronales convolucionales han mostrado resultados
indica que las mitades izquierda y derecha de las áreas del cerebro frontal humano prometedores en BCI [27] [28] [14]. J. Li y col. [17] construyeron los datos de EEG
se asocian de manera diferencial con emociones y rasgos afectivos particulares. El en un mapa 2D disperso de acuerdo con la ubicación relativa de los electrodos para
alumno espacial aprovecha el área frontal de la asimetría emocional del cerebro, cada punto de tiempo.
utilizando los núcleos del hemisferio para aprender la representación adecuada de Luego se aplicaron perreras convolucionales de tamaño (N, N) para realizar la
la información del cerebro derecho e izquierdo. convolución. Puede capturar el patrón espacial local compartiendo los núcleos paso
a paso, pero perderá la información espacial global ya que N suele ser menor que
la longitud de la entrada. RT Schirrmeister et. Alabama. [11] diseñaron una ConvNet
Los estudios [25] [3] [26] han demostrado que la realidad virtual puede inducir profunda, que tiene núcleos convolucionales temporales 1D y núcleos convolucionales
emociones específicas de manera efectiva. Para estudiar la excitación emocional en espaciales globales para extraer información espacial temporal y global de la señal
el entorno de realidad virtual inmersivo y evaluar el algoritmo propuesto, diseñamos EEG. N. Robinson y otros. Alabama. [27] presentaron un sistema EEG­BCI basado
un sistema VR­BCI y recopilamos datos de EEG de 18 sujetos sanos en el entorno en aprendizaje profundo para realizar la decodificación de imágenes de motores
de realidad virtual. manuales utilizando una arquitectura de red neuronal de convolución profunda.
La principal contribución de este trabajo se puede resumir como: • Diseñó un Fahimi et. Alabama. [20] utilizan una red neuronal convolucional profunda para
nuevo marco de aprendizaje profundo, que utiliza estudiantes temporales/ construir un marco de aprendizaje de transferencia entre sujetos para la detección

espaciales para aprender representaciones EEG discriminativas en el tiempo/ atenta del estado mental. Recientemente, Vernon J Lawhern et al. [14] propusieron
espacio de estados de excitación emocional alta y baja. Los núcleos EEGNet, que contiene el núcleo de convolución en profundidad de tamaño (N, 1).
convolucionales en el aprendiz temporal tienen longitudes de múltiples Puede extraer la dependencia espacial global haciendo que N sea igual a la longitud
escalas relacionadas con la frecuencia de muestreo, aprendiendo múltiples de la dimensión del canal.
representaciones temporales y de frecuencia en paralelo. El alumno espacial
considera el área frontal de la asimetría emocional del cerebro para aprender
representaciones espaciales globales­locales de las señales EEG. En EEGNet, también hay núcleos temporales 1D con un tamaño único en cada capa
para aprender información temporal.
• Diseñé e implementé el experimento y el sistema para recopilar datos de EEG
III. METODOLOGÍA
de excitación emocional en el entorno de realidad virtual.
mento.
A. Estructura general de la red propuesta ­ TSception
• Finalmente, el método propuesto se compara con SVM usando potencia relativa
El inicio espacial temporal (TSception) se puede dividir en 3 partes principales:
y DE como características, EEGNet, LSTM, junto con dos versiones
alumno temporal, alumno espacial y clasificador.
simplificadas de autocomparación, a saber, Tception y Sception.
Inspirado en el bloque Inception, TSception utiliza núcleos de convolución de
múltiples escalas en estudiantes temporales/espaciales para aprender diversas
II. TRABAJO RELACIONADO representaciones de tiempo/espacio simultáneamente. La figura 1 muestra la

A. GoogleNet e Inception Block GoogleNet, estructura general de TSception. La entrada de TSception es la señal EEG sin
procesar, lo que la convierte en una estructura de clasificación de un extremo a otro.
también conocido como Inception­V1, ganó el concurso ILSVRC 2014 [23]. En
Los alumnos temporales y espaciales aprenden las características automáticamente.
GoogleNet, se utilizan bloques pequeños en lugar de capas convolucionales
La entrada se envía primero al alumno temporal y luego al alumno espacial.
convencionales. El bloque de inicio se introdujo en la arquitectura de GoogleNet.
Finalmente, el vector de características aprendido pasará a través de 2 capas
En los bloques iniciales, se logran operaciones de división, transformación y fusión
completamente conectadas para asignarlo a la etiqueta correspondiente.
para mejorar el aprendizaje de diferentes representaciones para el mismo objeto en
diferentes imágenes. La idea principal del bloque Inception es extraer patrones
espaciales utilizando núcleos convolucionales de múltiples escalas (1x1, 3x3, 5x5)
B. Aprendiz temporal
en cada capa.
El alumno temporal consta de núcleos temporales 1D de múltiples escalas
(núcleos T) cuyas longitudes están en diferentes proporciones de la frecuencia de
B. Red neuronal convolucional para datos de EEG muestreo de la señal EEG fS. Los coeficientes de relación se definen R, donde i

A diferencia de las imágenes, los datos de EEG se pueden tratar como series de
yo como α es el nivel del alumno temporal.
tiempo 2D, cuyas dimensiones son canales (electrodos de EEG) y tiempo, Si el alumno temporal tiene L niveles, entonces i varía de 1 a L, y el alumno temporal

respectivamente. Los canales en este artículo son los electrodos de EEG en lugar tendrá L tipos de núcleos temporales. Por lo tanto, S, el tamaño de T núcleos en el i
ésimo nivel, puede ser Ti ,
de las dimensiones RGB en las imágenes o los canales de entrada/salida para
definido como:
capas convolucionales. Porque los electrodos están ubicados en diferentes áreas
de la superficie. Si = 1, αi ∙ fS (1)
t

Uso autorizado con licencia limitado a: Universidad Tecnológica de Auckland. Descargado el 5 de octubre de 2020 a las 10:27:40 UTC desde IEEE Xplore. Se aplican restricciones.
Machine Translated by Google

Aprendiz temporal Aprendiz espacial Clasificador

Totalmente conectado
Capa

Aporte:

Producción

...
...

Aplanar

Normalización por lotes


Normalización por lotes
después
después de la concatenación
Concatenación a
a través del canal
través de dimensiones dimensiones
de características

canales canales canales


tiempo
característica característica

núcleo del hemisferio


granos granos granos
núcleo global

Fig. 1. La estructura de TSception. Los resultados de la convolución corresponden a los núcleos del mismo color. TSception se puede dividir en 3 partes principales: alumno
temporal, alumno espacial y clasificador. La entrada se envía primero al alumno temporal y luego al alumno espacial. Finalmente, el vector de características pasará a través de 2
capas completamente conectadas para asignarlo a la etiqueta correspondiente. La dimensión del segmento EEG de entrada es (4 x 1 x 1024), ya que tiene 4 canales y 1024
puntos de datos por canal. Hay 9 núcleos para cada tipo de núcleos temporales en el alumno temporal y 6 núcleos para cada tipo de núcleos espaciales en el alumno espacial.
Los núcleos convolucionales temporales de múltiples escalas operarán la convolución en los datos de entrada en paralelo. Para cada operación de convolución, se aplican ReLU(∙)
y la agrupación promedio a la característica. La salida de cada núcleo temporal de nivel se concatena a lo largo de la dimensión de la característica, después de lo cual se aplica
la normalización por lotes. En el aprendizaje espacial, el núcleo global y el núcleo hemisférico se utilizan para extraer información espacial. La salida de los dos núcleos espaciales
se concatenará a lo largo de la dimensión del canal después de ReLU(∙) y la agrupación promedio. El mapa de características aplanado se introducirá en una capa completamente
conectada. Después de la capa de abandono y la función de activación de softmax, se generará el resultado de la clasificación.

i
Desde la perspectiva de la frecuencia, en EEGNet, la longitud del núcleo después de la operación de convolución de i­ésimo nivel. z conversión Se define como:
T se establece en la mitad de la frecuencia de muestreo, lo que permite
yo z
conversión = AvgP ool(ReLU(Conv1D(X, Si T ))) (2)
capturar información de frecuencia a 2 Hz y más [14].
i
Los estados emocionales están más relacionados con Alfa (8­15 Hz), Beta donde S es el tamaño del núcleo T, X es la matriz de segmentos de EEG sin procesar de entrada, Conv1D(∙) es la
t
(15­32 Hz) y Gamma (>32 Hz) [1], en este trabajo ampliamos los rangos operación de convolución 1D con el tamaño del núcleo S T y el paso (1,1).
i
temporales de percepción, dejando L = 3, i = 1 a 3 y α = 0,5, los coeficientes
de relación son [0,5, 0,25, 0,125], que pueden capturar aún más la frecuencia La salida del núcleo T de cada nivel se concatenará. Para reducir los
de 4 Hz hacia arriba y de 8 Hz hacia arriba. Sostenemos la hipótesis de que problemas de cambio de covariables internos en las redes neuronales, se
al utilizar núcleos temporales de múltiples escalas, el alumno temporal puede agrega la normalización por lotes [29]. Por lo tanto la final es
B×T ×C×F i
aprender representaciones de múltiples frecuencias relacionadas con el salida del alumno temporal ZT , ZT R definido como:
estado emocional. Desde la perspectiva del tiempo, los núcleos T de múltiples
0
escalas pueden capturar patrones temporales a largo plazo, proporcionando ZT = fbn([z conversión, ..., conversión zi]) (3)
representaciones más diversas.
donde fbn es la operación de normalización por lotes, [∙] representa la
El núcleo T de nivel inferior tiene un coeficiente de relación mayor, lo que
operación de concatenación a lo largo de la dimensión de la característica (F).
proporciona una longitud de núcleo convolucional más larga y viceversa. El
núcleo largo puede aprender diversas representaciones temporales y de baja C. Alumno espacial
frecuencia a largo plazo. En su lugar, el kernel corto extrae representaciones
El alumno espacial tiene núcleos convolucionales 1D de múltiples escalas
temporales y de alta frecuencia a corto plazo. Sea X x1 la matriz de segmentos cuyos tamaños están relacionados con la ubicación de los canales EEG.
0
entrada de EEG sin procesar. X = x xn R C×L, donde, de , ...,
n es xn , de
el número
Hay tres tipos de núcleos espaciales: núcleo global, núcleo hemisférico y
segmentos de EEG, C es el número de canales, L es la longitud de los
núcleo local. Para aplicar tres tipos de núcleos, se debe organizar
segmentos. Los núcleos temporales de múltiples escalas operarán la
cuidadosamente la secuencia de canales en los segmentos de entrada del
convolución en los datos de entrada en paralelo. La señal de EEG tiene una
EEG. El orden de los canales debe ser [canal izquierdo, canal derecho],
relación señal­ruido baja; el uso de agrupación promedio puede reducir el
donde el canal izquierdo son los canales ubicados en el hemisferio izquierdo,
efecto del ruido, así como la dimensión de la característica. Después de
el canal derecho son los del hemisferio derecho. Sea la entrada del alumno
activarlo mediante ReLU (∙), el mapa de características se reduce aún más
espacial X = [x0, x1, ..., xn], xn R donde n es el número de segmentos de
mediante la agrupación promedio. C×F
i , de la característica para
EEG, C es el número de canales, F es la longitud
Sea z la salida
del kernel temporal de i ésimo nivel, i donde B es el número de muestras z conv en cada mini lote, T es el número de kernel T de cada nivel, C es el
conversión
B×T×C×F Ri cada canal .
número de canales, F es el longitud de la característica ,

i Para el kernel global, es el mismo que los de EEGNet [14], cuyo tamaño
es (C, 1), donde C es el número de canales.
Dado que la longitud del núcleo es la misma que la del canal.

Uso autorizado con licencia limitado a: Universidad Tecnológica de Auckland. Descargado el 5 de octubre de 2020 a las 10:27:40 UTC desde IEEE Xplore. Se aplican restricciones.
Machine Translated by Google

dimensión del segmento EEG de entrada, puede obtener el patrón de relación Algoritmo 1: Procedimiento de entrenamiento para TSception
espacial global. Entrada: datos EEG sin procesar X, etiqueta de verdad del terreno Y ,
Inspirándonos en EEGNet, combinamos aún más el área frontal de la modelo T Sception(∙), número de núcleos temporales
asimetría emocional del cerebro [30] en el diseño del núcleo. El núcleo del NT , número de núcleos espaciales NS, paciente con
hemisferio se utiliza para extraer el patrón de relación entre los hemisferios parada temprana p
izquierdo y derecho compartiendo los núcleos convolucionales. El tamaño del Inicialización;
núcleo del hemisferio es (0,5 ∙ C, 1) y el paso es (0,5 ∙ C, 1), donde C es el pparada =
número total de canales. 0; accmax = 0;
El núcleo del hemisferio es compartido por dos hemisferios sin superponerse, mientras que pstop < p
de modo que se pueda extraer el patrón de asimetría. do if accvalidation > accmax entonces
El diseño adicional del kernel local tiene el mismo principio que los kernels accmax = acreditación;
anteriores. Podemos definir la subárea de la superficie cerebral según
pparada = 0;
funciones, y la longitud del núcleo local sería el número de canales ubicados de lo
en las subáreas. En este trabajo, sólo se utilizan los núcleos global y
contrario pstop+
hemisférico. El núcleo local será considerado en futuras investigaciones = 1; fin
como una posible alternativa.
Yˆ = T Scepción(X, NT , NS);
pérdida = Lε(Y, Yˆ);
D. Optimización de TSception back_propagation(pérdida, optimizador = Adam);
fin
Para optimizar los parámetros de la red, adoptamos el método de
Guardar modelo;
retropropagación para actualizar iterativamente los parámetros de la red
hasta que se logre el criterio deseado. El costo de entropía cruzada se utiliza
como función objetivo. Se agrega el término de regularización L1 para
mantener los pesos pequeños, simplificando el modelo y evitando el A B
sobreajuste [31]. La función de pérdida final se expresa como:

norte

Lε(y, yˆ) = LEntropía cruzada(y, yˆ) + λ |θi | (4)


yo=1

donde y es la etiqueta de verdad fundamental y yˆ es la etiqueta predicha. λ


es el coeficiente de regulación L1, θi es el iésimo peso del modelo.
Fig. 2. Estímulos de baja excitación (A) y estímulos de alta excitación (B). En los estímulos de
Para superar el problema del sobreajuste, adoptamos una parada baja excitación, hay un pájaro blanco que vuela a baja altura sobre el lago helado en un clima
nevado, presentado en una perspectiva en primera persona. Para estímulos de alta excitación,
temprana en el proceso de capacitación. El criterio de parada se establece un juego para evitar piedras está diseñado para inducir una alta excitación en el sujeto.
cuando la precisión de la validación deja de aumentar en determinadas épocas.

IV. EXPERIMENTO
1) Estímulos de baja excitación: para este estímulo, como se muestra en
A. Adquisición de datos la Fig. 2 (A), hay un pájaro blanco que vuela a baja altura sobre el lago
Para estudiar la excitación emocional en un entorno de realidad virtual congelado en un clima nevado, presentado en una perspectiva en primera
inmersivo y evaluar el algoritmo propuesto, recopilamos datos de EEG de 18 persona. El pájaro vuela lenta y elegantemente, con la suave música de
sujetos sanos (9 hombres/9 mujeres, entre 23 y 49 años) utilizando un fondo. El diseño de este estímulo sigue a Bilgin et. Alabama. [26], lo que
sistema VR­BCI. HTC VIVE pro se utiliza como dispositivo de realidad virtual. indica que el entorno natural y con poca iluminación puede inducir una baja
Los datos de EEG de cuatro canales (TP9, AF7, AF8, TP10) se recopilan excitación emocional de manera efectiva.
utilizando la diadema MUSE EEG [32] [33]. La frecuencia de muestreo es de
256 Hz. Los experimentos se llevan a cabo en una habitación aislada con 2) Estímulos de alta excitación: los estudios [34] [35] muestran que el uso
iluminación suave para evitar perturbaciones externas. Los sujetos fueron de entradas complejas (dos manos), hacer que el sujeto sea estresante y
sentados en un cómodo sillón y se les indicó que evitaran movimientos no aumentar la dificultad adecuadamente puede inducir un mayor nivel de
deseados. La descripción del experimento y las tareas que deben realizarse excitación en el jugador. Para este estímulo se diseña un juego de evitar
se describen al sujeto antes del experimento. Se agrega una sesión de piedras. Como se ve en la Fig. 2 (B), hay una piedra que llega a la perspectiva
demostración para que el sujeto se familiarice con el sistema. Después del en primera persona de forma rápida y aleatoria, con el efecto de audio de una
experimento, se le entregará al sujeto un formulario de encuesta para obtener piedra en movimiento. Aparecerá una flecha cuando la piedra alcance una
comentarios y su estado emocional durante el experimento. cierta distancia del sujeto. Para evitar la piedra, el sujeto debe presionar el
botón izquierdo del controlador portátil si la flecha apunta hacia la izquierda y
El sistema se desarrolla utilizando la plataforma de desarrollo Unity 3D. el botón derecho del controlador portátil si la flecha apunta hacia la derecha.
Hay 2 tipos de estímulos: baja excitación y alta excitación. Si el sujeto presiona el botón correcto, la piedra desaparecerá, la puntuación
del jugador

Uso autorizado con licencia limitado a: Universidad Tecnológica de Auckland. Descargado el 5 de octubre de 2020 a las 10:27:40 UTC desde IEEE Xplore. Se aplican restricciones.
Machine Translated by Google

aumenta en 1. Si se presiona el botón incorrecto, el sujeto verá que la donde xi son los datos en la i­ésima banda de frecuencia, n es el número
piedra golpea la pantalla y la puntuación disminuirá en 1. Para mantener el de bandas de frecuencia.
nivel de excitación de los sujetos, se adopta el mecanismo de dificultades El DE se calcula como [17]:
adaptativas [35] en el juego. Cuantas más puntuaciones obtenga el sujeto,
1
más rápido se moverá la piedra y viceversa. DE = log2πeσ2 (6)
2
viceversa.
donde e es la constante de Euler y σ es la desviación estándar de xi .

Bajo Alto Bajo Alto Bajo Alto


Excitación Excitación Excitación Excitación Excitación Excitación C. Configuración de parámetros

La biblioteca PyTorch [38] se utiliza para implementar la propuesta.


1
1 minuto 1 minuto modelo, el código fuente se puede encontrar en el sitio web
5s
Los parámetros de TSception se seleccionan empíricamente. Hay
6 min + 25 s (Sin tarea)
núcleos temporales de 3 niveles cuyos coeficientes de relación
correspondientes son α = [0,5, 0,25, 0,125]. Para cada nivel, hay 9 núcleos
Fig. 3. Protocolo del experimento. Hay 2 tipos de estímulos: baja excitación y alta excitación. En
una sesión de experimento, cada estímulo dura 1 minuto, entre los cuales hay un descanso de
convolucionales. Para el alumno espacial, los núcleos global y hemisférico
5 segundos. Cada sujeto participó en 3 sesiones en total. se utilizan con 6 núcleos convolucionales en cada tipo. El nodo oculto se
establece en 128 en las primeras capas completamente conectadas.

El protocolo del experimento se muestra en la Fig. 3. Cada sujeto


Para el proceso de capacitación, se adopta el optimizador Adam, con
participó en 3 sesiones en total. Hay 2 pruebas en cada sesión. En una
una tasa de aprendizaje de 0,001. El tamaño del minilote es 128. La tasa
sesión de experimento, cada estímulo dura 1 minuto, entre los cuales hay
de abandono y de abandono temprano de pacientes es de 0,3 y 4,
un descanso de 5 segundos.
respectivamente. El coeficiente de regulación L1 λ es 1e­06.
La TABLA I resume la información del experimento.
D. Entorno del experimento
TABLA I
Se llevan a cabo experimentos dependientes del sujeto. Dado que hay 3
INFORMACIÓN EXPERIMENTAL DE ADQUISICIÓN DE DATOS
sesiones para cada asignatura, se aplica una estrategia de validación cruzada
Factor Valor "Dejar una sesión fuera". La precisión promedio de todos los sujetos y la
Estímulos Escenas de realidad virtual y juegos
18
desviación estándar se informan como criterio de evaluación. Para obtener
Número de sujetos
Número de machos suficientes segmentos de datos para entrenar mejor el modelo de aprendizaje
Número de hembras profundo, los datos EEG sin procesar se dividen en segmentos de 4 segundos
rango de edad 9 9 23­49
Excitacion emocional
mediante una ventana deslizante, cuyo paso de movimiento es de 100 ms
Tipo de calificación

Valor de calificación Alta baja (25 puntos de datos). Por tanto, se generarán 574 muestras por estímulo.
Canales TP9, AF7, AF8, TP10 Para cada tema, hay 3 sesiones, cada sesión contiene 2 estímulos. Para
Tasa de muestreo 256 Hz
dejar una sesión fuera de la validación cruzada, se utiliza una sesión como
Duración de cada materia 6 min (3 min de excitación alta, 3 min
de excitación baja) conjunto de prueba y otras 2 sesiones como conjunto de entrenamiento.
Entre el conjunto de entrenamiento, el 80% del conjunto de entrenamiento se
usa para el proceso de entrenamiento y el 20% restante se usa como
Este estudio, incluida la adquisición de datos, fue aprobado por la Junta
conjunto de validación para la parada anticipada.
de Revisión Institucional de la Universidad Tecnológica de Nanyang (NTU),
En un paso de validación cruzada de cada sujeto, la dimensión del conjunto
Singapur [IRB­2018­12­011].
de entrenamiento es (1836 x 1 x 4 x 1024), la del conjunto de validación es
B. Procesamiento de señales (460 x 1 x 4 x 1024) y la dimensión del conjunto de prueba es (1148 x 1 x
Para los datos recopilados, se aplica un filtro de paso de banda de 0,3 4 x 1024). Los segmentos de datos sin procesar se introducirán directamente
Hz a 45 Hz para eliminar el ruido de baja y alta frecuencia. en métodos de aprendizaje profundo. Sin embargo, para SVM, se utiliza la
La electrooculografía (EOG) se elimina utilizando el software Python de matriz de características extraída manualmente.
código abierto MNE [36]. Los datos procesados se utilizarán directamente V. RESULTADO Y ANÁLISIS
para métodos de aprendizaje profundo. Para SVM, se necesita extracción de
funciones. El modelo propuesto se compara con EEGNet, LSTM (usando 3 capas
CNN 1D como extractor de características seguidas de un LSTM de 4
La señal de EEG se filtra en paso de banda en múltiples bandas de
capas) [39], SVM usando RP como características, SVM usando DE como
frecuencia, utilizando filtros Chebyshev Tipo II de fase cero [37]. Se utilizan
características respectivamente. Para una mejor evaluación del modelo
un total de 9 filtros de paso de banda, a saber, 4­8 Hz, 8­12 Hz. . . , 36­40
propuesto, se agregan en la comparación dos versiones simplificadas, a
Hz. Luego, la potencia relativa (RP) y DE en 9 bandas de frecuencia se
saber, Tception y Sception. Como muestran los nombres, Tception se logra
utilizan como características de la entrada SVM. El RP en la i­ésima banda
eliminando el aprendiz espacial de TSception y Sception es el que no tiene
de frecuencia se puede calcular mediante:
2
aprendiz temporal.
x
yo
RPI = norte
2
(5)
x
yo
1https://github.com/deepBrains/TSception
j

Uso autorizado con licencia limitado a: Universidad Tecnológica de Auckland. Descargado el 5 de octubre de 2020 a las 10:27:40 UTC desde IEEE Xplore. Se aplican restricciones.
Machine Translated by Google

TABLA II TABLA III


COMPARACIÓN CON CLASIFICACIÓN/ DESVIACIÓN ESTÁNDAR (%) EN AUTOCOMPARACIÓN PARA TSCEPCIÓN Y DOS VERSIONES SIMPLIFICADAS,
EXPERIMENTO DEPENDIENTE DEL SUJETO CON SVM(RP), SVM(DE), TCEPCIÓN Y SCEPCIÓN
EEGNET, LSTM, TCEPCIÓN, SCEPCIÓN, TSCEPCIÓN
Método Entrenable Número Número CAC(%)
Método CAC ETS parámetro­ de de espacial
SVM (RP) 80,73 ** 8.51 ters temporal granos
SVM(DE) 82,23 * 9.07 granos
EEGNet 79,96 * 11.47 recepción 822.671 ­/­ 83,9
LSTM 80,81 ** 8.69 escepción 147.902 9­/ 77,39
recepción 83,9 7.42 TScepción 53.483 ­9 66 86.03
escepción 77,39 11.47
TScepción 86,03 8,99

Valor p entre el método y TSception: * indicando (p <


0,05), ** indicando (p < 0,01). parámetros que otros 2 modelos. Comparado con Tception
y Sception, el vector de características final es mucho más corto en
TSception ya que extrae patrones tanto temporales como espaciales.
en una operación secuencial. Por lo tanto, reduce drásticamente la
número de parámetros entrenables en capas completamente conectadas. Desde
extrae el patrón en la información temporal y espacial, el
La precisión de la clasificación es incluso mayor que la de los otros dos, lo que
tienen parámetros mucho más entrenables. En cuanto a la exactitud de
métodos propuestos, TSception tiene el ACC más alto entre los
tres métodos propuestos, con una mejora del 8,34% sobre Scept­tion y del
2,4% sobre Tception. De los resultados,
el alumno temporal contribuye más que el alumno espacial.
Aunque el Sception ofrece la precisión más baja entre todos los
métodos comparados, la combinación de temporal y espacial
El alumno sigue dando la mayor precisión. Hay dos posibles
razones: 1) el cruce de información entre temporal y espacial
Fig. 4. Resultados de diferentes métodos para todos los sujetos. El eje X es el método,
ayuda a mejorar la precisión; 2) la estructura secuencial de uso
el eje Y es la precisión de la clasificación (%). 'x' es la media de la precisión para
todas las materias. TSception ofrece la mayor precisión con un 86,03%, seguida Dos tipos de estudiantes pueden disminuir los parámetros del modelo.
por Tception (83,9%) y SVM usando DE (82,23%). La cuenta de LSTM y significativamente, lo que puede superar mejor los problemas de sobreajuste.
Las SVM que utilizan RP están cercanas entre sí, siendo 80,81% y 80,73%. El
EEGNet es mejor que Sception con una precisión del 79,96% y del 77,39% VI. CONCLUSIÓN
respectivamente.
En este artículo, propusimos TSception, un aprendizaje profundo
Marco para la clasificación de emociones EEG. Utiliza escala múltiple.

La TABLA II y la Fig. 4 muestran los resultados de clasificación de las bajas núcleos convolucionales temporales y espaciales en tiempo y
una sesión de validación cruzada con SVM(RP), SVM(DE), estudiantes espaciales para aprender representaciones más discriminativas
EEGNet, LSTM, Tception, Sception, TSception. en el dominio del tiempo y del espacio simultáneamente. el temporal

Como se muestra en la tabla, la característica DE proporciona una clasificación más alta El alumno extrae patrones multifrecuencia y multitemporal.

precisión (82,23%) que la función RP (80,73%) para el clasificador SVM. Para El alumno espacial aprovecha el área frontal del cerebro.

modelos de aprendizaje profundo, TSception ofrece la más alta asimetría emocional, utilizando núcleos hemisféricos para extraer la

La precisión fue del 86,03%, seguida de Tception (83,9%) y información de los hemisferios derecho e izquierdo.

LSTM (80,81%). EEGNet es mejor que Sception con Recopilamos datos de EEG de 18 sujetos sanos en un VR­BCI

siendo la precisión del 79,96% y 77,39% respectivamente. Pero Sistema para estudiar la excitación emocional en la realidad virtual inmersiva.

Tanto EEGNet como Sception ofrecen una precisión menor que otros entorno y evaluar el algoritmo propuesto. Comparado

modelos de aprendizaje profundo, lo que indica que hay patrones más útiles en con los métodos más avanzados en BCI, como SVM (RP),

información temporal que espacial. EEGNet solo tiene una SVM (DE), EEGNet, LSTM junto con dos variantes simples

núcleos temporales de tamaño y Sception solo extrae los núcleos espaciales de TSception, TSception logra la clasificación más alta

patrón por núcleos espaciales 1D. Ambos no pueden extraer el precisión, siendo del 86,03%. El modelo propuesto se puede aplicar en

información temporal dinámica de manera efectiva, incluso tienen menores Clasificación de la señal EEG generalmente debido a su estructura general.

precisión que SVM con función DE en 9 bandas de frecuencia. El código de TSception también es de acceso abierto. Exploración

Para comprender mejor qué parte de TSception contribuye para la capacidad potencial de TSception se incluirá en el
trabajo futuro.
más a los resultados de la clasificación, una autocomparación entre los
Se realiza TSception y sus versiones modificadas. El detallado REFERENCIAS
parámetros de estructura para TSception y sus dos simplificados
Las versiones se muestran en la TABLA III. [1] SM Alarcão y MJ Fonseca, “Reconocimiento de emociones mediante EEG
señales: una encuesta”, IEEE Transactions on Affective Computing, vol. 10,
Como muestra la TABLA III, TSception tiene menos posibilidades de entrenamiento. No. 3, págs. 374–393, julio de 2019.

Uso autorizado con licencia limitado a: Universidad Tecnológica de Auckland. Descargado el 5 de octubre de 2020 a las 10:27:40 UTC desde IEEE Xplore. Se aplican restricciones.
Machine Translated by Google

[2] M. Morena, KD Leitl, HA Vecchiarelli, JM Gray, P. Campolongo y MN Hill, “El estado de [22] Z. Gao, X. Wang, Y. Yang, C. Mu, Q. Cai, W. Dang y S. Zuo, “Red neuronal convolucional
excitación emocional influye en la capacidad de la señalización endocannabinoide espacio­temporal basada en EEG para la evaluación de la fatiga del conductor”, IEEE
amígdala para modular la ansiedad”, Neurofarmacología, vol. 111, págs. 59 – 69, 2016. Transactions sobre redes neuronales y sistemas de aprendizaje, vol. 30, núm. 9, págs.
2755–2763, 2019.
[3] XB Lin, T.­S. Lee, YB Cheung, J. Ling, SH Poon, L. Lim, HH [23] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke y
Zhang, ZY Chin, CC Wang, R. Krishnan y C. Guan, “Terapia de exposición con detección A. Rabinovich, “Profundizando con las convoluciones”, en The IEEE Conferencia sobre
de excitación personalizada en tiempo real y retroalimentación para aliviar los síntomas visión por computadora y reconocimiento de patrones (CVPR), junio de 2015.
de ansiedad social en una muestra de adultos análoga: ensayo piloto controlado aleatorio
de prueba de concepto, ”JMIR Ment Health, vol. 6, núm. 6, pág. e13869, junio de 2019. [24] JJB Allen, PM Keune, M. Schönenberg y R. Nusslock, “Asimetría y emoción alfa del EEG
frontal: desde los fundamentos neuronales y las consideraciones metodológicas hasta la
[4] A. Tseng, Z. Wang, Y. Huo, S. Goh, JA Russell y BS Peterson, “Diferencias en la actividad psicopatología y la cognición social”.
neuronal al procesar la excitación emocional y la valencia en los trastornos del espectro Psicofisiología, vol. 55, núm. 1, pág. e13028, 2018.
autista” Human Brain Mapping, vol. 37, núm. 2, págs. 443–461, 2016. [25] A. Felnhofer, OD Kothgassner, M. Schmidt, A.­K. Heinzle, L. Beutl, H. Hlavacs e I. Kryspin­
Exner, “¿Es la realidad virtual emocionalmente excitante? investigando cinco escenarios
[5] RD Lane, L. Ryan, L. Nadel y L. Greenberg, “Reconsolidación de la memoria, excitación de parques virtuales que inducen emociones”, Revista Internacional de Estudios Humano­
emocional y proceso de cambio en psicoterapia: nuevos conocimientos de la ciencia del Computadores, vol. 82, págs. 48 – 56, 2015.
cerebro”, Behavioral and Brain Sciences, vol. 38, pág. e1, 2015.
[26] P. Bilgin, K. Agres, N. Robinson, AAP Wai y C. Guan, “Un estudio comparativo de estados
[6] SK Ehrlich, KR Agres, C. Guan y G. Cheng, “Una interfaz cerebro­computadora de circuito mentales en entornos virtuales 2D y 3D utilizando EEG”, en la Conferencia Internacional
cerrado basada en música para la mediación de emociones”, PLOS ONE, vol. 14, núm. IEEE sobre Sistemas, Hombre y 2019. Cibernética (SMC), octubre de 2019, págs. 2833–
3, págs. 1 a 24, 03 de 2019. 2838.
[7] A. Craik, Y. He y JL Contreras­Vidal, “Aprendizaje profundo para tareas de clasificación de [27] N. Robinson, S. Lee y C. Guan, “Representación de EEG en redes neuronales
electroencefalogramas (EEG): una revisión”, Journal of Neural Engineering, vol. 16, núm. convolucionales profundas para la clasificación de imágenes motoras”, en la Conferencia
3, pág. 031001, abril de 2019. internacional IEEE sobre sistemas, el hombre y la cibernética (SMC) de 2019, octubre de
[8] J. Atkinson y D. Campos, “Mejora del reconocimiento de emociones basado en BCI 2019, págs. 1322­1326.
mediante la combinación de selección de características de EEG y clasificadores de [28] S. Sakhavi y C. Guan, “Aprendizaje por transferencia basado en redes neuronales
núcleo”, Sistemas expertos con aplicaciones, vol. 47, págs. 35 – 41, 2016.
convolucionales y destilación de conocimientos utilizando datos de múltiples sujetos en
[9] W. Zheng, J. Zhu y B. Lu, “Identificación de patrones estables a lo largo del tiempo para el
imágenes motoras BCI”, en 2017, octava Conferencia Internacional IEEE/EMBS sobre
reconocimiento de emociones a partir de EEG”, IEEE Transactions on Affective Computing,
Ingeniería Neural (NER), mayo de 2017 , págs. 588–591.
vol. 10, núm. 3, págs. 417–429, julio de 2019.
[29] S. Ioffe y C. Szegedy, “Normalización de lotes: acelerar el entrenamiento profundo de la red
[10] P. Li, H. Liu, Y. Si, C. Li, F. Li, X. Zhu, X. Huang, Y. Zeng, D. Yao, Y. Zhang y P. Xu, “EEG
mediante la reducción del cambio de covariables interno”, arXiv 1502.03167, 2015.
reconocimiento de emociones basado en la combinación de una red de conectividad
funcional y activaciones locales”, IEEE Transactions on Biomedical Engineering, vol. 66,
[30] AB Craig, "Asimetría emocional del cerebro anterior: ¿una base neuroanatómica?"
núm. 10, págs. 2869–2881, octubre de 2019.
Tendencias en ciencias cognitivas, vol. 9, núm. 12, págs. 566 – 571, 2005.
[31] E. Tartaglione, S. Lepsø y, A. Fiandrotti y G. Francini, “Aprendizaje de redes neuronales
[11] RT Schirrmeister, JT Springenberg, LDJ Fiederer, M. Glasstetter, K. Eggensperger, M.
dispersas mediante regularización basada en sensibilidad”, en Advances in Neural
Tangermann, F. Hutter, W. Burgard y T. Ball, “Aprendizaje profundo con redes neuronales
Information Processing Systems 31, S. Bengio, H. Wallach, H. Larochelle, K. Grauman,
convolucionales para decodificación y visualización de EEG, ”Mapeo del cerebro humano,
N. Cesa­Bianchi y R. Garnett, Eds.
vol. 38, núm. 11, págs. 5391– 5420, 2017.
Curran Associates, Inc., 2018, págs. 3878–3888.
[32] J. Amores, R. Richer, N. Zhao, P. Maes y BM Eskofier, “Promoción de la relajación
[12] O. Kwon, M. Lee, C. Guan y S. Lee, “Interfaces cerebro­computadora independientes del
mediante realidad virtual, interfaces olfativas y EEG portátil”, en 2018 IEEE 15th
sujeto basadas en redes neuronales convolucionales profundas”, IEEE Transactions on
International Conference on Wearable and Implantable Body Sensor Networks (BSN),
Neural Networks and Learning Systems, págs. 1–14 , 2019.
marzo de 2018, págs. 98­101.
[13] YR Tabar y U. Halici, “Un nuevo enfoque de aprendizaje profundo para la clasificación de
[33] G. Wiechert, M. Triff, Z. Liu, Z. Yin, S. Zhao, Z. Zhong, R. Zhaou y P. Lingras, “Identificación
señales de imágenes motoras EEG”, Journal of Neural Engineering, vol. 14, núm. 1, pág.
de usuarios y actividades con procesamiento de señales cognitivas desde una diadema
016003, noviembre de 2016.
portátil, ”en la 15.ª Conferencia Internacional del IEEE sobre Informática Cognitiva y
[14] VJ Lawhern, AJ Solon, NR Waytowich, SM Gordon, CP Hung y BJ Lance, “EEGNet: una
Computación Cognitiva (ICCI*CC) de 2016, agosto de 2016, págs. 129­136.
red neuronal convolucional compacta para interfaces cerebro­computadora basadas en
EEG”, Journal of Neural Engineering, vol. 15, núm. 5, pág. 056013, julio de 2018.
[34] M. Lankes, W. Hochleitner, C. Hochleitner y N. Lehner, “Control versus complejidad en los

[15] S. Sakhavi, C. Guan y S. Yan, “Aprendizaje de información temporal para la interfaz cerebro­ juegos: comparación de la excitación en prototipos de juegos 2D”, en Actas de la 4ª
computadora utilizando redes neuronales convolucionales”, IEEE Transactions on Neural Conferencia Internacional sobre Diversión y Juegos, ser. FnG '12. Asociación de
Networks and Learning Systems, vol. 29, núm. 11, págs. 5619–5629, noviembre de 2018. Maquinaria de Computación, 2012, p. 101–104.
[35] H. Qin, P.­LP Rau y G. Salvendy, “Efectos de diferentes escenarios de dificultad del juego
[16] Y. Yang, QMJ Wu, W. Zheng y B. Lu, “Reconocimiento de emociones basado en EEG en la inmersión del jugador”, Interacting with Computers, vol. 22, núm. 3, págs. 230–239,
utilizando una red jerárquica con nodos de subred”, IEEE Transactions on Cognitive and 12 2009.
Developmental Systems, vol. 10, núm. 2, págs. 408–419, junio de 2018. [36] A. Gramfort, M. Luessi, E. Larson, DA Engemann, D. Strohmeier, C. Brodbeck, L. Parkkonen
y MS Hämäläinen, “software MNE para procesar datos MEG y EEG”, NeuroImage, vol. 86,
[17] J. Li, Z. Zhang y H. He, “Redes neuronales convolucionales jerárquicas para el págs. 446 – 460, 2014.
reconocimiento de emociones basado en EEG”, Cognitive Computation, vol. 10, núm. 2,
págs. 368–380, abril de 2018. [37] Kai Keng Ang, Zheng Yang Chin, Haihong Zhang y Cuntai Guan, “Patrón espacial común
[18] X. Li, D. Song, P. Zhang, Y. Zhang, Y. Hou y B. Hu, “Exploración de las características del del banco de filtros (FBCSP) en la interfaz cerebro­computadora”, en la Conferencia
EEG en el reconocimiento de emociones entre sujetos” Frontiers in Neuroscience, vol. Conjunta Internacional IEEE sobre Redes Neuronales de 2008 (Congreso Mundial IEEE
12, pág. 162, 2018. sobre Inteligencia Computacional), junio de 2008, págs. 2390–2397.
[19] Y. Li, W. Zheng, Y. Zong, Z. Cui, T. Zhang y X. Zhou, “Un modelo de red neuronal
adversarial de dominio bihemisférico para el reconocimiento de emociones EEG”, IEEE [38] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N.
Transactions on Affective Computing, págs. 1–1, 2018. Gimelshein, L. Antiga, A. Desmaison, A. Kopf , E. Yang, Z. DeVito, M. Raison, A. Tejani,
[20] F. Fahimi, Z. Zhang, WB Goh, T.­S. Lee, KK Ang y C. Guan, “Aprendizaje por transferencia S. Chilamkurthy, B. Steiner, L. Fang, J. Bai y S. Chintala, “Pytorch: un estilo imperativo,
entre sujetos con una red neuronal convolucional profunda de extremo a extremo para aprendizaje profundo de alto rendimiento biblioteca”, en Avances en sistemas de
BCI basada en EEG”, Journal of Neural Engineering. 16, núm. 2, pág. 026007, enero de procesamiento de información neuronal 32, 2019, págs. 8024–8035.
2019.
[21] Z. Jiao, X. Gao, Y. Wang, J. Li y H. Xu, “Redes neuronales convolucionales profundas para [39] J. Zhao, X. Mao y L. Chen, “Reconocimiento de emociones del habla utilizando redes LSTM
la clasificación de la carga mental basada en datos de EEG”, Reconocimiento de patrones, CNN 1D y 2D profundas”, Procesamiento y control de señales biomédicas, vol. 47, págs.
vol. 76, págs. 582 – 595, 2018. 312 – 323, 2019.

Uso autorizado con licencia limitado a: Universidad Tecnológica de Auckland. Descargado el 5 de octubre de 2020 a las 10:27:40 UTC desde IEEE Xplore. Se aplican restricciones.

You might also like