Un grupo de científicos de la UNL y el Conicet creó un programa de inteligencia artificial que procesa la señal de la voz del hablante para determinar automáticamente la emoción que transmite esa alocución. Para ello generó un modelo de reconocimiento automático de las emociones clasificadas como primarias: alegría, ira, miedo, aburrimiento, tristeza y disgusto, además de un estado neutro.
A diferencia de otros, como los que permiten el marcado por voz en los celulares, este sistema no intenta descifrar qué se dice sino cómo se lo dice. Es decir, trabaja sobre la información implícita en la señal.
> Leer también: Software que anticipa las inundaciones.
Luego de experimentar con dos modelos estadísticos de procesamiento diferentes, los resultados fueron satisfactorios, logrando hasta un 76% de corrección al utilizar siete emociones y un 97% al usar sólo tres.
“Es un área de investigación que ha cobrado gran interés en los últimos años y aún no hay ningún desarrollo comercial disponible”, explicó la estudiante de Ingeniería Belén Crolla, miembro del grupo de trabajo de Señales e Inteligencia Computacional, y acotó: “El mayor desafío para este proyecto fue lograr que el sistema funcione con diferentes hablantes, manteniendo un alto porcentaje de aciertos”.
La primera etapa consistió en el procesamiento del habla y la segunda en su clasificación (lo cual constituye el sistema inteligente, es decir, que tiene un proceso de aprendizaje o entrenamiento que le permite resolver situaciones nuevas a partir de las experiencias anteriores). Del total de datos que presenta la señal, el clasificador diseñado tomó en cuenta 12 características para ser evaluadas.
Para probar el funcionamiento, los investigadores realizaron experimentos con un importante conjunto de frases recopiladas por la Universidad de Berlín.
“Trabajamos con este corpus de 535 alocuciones porque es muy completo, está grabado con gran calidad y, fundamentalmente, porque cuenta con diez voces de locutores diferentes, cinco femeninos y cinco masculinos. Además, la naturalidad de las emociones fue testeada mediante un estudio de percepción con 20 individuos”, detalló la estudiante.
A prueba
Para poder seleccionar el método estadístico más eficiente para el reconocimiento de las emociones, diseñaron dos modelos diferentes.
Gran parte de las grabaciones del corpus fueron procesadas y suministradas al sistema inteligente para el entrenamiento de ambos. Luego se usaron las grabaciones restantes para evaluar el grado de acierto y de confusión de cada sistema, operando primero con tres emociones y luego con siete. “Uno de los modelos demostró ser más adecuado porque mantuvo su eficiencia, mejoró su desempeño y tuvo una mayor tasa de aciertos en los casos más complejos”, señaló Crolla.
> Leer también: Polo Tecnológico Junín, un centro de avanzada.
“El cambio estructural del sistema respecto al de reconocimiento del habla es grande, pero a nivel del pre-procesamiento de señales, las diferencias son mínimas”, comentó el dr. Diego Milone, docente e investigador de la FICH que dirigió el trabajo, junto con el Ing. Marcelo Albornoz.