Clique para editar o título
Síntese expressiva e deteção de
emoções na fala
Marcos Ribeiro Pereira-Barretto
2
Agenda
1.Introdução 2.Emoções
3.Deteção de emoções na fala
4.Síntese expressiva da fala
1.LRS
1.Laboratório de Robôs Sociáveis
4
Laboratório de Robôs Sociáveis
• Um ROBÔ SOCIÁVEL é um robô (agente físico autônomo) que interage e comunica-se com humanos e outros agentes físicos de acordo com comportamentos e regras sociais
compatíveis com o seu papel.
• Projeto em andamento: Minerva
2.Emoções
1.O que é “emoção” ? 2.Modelos para emoções
6
1.O que é “emoção” ?
Segundo [Scherer, 2001], emoções são “... an episode of
interrelated, synchronized changes in the states of all or most of the five organismic subsystems in response to the
evaluation of an external or internal stimulus event as
relevant to major concerns of the organism”. Nesta definição, os subsistemas organismicos são porções especializadas do cérebro.
Função Componente Estrutura cerebral
Avaliação de objetos e
eventos Cognitiva Processamento de
informações (CNS)
Regulação Eferente periférico Suporte (CNS, NES, ANS) Preparação para ação Motivacional Executivo (CNS)
Comunicação da reação e intenção de
comportamento
Expressão motora Ação (SNS)
Monitoração do estado interno
Sentimento subjetivo Monitoração (CNS)
CNS: sistema nervoso central; NES: sistema neuro-endócrino; ANS: sistema nervoso autônomo;
SNS: sistema nervoso somático
Ou ainda ...
• Segundo [Lazarus,1991], “emotions are organized
psychophysiological reactions to news about ongoing relationships with the environment”.
• Segundo o Dicionário de Psicologia, “differently described and explained by different psychologists, but all agree that is a complex state of the organism, involving bodily
changes of a widespread character and, on the mental side, a state of excitement or perturbation, marked by strong
feeling and usually an impulse towards a definite form of behaviour”.
• Segundo [Young, 1993], “ ... everybody knows but psichologists!”
8
Emoções e não-emoções
• Existem “emoções básicas”, como “cores básicas” ?
– Sim (Ekman, Frijda, Izard, etc)
– Não (Ortony, Lazarus, Scherer, etc)
• Emoções e estados cognitivos (Ortony)
– Ex.: surpresa não é uma emoção porque não é necessariamente avaliada em termos de sua valência.
Foco: perceived emotion
• Deteção de emoção: parte do evento no processo de appraisal
• Síntese expressiva: parte das expressões emitidas como resposta
deteção
síntese Voz
Face Gestos
(Semântica)
10
2.Modelos para emoções
• Modelos contínuos
– Quais as “dimensões” do “espaço” das emoção?
• Modelos discretos
– Baseados na classificação de emoções e, eventualmente, sua caracterização.
• Plano AV
– Arousal (“Me deixa agitado?”)
– Valence (“É bom pra mim?”)
• Outros modelos (entre muitos...)
• Evaluation (pleasant-unpleasant), Activation (attentional activity), Potency (power, control) (Semantic Differential Model de Osgood, 1969)
• Pleasure, arousal e domination (Holbrook e Batra, 1987)
• Arousal (Steenkamp, 1996)
Modelos dimensionais
12
Modelos discretos
• Goleman e suas “famílias”
Ekman e suas “Big 6”
Raiva Medo Desagrado
Surpresa Felicidade Tristeza
14
OCC (Ortony, Clore, Collins)
• Teoria de Tipos
3.Deteção de emoções na fala
1.Escopo
2.Parâmetros físicos 3.Classificadores 4.Estado da arte 5.Fusão sensorial
16
1.Escopo
• Métodos baseiam-se SOMENTE nos aspectos físicos da voz
– Não levam em conta “o que foi dito”
• Métodos baseiam-se em aprendizado de máquina (machine learning)
– Um conjunto de treinamento é utilizado para o
“aprendizado”
– Um conjunto de dados de teste é utilizado para avaliar o resultado
Idéia geral
Treinamento
Extração de features físicas
Treinamento do classificador Avaliação humana
Teste
Extração de
features físicas Classificação Avaliação
18
Corpus
• Acted vs. Natural
• Unimodal vs. Multimodal
• Diferentes tipos de anotações
Emoções em corpus
Pela falta de dados, frequentemente apenas as Big 4 são usadas (Anger, Sadness, Happiness e Fear)
20
Emoções em alguns trabalhos
2.Parâmetros físicos
22
Features em alguns trabalhos
Quais as features mais importantes ?
Features no slide 21. Resultado não é conclusivo porque muitas features não foram testadas. De forma geral, parecem ser boas:
a.Features relacionadas à frequência fundamental F0 b.Features calculadas por MFCC
24
3.Classificadores
• Idéia geral
Treinamento
Extração de features físicas
Treinamento do classificador Avaliação humana
Teste
Extração de
features físicas Classificação Avaliação
Redes neurais
• Topologia: feedforward (mais frequente)
• Treinamento: backpropagation (mais frequente)
26
kNN: k-Nearest Neighbors
• Encontrar os k pontos de referência (treinamento) mais próximos, de acordo com algum critério (métrica de
distância)
• A rigor, não há uma fase de treinamento: a (nova) amostra é classificada em conjunto com as amostras de referência (ou treinamento).
Categorias: Black, Blue Ponto X: Black
SVM: Support Vector Machine
• Classificador binário linear
– Multi-classes: One-vs-All
• Problema: encontrar a “linha” que separa as classes
28
4.Estado da arte
• Pessoas não classificam perfeitamente : acerto médio 60%
a 70%
Kozaka[2010]: SVM
30
Schuller [2004] : vários métodos
GMM: Gaussian Mixture Model
ML, MLP: Multi Layer Perceptron (rede neural)
S IND, S DEP : várias vozes, uma única voz de cada vez
5.Fusão sensorial
O uso combinado de vários “sensores” pode auxiliar na identificação da emoção.
• Quais “sensores” utilizar?
• Como “combinar” os sensores?
Estratégias : Fusão de “features” ou Fusão de Classificações?
32
Confusão!
• Imagem
• Semântica
– “Estou em férias”
● Felicidade : férias são “coisa boa”
● Irritação : “não me perturbe”
● Tristeza : “férias”, com gesto de entre-aspas (desempregado, por exemplo)
Busso[2004]: audio e video
audio video
Fusão de features Fusão de classificações
34
Schuller[2004]
• Fusão de informações acústicas e informações emocional associada às palavras, com Belief Network, através de NN (MLP).
5.Síntese expressiva
1.Escopo
2.Aspectos prosódicos fundamentais 3.Síntese expressiva
4.SSML
36
1.Escopo
• Problema 1: Qual a curva prosódica desejada para uma determinação frase ?
– Tipo de frase: afirmativa, interrogativa, ...
– Foco: “Papai, mande-me dinheiro!” (imperativo)
– Emoção
– Etc ...
• Problema 2: Como gerar a curva prosódica desejada?
– Relação entre os parâmetros físicos e os aspectos prosódicos
• Problema 3: Como gerar a vocalização?
– TTS : “text to speech” (resolvido?)
– Controle do TTS
– Sincronização labial
http://emosamples.syntheticspeech.de/
2.Aspectos prosódicos fundamentais
38
Sílaba
Medo: alongar, com rápida variação de F0, F0 mais grave
Palavra prosódica
A:Você fez isso?
B:Infelizmente...
Tristeza: baixar F0 A: Infelizmente, você não foi aprovado
Sorry-For (OCC) : baixar F0
Acento primário Acento secundário
40
Sintagma fonológico
Foco: aumento de intensidade
Sintagma entoacional
Variar o espaçamento
Variar a velocidade
42
3.Síntese expressiva
Em que parâmetros físicos atuar?
• Frequência fundamental
– valor médio
– intervalo
– a média e o intervalo das magnitudes de suas variações
– a média e o intervalo da duração de suas variações
– a rapidez e a frequência de suas variações.
• Ritmo
– a quantidade de pausas e suas durações
– a quantidade de picos de intensidade.
• Intensidade
– seus valores médios
– seus intervalos.
[Buluth,2008]
Mozziconacci[1998]
44
SCHRÖDER [2006] (OpenMary)
• Modelo dimensional de emoções :
– Activation (arousal)
– Evaluation (valence)
– Power (domination)
Activation Evaluation Power
Neutro Baixa Baixa Baixa
Feliz Média Alta Baixa
Triste Baixa Muito baixa Baixa
Bravo Alta Muito Baixa Alta
[Reis,2010]
4.SSML:Speech Synthesis Markup Language
W3C Voice Browser WG
46
SSML (continuação)
Emphasis (stress, prominence)
SSML (continuação)
48
Exemplos
• http://emosamples.syntheticspeech.de
• http://www.ivona.com/en/ssml
• http://faq.ivona.com/?p=1059&lang=en
• http://www.loquendo.com/en/demo-center/interactive-tts-d emo/
Síntese expressiva e deteção de
emoções na fala
Marcos Ribeiro Pereira-Barretto