• Nenhum resultado encontrado

Clique para editar o título

N/A
N/A
Protected

Academic year: 2022

Share "Clique para editar o título"

Copied!
49
0
0

Texto

(1)

Clique para editar o título

Síntese expressiva e deteção de

emoções na fala

Marcos Ribeiro Pereira-Barretto

(2)

2

Agenda

1.Introdução 2.Emoções

3.Deteção de emoções na fala

4.Síntese expressiva da fala

(3)

1.LRS

1.Laboratório de Robôs Sociáveis

(4)

4

Laboratório de Robôs Sociáveis

• Um ROBÔ SOCIÁVEL é um robô (agente físico autônomo) que interage e comunica-se com humanos e outros agentes físicos de acordo com comportamentos e regras sociais

compatíveis com o seu papel.

• Projeto em andamento: Minerva

(5)

2.Emoções

1.O que é “emoção” ? 2.Modelos para emoções

(6)

6

1.O que é “emoção” ?

Segundo [Scherer, 2001], emoções são “... an episode of

interrelated, synchronized changes in the states of all or most of the five organismic subsystems in response to the

evaluation of an external or internal stimulus event as

relevant to major concerns of the organism”. Nesta definição, os subsistemas organismicos são porções especializadas do cérebro.

Função Componente Estrutura cerebral

Avaliação de objetos e

eventos Cognitiva Processamento de

informações (CNS)

Regulação Eferente periférico Suporte (CNS, NES, ANS) Preparação para ação Motivacional Executivo (CNS)

Comunicação da reação e intenção de

comportamento

Expressão motora Ação (SNS)

Monitoração do estado interno

Sentimento subjetivo Monitoração (CNS)

CNS: sistema nervoso central; NES: sistema neuro-endócrino; ANS: sistema nervoso autônomo;

SNS: sistema nervoso somático

(7)

Ou ainda ...

• Segundo [Lazarus,1991], “emotions are organized

psychophysiological reactions to news about ongoing relationships with the environment”.

• Segundo o Dicionário de Psicologia, “differently described and explained by different psychologists, but all agree that is a complex state of the organism, involving bodily

changes of a widespread character and, on the mental side, a state of excitement or perturbation, marked by strong

feeling and usually an impulse towards a definite form of behaviour”.

• Segundo [Young, 1993], “ ... everybody knows but psichologists!”

(8)

8

Emoções e não-emoções

• Existem “emoções básicas”, como “cores básicas” ?

Sim (Ekman, Frijda, Izard, etc)

Não (Ortony, Lazarus, Scherer, etc)

• Emoções e estados cognitivos (Ortony)

Ex.: surpresa não é uma emoção porque não é necessariamente avaliada em termos de sua valência.

(9)

Foco: perceived emotion

• Deteção de emoção: parte do evento no processo de appraisal

• Síntese expressiva: parte das expressões emitidas como resposta

deteção

síntese Voz

Face Gestos

(Semântica)

(10)

10

2.Modelos para emoções

• Modelos contínuos

Quais as “dimensões” do “espaço” das emoção?

• Modelos discretos

Baseados na classificação de emoções e, eventualmente, sua caracterização.

(11)

• Plano AV

Arousal (“Me deixa agitado?”)

Valence (“É bom pra mim?”)

• Outros modelos (entre muitos...)

Evaluation (pleasant-unpleasant), Activation (attentional activity), Potency (power, control) (Semantic Differential Model de Osgood, 1969)

Pleasure, arousal e domination (Holbrook e Batra, 1987)

Arousal (Steenkamp, 1996)

Modelos dimensionais

(12)

12

Modelos discretos

• Goleman e suas “famílias”

(13)

Ekman e suas “Big 6”

Raiva Medo Desagrado

Surpresa Felicidade Tristeza

(14)

14

OCC (Ortony, Clore, Collins)

• Teoria de Tipos

(15)

3.Deteção de emoções na fala

1.Escopo

2.Parâmetros físicos 3.Classificadores 4.Estado da arte 5.Fusão sensorial

(16)

16

1.Escopo

• Métodos baseiam-se SOMENTE nos aspectos físicos da voz

Não levam em conta “o que foi dito”

• Métodos baseiam-se em aprendizado de máquina (machine learning)

Um conjunto de treinamento é utilizado para o

“aprendizado”

Um conjunto de dados de teste é utilizado para avaliar o resultado

(17)

Idéia geral

Treinamento

Extração de features físicas

Treinamento do classificador Avaliação humana

Teste

Extração de

features físicas Classificação Avaliação

(18)

18

Corpus

Acted vs. Natural

• Unimodal vs. Multimodal

• Diferentes tipos de anotações

(19)

Emoções em corpus

Pela falta de dados, frequentemente apenas as Big 4 são usadas (Anger, Sadness, Happiness e Fear)

(20)

20

Emoções em alguns trabalhos

(21)

2.Parâmetros físicos

(22)

22

Features em alguns trabalhos

(23)

Quais as features mais importantes ?

Features no slide 21. Resultado não é conclusivo porque muitas features não foram testadas. De forma geral, parecem ser boas:

a.Features relacionadas à frequência fundamental F0 b.Features calculadas por MFCC

(24)

24

3.Classificadores

• Idéia geral

Treinamento

Extração de features físicas

Treinamento do classificador Avaliação humana

Teste

Extração de

features físicas Classificação Avaliação

(25)

Redes neurais

• Topologia: feedforward (mais frequente)

• Treinamento: backpropagation (mais frequente)

(26)

26

kNN: k-Nearest Neighbors

• Encontrar os k pontos de referência (treinamento) mais próximos, de acordo com algum critério (métrica de

distância)

• A rigor, não há uma fase de treinamento: a (nova) amostra é classificada em conjunto com as amostras de referência (ou treinamento).

Categorias: Black, Blue Ponto X: Black

(27)

SVM: Support Vector Machine

• Classificador binário linear

Multi-classes: One-vs-All

• Problema: encontrar a “linha” que separa as classes

(28)

28

4.Estado da arte

• Pessoas não classificam perfeitamente : acerto médio 60%

a 70%

(29)

Kozaka[2010]: SVM

(30)

30

Schuller [2004] : vários métodos

GMM: Gaussian Mixture Model

ML, MLP: Multi Layer Perceptron (rede neural)

S IND, S DEP : várias vozes, uma única voz de cada vez

(31)

5.Fusão sensorial

O uso combinado de vários “sensores” pode auxiliar na identificação da emoção.

• Quais “sensores” utilizar?

• Como “combinar” os sensores?

Estratégias : Fusão de “features” ou Fusão de Classificações?

(32)

32

Confusão!

• Imagem

• Semântica

“Estou em férias”

Felicidade : férias são “coisa boa”

Irritação : “não me perturbe”

Tristeza : “férias”, com gesto de entre-aspas (desempregado, por exemplo)

(33)

Busso[2004]: audio e video

audio video

Fusão de features Fusão de classificações

(34)

34

Schuller[2004]

• Fusão de informações acústicas e informações emocional associada às palavras, com Belief Network, através de NN (MLP).

(35)

5.Síntese expressiva

1.Escopo

2.Aspectos prosódicos fundamentais 3.Síntese expressiva

4.SSML

(36)

36

1.Escopo

• Problema 1: Qual a curva prosódica desejada para uma determinação frase ?

Tipo de frase: afirmativa, interrogativa, ...

Foco: “Papai, mande-me dinheiro!” (imperativo)

Emoção

Etc ...

• Problema 2: Como gerar a curva prosódica desejada?

Relação entre os parâmetros físicos e os aspectos prosódicos

• Problema 3: Como gerar a vocalização?

TTS : “text to speech” (resolvido?)

Controle do TTS

Sincronização labial

http://emosamples.syntheticspeech.de/

(37)

2.Aspectos prosódicos fundamentais

(38)

38

Sílaba

Medo: alongar, com rápida variação de F0, F0 mais grave

(39)

Palavra prosódica

A:Você fez isso?

B:Infelizmente...

Tristeza: baixar F0 A: Infelizmente, você não foi aprovado

Sorry-For (OCC) : baixar F0

Acento primário Acento secundário

(40)

40

Sintagma fonológico

Foco: aumento de intensidade

(41)

Sintagma entoacional

Variar o espaçamento

Variar a velocidade

(42)

42

3.Síntese expressiva

Em que parâmetros físicos atuar?

• Frequência fundamental

valor médio

intervalo

a média e o intervalo das magnitudes de suas variações

a média e o intervalo da duração de suas variações

a rapidez e a frequência de suas variações.

• Ritmo

a quantidade de pausas e suas durações

a quantidade de picos de intensidade.

• Intensidade

seus valores médios

seus intervalos.

[Buluth,2008]

(43)

Mozziconacci[1998]

(44)

44

SCHRÖDER [2006] (OpenMary)

• Modelo dimensional de emoções :

Activation (arousal)

Evaluation (valence)

Power (domination)

  Activation Evaluation Power

Neutro Baixa Baixa Baixa

Feliz Média Alta Baixa

Triste Baixa Muito baixa Baixa

Bravo Alta Muito Baixa Alta

[Reis,2010]

(45)

4.SSML:Speech Synthesis Markup Language

W3C Voice Browser WG

(46)

46

SSML (continuação)

Emphasis (stress, prominence)

(47)

SSML (continuação)

(48)

48

Exemplos

• http://emosamples.syntheticspeech.de

• http://www.ivona.com/en/ssml

• http://faq.ivona.com/?p=1059&lang=en

• http://www.loquendo.com/en/demo-center/interactive-tts-d emo/

(49)

Síntese expressiva e deteção de

emoções na fala

Marcos Ribeiro Pereira-Barretto

Referências

Documentos relacionados

Eric Sabourin formula o princípio explicativo da reprodução camponesa no Brasil em termos de uma interface, uma articulação dialética entre as implicações da troca mercantil e

A partir deste marco histórico, indiferente do contexto político da conjuntura da época, a Agenda dos 100 dias se tornou tradição em todos os níveis de

Osório (2009) realizou um desenho metodológico semelhante, ou seja, aplicou três programas de treino (um grupos que treinou com uma bola medicinal de 3 kg, um outro com um a bola

Os resultados dos estudos acima discutidos, como mencionado, indicam que a consciência metatextual é uma habilidade que emerge de forma mais efetiva por volta dos 8-9 anos.

O presente estudo teve como objetivo avaliar os níveis pressóricos de adultos jovens masculinos, integrantes de um serviço militar obrigatório na cidade de

Nesse contexto, justifica-se o presente estudo tendo em vista a fase incipiente das ações de TT por parte da Universidade Federal do Tocantins e por meio de seu Núcleo de

2º BATALHÃO DE AVIAÇÃO DO EXÉRCITO.. O COMANDANTE DO EXÉRCITO, no uso da atribuição que lhe confere o art. 4º da Lei Complementar nº 97, de 9 de junho de 1999, alterada pela

A análise relativa à área de Recursos Humanos abrangeu, por amostragem, as situações relacionadas nos cruzamentos e levantamentos das trilhas de