IDENTIFICAC ¸ ˜ AO AC ´ USTICA DE EMOC ¸ ˜ OES

(1)

MINIST´ ERIO DA DEFESA EX´ ERCITO BRASILEIRO

DEPARTAMENTO DE CIˆ ENCIA E TECNOLOGIA INSTITUTO MILITAR DE ENGENHARIA

(Real Academia de Artilharia, Fortifica¸c˜ ao e Desenho, 1792) GRADUAC ¸ ˜ AO EM ENGENHARIA ELETR ˆ ONICA

TITO SILVEIRA DE FARIA

IDENTIFICAC ¸ ˜ AO AC ´ USTICA DE EMOC ¸ ˜ OES

Rio de Janeiro

2015

(2)

INSTITUTO MILITAR DE ENGENHARIA

TITO SILVEIRA DE FARIA

IDENTIFICAC ¸ ˜ AO AC ´ USTICA DE EMOC ¸ ˜ OES

Monografia de Projeto de Fim de Curso da Gradua¸c˜ ao apresentada ao curso de Engenharia Eletrˆ onica do Instituto Militar de Engenharia, como requisito parcial para obten¸c˜ ao do t´ıtulo de Engenheiro Eletrˆ onico.

Orientador: Rosˆ angela Fernandes Coelho, Docteur ENST

Rio de Janeiro

2015

(3)

c2015

INSTITUTO MILITAR DE ENGENHARIA Pra¸ca General Tib´ urcio, 80-Praia Vermelha Rio de Janeiro-RJ CEP 22290-270

Este exemplar ´ e de propriedade do Instituto Militar de Engenharia, que poder´ a inclu´ı- lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento.

E permitida a men¸c˜ ´ ao, reprodu¸c˜ ao parcial ou integral e a transmiss˜ ao entre bibliotecas deste trabalho, sem modifica¸c˜ ao de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadˆ emica, coment´ arios e cita¸c˜ oes, desde que sem finalidade comercial e que seja feita a referˆ encia bibliogr´ afica completa.

Os conceitos expressos neste trabalho s˜ ao de responsabilidade do autor e do orientador.

621.381 Faria, T. S.

F24i

Identifica¸c˜ ao Ac´ ustica de Emo¸c˜ oes/

Tito Silveira de Faria.

– Rio de Janeiro: Instituto Militar de Engenharia, 2015.

48 p.: il., tab.

Projeto de Final de Curso (PFC) – Instituto Militar de Engenharia – Rio de Janeiro, 2015.

1. Identifica¸c˜ ao ac` ustica de emo¸c˜ oes. 2. Sinais Ac` usticos. 3. Sistemas de Comunica¸c˜ ao I. Coelho, Rosˆ angela Fernandes II. T`ıtulo III. Instituto Militar de Engenharia Instituto Militar de Engenharia.

CDD

(4)

INSTITUTO MILITAR DE ENGENHARIA

TITO SILVEIRA DE FARIA

IDENTIFICAC ¸ ˜ AO AC ´ USTICA DE EMOC ¸ ˜ OES

Monografia de Projeto de Fim de Curso da Gradua¸c˜ ao apresentada ao curso de Engen- haria Eletrˆ onica do Instituto Militar de Engenharia, como requisito parcial para obten¸c˜ ao do t´ıtulo de Engenheiro Eletrˆ onico.

Orientador: Rosˆ angela Fernandes Coelho, Docteur ENST

Aprovada em 03 de Junho de 2015 pela seguinte Banca Examinadora:

Rosˆ angela Fernandes Coelho, Docteur ENST do IME - Presidente

Prof. Maria Thereza Miranda Rocco Girldi - Ph.D, do IME

Prof. Paulo Roberto Rosa Lopes Nunes - Ph.D, do IME

Rio de Janeiro

2015

(5)

Aqueles que me acompanham at´ ` e aqui

(6)

AGRADECIMENTOS

Aos meus pais, pois s˜ ao as pessoas que me motivam a viver, me mostrando diariamente o real significado de amor incondicional.

A professora Rosˆ ` angela, minha inspira¸c˜ ao profissional. O Norte inalcans´ avel. O ser humano que exprime o conceito de humanidade. Sinto-me grato de compartilhar a sala dessa grande pesquisadora e me aque¸co no sol que ela irradia.

Aos colegas de laborat´ orio, Z˜ ao e Zucattelli, que in´ umeras vezes tiveram que me ajudar a recolher meus pr´ oprios cacos que deixei pelo IME.

Aos colegas de IME, que tornaram a trajet´ orio mais divertida.

Tito

(7)

”A inteligˆ encia ´ e o ´ unico meio que possu´ımos para superar nosso instintos”

Sigmund Freud

(8)

SUM ´ ARIO

LISTA DE FIGURAS . . . . 9

LISTA DE TABELAS . . . . 10

LISTA DE SIGLAS . . . . 11

1 INTRODUC ¸ ˜ AO . . . . 14

1.1 Motiva¸c˜ ao . . . . 15

1.2 Objetivos . . . . 16

1.3 Organiza¸c˜ ao da Monografia . . . . 17

2 IDENTIFICAC ¸ ˜ AO AC ´ USTICA DE EMOC ¸ ˜ OES . . . . 19

2.1 Fatores que Influenciam Manifesta¸c˜ oes Emocionais . . . . 19

2.2 Dimens˜ oes Emocionais . . . . 20

2.2.1 O Cone de Plutchik . . . . 20

2.2.2 O C´ırculo das Emo¸c˜ oes de Scherer . . . . 21

2.2.3 Eixos Dimensionais . . . . 22

2.2.4 Dimens˜ oes Emocionais Ac´ usticas . . . . 24

2.3 Sistema de Identifica¸c˜ ao Ac´ ustica de Emo¸c˜ oes . . . . 26

2.4 Atributos para a Classifica¸c˜ ao de Emo¸c˜ oes . . . . 27

2.4.1 Operador de Energia Teager - TEO . . . . 28

2.4.2 Coeficientes Mel-Cepstrais - MFCC . . . . 29

2.4.3 Vetor Expoente de Hurst - pH . . . . 31

2.5 Resultados . . . . 32

2.5.1 Base de Voz Sob o Efeito de Emo¸c˜ oes . . . . 33

2.5.2 Descri¸c˜ ao dos Experimentos . . . . 33

3 IMPLEMENTAC ¸ ˜ AO DO APLICATIVO IDEA . . . . 36

3.1 Ambiente Android . . . . 36

3.1.1 Programa¸c˜ ao . . . . 38

3.2 Aplicativo IDEA . . . . 38

3.2.1 Estrutura¸c˜ ao do Aplicativo . . . . 39

3.3 Teste Operacional . . . . 41

(9)

4 CONCLUS ˜ OES . . . . 44

4.1 Trabalhos futuros . . . . 44

5 REFERˆ ENCIAS BIBLIOGR ´ AFICAS . . . . 46

(10)

LISTA DE FIGURAS

FIG.2.1 O Cone de Plutchik [9]. . . . 21

FIG.2.2 O C´ırculo das Emo¸c˜ oes de Scherer [10]. . . . . 22

FIG.2.3 Eixos Potˆ encia x Valˆ encia [2]. . . . 23

FIG.2.4 Eixos Ativa¸c˜ ao x Valˆ encia [2]. . . . 24

FIG.2.5 Emo¸c˜ oes fundamentais nos eixos Ativa¸c˜ ao x Valˆ encia x Potˆ encia [5]. . . . 25

FIG.2.6 Representa¸c˜ ao gr´ afica de um Sistema de Identifica¸c˜ ao de Emo¸c˜ oes Ac´ usticas. . . . 26

FIG.2.7 Diagrama de blocos da extra¸c˜ ao dos atributos TEO-CB-Auto-Env. . . . . 29

FIG.2.8 Correspondˆ encia entre escala mel e frequˆ encias de sinais sonoros [18]. . . . 30

FIG.2.9 Espectro de filtros triangulares [16]. . . . . 30

FIG.2.10 Diagrama de blocos da extra¸c˜ ao dos atributos MFCC. . . . 31

FIG.2.11 Diagrama de blocos da extra¸c˜ ao do vetor de atributos pH. . . . 32

FIG.3.1 Arquitetura Android . . . . 37

FIG.3.2 Esquem´ atico estrutural do aplicativo IDEA. . . . 40

FIG.3.3 In´ıcio da grava¸c˜ ao do ´ audio. . . . 41

FIG.3.4 Audio gravado e salvo na mem´ ´ oria do smartphone. . . . . 42

FIG.3.5 Abertura do J uiceSSH

^c

. . . . 43

(11)

LISTA DE TABELAS

TAB.2.1 Taxa de acerto na identifica¸c˜ ao ac´ ustica de emo¸c˜ oes (%) utilizando

TEO-CB-Auto-Env. . . . . 34 TAB.2.2 Taxa de acerto na identifica¸c˜ ao ac´ ustica de emo¸c˜ oes (%) utilizando

coeficientes MFCC. . . . 34 TAB.2.3 Taxa de acerto na identifica¸c˜ ao ac´ ustica de emo¸c˜ oes (%) utilizando

o vetor pH. . . . 34

(12)

LISTA DE SIGLAS

IME - Instituto Militar de Engenharia

-

(13)

RESUMO

Nos ´ ultimos anos, sistemas de comunica¸c˜ ao vˆ em se desenvolvendo a grande veloci- dade. A intera¸c˜ ao entre seres humanos e computadores, por consequˆ encia, deixou de ser fantasia e hoje faz parte do das atividades di´ arias das pessoas. Naturalmente, ent˜ ao, procuram-se formas de tornar tal comunica¸c˜ ao cada vez mais eficiente. Neste desenvol- vimento, tem-se ensinado a m´ aquina como interpretar caracter´ısticas primordialmente humanas. Os computadores j´ a s˜ ao capazes de reconhecer vozes e identificar fala. Por´ em, h´ a um entrave que vˆ em limitando os desenvolvimentos nesses novos sistemas de comu- nica¸c˜ ao. Os computadores ainda n˜ ao s˜ ao capazes de detectar de maneira eficaz espectos emocionais na oralidade. Inegavelmente tais aspectos s˜ ao tra¸cos importantes na trans- miss˜ ao de informa¸c˜ ao. Sem identific´ a-los fica dif´ıcil, por exemplo, saber se o locutor est´ a sendo irˆ onico ou se realmente deseja transmitir aquela informa¸c˜ ao. Os pr´ oximos desen- volvimentos nos sistemas de comunica¸c˜ ao passar˜ ao, necessariamente, por identifica¸c˜ ao de aspectos emocionais.

A presente monografia foi elaborada com o objetivo de aplicar ao dispositivo de co- munica¸c˜ ao mais utilizado atualmente - os celulares - este novo desafio. Um sistema de identifica¸c˜ ao de emo¸c˜ oes ac´ usticas foi aplicada a plataforma Android de smartphones. Tal aplicativo, denominado IDEA, possibilita aos us´ uarios uma an´ alise objetiva de qual deve ser a emo¸c˜ ao que um falante estaria sentindo.

Assim, foram analisados os trˆ es principais atributos de identifica¸c˜ ao de emo¸c˜ oes

ac´ usticas na literatura: vetor de expoentes de Hurst (pH), coeficientes MFCC (Mel-

Frequency Cepstral Coefficients ) e matriz TEO-CB-Auto-Env (Teager Energy Operator

Critical-Band Autocorrelation Envelope). A compara¸c˜ ao de tais atributos mostrou sig-

nificativa melhor taxa de acerto para pH, por´ em ainda fora dos ´ındices conseguidos por

alguns desses atributos para reconhecimento de locutores.

(14)

ABSTRACT

In recent years, communication systems have been developing at high amount. The interaction between humans and computers, therefore, is no longer fantasy now being a part of daily activities of people. Naturally, developers are looking for ways to make this more and more efficient communication. In this development, it has been taught how to interpret the machine primarily human characteristics. Computers are now capable of recognizing and identifying spoken voice. But there is an obstacle that come limiting the developments in these new communications systems. Computers are not yet capable of detecting effectively emotional spectra in orality. Undeniably such aspects are important traits in the transmission of information. Without identifying them is difficult, for ex- ample, whether the speaker is being ironic or actually want to convey that information.

The next developments in communication systems will necessarily have identification of emotional aspects.

This monograph was developed in order to apply to the communication device most currently used - cellphone - this new challenge. An acoustic emotions identification system was applied to Android smartphone platform. This application, call IDEA, allows users an objective analysis of what should be the emotion that speakers are feeling.

So the three main identifying attributes of acoustic emotions in the literature were

analysed: Vector Hurst exponent (pH), MFCC coefficients (Mel-Frequency Cepstral Co-

efficients and matrix TEO-CB-Auto-Env (teager Energy Operator Critical-Band Auto-

correlation Envelope. The comparison of these attributes showed significantly better hit

rate for pH, but still out of the indices achieved by some of these attributes to recognize

speakers.

(15)

1 INTRODUC ¸ ˜ AO

Ao longo de s´ eculos, cientistas tˆ em discutido o verdadeiro significado de emo¸c˜ oes. Um consenso ainda n˜ ao foi atingido e alguns acreditam que nunca ser´ a [1]. A parte desta conceitua¸c˜ ao, emo¸c˜ oes e caracter´ısticas de manifesta¸c˜ oes emocionais s˜ ao, sem d´ uvida, formas muito importantes na comunica¸c˜ ao humana.

Um pensamento pouco anal´ıtico pode levar a impress˜ ao de que h´ a influˆ encia emocional apenas em comunica¸c˜ oes visuais - como na face de uma pessoa assustada. Por´ em, como na maioria das reflex˜ oes superficiais, tal conclus˜ ao logo desaparece com o lembran¸ca de como tremula a voz de algu´ em ao sentir medo ou a lentid˜ ao dos fonemas pronunciados por um falante entendiado - contrastando com a fala r´ apida de homens enraivecidos. Na oralidade h´ a manifesta¸c˜ ao emocional e, como relatado anteriormente, emo¸c˜ oes s˜ ao importantes para a completude de uma comunica¸c˜ ao. Assim, ´ e simples e direta a implica¸c˜ ao de que o estudo para identifica¸c˜ ao de caracter´ısticas emocionais em sinais ac´ usticos h´ a de tornar mais ´ıntegros nossos sistemas de comunica¸c˜ ao.

Informa¸c˜ oes emocionais ac´ usticas ocorrem n˜ ao apenas na fala. Sons ambientes e m´ usicas s˜ ao carregadas destas [2]. A sup´ osi¸c˜ ao de que encontra-se emo¸c˜ ao em tudo de- senvolvido por seres humanos, n˜ ao est´ a longe da realidade. No desempenhar de tarefas di´ arias, sente-se e isto ´ e refletido em toda e qualquer produ¸c˜ ao durante o momento de experiˆ encia emocional. A an´ alise de fatores emocionais nas diversas formas de comu- nica¸c˜ ao e arte seria um tema de grande interesse, por´ em, devido a vastid˜ ao do tema, este trabalho concentra-se na identifica¸c˜ ao de emo¸c˜ oes em sinais ac´ usticos de fala, que por si s´ o apresenta diversos desafios.

Todo sistema de comunica¸c˜ ao se utiliza de uma linguagem que possibilita o entendi- mento entre receptor e emissor. Nas comunica¸c˜ oes orais, homens utilizam-se de idiomas.

Ao ouvir a pron´ uncia de algumas palavras, nosso c´ erebro associa a elas significado - o que chamamos de carga semˆ antica. Nesta interpreta¸c˜ ao o c´ erebro imp˜ oe a tais palavras impress˜ oes pessoais do falante sobre o que ela respresenta. Assim, haver´ a carga emocional transmitida pelo locutor ao pronunci´ a-las, mesmo que n˜ ao seja a sua inten¸c˜ ao.

A carga semˆ antica ´ e um desafio que deve ser observado na constru¸c˜ ao da base de

dados para an´ alise. Por´ em, foi dito que tal carga pode ser imposta ao discurso sem o

(16)

intento do locutor, o que leva a outra quest˜ ao: o locutor nem sempre est´ a ciente das emo¸c˜ oes que imprime a oralidade. Freud em sua teoria psicanal´ıtica propunha que o Eu - o o consciente humano - ´ e apenas parte de nossa estrutura ps´ıquica [3]. A mente humana seria estruturada em outro ser - chamado Id - que carregaria tamb´ em densa informa¸c˜ ao emocional. Acreditando ou n˜ ao na teoria do m´ edico alem˜ ao, sabe-se que homens guardam no interior de suas mentes pertuba¸c˜ oes ou alegrias que n˜ ao demonstram e, em muitos casos, n˜ ao sabem que est˜ ao experenciando. Ou seja, existem emo¸c˜ oes menos aparentes ou inconsciente ` aquele que as sente. Como identificar tais dados permanece uma quest˜ ao a ser respondida. Novamente apresenta-se uma restri¸c˜ ao a qualquer trabalho que se desenvolva neste campo (n˜ ao sendo o presente uma exce¸c˜ ao): a identifica¸c˜ ao de emo¸c˜ oes inconscientes.

OA utiliza¸c˜ ao sinal de voz em sistemas tˆ em ampla aceita¸c˜ ao em aplica¸c˜ oes como con- trole biom´ etrico de acesso de pessoal, seguran¸ca na transmiss˜ ao eletrˆ onica de informa¸c˜ ao, al´ em de utiliza¸c˜ ao em an´ alise forense. Saber o estado emocial facilitaria a esses sistemas interpretarem decis˜ oes e fazer an´ alise mais acertivas sobre determinadas situa¸c˜ oes. Um ex- emplo desse processo seria a identifica¸c˜ ao de emo¸c˜ oes auxiliando na medicina diagn´ ostica.

1.1 MOTIVAC ¸ ˜ AO

Os sinais de voz s˜ ao objeto de constante estudo na ´ area de processamento de sinais.

Desses, obtidos de forma simples e n˜ ao-intrusiva, pode-se extrair caracter´ısticas como a identidade do locutor, seu sexo, o idioma falado, o que ´ e dito, al´ em de condi¸c˜ oes f´ısicas e emocionais presente no indiv´ıduo durante o discurso. Al´ em de aplica¸c˜ oes diretas como re- conhecimento de voz, o processamento de sinais ac´ usticos pode ser utilizado indiretamente em sistemas de controle biom´ etrico, seguran¸ca de transmiss˜ ao e em an´ alises forenses.

Sistemas que entregam o sinal de voz possuem ampla aceita¸c˜ ao devido a um alta taxa de identifica¸c˜ ao que chegam a ordem de 98% a 99% [4]. Por´ em, quando o objetivo ´ e identificar um falante sob a influˆ encia de estados emocionais, observam-se significativas redu¸c˜ oes em tais indicadores. Em um destes sistemas, relata-se a diminui¸c˜ ao de acerto - entre sinais sem o efeito de emo¸c˜ oes (neutro) e sob o o efeito de raiva - em 79,03 % [5].

Esta situa¸c˜ ao est´ a de acordo com a observa¸c˜ ao de que h´ a muita informa¸c˜ ao importante em caracter´ısticas emocionais. A desconsidera¸c˜ ao de tais caracter´ısticas ´ e uma limita¸c˜ ao dos sistemas de comunica¸c˜ ao modernos.

A intera¸c˜ ao entre homem e meios computacionais tamb´ em passa pela necessidade de

(17)

um reconhecimento emocional. Saber o estado emocial facilita a m´ aquina interpretar decis˜ oes e fazer an´ alise mais acertivas sobre determinadas situa¸c˜ oes. Um exemplo desse processo seria a identifica¸c˜ ao de emo¸c˜ oes auxiliando na medicina diagn´ ostica. Ao analisar emo¸c˜ oes e rea¸c˜ oes de um paciente a certos est´ımulos, o computador seria capaz de detectar desbalanceamentos qu´ımicos de forma imediata e n˜ ao-intrusiva.

Resultados reais e palp´ aveis - objetivos - de um quesito subjetivo, como ´ e o estudo de emo¸c˜ oes, ´ e um alvo de interesse especial e distinto. Melhor entendimento dos proces- sos qu´ımicos e neurol´ ogicos das emo¸c˜ oes tem sido exaustivamente estudado. Por´ em, a intera¸c˜ ao com o meio externo e as consequˆ encias na comunica¸c˜ ao dos indiv´ıduos ainda ´ e

´

area de recente explora¸c˜ ao, o que cria a necessidade de avalia¸c˜ ao meticulosa dos desen- volvimentos.

A utiliza¸c˜ ao moderna de smartphones - que atualmente apresentam alto processamento e amplo uso em todas a camadas da sociedade - possibilita a integra¸c˜ ao de um sistema discriminante de emo¸c˜ oes ao alcance de nossas m˜ aos a todo tempo. A plataforma Android

´

e de programa¸c˜ ao livre e aberta, utiliza-se da linguagem de programa¸c˜ ao Java. Assim sendo, h´ a constante desenvolvimento conjunto pelos programadores em todo o mundo.

Tal proximidade e sinergia viabiliza a constru¸c˜ ao de aplicativos com intera¸c˜ ao cont´ınua entre operador(usu´ ario) e desenvolvedor(programador). Assim s˜ ao fornecidos dados de utiliza¸c˜ ao ao processo de desenvolvimento, o que possibilita constante aperfei¸coamente das aplica¸c˜ oes.

1.2 OBJETIVOS

A carga emocional ´ e transmitida e recebida por falantes e ouvintes - como num par transmissor/receptor em outros sistemas de comunica¸c˜ ao - de forma natural pelo c´ erebro.

Isto ocorre pois este possui habilidosa capacidade de interpreta¸c˜ ao destes sinais, como

num decodificador - que saberia onde est˜ ao as informa¸c˜ oes no sinal transmitido. Ap´ os

a interpreta¸c˜ ao o c´ erebro envia sinais el´ etricos que fazem o corpo reagir aos est´ımulos

daquela comunica¸c˜ ao. Aparenta ser, ent˜ ao, um caminho direto; por´ em tal aparˆ encia

mascara a real complexidade desse processamento. O computador n˜ ao possui cultura e

consequentemente n˜ ao processa informa¸c˜ ao como o c´ erebro. Sua mem´ oria pode auxili´ a-

lo em algumas tarefas, mas n˜ ao ´ e uma ”vis˜ ao de mundo” , o que possibilita ao c´ erebro

t˜ ao acertivas decodifica¸c˜ ao. Assim sendo, uma comunica¸c˜ ao pode ser para o processador

eletrˆ onico uma simples concatena¸c˜ ao de informa¸c˜ ao sem sentido algum, sobre a qual ´ e

(18)

imposs´ıvel retirar dados ´ uteis.

No c´ erebro, se encarado como uma m´ aquina, observa-se um intenso processamento capaz de relacionar fatos que, conscientemente a um ser humano, n˜ ao seriam relacion´ aveis.

O atual desenvolvimento tecnol´ ogico proporciona computadores que preenchem um desses requisitos tamb´ em. A velocidade de processamento destas m´ aquinas beira o limite f´ısico de oscila¸c˜ ao do el´ etron. Mesmo assim, funcionam como potentes c´ erebro infantis, que nada fazem sem que seja ensinado a eles. Dispositivos de alto processamento acompanham homens diariamente. Aos bolsos tudo pode faltar, mas sente-se logo falta do celular quando este ´ e esquecido. Dados recentes constantes no ´ ultimo censo do IBGE apontam que um ter¸co da popula¸c˜ ao brasileira possui smartphones. Tal n´ umero ´ e expressivo, ainda mais se levado em considera¸c˜ ao que corresponde a 53% do quantidade de telefones m´ oveis em circula¸c˜ ao. R´ apidos processadores mas, diferente dos c´ erebros, ignorantes e submissos.

N˜ ao possuem pensamentos pr´ oprios, necessitam que um programador os ensine o que fazer.

O processo necess´ ario para fazer dispositivos m´ oveis extra´ırem informa¸c˜ oes emocionais de comunica¸c˜ oes orais, passam pelo conhecimento do programador de como fazˆ e-lo de forma direta, i.e., objetivamente. O mestre do dispositivo ent˜ ao, dever´ a ensinar a m´ aquina como realizar a identifica¸c˜ ao de tais informa¸c˜ oes. O conhecimento deste desenvolvimento faz estabelecer como objetivos do presente projeto estudar os atributos para detec¸c˜ ao e identifica¸c˜ ao ac´ ustica de m´ ultiplas emo¸c˜ oes (IDEA) e, ent˜ ao, implementar uma estrutura IDEA em um sistema operacional Android. Assim, possibilita-se a esses dispositivos uma habilidade primordialmente humana: analisar comunica¸c˜ ao com car´ ater emocional.

1.3 ORGANIZAC ¸ ˜ AO DA MONOGRAFIA

Este relat´ orio est´ a estruturado da forma apresentada a seguir.

Cap´ıtulo 2 define conceitos referentes ao Identifica¸c˜ ao Ac´ ustica de Emo¸c˜ oes (IDEA), dividido nas se¸c˜ oes: ?? - apresentado as concep¸c˜ oes modernas do real significado de emo¸c˜ oes e suas consequˆ encias -, 2.1 - que trata dos aspectos que podem influenciar uma manifesta¸c˜ ao emocional, tornando-a diferente quanto a sua exterioriza¸c˜ ao e percep¸c˜ ao -, 2.2 - mostra as atuais contribui¸c˜ oes para categoriza¸c˜ ao das emo¸c˜ oes segundo dimens˜ oes e representa¸c˜ ao das caracter´ısticas emocionais como uma conjun¸c˜ ao de m´ ultiplos senti- mentos b´ asicos -, 2.5.1 - apresenta as bases de dados de sinais ac´ usticos produzidos sob a influˆ encia de componentes emocionais -, 2.3 - aqui definiremos um sistema IDEA e como

´

e o seu esquem´ atico de processamento -, 2.4 - as caracter´ısticas dos sinais ac´ ustico que

(19)

tem demonstrado utilidade na categoriza¸c˜ ao de emo¸c˜ oes -e 2.5 - onde ´ e relacionada um comparativo entre os m´ ultiplos atributos identificadores de emo¸c˜ oes apresentados na se¸c˜ ao anterior.

O Cap´ıtulo 3 apresenta a aplica¸c˜ ao pr´ atica do presente projeto, dividido nas se¸c˜ oes:

3.1 - onde ´ e apresentado o ambiente de trabalho, i.e., o meio de programa¸c˜ ao em sistema operacional Android -, 3.2 - que possui o objetivo de definir teoricamente o aplicativo desenvolvido e demonstrar sua operacionalidade - e 3.3 - onde s˜ ao relacionados testes reais de funcionalidade do aplicativo.

No Cap´ıtulo 4 realizam-se conclus˜ oes e na se¸c˜ ao 4.1 as atividades podem futuramente

ser desenvolvidas s˜ ao relacionadas.

(20)

2 IDENTIFICAC ¸ ˜ AO AC ´ USTICA DE EMOC ¸ ˜ OES

Na literatura, n˜ ao existe concenso quanto a um defini¸c˜ ao exata para o real significado de emo¸c˜ oes. Alguns estudiosos [2] acreditam que a indefini¸c˜ ao atrasa desenvolvimentos na ´ area, outros conjecturam que n˜ ao haveria necessidade de conceitua¸c˜ ao para o estudo do tema [1].

Esta problem´ atica n˜ ao impede o desenvolvimento do presente projeto, pois n˜ ao necessita- se definir um fenˆ omeno para detectar sua ocorrˆ encia. Uma quest˜ ao pr´ oxima ao que ocorre nos desenvolvimentos recentes no estudo de buracos negros: os f´ısicos debatem sobre o que ocorre em suas superf´ıcies, enquanto astrˆ onomos observam e apontam sua ocorrˆ encia.

O que ´ e uma emo¸c˜ ao tem sido continuamente debatido durante os s´ eculos. A quest˜ ao foi abordada pelo pai da teoria evolucionista [7] e sua presen¸ca em artigos cient´ıficos remota ao s´ eculo XIX [8]. ”Sem a conceitua¸c˜ ao consensual precisa de qual ´ e o fenˆ omeno a ser estudado, o progresso na teoria e pesquisa s˜ ao dif´ıceis de serem atingidos e debates infrut´ıveros devem ploriferar-se” [2].

Emo¸c˜ oes s˜ ao sentimentos humanos. Mais que simples est´ımulos el´ etricos nos c´ erebros animais, uma emo¸c˜ ao ´ e a breve rea¸c˜ ao ao mundo, ocorrida em algum lugar no corpo ou na mente [1]. Isto ´ e uma constata¸c˜ ao e n˜ ao defini¸c˜ ao. Suas consequˆ encias, por´ em, s˜ ao vis´ıveis. Quando h´ a tristeza, o choro pode fazer o corpo sentir-se let´ argico. Ao sentir raiva o cora¸c˜ ao do indiv´ıduo dispara, ocasionando, em muitos casos, ruboriza¸c˜ ao das faces.

J´ a nos momentos de felicidade a pulsa¸c˜ ao diminui o que proporciona menor rigidez aos m´ usculos da face, facilitando sorrisos.

2.1 FATORES QUE INFLUENCIAM MANIFESTAC ¸ ˜ OES EMOCIONAIS

Um fato que continua a intrigar pesquisados ´ e a n˜ ao similaridade entre o resultados, de

um mesmo m´ etodo de identifica¸c˜ ao ac´ ustica de emo¸c˜ oes, quando posto a duas diferentes

bases de dados [6]. Realidade que n˜ ao se apresenta num sistema de reconhecimento

autom´ atico de locutor (RAE). A conclus˜ ao que somos, ent˜ ao, levados ´ e que existe maior

ingerˆ encia de caracter´ısticas do meio em que se encontram os locutores - ou seja, de suas

culturas - nas constru¸c˜ oes emocionais. Entendimentos como este, na aprecia¸c˜ ao de outros

estudos, nos levariam a superar obst´ aculos, por´ em, na nossa linha de pesquisa isso n˜ ao

(21)

ocorre.

Acentiva deve ser a an´ alise sobre os fatores que levam ` a forma como reage-se ` as emo¸c˜ oes. Sem esse quesito plenamente atendido, pode-se acabar montado bases de dados limitadas. Gerando, assim, respostas superficiais aos problemas apresentados. Como car- acter´ısticas humanas, emo¸c˜ oes n˜ ao fogem ` a influˆ encia social. O meio em que se insere o indiv´ıduo e sua cultura, alteram os motores que despertam as emo¸c˜ oes e, como h´ a de se observar, como o corpo reage a ela.

Os fatores que influenciam em como ´ e manifestada uma emo¸c˜ ao s˜ ao os mesmo que influem nas constru¸c˜ oes das personalidades. Estrutura social, gˆ enero, etnia aparecem como escolhas ´ obvias dadas a essa an´ alise. Realmente s˜ ao aspectos altamente determi- nadores, mas n˜ ao s˜ ao os ´ unicos. Religi˜ ao, forma¸c˜ ao profissional e grau de escolaridade tamb´ em contam como atores nas concep¸c˜ oes emotivas [2]. Outro fator de estudo recente

´

e a rela¸c˜ ao emocional com o pa´ıs em que moram os falantes.

As bases de dados atuais ignoram aspectos culturais e sup˜ oem que falantes de uma mesma l´ıngua devem possuir concep¸c˜ oes ps´ıquicas pr´ oximas, o que sabemos n˜ ao ser ver- dade. Em um mesmo meio, pessoas podem possuir religi˜ oes, etnias, condi¸c˜ oes sociais e idades diferentes. Todos esses aspectos influenciam as rea¸c˜ oes individuais a ocorrˆ encia de emo¸c˜ oes. Dificilmente, ent˜ ao, seria poss´ıvel o desenvolvimento de uma t´ ecnica que atenda satisfatoriamente a diversidade da natureza humana.

2.2 DIMENS ˜ OES EMOCIONAIS

Ao tentar modelar as emo¸c˜ oes, os estudiosos tem proposto, ao longos dos anos, formas de categoriza¸c˜ ao para os estados emocionais. Para defini¸c˜ ao de informa¸c˜ oes descrimi- nantes para identifica¸c˜ ao de caracter´ısticas emocionais nos sinais de voz, necessitamos, primeiramente, que as pr´ oprias emo¸c˜ oes possuam diferenciadores entre si. Como o intu- ito de encontrar tal aspecto determinante de emo¸c˜ oes, algumas teorias de segmenta¸c˜ ao das emo¸c˜ oes foram apresentadas. Abordam-se aqui, aquelas que vieram a contribuir de alguma forma com o estudo de identifica¸c˜ ao ac´ ustica de emo¸c˜ oes.

2.2.1 O CONE DE PLUTCHIK

Plutchik em seu trabalho [9] prop˜ oe a denominada teoria psicoevolutiva das emo¸c˜ oes,

segundo a qual todas as emo¸c˜ oes derivariam de sentimentos primitivos, e seriam, por

(22)

consequˆ encia, grada¸c˜ oes de tais sentimentos. A seguir ´ e apresentado o Cone de Plutchik [9] com a evolu¸c˜ ao de grada¸c˜ ao (e degrada¸c˜ ao) das emo¸c˜ oes primitivas.

FIG. 2.1: O Cone de Plutchik [9].

Os sentimentos primitivos ent˜ ao seriam Raiva, Medo, Tristeza, Nojo, Surpresa, Cu- riosidade, Aceita¸c˜ ao e Alegria.

2.2.2 O C´IRCULO DAS EMOC ¸ ˜ OES DE SCHERER

A abordagem psicol´ ogica de Klaus Scherer tem sido a base para a produ¸c˜ ao moderna

de classifica¸c˜ ao de emo¸c˜ oes. Estudou aspectos emocionais como estados afetivos, dos

quais poderiam advir fenˆ omenos ligados aos estados emocionais - como prazer e dor -,

temperamentos e peculiaredades dos indiv´ıduos. Sob esta ´ otica, introduziu o conceito

de valˆ encia, segundo o qual as emo¸c˜ oes possuiam um posicionamento em boas (valˆ encia

positiva), ruins (valˆ encia negativa) ou indeferentes (valˆ encia nula) [10].

(23)

FIG. 2.2: O C´ırculo das Emo¸c˜ oes de Scherer [10].

O componente poder da figura acima diz respeito a influˆ encia da personalidade humana - o Eu de Freud - no controle daquela emo¸c˜ ao. Assim, n˜ ao tem-se a habilidade de escolher sentir ou n˜ ao tristeza, mas um ser humana ´ e capaz de controlar do que sente raiva.

2.2.3 EIXOS DIMENSIONAIS

Um estudo moderno realizado em [2] analisou os eixos para a abordagem discrimi-

nante de emo¸c˜ oes. Tal estudo chegou a conclus˜ ao de que em an´ alise ac´ usticas de estados

emocionais h´ a uma caracter´ıstica que n˜ ao era amplamente utilizado. A intensidade de um

sinal de voz produzida por um falante era posta de lado, mas um aspecto importante e de

tal forma separador, n˜ ao poderia ser posto ` a parte de uma correspondˆ encia mais acertiva.

(24)

FIG. 2.3: Eixos Potˆ encia x Valˆ encia [2].

Aqui tamb´ em foi tratada a avalia¸c˜ ao segundo estudos realizados em [11]. Em tal es-

tudo, foi descoberto que o sistema parassimp´ atico ´ e estimulado quando estamos com raiva,

felicidade ou medo. Consequentemente, notou-se um aumento no ritmo card´ıaco, press˜ ao

arterial, mudan¸cas na inspira¸c˜ ao, maior press˜ ao subglotal, al´ em de sens´ıvel ressecamento

dos l´ abios e ocasional tremor muscular. Diretas altera¸c˜ oes no sinal de voz resultantes po-

dem, ent˜ ao, ser observadas. Essas ser˜ ao: aumento da amplitude e velocidade de express˜ ao,

concentra¸c˜ ao energ´ eticas em frequˆ encias mais altas e eleva¸c˜ oes na frequˆ encia fundamental

e banda do tom (pitch ). Tamb´ em foi observado por Williams e Stevens em [11], com a

excita¸c˜ ao do sistema parassimp´ atico ocasionada por tristeza e t´ edio, quedas na press˜ ao

arterial e de ritmo card´ıaco, al´ em de um aumento na saliva¸c˜ ao. Assim, os sinais produzi-

dos sob o efeito destas ser˜ ao de maior dura¸c˜ ao de discurso, menor frequˆ encia central da

pitch e reduzida concentra¸c˜ ao energ´ etica em altas frequˆ encias.

(25)

Uma poss´ıvel conex˜ ao l´ ogica dos estudos em [11] seria a correla¸c˜ ao entre estados emo- cionais e caracter´ısticas como a pitch, o tempo de dura¸c˜ ao, qualidade da voz e a dic¸c˜ ao.

Por´ em, notamos que n˜ ao ´ e poss´ıvel uma diferencia¸c˜ ao utilizando apenas a influˆ encia no sistema parassimp´ atico. Criou-se a componente Ativa¸c˜ ao - que indica a excita¸c˜ ao do sistema parassimp´ atico -, avaliada a seguir junto a Valˆ encia.

FIG. 2.4: Eixos Ativa¸c˜ ao x Valˆ encia [2].

2.2.4 DIMENS ˜ OES EMOCIONAIS AC ´ USTICAS

Os itens anteriores apresentaram componente psicol´ ogicos e algumas consequˆ encias

no mecanismo de produ¸c˜ ao de sinais ac´ usticos. Um concenso tem sido atingido por

pesquisadores [12] que a melhor categoriza¸c˜ ao de emo¸c˜ oes ´ e segundo os eixos de Ativa¸c˜ ao,

(26)

Valˆ encia e Potˆ encia.

FIG. 2.5: Emo¸c˜ oes fundamentais nos eixos Ativa¸c˜ ao x Valˆ encia x Potˆ encia [5].

Importante ressaltar que existem in´ umeros estados emocionais. A teoria da palheta [13] tˆ em ampla aceita¸c˜ ao na literatura. Tal teoria enuncia a possibilidade de decomposi¸c˜ ao de qualquer um destes estado em emo¸c˜ oes prim´ arias: Raiva, Felicidade, Repugnˆ ancia, Medo, Tristeza, Ansiedade e Neutro (ausˆ encia de emo¸c˜ ao). Um sistema bastante similar a an´ alise de Plutchik. Portanto, encontra-se n˜ ao s´ o constante an´ alise exclusiva para esses casos, mas tamb´ em boa parte das bases de dados mais utilizadas discrimin˜ ao seus dados segundo estas emo¸c˜ oes fundamentais.

As contribui¸c˜ oes assim ficam claras. Plutchik [9] enuncia uma decomposi¸c˜ ao segundo emo¸c˜ oes prim´ arias. Scherer [10] introduz o aspecto de valˆ encia ao estudo de emo¸c˜ oes.

Williams e Stevens [11] abrangem o aspecto de ativa¸c˜ ao do sistema parasssimp´ atico. Por

fim em [2] a componente de potˆ encia do sinal de voz ´ e relacionada.

(27)

2.3 SISTEMA DE IDENTIFICAC ¸ ˜ AO AC ´ USTICA DE EMOC ¸ ˜ OES

Um sistema de identifica¸c˜ ao ac´ ustica de emo¸c˜ oes ´ e, geralmente, composto por duas fases: treinamento e teste. A primeira destas fases, a de treinamento, se caracteriza por quatro etapas. Primeiramente, o sinal de treinamento ´ e pr´ e-processado, i.e., convers˜ ao anal´ ogico-digital e devidas prepara¸c˜ oes para a identifica¸c˜ ao emo¸c˜ oes. A fase seguinte se caracteriza pela extra¸c˜ ao de atributos ou caracter´ısticas das emo¸c˜ oes, estes ser˜ ao extra´ıdos em diferentes janelas, formando uma matriz de caracter´ısticas. Finalmente, ´ e obtido o modelo estoc´ astico para representa¸c˜ ao da emo¸c˜ ao. Este ´ e armazenado para classifica¸c˜ ao durante a fase de teste.

J´ a na fase de teste, possui-se modelos suficientes armazenados para a compara¸c˜ ao e, ap´ os o pr´ e-processamento e a caracteriza¸c˜ ao do sinal segundo os parˆ ametros adotados, passamos a etapa de decis˜ ao. Nesta etapa um comparador pr´ e-definido indica a qual padr˜ ao a matriz de atributos se assemelha, definindo assim, a emo¸c˜ ao a que o sinal partence.

A FIG 2.6 ilustra as fases de treinamento de teste de um sistema de identifica¸c˜ ao ac´ ustica de emo¸c˜ oes.

FIG. 2.6: Representa¸c˜ ao gr´ afica de um Sistema de Identifica¸c˜ ao de Emo¸c˜ oes Ac´ usticas.

(28)

2.4 ATRIBUTOS PARA A CLASSIFICAC ¸ ˜ AO DE EMOC ¸ ˜ OES

Apesar de recentes avan¸cos no desenvolvimento de t´ ecnicas para identifica¸c˜ ao das varia¸c˜ oes ac´ usticas dos sinais de voz devido ao estado emocional do locutor, um dos prin- cipais desafios ´ e a proposta de atributos que melhor aborde o problema de identifica¸c˜ ao ac´ ustica de emo¸c˜ oes. Em [13] observou-se a separa¸c˜ ao destas propostas segundo qua- tro tipos: pros´ odicos cont´ınuos, qualitativos, espectrais e atributos baseados no operador TEO [14]. Independentemente do grupo ao qual estes classificadores pertencem, ´ e primor- dialmente necess´ ario conhecer a influˆ encia dos estados emocionais na produ¸c˜ ao de sinais de voz e a distin¸c˜ ao precisa para cada sensa¸c˜ ao.

Atributos pros´ odicos cont´ınuos s˜ ao aqueles relacionados a pitch, aos picos de energia no espectro sonoro (formantes), a energia do sinal de voz, a cadˆ encia e a taxa de articula¸c˜ ao.

Tais propriedades nos proporcionam boa aprecia¸c˜ ao quando consideradas na diferencia¸c˜ ao entre emo¸c˜ oes de alta e de baixa ativa¸c˜ ao, como raiva e tristeza. Por´ em, encontram sens´ıvel dificuldade na distin¸c˜ ao entre m´ ultiplas emo¸c˜ oes ou num cen´ ario multi-estilo.

Experimentos recentes demostraram a conex˜ ao entre a qualidade dos sinais e a emo¸c˜ ao que percebemos em uma comunica¸c˜ ao sonora [15]. Caracter´ısticas como limites de fone- mas ou palavras, estuturas temporais dos discursos e amplitude do sinal; s˜ ao retratados pelos atributos qualitativos. Devido a inerente dificuldades de aplica¸c˜ ao desta abordagem, n˜ ao ´ e muito utilizada.

J´ a atributos espectrais s˜ ao baseados nas estruturas de espectro de frequˆ encia da rep- resenta¸c˜ ao de tempo-curto do sinal de fala. A est´ a defini¸c˜ ao, pertencem parˆ emetros como os coeficientes mel-cepstrais (MFCC - mel-frequency cepstral coefficients) [16] e os coefi- cientes de predi¸c˜ ao linear (LPC - linear prediction coefficients). A avalia¸c˜ ao destes mostra suas capacidades de identificar altera¸c˜ oes no trato vocal. Os resultados, todavia, indicam que estes s˜ ao mais sucept´ıveis ` as condi¸c˜ oes de grava¸c˜ ao e de caracter´ısticas culturais do locutor.

Em [14] foi proposto um atributo fundamentado no operador de energia Teager (TEO

- Teager energy operator ). Ap´ os isto, come¸caram a aparecer metodologias baseadas na

evidˆ encia de que a audi¸c˜ ao ´ e um processo de detec¸c˜ ao de energia. Interessante sobre

tal operador ´ e sua capacidade de representar o contorno energ´ etico das intera¸c˜ oes fluxo-

v´ ortices do trato vocal e como estas s˜ ao as respons´ aveis pela forma¸c˜ ao do som, v´ arios

trabalhos abordaram o problema sobre este vi´ es.

(29)

Tamb´ em existem aqueles atributos denominado de tempo-frequˆ encia. Destacam-se nestes m´ etodos a aplica¸c˜ ao do vetor expoentes de Hurst (pH) como atributo tempo- frequˆ encia para identifica¸c˜ ao de emo¸c˜ oes [22]. Esta caracteriza¸c˜ ao apresentou melhor representa¸c˜ ao quando comparada a atributos TEO e MFCC.

2.4.1 OPERADOR DE ENERGIA TEAGER - TEO

Os atributos utilizados para caracteriza¸c˜ ao dos sinais ac´ usticos derivam, em geral, de modelos de produ¸c˜ ao linear de tais sinais [14]. Esta an´ alise postula um propaga¸c˜ ao das ondas sonoras pelo trato vocal em forma plana. Em estudos realizados por Teager [19]

ficou constatado que o fluxo de ar pelo trato vocal ocorre em v´ ortices e a produ¸c˜ ao do sons seria proveniente das intera¸c˜ oes fluxo-v´ orticas. Assim, a gera¸c˜ ao de som seria n˜ ao-linear, diferente da suposi¸c˜ ao que origina os atributos para caracteriza¸c˜ ao de sinais ac´ usticos.

As afirma¸c˜ oes feitas por Teager s˜ ao sustentadas pela teoria de mecˆ anica dos fl´ uidos.

Por´ em, alguns estudiosos [17] acreditam que altera¸c˜ oes fisiol´ ogicas dos sistema de produ¸c˜ ao da fala - trato vocal - devido a acorrˆ encia de emo¸c˜ oes, ocasionariam varia¸c˜ oes nas forma¸c˜ oes dos v´ ortices e, consequentemente, nas caracter´ısticas dos discursos.

Teager - a partir do conhecimento de que audi¸c˜ ao ´ e um processo de detec¸c˜ ao de energia - desenvolveu um operador de energia que representa¸c˜ ao as intera¸c˜ oes fluxo-v´ orticas que estava estudando. A forma mais simples do operador ´ e apresentada por Kaiser [17]:

ψ

_c

[x(t)] = ( ˙ x(t))

²

− x(t)¨ x(t) (2.1) onde ψ

_c

[.] ´ e o chamado operador de enegia Teager (TEO - Teager Energy Operator ) e x(t)

´

e um componente do sinal de fala cont´ınuo.

Alguns parˆ ametros propostos utilizando o operador TEO j´ a se mostraram limitados e em [14] concluiu-se que n˜ ao s˜ ao adequados a identifica¸c˜ ao de identifica¸c˜ ao de estresse.

Um atributo, por´ em, mostrou resultados satisfat´ orios. O chamado estimador de banda cr´ıtica baseado na envolt´ oria da fun¸c˜ ao autocorrela¸c˜ ao de TEO (TEO-CB-Auto-Env).

Para extrair os parˆ ametros TEO-CB-Auto-Env cada componente frequencial - na sa´ıda

de um banco de filtros passa-faixa de Garbor - ´ e particionado em duzentas amostras

de 25 ms com 100 amostras de 12.5 ms de sobreposi¸c˜ ao em janelas adjacentes. S˜ ao

obtidos M caracter´ısticas TEO-CB-Auto-Env para cada parti¸c˜ ao, sendo M o n´ umero de

bandas cr´ıticas analisadas. Este ´ e o componente vetorial de atributos TEO-CB-Auto-En

formando, em conjunto, a matriz de atributos TEO-CB-Auto-Env do sinal ac´ ustico.

(30)

FIG. 2.7: Diagrama de blocos da extra¸c˜ ao dos atributos TEO-CB-Auto-Env.

Uma resalva deve ser feita ` a an´ alise aqui apresentada. Como ser´ a visto no prossegui- mento deste trabalho, o atributo apresentado n˜ ao refletir´ a a observa¸c˜ ao feita em [14] de acertividade e confiabilidade, por´ em n˜ ao se traduz em um engano do artigo citado ou de um erro de observa¸c˜ ao. O artigo utiliza o atributo n˜ ao na identifica¸c˜ ao de emo¸c˜ oes, mas na detec¸c˜ ao de condi¸c˜ oes de estresse, o que n˜ ao ´ e objetivado pelo nosso aplicativo.

2.4.2 COEFICIENTES MEL-CEPSTRAIS - MFCC

Este atributo - diferentemente dos baseados em TEO - foi proposto, inicialmente, para reconhecimento ac´ ustico de locutor e reconhecimento de voz. Estudos recentes [6], por´ em, demonstram que os resultados em identifica¸c˜ ao ac´ ustica de emo¸c˜ oes ´ e apreci´ avel. Os atrib- utos TEO tentam estimar as rela¸c˜ oes energ´ eticas da produ¸c˜ ao dos sinais de fala. Os atrib- utos MFCC, por sua vez, analisam a percep¸c˜ ao humana para componentes frequˆ enciais da voz.

O primeiro passo para o estuda da audi¸c˜ ao humana desses componentes foi proposto em [18] o que levou a cria¸c˜ ao de uma denominada escala Mel. Primeiramente foi produzido um sinal de frequˆ encia constante e igual a 1kHZ com intensidade de 40dB acima do limiar de audi¸c˜ ao humana. Ap´ os, realizaram-se aumentos em propor¸c˜ ao e deixou-se que uma audiˆ encia de especialista identifica-se a proporcionalidade. Ou seja, com o aumento de frequ?ncia, pediu-se que os ouvintes apontassem quando o sinal dobrou, ou quando ocorreram outros fatores de propor¸c˜ ao a ele. Como resultado uma escala foi produzida.

Ao primeiro som produzido foi associado o valor de 1000 mels e cada momento que, em m´ edia, os especialistas indicassem altera¸c˜ ao valores eram associados ` aquelas frequˆ encias.

Por exemplo, se uma frequˆ encia era identificada como o dobro da frequˆ encia inicial, ` a ela correspondiam 2000 mels.

A correspondˆ encia entre a escala mel e as frequˆ encias reais pode ser observada na

figura a seguir:

(31)

FIG. 2.8: Correspondˆ encia entre escala mel e frequˆ encias de sinais sonoros [18].

A equa¸c˜ ao de associa¸c˜ ao deste mecanismo ´ e apresenta a seguir:

F

_mel

= 2595 log(1 + F

_linear

(Hz)

700 ) (2.2)

onde F

_mel

´ e a componente frequencial em escala Mel e F

_linear

(Hz) ´ e a componente fre- quencial em escala linear.

FIG. 2.9: Espectro de filtros triangulares [16].

(32)

A constru¸c˜ ao da matriz de atributos, em si, segue um esquem´ atico mais simples que a dos parˆ ametros TEO. O sinal de voz recebe uma pr´ e-ˆ enfase para, em seguida, ser seg- mentado. Os segmentos temporais s˜ ao, ent˜ ao, ponderados espectralmente por um janela- mento de Hamming com janelas 50% sobrepon´ıveis. O sinal pr´ e-processador ´ e, assim, submetido a um detector de atividade de voz para eliminar os quadros sem informa¸c˜ ao

´

util. Ap´ os este tratamento inicial, faz-se obtencem-se informa¸c˜ oes espectrais por meio de uma transformada r´ apida de Fourier (FFT) seguida de uma modulariza¸c˜ ao para obten¸c˜ ao de magnetude das componentes. Calcula-se o equivalente em escala mel como em [16], ou seja, um sequˆ encia de filtros triangulares linearmente espa¸cados e uma transformada de cossenos discreta.

FIG. 2.10: Diagrama de blocos da extra¸c˜ ao dos atributos MFCC.

2.4.3 VETOR EXPOENTE DE HURST - PH

O vetor de atributos tempo-frequˆ encia de Expoente de Hurst (pH) foi proposto em [20]

para sistemas de identifica¸c˜ ao e verifica¸c˜ ao de locutor. O expoente de Hurst (1 ≥ H ≥ 0) representa a taxa de decaimento da fun¸c˜ ao autocorrela¸c˜ ao de um sinal de voz. Esta possui comportamento assint´ otico dado expresso por:

ρ(k) ∼ H(2H − 1)k

^2(H−1)

(2.3)

quando k → ∞ e onde ρ(k) ´ e a taxa de decaimento da fun¸c˜ ao autocorrela¸c˜ ao.

O comportamento do valores do expoente de Hurst indicam estados emocionais se- gundo [21] :

• Como j´ a observado emo¸c˜ oes de alta ativa¸c˜ ao possuem predominˆ ancia de compo- nentes de alta-frequˆ encia, logo a desidade espectral de potˆ encia desses sinais de voz possuem dacaimento de aproximadamente 9 dB por oitava. A fun¸c˜ ao autocorrela¸c˜ ao, ent˜ ao, possuir´ a r´ apida queda, levando os valores de H no intervalo 1 > H > 0.5.

• Na ausˆ encia de estado emocional (neutro) o decaimento ser´ a de 12 dB por oitava.

Isto resultar´ a numa fun¸c˜ ao com decaimento exponencial, ou seja, H ≈ 0.5.

(33)

• As componentes predominantes num sinal de baixa ativa¸c˜ ao ser˜ ao de baixas frequˆ encias, levando a densidade espectral de potˆ encia a um decaimento de 15 dB por oitava.

Assim, teremos 0.5 > H > 0.

O vetor pH ´ e extra´ıdo com um estimador multi-dimensional baseado na teoria tempo- frequˆ encia wavalet [20]. O procedimento para tal extra¸c˜ ao de cada parˆ ametro ocorre em 3 est´ agios:

• Aplica¸c˜ ao da trasformada wavelet discreta (DWT) para decompor o sinal em detalhe (d(j, n)) e aproxima¸c˜ ao (a(j, n)); onde j representa a escala de decomposi¸c˜ ao (j = 1, ..., J ) e n o ´ındice de cada escala.

• Estima¸c˜ ao do expoente de Hurst dos detalhes (H

_j

) aplicando-se novamente a de- composi¸c˜ ao wavelet a cada uma das J sequˆ encias de detalhes e estimando novamente os valores de H.

• Estima¸c˜ ao do expoente de Hurst do sinal de voz (H

₀

) como sendo a regre¸c˜ ao linear logar´ıtmica da variˆ ancia dos coeficientes de detalhes.

A extra¸c˜ ao do vetor pH de 3 valores segue o esquem´ atico a seguir [5]:

FIG. 2.11: Diagrama de blocos da extra¸c˜ ao do vetor de atributos pH.

Onde DWT ´ e a decomposi¸c˜ ao wavelet e HC estima¸c˜ ao do parˆ ametro de Hurst do sinal.

2.5 RESULTADOS

A avalia¸c˜ ao dos atributos, apresentados neste Cap´ıtulo, ´ e realizada em experimentos de

identifica¸c˜ ao ac´ ustica de emo¸c˜ oes. De forma a obter resultados independentes da escolha

(34)

de locutores para as fases de treinamento e teste, foi adotada a metodologia LOSO (leave one speaker out descrita em [6]. Neste contexto, a fase de teste ´ e aplicada a apenas um locutor da base de dados. Os sinais de voz provenientes de outros locutores ser˜ ao ent˜ ao utilizados na fase de treinamento. Este processo ´ e repitido uma vez para cada um dos falantes da base de dados. Assim, cada sinal da base de dados ´ e avaliado uma ´ unica vez, como se fosse uma amostra de sinal real.

2.5.1 BASE DE VOZ SOB O EFEITO DE EMOC ¸ ˜ OES

Para o tratamento comparativo que deseja-se realizar, de forma a indicar qual a emo¸c˜ ao que um falante est´ a sentindo, deve-se utiizar de bases de dados. Como trata-se de Sinais ac´ usticos de voz o presente projeto, ser˜ ao chamados de dados as locu¸c˜ oes sonoras extra´ıdas da bases de voz despon´ıveis.

Como o processamento mais acertivo encontra-se no processamento dos dados da base EMO-DB (Berlin Emotion Database), a montagem do aplicativo IDEA utilizar´ a esta base de voz. Um dos motivos que leva a tal escolha ´ e a n˜ ao existˆ encia de um mecanismo similar em portuguˆ es e gravado por brasileiros - o que seria importante j´ a que sabe-se que a determina¸c˜ ao ´ e influenciada por aspectos culturais dos falantes.

A Berlin Emotion Database ´ e composta por 900 amostras, por´ em com 494 relacionadas como satisfatoriamente natural (acima de 60% de avalia¸c˜ ao) e acertiva (acima de 80% de reconhecimento da emo¸c˜ ao), divididas em 7 emo¸c˜ oes: raiva, t´ edio, nojo, medo, felicidade, neutro e tristeza. 10 atores (5 homens e 5 mulheres) realizaram grava¸c˜ oes em est´ udio de textos previamente definidos em alem˜ ao. Sendo os sinais avaliados por 20 selecionadores.

2.5.2 DESCRIC ¸ ˜ AO DOS EXPERIMENTOS

Nos experimentos como descrito em [22], os atributos pH s˜ ao obtidos a partir de segmenta¸c˜ ao dos sinais em dois tamanhos distintos - 20 ms e 50 ms. Nestes dois proced- imentos, utilizaram-se J = 5 est´ agios de decomposi¸c˜ ao. Assim, obteram-se J + 1 = 6 coeficientes em cada processamento. Estes resultados s˜ ao, ent˜ ao, concatenados em um mesmo vetor pH com 12 componentes.

A extra¸c˜ ao dos atributos MFCC seguiu-se a descri¸c˜ ao em [6]. Segundo esta, os coe-

ficientes s˜ ao extra´ıdos de quadros de 25 ms de dura¸c˜ ao, obtidos a cada 10 ms utilizando

janelamento de Hamming. Um banco de 26 filtros na escala mel foi utilizado, levando a

um total de 12 componentes.

(35)

Os principais resultados de identifica¸c˜ ao ac´ ustica de emo¸c˜ oes utilizando a base EMO- DB e os m´ etodos descritos anteriormente, s˜ ao apresentados nas tabelas 2.1 - para atributos TEO-CB-Auto-Env-, 2.2 - para atributos MFCC - e 2.3 - para atributos pH.

Emo¸ c˜ ao Real Desgosto Felicidade Medo Raiva Neutro T´ edio Tristeza

Desgosto 61 11 5 5 18 0 0

Felicidade 8 58 11 37 3 2 0

Medo 11 22 33 15 15 13 0

Raiva 1 14 0 85 0 0 0

Neutro 5 0 1 0 65 23 1

T´ edio 8 5 1 0 25 53 4

Tristeza 11 0 0 0 9 6 74

TAB. 2.1: Taxa de acerto na identifica¸c˜ ao ac´ ustica de emo¸c˜ oes (%) utilizando TEO-CB- Auto-Env.

Emo¸ c˜ ao Real Desgosto Felicidade Medo Raiva Neutro T´ edio Tristeza

Desgosto 40 13 0 18 13 13 3

Felicidade 8 42 0 37 8 5 0

Medo 16 11 27 15 18 6 7

Raiva 4 27 1 60 5 3 0

Neutro 10 3 1 6 36 44 0

T´ edio 9 4 1 5 19 58 4

Tristeza 4 0 0 0 4 2 90

TAB. 2.2: Taxa de acerto na identifica¸c˜ ao ac´ ustica de emo¸c˜ oes (%) utilizando coeficientes MFCC.

Emo¸ c˜ ao Real Desgosto Felicidade Medo Raiva Neutro T´ edio Tristeza

Desgosto 67 10 6 0 10 7 0

Felicidade 6 48 8 25 11 2 0

Medo 5 16 62 0 11 3 3

Raiva 2 10 2 86 0 0 0

Neutro 2 0 8 0 71 17 2

T´ edio 13 0 2 0 20 61 4

Tristeza 0 0 0 0 6 12 82

TAB. 2.3: Taxa de acerto na identifica¸c˜ ao ac´ ustica de emo¸c˜ oes (%) utilizando o vetor pH.

A an´ alise das tabelas apresentadas leva a conclus˜ ao que o vetor pH foi capaz de melhor

caracterizar as emo¸c˜ oes de independente de sua ativa¸c˜ ao. Ao observar os dados tem-se

que, apesar de ter sido proposto em [14] para identifica¸c˜ ao de emo¸c˜ oes, o atributo TEO-

CB-Auto-Env n˜ ao apresenta melhora em rela¸c˜ ao ao m´ etodo MFCC. As taxas de acerto

(36)

m´ edias para os atributos pH, MFCC e TEO-CB-Auto-Env ser˜ ao, respectivamente, 68, 1%,

61, 3% e 50, 4%.

(37)

3 IMPLEMENTAC ¸ ˜ AO DO APLICATIVO IDEA

Neste cap´ıtulo ser˜ ao apresentados a plataforma de desenvolvimento do aplicativo IDEA - o sistema operacional Android -, a estrutura¸c˜ ao deste e, por fim, o funcionamento atual do aplicativo.

3.1 AMBIENTE ANDROID

Android ´ e um sistema operacional de c´ odigo livre, baseado em Linux, para dispositivos port´ ateis. desenvolvido primordialmente pela empresa de inform´ atica Google que, ap´ os sua aplica¸c˜ ao inicial, cedeu os direitos do sistema a Open Handset Alliance (OHA), uma alian¸ca voltada para dispositivos m´ oveis de c´ odigo livre, composta com aproximadamente 30 empresas entre elas Intel, Motorola e Samsung.

Para o desenvolvimento de aplica¸c˜ oes ´ e fornecido ao programador um kit de desen-

volvimento chamado SDK que proporciona ferramentas e chamadas via API na linguagem

JAVA. Resumidamente, s˜ ao programas para celulares com um sistema operacional, mid-

dleware e interface. A arquitetura do sistema ´ e apresentada a seguir, onde os principais

recursos desta plataforma m´ ovel s˜ ao a m´ aquina virtual otimizada, navegador integrado,

biblioteca em duas e trˆ es dimens˜ oes, banco SQLite e plugin para o programa Eclipse

(ADT).

(38)

FIG. 3.1: Arquitetura Android

A ”Camada Linux Kernel” ´ e a camada composta do kernel do Linux vers˜ ao 2.6 que orquestra os servi¸cos, seguran¸ca, gerenciamento de mem´ oria e processos, rede e drivers.

N˜ ao podemos esquecer tamb´ em da abstra¸c˜ ao do hardware nesta camada. J´ a na ca- mada de bibliotecas encontramos diversas bibliotecas em C/C++ utilizadas pelo Android:

biblioteca C padr˜ ao (libc), multim´ıdia, visualiza¸c˜ ao de camadas 2D e 3D, fun¸c˜ oes para browser, fun¸c˜ oes para gr´ aficos, fun¸c˜ oes de acelera¸c˜ ao de hardware, renderiza¸c˜ ao 3D, fontes bitmap e vetorizada e fun¸c˜ oes de acessos ao banco SQLite. Em s´ıntese, todos os recursos s˜ ao dispon´ıveis no Framework para o desenvolvimento de pacotes.

Dalvik ´ e uma uma instˆ ancia da m´ aquina virtual. Dalvik ´ e criada para cada novo programa em execu¸c˜ ao no Android. O Dalvik ´ e uma m´ aquina virtual diferente da tradi- cional JVM, mais perform´ atica (pelo fato de ser otimizada para dispositivos m´ oveis), com maior integra¸c˜ ao com a nova gera¸c˜ ao de hardware e projetada para executar v´ arias VMs paralelamente, ´ e otimizada para consumo m´ınimo de mem´ oria, bateria e CPU.

A Framework Application disponibiliza todas as APIs e recursos necess´ arios para os

(39)

pacotes/aplicativos: classes visuais como bot˜ oes e views, Content Providers (troca de recurso entre aplicativos), gerenciador de recurso, ciclo de vida da aplica¸c˜ ao e gerenciador de pacotes.

A Camada Applications ´ e a que, como o pr´ oprio nome diz, encontra-se todos os aplica- tivos do Android - como cliente de e-mail, navegador web, contatos entre outros. Resu- mindo, para desenvolver programas para a plataforma Android, criaremos os aplicativos em Java na VM Dalvik.

3.1.1 PROGRAMAC ¸ ˜ AO

Como foi observado, a programa¸c˜ ao em Android ocorre em linguagem Java. Por´ em, trata-se de um desenvolvimento a parte pois necessitade - diferentemente de outras apli- cabilidades dessa linguagem de programa¸c˜ ao - de emula¸c˜ ao de um sistema m´ ovel, j´ a que a programa¸c˜ ao ocorre em um computador e n˜ ao no pr´ oprio dispositivo. Deve-se ent˜ ao, instalar os seguintes aplicativos para desenvolvimento em plataforma Android:

• Eclipse IDE for JAVA Developers

Unico compilador de c´ ´ odigos em Java compat´ıvel com o desenvolvimentos da plataforma Android.

• Android SDK

SDK ´ e a sigla em inglˆ es para pacote de desenvolvimento de software, o que se traduz nas bibliotecas desenvolvidas em c´ odigo livre pelos multiplos usu´ arios da plataforma.

• ADT Plugin

ADT ou ferramentas para desenvolvimento em Android ´ e o integrador do sistema para programa¸c˜ ao em Android. Com ele, e apenas ele, ´ e poss´ıvel compilar aplicativos ou c´ odigos Java em Eclipse de tal forma que sejam integr´ aveis a dispositivos Android.

Este ´ e, ent˜ ao, o respons´ avel por viabilizar o compilador a desenvolvimento m´ ovel para aplicativos Android.

3.2 APLICATIVO IDEA

Apesar do extenso estudo te´ orico anterior, encontra-se nesta se¸c˜ ao objetivo principal do

presente trabalho: o desenvolvimento do aplicativo capaz de identificar emo¸c˜ oes em sinais

(40)

de fala para aplicativos Android. Apresentam-se a seguir a estrutura que o aplicativo segue, como funciona seus mecanismos e operacionalidade para o usu´ ario. Ap´ os isso, est´ a relacionado o teste, relatando o tempo de resposta do aplicativo e sua acertividade, relacionada ao atributo de utiliza¸c˜ ao para identifica¸c˜ ao de emo¸c˜ oes.

3.2.1 ESTRUTURAC ¸ ˜ AO DO APLICATIVO

A obten¸c˜ ao de uma matriz de atributos como apresentadas na se¸c˜ ao 2.4 exige um grande poder de processamento. Por´ em, a grande dificuldade para a implementa¸c˜ ao em dispositivos m´ oveis n˜ ao se encontra na limita¸c˜ ao de processamento - algo que, como vimos no Cap´ıtulo 1, n˜ ao ´ e um problema para smartphones modernos -, mas na restri¸c˜ ao destes equipamentos quanto a mem´ oria.

Para tornar a compara¸c˜ ao poss´ıvel, os celulares deveriam armazenar as bases de dados (ou pelo menos, todas as matrizes de atributos delas), o que consumiria elevada mem´ oria.

Os dados de sinais ac´ usticos da base de dados EMO-DB possuem 6.5GB de espa¸co. Um argumento contr´ ario seria que a identifica¸c˜ ao necessita apenas dos dados j´ a processados.

Estes, por´ em, consumiram em testes mais de 2GB de mem´ oria.

Nota-se, assim, que a aplica¸c˜ ao desconectada dos sistema IDEA seria impratic´ avel.

Uma solu¸c˜ ao se desenha, por´ em, na possibilidade de gravarmos o ´ audio do aplicativo

no celular e o enviar a um servidor para que este, por sua vez, processe os dados e

responda a solicita¸c˜ ao de identifica¸c˜ ao do usu´ ario. O aplicativo portanto ser´ a uma parte

de um sistema integrado de m´ ultiplos dispositivos. O aplicativo em dispositivo Android

- respons´ avel por gravar um arquivo de ´ audio pelo microfone do aparelho -, o pr´ oprio

aparelho - que gravaria em sua mem´ oria o sinal de ´ audio e o enviaria para uma processador

- e, finalmente, o servidor - um computador do Laborat´ orio de Processamento de Sinais

ac´ usticos (LASP) do IME.

(41)

FIG. 3.2: Esquem´ atico estrutural do aplicativo IDEA.

A FIG 3.2 representa a estrutura de desenvolvimento do aplicativo. O usu´ ario aperta

um bot˜ ao no qual grava um ´ audio pelo microfone do celular FIG 3.2 (a). O arquivo gerado

(42)

nessa opera¸c˜ ao ´ e salvo na mem´ oria do dispositivo, que, em sequˆ encia, o envia por uma conex˜ ao internet a um servidor (Host ) - FIG 3.2 (b) - que processa os dados - FIG 3.2 (c).

Ap´ os o tratamento dos dados, o servidor envia ao aplicativo a resposta de qual emo¸c˜ ao ele est´ a detectando no sinal recebido FIG 3.2 (d). O aplicativo, ent˜ ao, exprime na tela uma imagem associada ` aquela emo¸c˜ ao FIG 3.2 (e).

3.3 TESTE OPERACIONAL

Primeiramente o aplicativo IDEA grava o ´ audio. A FIG 3.3 demonstra o aplicativo gravando.

FIG. 3.3: In´ıcio da grava¸c˜ ao do ´ audio.

Ap´ os a interrup¸c˜ ao da grava¸c˜ ao, a arquivo de ´ audio ´ e salvo na mem´ oria do celu- lar. A pasta em que este arquivo foi salvo ´ e sincronizada com a pasta do servidor.

Alguns instantes, apenas, servem para que o arquivo seja automaticamente enviado ao

(43)

servidor. Para esta sincroniza¸c˜ ao utilizou-se um aplicativo dispon´ıvel na Play Store - BitT orrentSync

^c

.

FIG. 3.4: ´ Audio gravado e salvo na mem´ oria do smartphone.

Paralelamente ao envio do arquivo ´ audio, o aplicativo abre um terminal no aplica-

tivo J uiceSSH

^c

remotamente conectado ao servidor. Assim, podemos comandar que o

servidor execute o processamento do arquivo na pasta sincronizada.

(44)

FIG. 3.5: Abertura do J uiceSSH

^c

.

O comando de processamento utilizar´ a os programas dispon´ıveis no servidor. O teste

de grava¸c˜ ao s´ o poderia ser executado com ´ audios da pr´ opria base de dados, pois esta ´ e

em alem˜ ao. Assim, seria inadequado o processamento de um sinal de voz em portuguˆ es

por um sistema treinado nequela base de dados.

(45)

4 CONCLUS ˜ OES

Neste projeto, foi desenvolvido um aplicativo para identifica¸c˜ ao ac´ ustica de emo¸c˜ oes (IDEA) em um smartphone com sistema operacional Android. O desenvolvimento se utilizou de aplica¸c˜ ao de m´ etodos de IDEA da literatura em um computador e utiliza¸c˜ ao remota deste por um celular.

Os resultados aqui apresentados mostram que ´ e cada vez mais real a implementa¸c˜ ao de sistemas IDEA em dispositivos de comunica¸c˜ ao e , conseuqnetemente, em sistemas de comunica¸c˜ ao em si. Os resultados quanto aos atributos de identifica¸c˜ ao ac´ ustica de emo¸c˜ oes s˜ ao compat´ıveis tanto com os obtidos em [6] e em [5]. O atributos baseado no operador Teager - TEO-CB-Auto-Env - n˜ ao apresenta identifica¸c˜ ao ganho percentual em identifica¸c˜ ao de emo¸c˜ oes quando comparado com o atributo coeficientes mel cepstrais (MFCC ), concebido inicial para reconhecimento de locutor. Isso n˜ ao descarta a possi- bilidade de novos atributos que utilizando-se deste operador venham a mostrar melhores resultados.

Outro atributo tratado na literatura - o vetor de expoentes de Hurst (pH) - apresenta resultados 7, 2% maiores que MFCC e 17, 7% que o atributo baseado no aperador TEO.

assim, essa significativa melhora o fazem a op¸c˜ ao moderna mais acertiva para utiliza¸c˜ ao em sistemas IDEA.

O desenvolvimento do aplicativo foi poss´ıvel devido a plataforma Android ser de c´ odigo livre, o que a faz de extenso material constante na rede mundial de computadores - Internet. em particular o pr´ oprio s´ıtio Android Developers auxiliou tal desenvolvimento, tanto com os programas SDK e Eclipse quanto com as consultas a seu f´ orum de discuss˜ ao, onde desenvolvedores auxiliam programadores.

4.1 TRABALHOS FUTUROS

Nesta se¸c˜ ao s˜ ao destacadas algumas sugest˜ oes para trabalhos futuros

• Utiliza¸c˜ ao de um sistema IDEA em dispositivos de maior capacidade de proces-

samento. Assim, seria poss´ıvel uma aplica¸c˜ ao sem a necessidade de envio de in-

forma¸c˜ ao para um servidor.

(46)

• Desenvolvimento de um aplicativo que possicionasse espacialmente as emo¸c˜ oes do locutor. Neste, poderiam se identificados a posi¸c˜ ao segundo valˆ encia, ativa¸c˜ ao e pot?ncia do sinal de voz.

• A identifica¸c˜ ao por meios n˜ ao ac´ ustico tamb´ em seria uma possibilidade. Dispositivos poderiam identificar emo¸c˜ oes por aspectos visuais como express˜ oes faciais.

• Um aplicativo que integrasse identifica¸c˜ ao ac´ ustica de emo¸c˜ oes e parˆ ametros n˜ ao

ac´ usticos poderia tornar o sistema IDEA mais acertivo

(47)

5 REFERˆ ENCIAS BIBLIOGR ´ AFICAS

[1] RAINER, R. What is the defition of emotion? And are emotions mental-behavioral process? Em Social Science Information, 46(3):000-000, 2007.

[2] SCHERER K., FONTAINE J. e ROESCH E. The world of emotion is not two- domensional. Em Psichological Science, 12(18):1050-1057, 2003.

[3] FREUD S., O Eu e o Id. Em Obras completas: O Eu e o Id, autobiografia e outros textos: (1923-1925), Companhia das Letras, 2011.

[4] REYNOLDS, D. A. e ROSE, R. C. Robust Text-Independet Speaker Identification Using Gaussian Mixture Speaker Models. Em IEEE Transaction on Speech and Audio Processing, 1(3), 1995.

[5] D. CAVALCANTE e R. COELHO, Identifica¸c˜ ao de Emo¸c˜ oes Aplicada ao Reconheci- mento Autom´ atico de Locutor. Em XXIX Simp´ osio Brasileiro de Telecomunica¸ c˜ oes, 2011

[6] SCHULLER, B., VLASENKO, B., EYBEN, F., RIGOLL, G. e WENDEMUTH, A.

Acustic emotion recognition: A benchmark comparison of performances. Em IEEE Workshop on Automatic Speech Recognition Understanding, p´ ags. 552-557, 2009.

[7] DARWIN, C.., EKMAN, P., PRODGER, P. e The Expression of the Emotions in Man and Animals. Em Oxford University Press, p´ ags. 123-148, 1998.

[8] JAMES, E. What is emotion? Em Mind, 34 p´ ags. 188-205, 1884.

[9] PLUTCHIK, R. The Emotions. Em University Press of America, 1991.

[10] SCHERER, K. On the nature and function of emotion: A component process approach.

Em Approaches to emotion, 2293, p´ ag. 317, 1984.

[11] WILLIAMS, C. e STEVENS, K. Vocal correlates of emotional states. Em Speech Evaluation in Psychiatry, 2293, p´ ags. 189-220, 1981.

[12] WENINGER, F. On the acoustics of emotion in audio: what speech, music, and sound have in common. Em Frontiers in psychology 4, 292, 2013.

[13] AYADI, M., KAMEL, M. e KARRAY, F., Survey on speech emotion recognition:

Features, classification schemes, and databases. Em Pattern Recognition vol. 44(3), p´ ags. 572-587, 2011.

[14] ZHOU, G., HAZEN, J. e KAISER, J., Nonlinear feature based classification of speech under stress. Em IEEE Transaction on Speech and Audio Processing vol. 9, p´ ags.

201-216, 2001.

(48)

[15] GOBL, C. e CHASAID, A., The role of voiced quality in communicating emotion, mood and attitude. Em Speech Commun vol. 40, p´ ags. 189-212, 2003.

[16] TYAGI, V. e WELLEKENS, C., On desensitizing the Mel-Cepstrum to spurious spec- tral components for Robust Speech Recognition, in Acoustics, Speech, and Signal Pro- cessing. Em IEEE International Conference on Proceedings vol. 1, p´ ags. 529-532, 2005.

[17] KAISER, J. On Teagers energy algorithm and its generalization to continuous signals.

Em 4th IEEE digital signal processing workshop, 1990.

[18] MERMELSTEIN, P. e STEVEN, D. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. Em IEEE Transac- tions on Acoustics, Speech and Signal Processing, vol. 28(4), p´ ags. 357-366, 1980.

[19] TEAGER, H. Some observations on oral air flow during phonation. Em IEEE Trans- actions on Speech and Signal Processing, vol. 28(5), p´ ags. 599-601, 1980.

[20] SANT’ANA, R., COELHO, R. e ALCAIM, A., Text-independent speaker recognition based on the hurst parameter and the multidimensional fractional brownian motion model. Em IEEE Transactions on Speech and Signal Processing, vol. 14, p´ ags. 931-940, 2006.

[21] QUATIERI, T. Discrete-Time speech signal processing. Upper Saddle River, NJ, USA:

Prentice-Hall, 2001.

[22] Z ˜ AO, L., COELHO, R. e CAVALCANTE, D., Time-Frequency Feature and AMS-

GMM Mask for Acoustic Emotion Classification. Em IEEE Signal Processing Letters,

vol. 21(5), 2014.