Felipe Leonel Grijalva Arévalo. Redução de Dimensionalidade usando Isomap aplicada ao Áudio Espacial

(1)

Felipe Leonel Grijalva Ar´

evalo

Redu¸

c˜

ao de Dimensionalidade usando Isomap aplicada

ao ´

Audio Espacial

Campinas 2014

(2)

Universidade Estadual de Campinas

Faculdade de Engenharia El´

etrica e de Computa¸c˜

ao

Felipe Leonel Grijalva Ar´

evalo

Redu¸c˜ao de Dimensionalidade usando Isomap aplicada ao ´Audio Espacial

Disserta¸cão de mestrado apresentada à Faculdade de Engenharia Elétrica e de Computa¸cão como parte dos requisitos exigidos para a obten¸cão do t´ıtulo de Mestre em Engenharia Elétrica. Área de concentra¸cão: Engenharia de Computa¸cão.

Orientador: Luiz C´esar Martini

Co-Orientador: Siome Klein Goldenstein

Este exemplar corresponde à versão final da disserta¸cão defendida pelo aluno, e orientada pelo Prof. Dr. Luiz César Martini

Campinas 2014

(3)

(4)

A mi esposa e hija por su invaluable compa˜n´ıa, amor y comprensi´on en este ambicioso proyecto que es la vida.

(5)

Agradecimentos

A Deus, o arquiteto da vida.

A minha esposa e filha, pelo amor incondicional, vocˆes s˜ao a minha for¸ca. Aos meus pais, pela apoio durante esta jornada.

Ao professor Luiz Martini, pela oportunidade de trabalhar como seu orientando e pelos conheci-mentos transmitidos ao longo deste tempo.

Ao professor Siome Goldenstein (IC/Unicamp), pelas ótimas recomenda¸cões feitas e discussões frut´ıferas.

Ao Dinei Florencio (Microsoft Research), pela parceria, sugest˜oes e contribui¸c˜oes feitas.

Aos meus colegas mais próximos: Vanessa, Laurindo, Douglas e Augusto, pela convivência e a troca de experiências.

Ao professor Julio Larco, pela amizade e ideias para melhorar este trabalho. Aos meus amigos e demais colegas da FEEC.

`

A Capes pelo apoio financeiro.

A Iece/Senescyt pelo apoio financeiro.

Aos membros da banca examinadora, pelos comentários, sugestões e contribui¸cões, que ajudaram a melhorar a qualidade deste manuscrito.

`

A Funda¸cão de Amparo à Pesquisa do Estado de São Paulo (FAPESP) pelo apoio financeiro concedido através do processo no _{2013/21349-1.}

(6)

Resumo

Conforme as aplica¸cões de realidade aumentada tornam-se mais relevantes, há um crescente esfor¸co na pesquisa do áudio espacial. O termo áudio espacial refere-se ao conjunto de técnicas onde a anatomia de uma pessoa (i.e. o pavilhão da orelha, a cabe¸ca e o torso) é modelada por meio de filtros digitais. Ao filtrar uma fonte de áudio através desses filtros, o ouvinte é capaz de perceber um som como se ele fosse reproduzido em um local espec´ıfico no espa¸co. No dom´ınio da frequência, esses filtros são conhecidos como Fun¸cões de Transferência Relacionadas à Cabe¸ca (Head-Related Transfer Functions, HRTF).

Nesta disserta¸cão, estabelecem-se os princ´ıpios básicos do áudio espacial, for-necendo uma analise das caracter´ısticas espectrais das HRTFs. Além disso, como essas caracter´ısticas espectrais diferem de uma pessoa para outra, propõe-se um novo método baseado em antropometria para personalizar HRTFs no plano horizontal. O método usa o Isomap, redes neurais artificias e um procedimento de reconstru-¸

cão baseado na vizinhan¸ca. Assim, modificou-se a constru¸cão do grafo do Isomap para ressaltar a individualidade das HRTFs e efetuar uma redu¸cão de dimensionali-dade não linear das HRTFs. Em seguida, utilizou-se uma rede neural artificial para modelar as rela¸cões não lineares entre as caracter´ısticas antropométricas e as HRTFs de baixa dimensionalidade. E finalmente, usou-se uma abordagem de reconstru¸cão com base na vizinhan¸ca para reconstruir a HRTF a partir do seu equivalente de baixa dimensionalidade. As simula¸cões mostram que a abordagem proposta tem um desempenho melhor do que o PCA (Principal Component Analysis, Analise de Componentes Principais) e confirmam que o Isomap é capaz de descobrir as rela¸cões não lineares subjacentes da percep¸cão auditiva.

Palavras-chave: ´Audio 3D, ´Audio espacial, HRTF, Variedade, Isomap, Realidade Aumentada

(7)

Abstract

As auditory augmented reality applications become more important, there is in-creasing effort in spatial audio research. The term spatial audio refers to techniques where a person’s anatomy (i.e. the pinnae, head and torso) is modeled as digital filters. By filtering a sound source with these filters, a listener is capable of perceiving a sound as though it were reproduced at a specific spatial location. In the frequency domain, these filters are known as Head-Related Transfer Functions (HRTFs). This dissertation states the basic principles of spatial audio and provides an analysis of the spectral characteristics of HRTFs. Moreover, since these spectral fea-tures differ among individuals, we introduce a new anthropometric-based method for customizing of HRTFs in the horizontal plane. The method uses Isomap, artificial neural networks (ANN), and a neighborhood-based reconstruction procedure. We first modify Isomap’s graph construction step to emphasize the individuality of HRTFs and perform a customized nonlinear dimensionality reduction of the HTRFs. We then use an ANN to model the nonlinear relationship between anthropometric features and our low-dimensional HRTFs. Finally, we use a neighborhood-based reconstruction approach to reconstruct the HRTF from the estimated low-dimensional version. Simulations show that our approach performs better than PCA (Princi-pal Component Analysis) and confirm that Isomap is capable of discovering the underlying nonlinear relationships of sound perception.

Keywords: 3D sound, Spatial audio, HRTF, Manifold, Isomap, Auditory Augmented Reality, Virtual Auditory Display

(8)

Lista de Figuras

1.1 Planos de referˆencia. . . 5 1.2 Sistema de Coordenadas Esf´erico. . . 5 1.3 Sistema de Coordenadas Polares Interaural. . . 6 1.4 a) Ao manter constante o azimute no sistema de coordenadas polares interaural,

forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD são idênticos. Esse cone é conhecido como cone da confusão. . . 8 1.5 Erro de localiza¸cão no plano horizontal obtida a partir dos experimentos realizados

em condi¸cões anecoicas (i.e sem reverbera¸cão) em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de áudio 100 ms de ruido branco. As setas representam a dire¸cão da fonte sonora, os c´ırculos a posi¸cão média das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3]. . . 11 1.6 Erro de localiza¸cão no plano mediano obtida a partir dos experimentos realizados

por Damaske et al. [4] em sete indiv´ıduos com um sinal de fala como est´ımulo de entrada. As setas representam a dire¸cão da fonte sonora, os c´ırculos a posi¸cão média das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3]. . . 11 1.7 Rela¸cão entre r0 e r para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0). Figura adaptada

dos experimentos de Zahorik [5]. . . 12 2.1 Esquema geral para a medi¸c˜ao de HRTFs. . . 16 2.2 HRIRs do KEMAR da base de dados CIPIC para Θ = 80◦, Φ = 0◦. ITD calculada

a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) de um par de HRTFs. 20 2.3 Resposta em magnitude das HRTFs do KEMAR na base de dados CIPIC para

v´arios azimutes no plano horizontal. . . 22 2.4 Resposta em magnitude das HRTFs nos azimutes 0◦ (i.e frente) e 180◦ (i.e tr´as) no

plano horizontal. As diferen¸cas em altas frequências permitem resolver confusões frente-trás. . . 23 2.5 Resposta em magnitude de várias HRTFs no plano mediano (i.e. θ = 0). O

primeiro notch para cada eleva¸c˜ao foi ressaltado. . . 23

(9)

2.6 Representa¸cão em duas dimensões da resposta em magnitude das HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo. Cada linha representa uma HRTF e a intensidade o valor em dB da resposta em magnitude. O primeiro notch para cada eleva¸cão foi ressaltado em vermelho. . . 24 3.1 Diagrama de blocos da abordagem proposta para personalizar HRTFs no plano

horizontal. . . 29 3.2 Exemplo da primeira regra para construir o grafo do Isomap. Os v´ertices

simboli-zam HRTFs de alta dimensionalidade de P = 3 indiv´ıduos. Cada cor representa um indiv´ıduo diferente, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas ´e igual a 0.01 · dX(xi, xj) e que cada v´ertice

conecta-se a P − 1 = 2 vizinhos. . . 31 3.3 Exemplo da segunda regra para construir o grafo do Isomap. Os v´ertices

simboli-zam HRTFs de alta dimensionalidade de três indiv´ıduos. Cada cor representa um indiv´ıduo diferente, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas é igual a 0.01 · dX(xi, xj) e que cada vértice

conecta-se a P = 3 vizinhos. . . 31 3.4 Exemplo da terceira regra para construir o grafo do Isomap. Os v´ertices simbolizam

HRTFs de alta dimensionalidade de um mesmo indiv´ıduo, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas ´e igual a dX(xi, xj) e que cada v´ertice conecta-se a 2 vizinhos. . . 32

3.5 Estimativa de Dimensionalidade Intr´ınseca. Usando um limiar de 0.025, a dimen-sionalidade intr´ınseca foi escolhida como sendo d=4. . . 33 3.6 Variedade calculada pelo Isomap para K = 61 vizinhos a) Variedade de uma

dimensão em fun¸cão do azimute b) Variedade em duas dimensões c) Variedade em três dimensões. . . 34 3.7 Variabilidade dentro dos agrupamentos causada pela diferen¸cas antropométricas

entre indiv´ıduos. Pontos vermelhos e azuis representam HRTFs de azimutes simétricos dos ouvidos esquerdo e direito, respectivamente. . . 35 3.8 Rede Neural Artificial com fun¸cão de ativa¸cão sigmoide na camada oculta e

fun¸cão de ativa¸cão linear na camada de sa´ıda para predizer HRTFs de baixa dimensionalidade. . . 35 3.9 Medi¸cões antropométricas selecionados de acordo com [6]. Figura adaptada de [7]. 38 3.10 Distor¸cão espectral média em fun¸cão do azimute. . . 39 3.11 Distor¸cão espectral. . . 39

(10)

Lista de Tabelas

3.1 Intervalo de confian¸ca (±2σ, 95%) da distor¸cão espectral média para vários azimutes. 37

(11)

Lista de Acrˆ

onimos

ANN Artificial Neural Network. Rede Neural Artificial.

BRIR Binaural Room Impulse Response. Resposta ao Impulso da Sala Binaural. FFT Fast Fourier Transform.

Transforma R´apida de Fourier. IID Interaural Intensity Difference.

Diferen¸ca de Intensidade Interaural. Isomap Isometric Feature Mapping.

Mapeamento de Caracter´ısticas Isom´etricas. ITD Interaural Time Difference.

Diferen¸ca de Tempo Interaural. HpTF Headphone Transfer Function.

Resposta em Frequˆencia dos Fones de Ouvido. HRIR Head-Related Impulse Response.

Resposta ao Impulso Relacionadas `a Cabe¸ca. HRTF Head-Related Transfer Function.

Fun¸cões de Transferência Relacionadas à Cabe¸ca. KEMAR Knowles Electronics Manikin For Acoustics Research.

Manequim Knowles Electronics para Pesquisa em Ac´ustica. LLE Locally Linear Embedding.

Embedding Localmente Linear. PCA Principal Component Analysis.

An´alise de Componentes Principais.

(12)

Lista de S´ımbolos

(r, θ, φ) raio r, azimute θ e eleva¸c˜ao φ de um ponto no sistema esf´erico de coordenadas.

(r, Θ, Φ) raio r, azimute Θ e eleva¸c˜ao Φ de um ponto em coordenadas polares interaural.

a raio da cabe¸ca no modelo de Woodworth [8]. c velocidade do som (343 m/s).

r utilizada de forma geral para representar uma distˆancia.

k, α constantes do modelo de percep¸c˜ao de distˆancia definido por Zahorik [5]. HL, HR HRTF para o ouvido esquerdo e direito respectivamente.

hL, hR HRIR para ouvido esquerdo e direto respectivamente.

PL, PR press˜ao sonora no dom´ınio da frequˆencia

no ouvido esquerdo e direto respectivamente. P0 press˜ao sonora no dom´ınio da frequˆencia

no centro da cabe¸ca com a cabe¸ca ausente.

ΦLR(τ ) a correla¸c˜ao cruzada das HRIRs esquerda e direita.

tL, tR tempo m´edio da HRIR esquerda e direita respectivamente.

tL,η, tR,η tempo de in´ıcio da HRIR esquerda e direita respectivamente.

Hmin HRTF de fase m´ınima.

T (θ, φ) Tempo de propaga¸cão das ondas sonoras desde a fonte até o ouvido. ψ Fase de uma fun¸cão de transferência.

ψall Fase de uma fun¸c˜ao de transferˆencia passa tudo.

ψmin Fase m´ınima de uma fun¸c˜ao de transferˆencia.

N N´umero de amostras ou observa¸c˜oes.

D Número de dimensões das amostras de alta dimensionalidade. d Número de dimensões das amostras de baixa dimensionalidade.

(13)

X Matriz do conjunto de dados de alta dimensionalidade de tamanho D × N . Y Matriz do conjunto de dados de baixa dimensionalidade de tamanho d × N . xi Vetor de tamanho D × 1 que representa uma amostra

ou observa¸c˜ao de alta dimensionalidade.

yi Vetor de tamanho d × 1 que representa uma amostra

ou observa¸c˜ao de baixa dimensionalidade. G(V, E) Grafo de um conjunto de v´ertices ∈ V

conectados por um conjunto de arestas ∈ E. vi ∈ V Um v´ertice do grafo G.

dX(xi, xj) Distˆancia euclidiana entre dois vetores.

K N´umero de vizinhos no Isomap.

DG A matriz de distˆancias geod´esicas entre todas as amostras na variedade.

δ Fun¸cão delta de Kronecker. λ Autovalor. P Número de indiv´ıduos. M Número de azimutes. sij Fator de escalamento. b H HRTF reconstru´ıda.

s Número de parâmetros antropométricos. SDM Distor¸cão Espectral Média.

(14)

Sum´

ario

Introdu¸c˜ao Geral 1

1 Conceitos B´asicos do ´Audio Espacial 4

1.1 Introdu¸c˜ao . . . 4

1.2 Sistema de coordenadas . . . 4

1.3 Fatores de Percep¸c˜ao de dire¸c˜ao . . . 6

1.3.1 Fatores binaurais . . . 6

1.3.2 Fatores dinˆamicos . . . 7

1.3.3 Fatores espectrais . . . 8

1.4 Fatores de Percep¸c˜ao de distˆancia . . . 9

1.5 Fatores cognitivos . . . 10

1.6 Precisão na localiza¸cão de fontes de áudio . . . 10

1.7 Reverbera¸c˜ao . . . 12

1.8 Modos de reprodu¸c˜ao . . . 13

1.8.1 Reprodu¸c˜ao atrav´es de fones de ouvido . . . 13

1.8.2 Reprodu¸c˜ao atrav´es de alto-falantes . . . 14

2 Fun¸cões de Transferência Relacionadas à Cabe¸ca 15 2.1 Introdu¸cão . . . 15

2.2 Defini¸c˜ao . . . 15

2.3 Medi¸c˜ao de HRTF . . . 16

2.3.1 Bases de dados de HRTFs . . . 18

2.4 Caracter´ısticas no dom´ınio do tempo das HRTFs . . . 19

2.5 Caracter´ısticas em frequˆencia das HRTFs . . . 21

2.5.1 Caracter´ısticas em frequˆencia causados pelo pavilh˜ao da orelha . . . 21

2.5.2 Caracter´ısticas de fase m´ınima das HRTFs . . . 24

3 Personaliza¸c˜ao de HRTFs usando Isomap no plano horizontal 26 3.1 Introdu¸c˜ao . . . 26

3.2 Trabalhos anteriores . . . 27

3.3 Personaliza¸c˜ao de HRTFs . . . 28

(15)

Introdu¸c˜ao Geral xv

3.3.1 Redu¸c˜ao de dimensionalidade usando o Isomap . . . 28

3.3.2 Regress˜ao usando uma Rede Neural Artificial . . . 33

3.3.3 Reconstru¸c˜ao baseada na vizinhan¸ca . . . 33

3.4 Simula¸c˜oes . . . 34

3.4.1 Resultados . . . 37

4 Conclus˜oes e Perspectivas 40 4.1 Perspectivas . . . 41

(16)

Introdu¸c˜

ao Geral

O objetivo do áudio espacial ou áudio 3D é simular uma fonte de áudio em posi¸cões espaciais arbitrárias. Assim, o ouvinte é capaz de perceber essas fontes sonoras como se fossem reproduzidas em um local espec´ıfico no espa¸co.

Os sistemas de áudio espacial estão sendo usados numa ampla gama de aplica¸cões com requerimentos diferentes. O tipo de sistema de áudio 3D escolhido para determinada aplica¸cão depende de fatores como o realismo desejado, a precisão requerida, os custos e a facilidade de uso.

Por exemplo, se o sistema de áudio espacial for aplicado na pesquisa dos fatores que deter-minam a nossa percep¸cão auditiva, é necessário que esse sistema permita manipular com alta precisão o áudio que atinge os dois ouvidos. Para este tipo de aplica¸cões, o custo e facilidade de uso não são cr´ıticos.

Por outro lado, os sistemas de áudio espacial tem que ser relativamente baratos e fáceis de usar quando forem usados para testar a percep¸cão auditiva em pessoas com deficiências auditivas. Neste caso, a precisão do sistema do áudio 3D não é cr´ıtica.

Já em aplica¸cões de controle, informa¸cão espacial complexa deve ser apresentada a um operador humano. Por exemplo, a informa¸cão apresentada aos controladores de tráfego aéreo [9] ou operadores de equipamento remoto. Nestas aplica¸cões, o mais importante é a quantidade de informa¸cão fornecida, sendo em geral menos cr´ıtico o realismo, o custo e a precisão.

Uma das maiores aplica¸cões de sistemas de áudio 3D é na indústria do entretenimento (e.g. cinema, videojogos) onde hoje é comum encontrar os chamados de cinema em casa (home theaters) que utilizam vários alto-falantes para fornecer a sensa¸cão de fontes de áudio em movimento em torno do ouvinte. Neste tipo de aplica¸cões, a precisão não é tão importante quanto o realismo e facilidade de uso.

Finalmente, os sistemas de áudio 3D também estão sendo usados em aplica¸cões para pessoas com deficiência visual. De fato, diversos trabalhos têm confirmado a utilidade do áudio virtual como interface de usuário para o deficiente visual. Por exemplo, vários estudos concluem que o desempenho do usuário em atividades como a navega¸cão melhora ao utilizar áudio espacial como interface de usuário [10, 11, 12, 13]. Além disso, várias pesquisas tem proposto utilizar áudio espa-cial como interface de usuário para o deficiente visual utilizar navegadores web [14, 15]. Inclusive, têm sido constru´ıdos vários protótipos de sistemas de substitui¸cão sensorial e realidade aumentada visando o deficiente visual que utilizam áudio espacial como interface [16, 17, 18, 19, 20].

(17)

´

E precisamente neste último tipo de aplica¸cão que o projeto “Visão para o Cego: Traduzindo Conceitos Visuais 3D em Informa¸cões de 3D de Áudio” (Convênio Microsoft-Fapesp, processo 2012/50468-6) está atualmente pesquisando. O objetivo deste projeto, do qual esta disserta¸cão faz parte, é a constru¸cão e avalia¸cão de um protótipo para aux´ılio do deficiente visual baseado na tradu¸cão de informa¸cões visuais 3D em informa¸cões sonoras 3D. Neste projeto utiliza-se visão computacional para extrair informa¸cões de alto n´ıvel e áudio 3D para representar essa informa¸cão com no¸cão espacial. Especificamente, após a identifica¸cão de um objeto, o dispositivo reproduzirá um som para esse objeto no seu local espacial espec´ıfico. Por exemplo, depois que o dispositivo identifique uma pessoa, o usuário ouvirá seu nome como se o som se originasse no local exato onde a pessoa está. O Hardware deste sistema utiliza o sensor Microsoft Kinect [21] para coletar imagens coloridas e dados de profundidade, um giroscópio para determinar a orienta¸cão da cabe¸ca, fones de ouvido de condu¸cão óssea para fornecer informa¸cão sonora ao usuário sem bloquear o som ambiente, e um microcomputador portátil para processar os algoritmos. O software fornecerá vários modos de opera¸cão para providenciar fun¸cões especializadas como navega¸cão, localiza¸cão de pessoas e reconhecimento de objetos. Este sistema apresenta uma série de desafios técnicos e cient´ıficos, que incluem desenvolvimento e integra¸cão de algoritmos de visão computacional assim como o projeto e avalia¸cão de interfaces auditivas. É especificamente neste último ponto que a presente disserta¸cão pretende fornecer a base teórica do áudio espacial. Esta disserta¸cão está vinculada ao projeto descrito através de uma bolsa Fapesp com número de processo 2013/21349-1.

Motiva¸

c˜

ao

Os elementos principais na gera¸cão do áudio espacial são conhecidos como Fun¸cões de Transferência Relacionadas à Cabe¸ca (Head-Related Transfer Functions, HRTF). As HRTFs dependem da anatomia do indiv´ıduo pelo que devem ser medidas para cada pessoa. No entanto, a medi¸cão de HRTFs, além de precisar de um equipamento especializado e custoso, é uma tarefa complexa e não escalável. Já o uso de HRTFs não individualizadas causa uma diminui¸cão na precisão da localiza¸cão de fontes sonoras. Portanto, é necessário personalizar as HRTFs para garantir áudio 3D de alta qualidade.

Como as HRTFs estão estreitamente relacionadas com determinados parâmetros antropo-métricos, elas podem ser personalizadas a partir de medidas antropométricas. Esses métodos são chamados de métodos de regressão antropométrica porque predizem as HRTFs de um novo indiv´ıduo a partir de um modelo matemático. É comum que alguma técnica de redu¸cão de dimensionalidade seja aplicada às HRTFs antes da personaliza¸cão.

Nesse intuito, esta disserta¸cão propôs-se estudar o método de redu¸cão de dimensionalidade não linear Isomap na análise e s´ıntese de áudio espacial a fim de determinar se ele é capaz de descobrir as rela¸cões não lineares subjacentes da percep¸cão auditiva. Especificamente, este trabalho visou estudar os conceitos básicos do áudio espacial a fim de conhecer seu potencial e suas limita¸cões. Além disso, buscou analisar as caracter´ısticas das HRTFs mais relevantes na localiza¸cão de fontes sonoras. O objetivo principal da presente disserta¸cão foi, portanto, utilizar

(18)

o conhecimento adquirido do áudio 3D para introduzir uma nova técnica de personaliza¸cão de HRTFs baseado em antropometria usando Isomap.

Finalmente, esta disserta¸cão, no contexto do projeto “Visão para o Cego: Traduzindo Conceitos Visuais 3D em Informa¸cões de 3D de Áudio” acima descrito, pretende ser usada como ponto de partida para investiga¸cões e desenvolvimento de interfaces auditivas.

Organiza¸

c˜

ao da disserta¸

c˜

ao

O Cap´ıtulo 1 deste trabalho, além de introduzir os conceitos básicos do áudio espacial e a percep¸cão auditiva, inclui também uma breve descri¸cão da reverbera¸cão e os métodos de reprodu¸cão de áudio 3D. O Cap´ıtulo 2 apresenta as caracter´ısticas das HRTFs e sua rela¸cão com a localiza¸cão de fontes sonoras. O Cap´ıtulo 3 propõe uma nova técnica para personaliza¸cão das HRTFs baseado em antropometria usando Isomap. Ao final, este trabalho é conclu´ıdo com uma análise dos resultados e recomenda¸cões para futuras pesquisas.

(19)

Cap´ıtulo

1

Conceitos B´

asicos do ´

Audio Espacial

1.1 Introdu¸

c˜

ao

O áudio espacial, chamado também de áudio binaural, áudio virtual ou ainda áudio 3D, refere-se ao conjunto de técnicas que modelam as caracter´ısticas anatômicas de uma pessoa (e.g. cabe¸ca, torso e ouvido externo) usando filtros digitais. Se filtrarmos uma fonte de áudio digital através desses filtros, é poss´ıvel gerar sons virtuais que parecem originar-se em locais espaciais espec´ıficos [22]. Assim, o objetivo principal dos sistemas de áudio 3D é controlar e manipular a percep¸cão de áudio espacial de uma pessoa dentro de um processo conhecido como manipula¸cão espacial. É importante ressaltar que a gera¸cão de áudio 3D envolve tanto parâmetros técnicos de engenharia quanto considera¸cões psicoacústicas.

Neste capitulo descreveremos os conceitos básicos da percep¸cão auditiva, cujo estudo é convenientemente dividido em duas partes: o estudo da percep¸cão de dire¸cão e o estudo da percep¸cão de distância [23]. Come¸caremos apresentando os sistemas de coordenadas esférico e interaural na Se¸cão 1.2. Na Se¸cão 1.3 estudaremos os fatores que contribuem na percep¸cão espacial da dire¸cão. Embora o foco deste trabalho seja a percep¸cão da dire¸cão, na Se¸cão 1.4 falaremos rapidamente dos fatores que intervêm na percep¸cão espacial da distância. Além dos fatores de percep¸cão de dire¸cão e distância, na Se¸cão 1.5 estudaremos os fatores cognitivos. Na Se¸cão 1.6 analisaremos os principais resultados experimentais existentes na literatura sobre a precisão do sistema auditivo na percep¸cão tanto da dire¸cão quanto da distância. Falaremos brevemente sobre a reverbera¸cão e o efeito de precedência na Se¸cão 1.7. Finalmente, na Se¸cão 1.8 estudaremos os dois modos de reprodu¸cão de som virtual: fones de ouvido e alto-falantes.

1.2 Sistema de coordenadas

No estudo do áudio espacial, a posi¸cão de uma fonte de áudio é especificada pela sua dire¸cão e distância em rela¸cão à cabe¸ca do ouvinte.

Antes de descrever os sistemas de coordenadas mais utilizados na analise do áudio espacial, é importante definir alguns planos de referência que utilizaremos ao longo desta disserta¸cão.

A Figura 1.1 mostra os seguintes planos: 4

(20)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 5 x y z PLANO HORIZONTAL PLANO MEDIANO PLANO FRONTAL

Figura 1.1: Planos de referˆencia.

r ɸ ɵ x z y Frente Direita Acima Fonte Sonora

Figura 1.2: Sistema de Coordenadas Esf´erico.

• Plano mediano ou sagital: plano y-z • Plano frontal: plano x-z

• Plano horizontal ou transversal: plano x-y

O segmento de reta que liga as duas orelhas é chamado de eixo interaural. O ponto médio do eixo interaural é escolhido como a origem do sistema de coordenadas. O ouvido mais próximo da fonte de áudio é denominado de ouvido ipsilateral e o ouvido mais distante é chamado de ouvido contralateral.

Existem dois sistemas de coordenadas comumente utilizados na literatura: O sistema esf´erico de coordenadas e o sistema de coordenadas polares interaural.

A Figura 1.2 mostra o sistema esférico de coordenadas. A posi¸cão da fonte de áudio é definida por (r, θ, φ) onde a distância desde a origem é representada por 0 ≤ r ≤ +∞. O ângulo entre o vetor da fonte de áudio e o plano horizontal é representado pela eleva¸cão −90◦ ≤ φ ≤ +90◦_,

(21)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 6 Frente Direita Acima Θ Φ x y z r Fonte Sonora

Figura 1.3: Sistema de Coordenadas Polares Interaural.

plano horizontal; O ângulo no sentido horário entre a proje¸cão horizontal do vetor da fonte de ´

audio e o eixo y ´e denotado pelo azimute 0◦ ≤ θ < 360◦_{, onde 0}◦_{, 90}◦_{, 180}◦_{, 270}◦ _representam

posi¸cões na frente, direita, atrás e esquerda respectivamente no plano horizontal. O azimute θ também pode variar no intervalo −180◦ < θ ≤ +180◦, onde 0◦, 90◦, 180◦, −90◦ representam posi¸cões na frente, direita, atrás e esquerda respectivamente no plano horizontal.

A Figura 1.3 mostra o sistema de coordenadas polares interaural. A posi¸cão da fonte de áudio é definida por (r, Θ, Φ) onde a distância desde a origem é representada por 0 ≤ r ≤ +∞. O azimute é o ângulo entre o vetor da fonte do áudio e o plano mediano e varia entre −90◦ até +90◦. A eleva¸cão é o ângulo entre o plano horizontal e a proje¸cão do vetor da fonte de áudio no

plano mediano, e varia entre −90◦ at´e +270◦. Nesse sistema, as coordenadas

(Θ, Φ) = (0◦, 0◦) , (0◦, 90◦) , (0◦, 180◦) , (0◦, 270◦) , (90◦, 0◦) , (−90◦, 0◦)

correspondem a um ponto diretamente na frente, acima, tr´as, abaixo, direita e esquerda respecti-vamente.

Salvo disposi¸cão em contrário, o sistema esférico é adotado como padrão neste trabalho. Note que as variáveis no sistema esférico estão representadas por letras minúsculas enquanto aquelas do sistema interaural estão representadas por maiúsculas.

1.3 Fatores de Percep¸

c˜

ao de dire¸

c˜

ao

Os fatores que determinam a percep¸cão de dire¸cão podem ser classificados em três categorias: binaurais, espectrais e dinâmicos.

1.3.1 Fatores binaurais

Os fatores mais importantes para determinar a posi¸cão de uma fonte de áudio no plano horizontal são chamados de fatores binaurais. Eles envolvem as diferen¸cas relativas das ondas

(22)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 7

que atingem ambas as orelhas. Essas diferen¸cas foram descritas por Lord Rayleigh em 1907 na teoria d´uplex da localiza¸c˜ao [24] como sendo a diferen¸ca de tempo interaural (Interaural Time Difference, ITD) e a diferen¸ca de intensidade interaural (Interaural Intensity Difference, IID).

A Diferen¸ca de Tempo Interaural (ITD) refere-se à diferen¸ca de tempo de chegada entre as ondas sonoras nas orelhas esquerda e direita. A ITD depende tanto da frequência quanto da dire¸cão [25]. No entanto, se modelarmos a cabe¸ca como uma esfera de raio a (modelo de Woodworth [8]), a ITD independe da frequência e é definida por

IT D (θ, φ) = a

c(arcsin (cos (φ) sin (θ)) + cos (φ) sin (θ)) , (1.1) onde c representa a velocidade do som (343 m/s).

A ITD é a principal caracter´ıstica para localiza¸cão em frequências abaixo de 1500 Hz pois, nessa faixa as dimensões da cabe¸ca são menores do que o comprimento de onda das ondas sonoras. Assim, o sistema auditivo é capaz de detectar diferen¸cas de atraso de fase sem confusão. Dependendo do tipo de est´ımulo, o ouvido humano pode diferenciar ITDs entre 0.005 e 1.5 ms [26]. Já em altas frequências, a partir de 1.5 KHz , a ITD se torna amb´ıgua porque a percep¸cão de posi¸cão lateral não é mais proporcional à diferen¸ca de fase percebida. Mesmo assim, a ITD em altas frequências é considerada como uma caracter´ıstica de importância secundaria já que o sistema auditivo é capaz de extrair as diferen¸cas de atraso interaural dos envelopes das ondas sonoras em ambientes reverberantes [27].

Quando uma fonte de áudio se afasta do plano mediano, a pressão sonora no ouvido mais distante (contralateral em rela¸cão à fonte de áudio) é atenuada devido à cabe¸ca. Esse fenômeno produz uma diferen¸ca de pressão sonora entre ambos os ouvidos, chamada de diferen¸ca de intensidade interaural (IID), que é especialmente notável em frequências a partir de 1.5 kHz quando o comprimento de onda torna-se menor do que o diâmetro da cabe¸ca. A IID atinge valores entre 10 e 35 dB para frequências de 3 a 10 kHz respectivamente o que permite detectar a posi¸cão da fonte de áudio em frequências nas quais a IID é amb´ıgua. [28, 29].

1.3.2 Fatores dinˆ

amicos

Os fatores binaurais até aqui descritos para localizar a posi¸cão horizontal (IID e ITD) do som podem se tornar amb´ıguos pois, teoricamente, é poss´ıvel criar IID e ITD idênticas para posi¸cões diferentes de uma fonte de áudio. De fato, valores iguais de ITD e IID podem existir para uma fonte de áudio numa superf´ıcie cônica. Na Figura 1.4, observe que, ao manter constante o azimute no sistema de coordenadas polares interaural (veja Se¸cão 1.2), forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD são teoricamente idênticos [22]. Essa afirma¸cão é teórica já que com uma pessoa real, as ITD e IID nunca poderiam ser idênticas [22]. Mesmo assim, quando as ITD e IID são muito próximas para dois locais diferentes, pode existir ambiguidades.

O cone acima mencionado é chamado de cone da confusão porque produz reversões frente-trás ou reversões acima-abaixo [22]. As reversões frente-trás referem-se à impressão de que um som projetado numa posi¸cão à frente ou atrás do indiv´ıduo esteja atrás ou à frente do mesmo, respectivamente. O mesmo conceito aplica-se para as reversões acima-abaixo. Uma das formas

(23)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 8 Θ Frente Direita Acima Φ Cone de azimute constante Fonte de áudio

numa superfície cônica

Plano Me diano

Figura 1.4: a) Ao manter constante o azimute no sistema de coordenadas polares interaural, forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD são idênticos. Esse cone é conhecido como cone da confusão.

de minimizar essa ambiguidade é utilizar caracter´ısticas dinâmicas como a movimenta¸cão da cabe¸ca. Muitos estudos tem mostrado a eficácia da movimenta¸cão da cabe¸ca para diminuir o número de reversões frente-trás ou acima-abaixo [30, 31].

1.3.3 Fatores espectrais

Os fatores espectrais ou monoaurais baseiam-se na modelagem de caracter´ısticas anatˆ o-micas como o pavilhão da orelha (i.e a pina), a cabe¸ca e o torso, sendo a pina a mais importante sobretudo em frequências a partir de 3 kHz quando o tamanho da pina é comparável com o comprimento de onda da fonte [32].

Tanto os fatores binaurais quanto os monoaurais são caracter´ısticas únicas da anatomia de cada pessoa. Essas diferen¸cas anatômicas são refletidas nas Fun¸cões de Transferência Relacionadas à Cabe¸ca (Head Related Transfer Function, HRTF). Uma HRTF é uma fun¸cão de transferência entre a fonte de áudio e o ponto de entrada do conduto auditivo. Um par dessas fun¸cões, uma para o ouvido esquerdo e outra para o direito, representa de maneira única a posi¸cão de uma fonte de áudio no espa¸co [33]. Essas fun¸cões são, em geral, não transfe-r´ıveis entre indiv´ıduos, tornando normal um aumento na taxa de erro de localiza¸cão quando a HRTF não for personalizada [34]. No Cap´ıtulo 2, falaremos sobre as HRTFs com mais detalhes.

(24)

1.4 Fatores de Percep¸

c˜

ao de distˆ

ancia

A percep¸c˜ao de distˆancia integra os seguintes fatores:

Intensidade: Quando a distância entre o ouvinte e a fonte sonora aumenta, o n´ıvel de intensidade sonora diminui. Para uma fonte em espa¸co livre, a perda de intensidade é inversamente proporcional ao quadrado da distância. O n´ıvel de perda em dB [35] quando uma fonte de ´

audio passa de uma distˆancia r1 a uma distˆancia r2 define-se como

perda(dB) = 20log10(

r2

r1

). (1.2)

Assim, uma fonte sonora atenua-se 6 dB com o dobro da distância em espa¸co livre (i.e lei do inverso do quadrado da distância). Note que essa lei não é aplicável para distâncias dentro do campo próximo (i.e distâncias menores do que 1 metro) porque a presen¸ca da cabe¸ca afeta o n´ıvel de intensidade [3].

Do ponto de vista psicoacústico, a intensidade é considerado um fator de percep¸cão rela-tivo já que a intensidade também pode mudar se alterarmos a potência acústica da fonte. Para usar a intensidade como um fator de percep¸cão de distância, é necessário ter algum conhecimento prévio das caracter´ısticas da fonte de áudio. Por exemplo, nós conhecemos por experiência as caracter´ısticas associadas a um sussurro ou à fala normal, sem importar a intensidade do som.

Rela¸cão de energia direta-reverberante: em ambientes com superf´ıcies refletoras, a propor¸cão entre a energia que chega ao ouvinte diretamente (sem contato com superf´ıcies refletoras) e a energia que chega ao ouvinte depois de refletir em aquelas superf´ıcies(energia reverberante) diminui a medida que a distância aumenta. Essa propor¸cão é conhecida como rela¸cão de energia direta-reverberante. Estudos realizados por Mershon et al. [23] tem demons-trado que nossa percep¸cão de distância melhora em ambientes reverberantes e que a rela¸cão de energia direta-reverberante é um fator de percep¸cão absoluto, ao contrário da intensidade. Conteúdo espectral: para distâncias a partir de 15 metros , é conhecido que as proprieda-des do ar atenuam mais as altas frequências. Além disso, reflexões em ambientes reverberantes podem também provocar mudan¸cas no espectro [3]. Da mesma forma que a intensidade, para que o conteúdo espectral seja considerado um fator de percep¸cão de distância, é necessário ter algum conhecimento prévio das caracter´ısticas da fonte de áudio [5].

Fatores binaurais: Quando uma fonte encontra-se no campo próximo, os fatores binaurais (i.e. IID e ITD) tornam-se dependentes da distância e modificam o espectro caracterizado pelas HRTFs [36]. Um estudo realizado por Shinn-Cunningham [37] põe em evidência a dependência entre os fatores binaurais e a distância no campo próximo.

(25)

1.5 Fatores cognitivos

Al´em dos fatores descritos acima, fatores cognitivos como a familiaridade com a fonte de ´

audio e informa¸cões visuais contribuem no processo de percep¸cão tanto da dire¸cão quanto da distância.

A familiaridade refere-se ao conhecimento prévio do tipo da fonte de áudio. Se uma fonte é associada com uma posi¸cão particular após experiências repetidas (e.g a fala), a simula¸cão da posi¸cão é muito mais simples. Por exemplo, é mais fácil simular uma voz sussurrando a 20 cm da orelha do que simular a mesma voz a 6 metros [22]. Da mesma forma, é mais fácil simular o som de um avião acima de nós do que simular o mesmo som embaixo.

Por outro lado, estudos realizados por Recanzone [38] sobre a contribui¸cão das informa¸cões visuais na localiza¸cão de fontes de áudio, descrevem o efeito ventr´ıloquo no qual o ouvido humano escuta um som como se ele se originasse numa fonte sonora no plano visual, embora essa fonte não seja a fonte real. Por exemplo, quando assistimos um filme no cinema, a voz dos autores parece originar-se da sua boca embora o som real origina-se nos alto-falantes.

1.6 Precis˜

ao na localiza¸

c˜

ao de fontes de ´

audio

A precisão na localiza¸cão de fontes de áudio depende da faixa de frequência e da posi¸cão do est´ımulo [3]. Ao longo desta Se¸cão descreveremos os resultados de vários experimentos com humanos que utilizaram sons reais reproduzidos através de alto-falantes para determinar a precisão do ouvido humano na localiza¸cão de fontes sonoras.

Para analisar a precisão no plano horizontal e mediano, Blauert [3] propõe o conceito de localization blur como sendo o erro de localiza¸cão percebida numa zona no espa¸co. A Figura 1.5 mostra o erro de localiza¸cão para quatro dire¸cões ( 0◦, 90◦, 180◦ e 270◦) no plano horizontal calculado por Blauert [3] a partir dos resultados dos experimentos em condi¸cões anecoicas (i.e sem reverbera¸cão) realizados em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de áudio 100 ms de ruido branco. Verifica-se que o menor erro de localiza¸cão é de ±4◦ para a dire¸cão frontal (i.e. azimute 0◦) e o maior está em torno de ±10◦ para posi¸cões laterais. A análise de Blauert [3] mostra também que o erro de localiza¸cão varia segundo o tipo de fonte, mas o m´ınimo encontra-se sempre na dire¸cão frontal (i.e. azimute 0◦) atingindo o menor valor para est´ımulos como clicks (0.75◦) e a fala (1.5◦).

Por outro lado, a precisão no plano mediano é menor do que no plano horizontal. Na Figura 1.6, podemos observar os resultados dos experimentos em condi¸cões anecoicas realizados em sete indiv´ıduos por Damaske et al. [4] no plano mediano com um sinal de fala como est´ımulo de entrada. O menor erro atinge-se em posi¸cões situadas na frente ou em eleva¸cões pequenas onde o erro de localiza¸cão está em torno de ±10◦. O erro aumenta à medida que a eleva¸cão cresce, até atingir valores máximos no hemisfério posterior onde o erro de localiza¸cão é maior do que ±15◦.

(26)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 11 θ=270° θ=180° 180.7° ±5.5° 279.3° 1.0° ±9.2° ±3.6° ±10.0° 78.4° θ=90° θ=0°

Direção da fonte sonora em coordenadas esféricas Direção percebida

Figura 1.5: Erro de localiza¸cão no plano horizontal obtida a partir dos experimentos realizados em condi¸cões anecoicas (i.e sem reverbera¸cão) em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de áudio 100 ms de ruido branco. As setas representam a dire¸cão da fonte sonora, os c´ırculos a posi¸cão média das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3].

Φ=0° Φ=36° Φ=90° Φ=144° Φ=180° 0° ±9° ±10° ±13° ±22° ±15° 30° 74° +112° +153°

Direção da fonte sonora em coordenadas interaurais. Direção percebida.

Figura 1.6: Erro de localiza¸cão no plano mediano obtida a partir dos experimentos realizados por Damaske et al. [4] em sete indiv´ıduos com um sinal de fala como est´ımulo de entrada. As setas representam a dire¸cão da fonte sonora, os c´ırculos a posi¸cão média das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3].

(27)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 12 1 5 10 1 5 10 = 0.32 k = 1.00

Distância da fonte sonora, r (m)

D ist â n ci a Est ima d a , r’ (m)

Figura 1.7: Rela¸c˜ao entre r0 e r para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0). Figura adaptada dos experimentos de Zahorik [5].

A capacidade do ouvido humano para estimar a distância de uma fonte de áudio é geralmente mais limitada do que a habilidade de localizar a dire¸cão da mesma. Experimentos em ambientes reverberantes conduzidos em humanos por Zahorik [5] têm demonstrado que o sistema auditivo tende a subestimar distâncias de fontes sonoras cuja posi¸cão real encontra-se acima de aproxima-damente 1.6 m, e a sobrestimar distâncias de fontes sonoras cuja posi¸cão real localiza-se abaixo de aproximadamente 1.6 m. Após analisar dados de vários estudos, Zahorik [5] concluiu que existe uma rela¸cão entre a distância percebida r0 e a distância real r que pode ser descrita como

r0 = krα, (1.3)

onde k e α são constantes cujos valores dependem das condi¸cões do experimento e do indiv´ıduo. Em coordenadas logar´ıtmicas a rela¸cão entre r0 e r torna-se linear. Assim, uma linha com pendente 1 significa que r0 é idêntica a r. A Figura 1.7 apresenta a rela¸cão entre r0 e r obtida usando regressão linear para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0).

1.7 Reverbera¸

c˜

ao

As reflexões causadas pelas paredes, tetos, pisos ou outros objetos influenciam a percep¸cão do som em ambientes fechados. Mesmo em ambientes abertos, uma quantidade significativa de energia é refletida pelas estruturas circundantes. No entanto, o ouvido humano apenas consegue perceber essas reflexões quando a diferen¸ca de tempo entre a onda direta e a onda refletida está acima do limiar do eco. O limiar do eco varia segundo o tipo de fonte desde alguns milissegundos para pulsos até 50ms para sinais de fala [22].

Um efeito importante que acontece na faixa de 0.7 − 1.5ms (i.e acima do máximo valor do ITD) até o valor do limiar do eco é chamado de efeito de precedência [39], efeito Hass [40]

(28)

ou ainda lei do primeiro frente de onda [3]. O efeito de precedência estabelece que, quando a diferen¸ca de tempo de chegada entre dois eventos sonoros encontra-se na faixa mencionada (i.e. 0.7 − 1.5ms), a posi¸cão percebida pelo sistema auditivo é apenas aquela do som que chega

primeiro.

Por outro lado, a reverbera¸cão é indispensável para simular distância e fornecer ao ouvinte uma sensa¸cão de imersão. Para estudar o efeito reverberante de uma sala, modela-se a Resposta ao Impulso da Sala Binaural (Binaural Room Impulse Response, BRIR) [41]. Essa resposta ao impulso depende das caracter´ısticas f´ısicas da sala (tamanho, presen¸ca de materiais absorventes na sala), do ouvido (direito ou esquerdo), do indiv´ıduo e da posi¸cão da fonte sonora. Um estudo mais profundo da modelagem de ambientes reverberantes está além do alcance deste texto. Para mais detalhes, recomenda-se a referência [41].

1.8 Modos de reprodu¸

c˜

ao

Existem dois modos de reprodu¸cão do som virtual: através de fones de ouvido e através de alto-falantes.

1.8.1 Reprodu¸

c˜

ao atrav´

es de fones de ouvido

Os fones de ouvido tem a vantagem de não depender do ambiente externo. No entanto, outros problemas surgem como a necessidade de um sistema de rastreamento da cabe¸ca. Como foi abordado na Se¸cão 1.3, a ITD e IID podem tornar-se amb´ıguas devido ao cone da confusão. As movimenta¸cões da cabe¸ca ajudam eliminar essas ambiguidades. Por isso, ao utilizar fones de ouvido, torna-se necessário utilizar um sistema de rastreamento de cabe¸ca que pode ser imple-mentado mediante giroscópios como em [42] ou ainda mediante sistemas de visão computacional como em [43].

Por outro lado, a Resposta em Frequência dos Fones de Ouvido (Headphone Transfer Function, HpTF) normalmente não é plana, o que pode modificar o espectro do sinal de áudio que queremos simular, destruindo os fatores espectrais que são vitais para a localiza¸cão vertical e a desambigua¸cão de confusões frente-trás. Para solucionar esse inconveniente, é necessário implementar uma fase de equaliza¸cão. A obten¸cão da HpTF não é trivial e depende do tipo de fone de ouvido e das caracter´ısticas anatômicas do indiv´ıduo (i.e do pavilhão da orelha). Isto quer dizer que é necessário medir uma HpTF para cada pessoa e tipo de fone de ouvido usando o procedimento descrito em [44]. No entanto, sempre que o fone de ouvido seja do tipo que é colocado na entrada do canal auditivo (i.e. que não seja do tipo circumaural), a dependência das caracter´ısticas anatômicas do indiv´ıduo na HpTF pode ser descartada [45]. Assim, a HpTF pode ser aproximada pela resposta em frequência medida pelo fabricante ou obtida mediante procedimentos como o descrito em [46], sem a necessidade de obter HpTFs individualizadas.

Outro problema comum que acontece ao utilizar fones de ouvido para reproduzir som virtual ´

e a dificuldade de externalizar o som, o que provoca que o ouvinte ache que o som está dentro da sua cabe¸ca. Para minimizar esse efeito, é importante incorporar reflexões do ambiente (i.e. reverbera¸cão) na gera¸cão do evento auditivo [47].

(29)

1.8.2 Reprodu¸

c˜

ao atrav´

es de alto-falantes

Os sinais binaurais originalmente são projetados para serem reproduzidos através de fones de ouvido. Quando esses sinais são reproduzidos com alto-falantes, apresenta-se o efeito da diafonia (crosstalk ). Para compensar esse efeito, é necessário utilizar métodos de cancelamento de diafonia [48]. No caso de sistemas com dois alto-falantes (i.e. sistemas stereo), antes da reprodu¸cão, os sinais binaurais são filtrados para cancelar a diafonia produzida pelo alto-falante do ouvido oposto. No caso de múltiplos alto-falantes e ouvintes, Bauck et al. [49] generalizaram a teoria de cancelamento de diafonia Embora os método de reprodu¸cão com alto-falantes não apresentem os problemas de externaliza¸cão dos fones de ouvido, ainda é necessário implementar um sistema de rastreamento da orienta¸cão e posi¸cão da cabe¸ca.

(30)

Cap´ıtulo

2

Fun¸c˜

oes de Transferˆencia Relacionadas `

a

Cabe¸ca

2.1 Introdu¸

c˜

ao

As Fun¸cões de Transferência Relacionadas à Cabe¸ca (Head Related Transfer Functions, HRTF) são os elementos principais na análise e s´ıntese de áudio espacial. Ao filtrar uma fonte de áudio digital através de um par de HRTFs, uma para o ouvido esquerdo e outra para o direito, ´

e poss´ıvel gerar sons binaurais.

Na Se¸cão 2.2 define-se formalmente as HRTFs. Na Se¸cão 2.3 fala-se sobre as técnicas mais utilizadas na medi¸cão de HRTFs, e sobre as bases de dados de HRTFs constru´ıdas a partir de tais técnicas. Na Se¸cão 2.4, estuda-se as caracter´ısticas no dom´ınio do tempo das Respostas ao Impulso Relacionadas à Cabe¸ca (Head Related Impulse Response, HRIR) que são as fun¸cões equivalentes no tempo das HRTFs. Finalmente, são descritas na Se¸cão 2.5 as principais caracter´ısticas em frequência das HRTFs.

2.2 Defini¸

c˜

ao

O som emitido por uma fonte de áudio em campo livre atinge as duas orelhas depois de interatuar com as caracter´ısticas anatômicas do indiv´ıduo (i.e. cabe¸ca, torso e pavilhão da orelha). O sinal resultante contém vários fatores de percep¸cão descritos no Cap´ıtulo 1, como a ITD, ILD e caracter´ısticas espectrais, que são modelados através das HRTF. Um par de HRTFs para os ouvidos esquerdo e direito, HL e HR respectivamente, é definida por

HL(r, θ, φ, f, a) = PL(r, θ, φ, f, a) P0(r, f ) , HR(r, θ, φ, f, a) = PR(r, θ, φ, f, a) P0(r, f ) , (2.1)

onde, PL e PR representam a press˜ao sonora no dom´ınio da frequˆencia nos ouvidos esquerdo e

direito respectivamente, P0 representa a press˜ao sonora no dom´ınio da frequˆencia em campo

livre no centro da cabe¸ca com a cabe¸ca ausente [44]. A variável a depende das caracter´ısticas anatômicas de cada pessoa e é representada por um conjunto de medidas antropométricas da cabe¸ca, torso e pavilhão da orelha. Se a distância r for maior do que 1 metro, as HRTFs

(31)

Cap´ıtulo 2. Fun¸cões de Transferência Relacionadas à Cabe¸ca 16 Câmara Anecoica Gerador de Sinal Analítico Amplificador de Potência Pós-processamento HRIRs não processadas HRIRs FFT HRTFs Microfone Sonda

Figura 2.1: Esquema geral para a medi¸c˜ao de HRTFs.

independem da distância e são chamadas de HRTFs de campo distante [44]. Caso contrário, as HRTFs dependem da distância e são chamadas de HRTFs de campo próximo. O estudo das HRTFs de campo próximo está além do alcance desta disserta¸cão pelo que os termos HRTF e HRTF de campo distante serão usados indistintamente.

2.3 Medi¸

c˜

ao de HRTF

A HRTF de um indiv´ıduo para certa dire¸cão pode ser obtida reproduzindo um sinal anal´ıtico na dire¸cão desejada à distância de pelo menos 1 metro (i.e no campo distante) e medindo a resposta ao impulso usando microfones sonda colocados na proximidade do canal auditivo. Assim, duas HRIRs não processadas (HRIR RAW ) para o ouvido esquerdo e direito são obtidas para a dire¸cão especificada. Elas são chamadas de HRIRs não processadas porque precisam ser pós-processadas antes de poderem ser usadas como filtros. Esse procedimento é repetido para cada dire¸cão desejada.

Observe que as HRTFs são fun¸cões cont´ınuas porém, na prática, as HRTFs são medidas apenas para posi¸cões discretas no espa¸co. As HRTFs para as posi¸cões restantes são obtidas por interpola¸cão espacial. A interpola¸cão de HRTFs não é um assunto trivial e foi abordado em detalhe por Carlile et al. [50].

A Figura 2.1 mostra um esquema geral do procedimento de medi¸c˜ao de HRTFs descrito cujos detalhes s˜ao considerados a seguir:

Sinal anal´ıtico de entrada: é muito comum a presen¸ca de ru´ıdo nos sistemas de medi¸cão sendo necessário que as caracter´ısticas do sinal de entrada ajudem a melhorar a rela¸cão sinal-ru´ıdo. Embora seja poss´ıvel aumentar o n´ıvel de potência do sinal de entrada, um excessivo aumento de potência poderia causar distor¸cão em sistemas electroacústicos como alto-falantes e amplificadores. Assim, para aumentar o n´ıvel de potência sem violar a linearidade dos sistemas electroacústicos, um sinal de entrada ideal deveria ter um valor baixo de fator de crista (rela¸cão entre o valor pico e o valor efetivo de um sinal) [51].

(32)

Cap´ıtulo 2. Fun¸cões de Transferência Relacionadas à Cabe¸ca 17

(e.g. impulsos, barridos sinusoidais), sinais de ru´ıdo aleatório (e.g ru´ıdo branco, ru´ıdo rosa) e sinais de ru´ıdo pseudoaleatório (e.g. sequências de comprimento máximo, códigos Golay) [22].

Dos sinais mencionados, os sinais de ru´ıdo pseudoaleatório são os mais utilizados, pois geram HRIRs com maior rela¸cão sinal-ru´ıdo devido a seu baixo fator de crista [22]. Para mais detalhes, um estudo comparativo dos diferentes sinais anal´ıticos para a obten¸cão de respostas ao impulso ´

e dado por Stan et al. [51].

Posi¸cão do microfone sonda: O microfone é comumente colocado na entrada do canal auditivo bloqueado para minimizar as reflexões do conduto. Essa técnica foi introduzida pela primeira vez por [44] e tem sido muito utilizada pela sua facilidade e seguran¸ca. Outras posi¸cões introduzidas pelo mesmo autor são na entrada do canal auditivo sem bloquear ou ainda dentro do canal auditivo perto do t´ımpano.

Indiv´ıduos: As HRIRs são fun¸cões que dependem das caracter´ısticas antropométricas que variam de pessoa para pessoa, tornando-se dif´ıcil ter um conjunto de HRIRs gerais. Por isso, nas medi¸cões de HRIR utilizam-se várias pessoas. Como as pessoas tendem a fazer pequenos movimentos da cabe¸ca e corpo especialmente durante sessões de medi¸cão longas, utilizam-se também cabe¸cas e torsos artificias como o KEMAR (Knowles Electronics Manikin For Acoustics Research) [52]. O KEMAR foi projetado baseado nas dimensões médias das caracter´ısticas antropométricas de um conjunto de pessoas.

Local: Para eliminar as reflexões no ambiente, é comum que as medi¸cões de HRIR sejam feitas em câmaras anecoicas. No entanto, devido às dificuldades técnicas e altos custos de uma câmara anecoica, algumas medi¸cões de HRIR tem sido feitas em câmaras não anecoicas [7]. Em câmaras não anecoicas, usualmente, o tempo de chegada das ondas refletidas pode ser controlado para que elas cheguem depois da dura¸cão da HRIR (no ordem de alguns milissegun-dos). Isto pode ser alcan¸cado colocando material absorvente acústico na sala [53]. Sob estas condi¸cões, uma janela temporal é aplicada na HRIR não processada para eliminar as reflexões não desejadas [7].

Pós-processamento das HRIR não processadas: Além do truncamento em tempo mencionado acima para eliminar as reflexões, caso a HRIR for medida em câmaras não anecoicas, as HRIR não processadas são equalizadas para compensar as distor¸cões de espectro causadas pelo sistema electroacústico (i.e. microfones, alto-falantes, amplificadores) [22], e para minimizar mudan¸cas no timbre do sinal a ser filtrado pelas HRTF [44].

A abordagem mais simples consiste em medir a press˜ao sonora Po no dom´ınio da frequˆencia

em campo livre no centro da cabe¸ca com a cabe¸ca ausente. Assim, se a fun¸cão de transferência do sistema electroacústico fosse H0(f ), a pressão sonora medida seria H0(f )P (θ, φ, f ). Usando o

mesmo sistema, a press˜ao medida no centro da cabe¸ca com a cabe¸ca ausente seria H0(f )P0(f ).

Ent˜ao, se dividirmos as duas press˜oes medidas (H0(f )P (θ, φ, f ) e H0(f )P0(f ) ), os efeitos

(33)

equa¸c˜ao 2.1 [53].

O processo descrito é chamado de equaliza¸cão baseada em medi¸cões. Outras abordagens utilizadas são a equaliza¸cão de campo livre e a equaliza¸cão de campo difuso [44]. A primeira é implementada em rela¸cão a uma das HRTFs medidas em uma dire¸cão especifica, normalmente na dire¸cão frontal (θ = 0, φ = 0) e define-se como

HLivre(θ, φ, f ) =

H(θ, φ, f )

H(θ = 0, φ = 0, f ). (2.2) Ao contrário da equaliza¸cão baseada em medi¸cões, observe que as HRTF equalizadas em campo livre independem da posi¸cão escolhida do microfone, pois tanto o numerador quanto o denominador da equa¸cão 2.2 contém a fun¸cão de transferência (independente da dire¸cão) do canal auditivo [44]. Assim, a fun¸cão de transferência do canal auditivo é cancelada devido à divisão.

Por outro lado, a equaliza¸cão de campo difuso é feita em rela¸cão ao valor quadrático médio das magnitudes das HRTFs em todas as dire¸cões

Hdif usa(θ, φ, f ) = H(θ, φ, f ) s 1 M M −1 P i=0 |H(θi, φi, f )|2 . (2.3)

Note que as HRTF equalizadas em campo difuso também independem da posi¸cão escolhida do microfone. No entanto, essa afirma¸cão é apenas válida para a magnitude da HRTF.

2.3.1 Bases de dados de HRTFs

Usando o procedimento descrito na Se¸cão 2.3, várias equipes de pesquisa tem constru´ıdo bases de dados de HRTFs de campo próximo.

Gardner et al. [52], Genuit et al. [54] e Bovbjerg et al. [55] têm medido HRTFs usando apenas cabe¸cas artificias. Uma das bases de dados mais populares em pesquisa é precisamente a base obtida da cabe¸ca artificial KEMAR pelo MIT Media Lab [52] que está publicamente dispon´ıvel para download na Internet. Ela contém HRTFs para 710 dire¸cões cuja eleva¸cão varia entre −40◦ até 90◦ com resolu¸cão de 10◦. O azimute varia entre 0◦ e 360◦ com resolu¸cão variável, sendo a resolu¸cão máxima de 5◦ para regiões cercanas ao plano horizontal.

Uma das bases mais completas dispon´ıveis publicamente na Internet é a base de dados CIPIC [7] pelo fato de ter medi¸cões para uma quantidade grande de indiv´ıduos (43 humanos e o KEMAR) e suas medidas antropométricas. Foram realizadas 1250 medi¸cões em coordenadas interaurais (veja Se¸cão 1.2) para 25 azimutes não uniformemente distribu´ıdos com resolu¸cão máxima de 5◦ para dire¸cões próximas ao plano mediano e 50 eleva¸cões com resolu¸cão de 5.625◦ na faixa −45◦ - 230.625◦. Uma desvantagem da base de dados CIPIC é que a resolu¸cão em dire¸cões laterais é baixa (15◦-20◦).

A base de dados de Xie et al. [56] inclui medi¸cões de 52 indiv´ıduos chineses (26 homens e 26 mulheres) com resolu¸cão em azimute de 5◦ para seis eleva¸cões equidistantes entre −30◦ e 45◦. HRTFs para as eleva¸cões 60◦, 75◦ e 90◦ também foram medidas, mas com resolu¸cão em azimute maior do que 10◦. Um aspecto importante dessa base de dados é que a quantidade de homens e

(34)

mulheres é a mesma, o que evita qualquer viés devido às diferen¸cas antropométricas de ambos os sexos. Além disso, note que todos os indiv´ıduos nesse estudo são chineses, ao contrário da maioria das bases como a base CIPIC que foi feita principalmente em indiv´ıduos ocidentais. Os resultados apresentados pelos autores demonstram que o fato dos chineses terem caracter´ısticas antropométricas diferentes daquelas dos indiv´ıduos ocidentais, faz com que as caracter´ısticas temporais e espectrais das HRTFs variem.

As maiores resolu¸cões atingidas até hoje em HRTFs medidas são aquelas das bases de dados obtidas de cabe¸cas artificiais por Genuit et al. [54] e Bovbjerg et al. [55]. Bovbjerg et al. [55] mediram as HRTFs para 11975 dire¸cões com resolu¸cão de 2◦ tanto na eleva¸cão quanto no azimute. Quanto à base de Genuit et al. [54], a resolu¸cão é de 0.9◦ no plano horizontal e varia entre 1◦ e 5◦ para o resto de dire¸cões.

2.4 Caracter´ısticas no dom´ınio do tempo das HRTFs

No dom´ınio do tempo, as HRIRs são as fun¸cões equivalentes das HRTFs. O fator mais im-portante no tempo é a ITD. A seguir serão descritas algumas abordagens utilizadas na literatura para estimar a ITD a partir de um par de HRTFs.

Abordagem 1: Calcular a ITD como sendo a diferen¸ca de tempo interaural m´edio calculado nas HRIRs esquerda e direita [57],

IT D(θ, φ) = ¯tL− ¯tR, (2.4)

onde o tempo m´edio das HRIRs ´e definido como

¯ tL = ∞ R −∞ t h2 L(t, θ, φ)dt ∞ R −∞ h2 L(t, θ, φ)dt , ¯tR = ∞ R −∞ t h2 R(t, θ, φ)dt ∞ R −∞ h2 R(t, θ, φ)dt . (2.5)

Abordagem 2: Calcular a correla¸c˜ao cruzada das HRIRs esquerda e direita [58],

ΦLR(τ ) = R+∞ −∞ hL(t + τ, θ, φ) hR(t, θ, φ) dt r R+∞ −∞ h 2 L(t, θ, φ) dt R+∞ −∞ h 2 R(t, θ, φ) dt , (2.6)

onde sabemos que

0 ≤ |ΦLR(τ )| ≤ 1.

O tempo τmax que maximiza ΦLR(τ ) ´e definida como a ITD, ou seja,

IT D(θ, φ) = τmax. (2.7)

Abordagem 3: Obter a ITD a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) das HRIRs esquerda e direita [59]. Na Figura 2.2, note que no in´ıcio de cada HRIR o valor do sinal ´e zero devido ao tempo que demora em percorrer as ondas sonoras at´e atingir a orelha

(35)

Cap´ıtulo 2. Fun¸cões de Transferência Relacionadas à Cabe¸ca 20 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 −0.1 −0.05 0 0.05 0.1 0.15 Tempo (ms) Amplitude Normalizada 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 −1 −0.5 0 0.5 1 Tempo (ms) Amplitude Normalizada HRIR Esquerda HRIR Direita Atraso de Propagação ITD

Figura 2.2: HRIRs do KEMAR da base de dados CIPIC para Θ = 80◦, Φ = 0◦. ITD calculada a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) de um par de HRTFs.

durante a medi¸cão (i.e o atraso de propaga¸cão). Assim, a ITD é definida como a diferen¸ca entre o tempo de in´ıcio da HRIR esquerda e direita, e é calculada por

IT D(θ, φ) = tL,η− tR,η. (2.8)

No entanto, devido a erros de medi¸c˜ao, valores diferentes de zero podem aparecer no in´ıcio da HRIR. Para reduzir os efeitos desses artefatos, considera-se o tempo de in´ıcio quando a HRIR supera uma determinada porcentagem η (5% - 20%) do valor m´aximo. Experimentos realizados por Xiaoli [59] sugerem utilizar um valor de η = 10%.

Antes de aplicar qualquer dos métodos descritos para a estima¸cão da ITD, costuma-se filtrar a HRIR através de um filtro passa baixa para diminuir os efeitos do pavilhão da orelha. Por exemplo, Xie et al. [56] usam um filtro passa baixa com frequência de corte de 2.7 KHz antes de calcular a ITD usando o método da correla¸cão cruzada.

O máximo do valor absoluto da ITD (i.e o |IT D|_max) é considerado um parâmetro relevante nas HRIRs que caracteriza a variabilidade entre indiv´ıduos. Estudos realizados por Algazi et al. [7] demonstram que esse valor está fortemente correlacionado com o tamanho da cabe¸ca (coeficiente de correla¸cão ρ = 0.87). Além disso, a média da |IT D|_max calculada por [56] é de 722µs com desvio padrão σ = 22µs para homens e 686µs com σ = 17µs para mulheres. Os mesmos autores relatam que o |IT D|_max ocorre normalmente no plano horizontal (i.e. φ = 0◦) no azimute θmax, entre 90◦ e 95◦, ou entre 265◦ e 270◦.

(36)

2.5 Caracter´ısticas em frequˆ

encia das HRTFs

Para analisar as caracter´ısticas em frequência das HRTFs, a Figura 2.3 apresenta a magnitude de algumas HRTFs no plano horizontal para quatro azimutes onde pode-se observar o seguinte [22]: 1. Abaixo de 200 Hz aproximadamente, existe uma queda do n´ıvel do sinal. Essa queda acontece porque a resposta em frequência dos alto-falantes utilizados na medi¸cão das HRTFs é normalmente limitada em baixas frequências.

2. Em frequências abaixo da faixa de 0.4-0.5 KHz, o efeito de atenua¸cão da cabe¸ca é despre-z´ıvel pelo que as magnitude das HRTFs para ambos os ouvidos estão em torno de 0 dB e são, grosso modo, independentes da frequência.

3. À medida que a frequência cresce acima de 1.5 KHz, as diferen¸cas de n´ıvel interaural tornam-se mais evidentes. Assim, a magnitude do ouvido ipsilateral (e.g. veja na Figura 2.3 a magnitude do ouvido esquerdo no azimute θ = 80◦) é maior do que a magnitude do ouvido contralateral. A diferen¸ca de ambas as magnitudes (i.e a IID) é definida como

IID (θ, φ, f ) = 20log₁₀ HR(θ, φ, f ) HL(θ, φ, f ) . (2.9)

4. Em altas frequˆencias, a partir da faixa de 5-6 KHz, a magnitude das HRTFs variam de uma maneira complexa apresentando picos e notches.

5. O pico perto dos 4 KHz na magnitude das HRTFs é devido à ressonância do canal auditivo.

2.5.1 Caracter´ısticas em frequˆ

encia causados pelo pavilh˜

ao da orelha

Considera-se que em frequˆencias a partir de 3 KHz, quando o tamanho do pavilh˜ao da orelha ´

e comparável com o comprimento de onda da fonte, as caracter´ısticas do pavilhão tornam-se relevantes na resolu¸cão de confusões frente-trás e na localiza¸cão de fontes [32].

Como foi estudado na Se¸cão 1.3, ITDs e IIDs similares causam ambiguidades (i.e confusões frente-trás) que são resolvidas pelas caracter´ısticas em alta frequência devidas ao ouvido externo. Para entender como o pavilhão da orelha consegue fornecer informa¸cões espectrais para resolver tais ambiguidades, a Figura 2.4 mostra a magnitude das HRTFs no plano horizontal para um mesmo ouvido nos azimutes 0◦ (i.e frente) e 180◦ (i.e trás). Observe que em altas frequências, as diferen¸cas das respostas em magnitude de ambas as dire¸cões são evidentes. Essas diferen¸cas causadas pela assimetria da cabe¸ca, a posi¸cão da orelha e o efeito do ouvido externo permitem resolver as reversões frente-trás [22].

Por outro lado, a magnitude das HRTFs caraterizam-se por apresentar picos e notches em frequências a partir da faixa de 5-6 KHz. A frequência central do primeiro desses notches é

(37)

Cap´ıtulo 2. Fun¸cões de Transferência Relacionadas à Cabe¸ca 22 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 frequência (KHz) H R T F Ma g n it u d e (d B) 0.1 0.1 0.1 0.1 HRTF Esquerda HRTF Direita θ=0° θ=30° θ=45° θ=80°

Figura 2.3: Resposta em magnitude das HRTFs do KEMAR na base de dados CIPIC para v´arios azimutes no plano horizontal.

considerado um fator importante na localiza¸cão vertical de fontes sonoras segundo experimentos psicoacústicos realizados por [60]. A Figura 2.5 mostra a magnitude de algumas HRTFs no plano mediano (i.e θ = 0◦ ). Observe que a frequência central do primeiro notch é aproximadamente igual para ambas as orelhas.

A Figura 2.6 mostra uma representa¸cão bidimensional (i.e. uma imagem) de um conjunto de HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo, onde cada coluna é a magnitude de uma HRTF para determinada eleva¸cão. A intensidade representa o valor em dB da resposta em magnitude e os pontos em vermelho são as frequências marcadas manualmente do primeiro notch para cada HRTF. Note que a frequência do primeiro notch aumenta, grosso modo, à medida que a eleva¸cão passa de −45◦ a 50◦. A partir de aproximadamente 60◦ a frequência do notch tende a diminuir gradualmente [56].

Outro fator importante em rela¸cão à frequência do primeiro notch é a sua variabilidade entre diferentes indiv´ıduos. Algazi et al. [7] têm calculado a média da frequência central do primeiro notch em 52 indiv´ıduos da base de dados CIPIC [7] na dire¸cão (θ = 0◦, φ = 0◦). O resultado obtido foi de 7.6 KHz com desvio padrão de 1050 Hz. Considerando um desvio padrão tão alto, os autores concluem que existe uma alta variabilidade da frequência do primeiro notch entre indiv´ıduos provocada pelas caracter´ısticas antropométricas do ouvido externo.

(38)

Cap´ıtulo 2. Fun¸cões de Transferência Relacionadas à Cabe¸ca 23 0.1 1 10 −40 −20 0 20 40 frequência (KHz) H R T F M a g n it u d e (d B) θ=0°, Ouvido esquerdo θ=180°, Ouvido esquerdo

Figura 2.4: Resposta em magnitude das HRTFs nos azimutes 0◦ (i.e frente) e 180◦ (i.e trás) no plano horizontal. As diferen¸cas em altas frequências permitem resolver confusões frente-trás.

1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 ɸ=−45°, ouvido Esquerdo ɸ=0°, ouvido Esquerdo ɸ=45°, ouvido Esquerdo ɸ=−45°, ouvido Direito ɸ=0°, ouvido Direito ɸ=45°, ouvido Direito 6.0 KHz 6.2 KHz 8.1 KHz 8.4 KHz 10.1 KHz 10.4 KHz Frequência (KHz) H R T F Ma g n it u d e (d B)

Figura 2.5: Resposta em magnitude de v´arias HRTFs no plano mediano (i.e. θ = 0). O primeiro notch para cada eleva¸c˜ao foi ressaltado.

(39)

Cap´ıtulo 2. Fun¸cões de Transferência Relacionadas à Cabe¸ca 24 Elevação (graus) 0 50 100 150 200 0 2 4 6 8 10 12 14 16 18 ₋₃₅ −30 −25 −20 −15 −10 −5 0 5 10 -45 dB F re q u ê n ci a (KH z)

Figura 2.6: Representa¸cão em duas dimensões da resposta em magnitude das HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo. Cada linha representa uma HRTF e a intensidade o valor em dB da resposta em magnitude. O primeiro notch para cada eleva¸cão foi ressaltado em vermelho.

2.5.2 Caracter´ısticas de fase m´ınima das HRTFs

As HRTFs são fun¸cões de variável complexa que portanto têm magnitude e fase. Segundo Oppenheim et al. [61], as fun¸cões de transferência LTI e por conseguinte as HRTFs, podem ser representadas pelo produto da sua fun¸cão de fase m´ınima Hmin(θ, φ, f ), uma fun¸cão passa tudo

exp [jψall(θ, φ, f )] e uma fun¸c˜ao de fase linear exp [−j2πf T (θ, φ)],

H (θ, φ, f ) = Hmin(θ, φ, f ) exp [jψall(θ, φ, f )] exp [−j2πf T (θ, φ)] , (2.10)

onde T (θ, φ) ´e um atraso em tempo causado pela propaga¸c˜ao das ondas sonoras desde a fonte de ´

audio até o ouvido, e corresponde aproximadamente ao atraso de propaga¸cão da Figura 2.2 [62]. Por outro lado, sabemos que a magnitude de uma fun¸cão de transferência e sua correspondente magnitude de fase m´ınima são iguais [61], pelo que

Hmin(θ, φ, f ) = |Hmin(θ, φ, f )| exp [jψmin(θ, φ, f )]

Hmin(θ, φ, f ) = |H (θ, φ, f )| exp [jψmin(θ, φ, f )] ,

(2.11) onde a fase da fun¸c˜ao de fase m´ınima e o logaritmo da magnitude est˜ao relacionados mediante a transformada de Hilbert ψmin(θ, φ, f ) = − 1 π +∞ Z −∞ ln |H (θ, φ, x)| f − x dx. (2.12)

(40)

Da equa¸c˜ao 2.10, deduz-se que a fase de uma HRTF ´e dada por

ψ (θ, φ, f ) = ψmin(θ, φ, f ) + ψall(θ, φ, f ) − 2πf T (θ, φ) . (2.13)

Se a componente de fase da fun¸c˜ao passa tudo ψall for desprez´ıvel, a HRTF pode ser aproximada

como

H (θ, φ, x) ≈ Hmin(θ, φ, f ) exp [−j2πf T (θ, φ)] . (2.14)

A equa¸cão 2.14 é chamada de aproxima¸cão de fase m´ınima das HRTFs, na qual uma HRTF ´

e aproximada pela sua fun¸cão de fase m´ınima em cascata com um atraso puro T (θ, φ). Na prática, esse atraso é a ITD calculada a partir de algum dos métodos descritos na Se¸cão 2.4 ou ainda outro método. Note que, nesse caso, o atraso seria colocado apenas em uma das HRTFs. Estudos realizados por [62] e [63] têm demonstrado a validade do modelo de fase m´ınima das HRTFs. Esta aproxima¸cão é importante porque permite processar a HRTF utilizando apenas a sua magnitude. Assim que a magnitude da HRTF for processada, a HRTF complexa pode ser reconstru´ıda utilizando a equa¸cão 2.14.