• Nenhum resultado encontrado

Felipe Leonel Grijalva Arévalo. Redução de Dimensionalidade usando Isomap aplicada ao Áudio Espacial

N/A
N/A
Protected

Academic year: 2021

Share "Felipe Leonel Grijalva Arévalo. Redução de Dimensionalidade usando Isomap aplicada ao Áudio Espacial"

Copied!
64
0
0

Texto

(1)

Felipe Leonel Grijalva Ar´

evalo

Redu¸

ao de Dimensionalidade usando Isomap aplicada

ao ´

Audio Espacial

Campinas 2014

(2)

Universidade Estadual de Campinas

Faculdade de Engenharia El´

etrica e de Computa¸c˜

ao

Felipe Leonel Grijalva Ar´

evalo

Redu¸c˜ao de Dimensionalidade usando Isomap aplicada ao ´Audio Espacial

Disserta¸c˜ao de mestrado apresentada `a Faculdade de Engenharia El´etrica e de Computa¸c˜ao como parte dos requisitos exigidos para a obten¸c˜ao do t´ıtulo de Mestre em Engenharia El´etrica. ´Area de concentra¸c˜ao: Engenharia de Computa¸c˜ao.

Orientador: Luiz C´esar Martini

Co-Orientador: Siome Klein Goldenstein

Este exemplar corresponde `a vers˜ao final da disserta¸c˜ao defendida pelo aluno, e orientada pelo Prof. Dr. Luiz C´esar Martini

Campinas 2014

(3)
(4)

A mi esposa e hija por su invaluable compa˜n´ıa, amor y comprensi´on en este ambicioso proyecto que es la vida.

(5)

Agradecimentos

A Deus, o arquiteto da vida.

A minha esposa e filha, pelo amor incondicional, vocˆes s˜ao a minha for¸ca. Aos meus pais, pela apoio durante esta jornada.

Ao professor Luiz Martini, pela oportunidade de trabalhar como seu orientando e pelos conheci-mentos transmitidos ao longo deste tempo.

Ao professor Siome Goldenstein (IC/Unicamp), pelas ´otimas recomenda¸c˜oes feitas e discuss˜oes frut´ıferas.

Ao Dinei Florencio (Microsoft Research), pela parceria, sugest˜oes e contribui¸c˜oes feitas.

Aos meus colegas mais pr´oximos: Vanessa, Laurindo, Douglas e Augusto, pela convivˆencia e a troca de experiˆencias.

Ao professor Julio Larco, pela amizade e ideias para melhorar este trabalho. Aos meus amigos e demais colegas da FEEC.

`

A Capes pelo apoio financeiro.

A Iece/Senescyt pelo apoio financeiro.

Aos membros da banca examinadora, pelos coment´arios, sugest˜oes e contribui¸c˜oes, que ajudaram a melhorar a qualidade deste manuscrito.

`

A Funda¸c˜ao de Amparo `a Pesquisa do Estado de S˜ao Paulo (FAPESP) pelo apoio financeiro concedido atrav´es do processo no 2013/21349-1.

(6)

Resumo

Conforme as aplica¸c˜oes de realidade aumentada tornam-se mais relevantes, h´a um crescente esfor¸co na pesquisa do ´audio espacial. O termo ´audio espacial refere-se ao conjunto de t´ecnicas onde a anatomia de uma pessoa (i.e. o pavilh˜ao da orelha, a cabe¸ca e o torso) ´e modelada por meio de filtros digitais. Ao filtrar uma fonte de ´audio atrav´es desses filtros, o ouvinte ´e capaz de perceber um som como se ele fosse reproduzido em um local espec´ıfico no espa¸co. No dom´ınio da frequˆencia, esses filtros s˜ao conhecidos como Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca (Head-Related Transfer Functions, HRTF).

Nesta disserta¸c˜ao, estabelecem-se os princ´ıpios b´asicos do ´audio espacial, for-necendo uma analise das caracter´ısticas espectrais das HRTFs. Al´em disso, como essas caracter´ısticas espectrais diferem de uma pessoa para outra, prop˜oe-se um novo m´etodo baseado em antropometria para personalizar HRTFs no plano horizontal. O m´etodo usa o Isomap, redes neurais artificias e um procedimento de reconstru-¸

c˜ao baseado na vizinhan¸ca. Assim, modificou-se a constru¸c˜ao do grafo do Isomap para ressaltar a individualidade das HRTFs e efetuar uma redu¸c˜ao de dimensionali-dade n˜ao linear das HRTFs. Em seguida, utilizou-se uma rede neural artificial para modelar as rela¸c˜oes n˜ao lineares entre as caracter´ısticas antropom´etricas e as HRTFs de baixa dimensionalidade. E finalmente, usou-se uma abordagem de reconstru¸c˜ao com base na vizinhan¸ca para reconstruir a HRTF a partir do seu equivalente de baixa dimensionalidade. As simula¸c˜oes mostram que a abordagem proposta tem um desempenho melhor do que o PCA (Principal Component Analysis, Analise de Componentes Principais) e confirmam que o Isomap ´e capaz de descobrir as rela¸c˜oes n˜ao lineares subjacentes da percep¸c˜ao auditiva.

Palavras-chave: ´Audio 3D, ´Audio espacial, HRTF, Variedade, Isomap, Realidade Aumentada

(7)

Abstract

As auditory augmented reality applications become more important, there is in-creasing effort in spatial audio research. The term spatial audio refers to techniques where a person’s anatomy (i.e. the pinnae, head and torso) is modeled as digital filters. By filtering a sound source with these filters, a listener is capable of perceiving a sound as though it were reproduced at a specific spatial location. In the frequency domain, these filters are known as Head-Related Transfer Functions (HRTFs). This dissertation states the basic principles of spatial audio and provides an analysis of the spectral characteristics of HRTFs. Moreover, since these spectral fea-tures differ among individuals, we introduce a new anthropometric-based method for customizing of HRTFs in the horizontal plane. The method uses Isomap, artificial neural networks (ANN), and a neighborhood-based reconstruction procedure. We first modify Isomap’s graph construction step to emphasize the individuality of HRTFs and perform a customized nonlinear dimensionality reduction of the HTRFs. We then use an ANN to model the nonlinear relationship between anthropometric features and our low-dimensional HRTFs. Finally, we use a neighborhood-based reconstruction approach to reconstruct the HRTF from the estimated low-dimensional version. Simulations show that our approach performs better than PCA (Princi-pal Component Analysis) and confirm that Isomap is capable of discovering the underlying nonlinear relationships of sound perception.

Keywords: 3D sound, Spatial audio, HRTF, Manifold, Isomap, Auditory Augmented Reality, Virtual Auditory Display

(8)

Lista de Figuras

1.1 Planos de referˆencia. . . 5 1.2 Sistema de Coordenadas Esf´erico. . . 5 1.3 Sistema de Coordenadas Polares Interaural. . . 6 1.4 a) Ao manter constante o azimute no sistema de coordenadas polares interaural,

forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD s˜ao idˆenticos. Esse cone ´e conhecido como cone da confus˜ao. . . 8 1.5 Erro de localiza¸c˜ao no plano horizontal obtida a partir dos experimentos realizados

em condi¸c˜oes anecoicas (i.e sem reverbera¸c˜ao) em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de ´audio 100 ms de ruido branco. As setas representam a dire¸c˜ao da fonte sonora, os c´ırculos a posi¸c˜ao m´edia das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3]. . . 11 1.6 Erro de localiza¸c˜ao no plano mediano obtida a partir dos experimentos realizados

por Damaske et al. [4] em sete indiv´ıduos com um sinal de fala como est´ımulo de entrada. As setas representam a dire¸c˜ao da fonte sonora, os c´ırculos a posi¸c˜ao m´edia das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3]. . . 11 1.7 Rela¸c˜ao entre r0 e r para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0). Figura adaptada

dos experimentos de Zahorik [5]. . . 12 2.1 Esquema geral para a medi¸c˜ao de HRTFs. . . 16 2.2 HRIRs do KEMAR da base de dados CIPIC para Θ = 80◦, Φ = 0◦. ITD calculada

a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) de um par de HRTFs. 20 2.3 Resposta em magnitude das HRTFs do KEMAR na base de dados CIPIC para

v´arios azimutes no plano horizontal. . . 22 2.4 Resposta em magnitude das HRTFs nos azimutes 0◦ (i.e frente) e 180◦ (i.e tr´as) no

plano horizontal. As diferen¸cas em altas frequˆencias permitem resolver confus˜oes frente-tr´as. . . 23 2.5 Resposta em magnitude de v´arias HRTFs no plano mediano (i.e. θ = 0). O

primeiro notch para cada eleva¸c˜ao foi ressaltado. . . 23

(9)

2.6 Representa¸c˜ao em duas dimens˜oes da resposta em magnitude das HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo. Cada linha representa uma HRTF e a intensidade o valor em dB da resposta em magnitude. O primeiro notch para cada eleva¸c˜ao foi ressaltado em vermelho. . . 24 3.1 Diagrama de blocos da abordagem proposta para personalizar HRTFs no plano

horizontal. . . 29 3.2 Exemplo da primeira regra para construir o grafo do Isomap. Os v´ertices

simboli-zam HRTFs de alta dimensionalidade de P = 3 indiv´ıduos. Cada cor representa um indiv´ıduo diferente, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas ´e igual a 0.01 · dX(xi, xj) e que cada v´ertice

conecta-se a P − 1 = 2 vizinhos. . . 31 3.3 Exemplo da segunda regra para construir o grafo do Isomap. Os v´ertices

simboli-zam HRTFs de alta dimensionalidade de trˆes indiv´ıduos. Cada cor representa um indiv´ıduo diferente, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas ´e igual a 0.01 · dX(xi, xj) e que cada v´ertice

conecta-se a P = 3 vizinhos. . . 31 3.4 Exemplo da terceira regra para construir o grafo do Isomap. Os v´ertices simbolizam

HRTFs de alta dimensionalidade de um mesmo indiv´ıduo, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas ´e igual a dX(xi, xj) e que cada v´ertice conecta-se a 2 vizinhos. . . 32

3.5 Estimativa de Dimensionalidade Intr´ınseca. Usando um limiar de 0.025, a dimen-sionalidade intr´ınseca foi escolhida como sendo d=4. . . 33 3.6 Variedade calculada pelo Isomap para K = 61 vizinhos a) Variedade de uma

dimens˜ao em fun¸c˜ao do azimute b) Variedade em duas dimens˜oes c) Variedade em trˆes dimens˜oes. . . 34 3.7 Variabilidade dentro dos agrupamentos causada pela diferen¸cas antropom´etricas

entre indiv´ıduos. Pontos vermelhos e azuis representam HRTFs de azimutes sim´etricos dos ouvidos esquerdo e direito, respectivamente. . . 35 3.8 Rede Neural Artificial com fun¸c˜ao de ativa¸c˜ao sigmoide na camada oculta e

fun¸c˜ao de ativa¸c˜ao linear na camada de sa´ıda para predizer HRTFs de baixa dimensionalidade. . . 35 3.9 Medi¸c˜oes antropom´etricas selecionados de acordo com [6]. Figura adaptada de [7]. 38 3.10 Distor¸c˜ao espectral m´edia em fun¸c˜ao do azimute. . . 39 3.11 Distor¸c˜ao espectral. . . 39

(10)

Lista de Tabelas

3.1 Intervalo de confian¸ca (±2σ, 95%) da distor¸c˜ao espectral m´edia para v´arios azimutes. 37

(11)

Lista de Acrˆ

onimos

ANN Artificial Neural Network. Rede Neural Artificial.

BRIR Binaural Room Impulse Response. Resposta ao Impulso da Sala Binaural. FFT Fast Fourier Transform.

Transforma R´apida de Fourier. IID Interaural Intensity Difference.

Diferen¸ca de Intensidade Interaural. Isomap Isometric Feature Mapping.

Mapeamento de Caracter´ısticas Isom´etricas. ITD Interaural Time Difference.

Diferen¸ca de Tempo Interaural. HpTF Headphone Transfer Function.

Resposta em Frequˆencia dos Fones de Ouvido. HRIR Head-Related Impulse Response.

Resposta ao Impulso Relacionadas `a Cabe¸ca. HRTF Head-Related Transfer Function.

Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca. KEMAR Knowles Electronics Manikin For Acoustics Research.

Manequim Knowles Electronics para Pesquisa em Ac´ustica. LLE Locally Linear Embedding.

Embedding Localmente Linear. PCA Principal Component Analysis.

An´alise de Componentes Principais.

(12)

Lista de S´ımbolos

(r, θ, φ) raio r, azimute θ e eleva¸c˜ao φ de um ponto no sistema esf´erico de coordenadas.

(r, Θ, Φ) raio r, azimute Θ e eleva¸c˜ao Φ de um ponto em coordenadas polares interaural.

a raio da cabe¸ca no modelo de Woodworth [8]. c velocidade do som (343 m/s).

r utilizada de forma geral para representar uma distˆancia.

k, α constantes do modelo de percep¸c˜ao de distˆancia definido por Zahorik [5]. HL, HR HRTF para o ouvido esquerdo e direito respectivamente.

hL, hR HRIR para ouvido esquerdo e direto respectivamente.

PL, PR press˜ao sonora no dom´ınio da frequˆencia

no ouvido esquerdo e direto respectivamente. P0 press˜ao sonora no dom´ınio da frequˆencia

no centro da cabe¸ca com a cabe¸ca ausente.

ΦLR(τ ) a correla¸c˜ao cruzada das HRIRs esquerda e direita.

tL, tR tempo m´edio da HRIR esquerda e direita respectivamente.

tL,η, tR,η tempo de in´ıcio da HRIR esquerda e direita respectivamente.

Hmin HRTF de fase m´ınima.

T (θ, φ) Tempo de propaga¸c˜ao das ondas sonoras desde a fonte at´e o ouvido. ψ Fase de uma fun¸c˜ao de transferˆencia.

ψall Fase de uma fun¸c˜ao de transferˆencia passa tudo.

ψmin Fase m´ınima de uma fun¸c˜ao de transferˆencia.

N N´umero de amostras ou observa¸c˜oes.

D N´umero de dimens˜oes das amostras de alta dimensionalidade. d N´umero de dimens˜oes das amostras de baixa dimensionalidade.

(13)

X Matriz do conjunto de dados de alta dimensionalidade de tamanho D × N . Y Matriz do conjunto de dados de baixa dimensionalidade de tamanho d × N . xi Vetor de tamanho D × 1 que representa uma amostra

ou observa¸c˜ao de alta dimensionalidade.

yi Vetor de tamanho d × 1 que representa uma amostra

ou observa¸c˜ao de baixa dimensionalidade. G(V, E) Grafo de um conjunto de v´ertices ∈ V

conectados por um conjunto de arestas ∈ E. vi ∈ V Um v´ertice do grafo G.

dX(xi, xj) Distˆancia euclidiana entre dois vetores.

K N´umero de vizinhos no Isomap.

DG A matriz de distˆancias geod´esicas entre todas as amostras na variedade.

δ Fun¸c˜ao delta de Kronecker. λ Autovalor. P N´umero de indiv´ıduos. M N´umero de azimutes. sij Fator de escalamento. b H HRTF reconstru´ıda.

s N´umero de parˆametros antropom´etricos. SDM Distor¸c˜ao Espectral M´edia.

(14)

Sum´

ario

Introdu¸c˜ao Geral 1

1 Conceitos B´asicos do ´Audio Espacial 4

1.1 Introdu¸c˜ao . . . 4

1.2 Sistema de coordenadas . . . 4

1.3 Fatores de Percep¸c˜ao de dire¸c˜ao . . . 6

1.3.1 Fatores binaurais . . . 6

1.3.2 Fatores dinˆamicos . . . 7

1.3.3 Fatores espectrais . . . 8

1.4 Fatores de Percep¸c˜ao de distˆancia . . . 9

1.5 Fatores cognitivos . . . 10

1.6 Precis˜ao na localiza¸c˜ao de fontes de ´audio . . . 10

1.7 Reverbera¸c˜ao . . . 12

1.8 Modos de reprodu¸c˜ao . . . 13

1.8.1 Reprodu¸c˜ao atrav´es de fones de ouvido . . . 13

1.8.2 Reprodu¸c˜ao atrav´es de alto-falantes . . . 14

2 Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 15 2.1 Introdu¸c˜ao . . . 15

2.2 Defini¸c˜ao . . . 15

2.3 Medi¸c˜ao de HRTF . . . 16

2.3.1 Bases de dados de HRTFs . . . 18

2.4 Caracter´ısticas no dom´ınio do tempo das HRTFs . . . 19

2.5 Caracter´ısticas em frequˆencia das HRTFs . . . 21

2.5.1 Caracter´ısticas em frequˆencia causados pelo pavilh˜ao da orelha . . . 21

2.5.2 Caracter´ısticas de fase m´ınima das HRTFs . . . 24

3 Personaliza¸c˜ao de HRTFs usando Isomap no plano horizontal 26 3.1 Introdu¸c˜ao . . . 26

3.2 Trabalhos anteriores . . . 27

3.3 Personaliza¸c˜ao de HRTFs . . . 28

(15)

Introdu¸c˜ao Geral xv

3.3.1 Redu¸c˜ao de dimensionalidade usando o Isomap . . . 28

3.3.2 Regress˜ao usando uma Rede Neural Artificial . . . 33

3.3.3 Reconstru¸c˜ao baseada na vizinhan¸ca . . . 33

3.4 Simula¸c˜oes . . . 34

3.4.1 Resultados . . . 37

4 Conclus˜oes e Perspectivas 40 4.1 Perspectivas . . . 41

(16)

Introdu¸c˜

ao Geral

O objetivo do ´audio espacial ou ´audio 3D ´e simular uma fonte de ´audio em posi¸c˜oes espaciais arbitr´arias. Assim, o ouvinte ´e capaz de perceber essas fontes sonoras como se fossem reproduzidas em um local espec´ıfico no espa¸co.

Os sistemas de ´audio espacial est˜ao sendo usados numa ampla gama de aplica¸c˜oes com requerimentos diferentes. O tipo de sistema de ´audio 3D escolhido para determinada aplica¸c˜ao depende de fatores como o realismo desejado, a precis˜ao requerida, os custos e a facilidade de uso.

Por exemplo, se o sistema de ´audio espacial for aplicado na pesquisa dos fatores que deter-minam a nossa percep¸c˜ao auditiva, ´e necess´ario que esse sistema permita manipular com alta precis˜ao o ´audio que atinge os dois ouvidos. Para este tipo de aplica¸c˜oes, o custo e facilidade de uso n˜ao s˜ao cr´ıticos.

Por outro lado, os sistemas de ´audio espacial tem que ser relativamente baratos e f´aceis de usar quando forem usados para testar a percep¸c˜ao auditiva em pessoas com deficiˆencias auditivas. Neste caso, a precis˜ao do sistema do ´audio 3D n˜ao ´e cr´ıtica.

J´a em aplica¸c˜oes de controle, informa¸c˜ao espacial complexa deve ser apresentada a um operador humano. Por exemplo, a informa¸c˜ao apresentada aos controladores de tr´afego a´ereo [9] ou operadores de equipamento remoto. Nestas aplica¸c˜oes, o mais importante ´e a quantidade de informa¸c˜ao fornecida, sendo em geral menos cr´ıtico o realismo, o custo e a precis˜ao.

Uma das maiores aplica¸c˜oes de sistemas de ´audio 3D ´e na ind´ustria do entretenimento (e.g. cinema, videojogos) onde hoje ´e comum encontrar os chamados de cinema em casa (home theaters) que utilizam v´arios alto-falantes para fornecer a sensa¸c˜ao de fontes de ´audio em movimento em torno do ouvinte. Neste tipo de aplica¸c˜oes, a precis˜ao n˜ao ´e t˜ao importante quanto o realismo e facilidade de uso.

Finalmente, os sistemas de ´audio 3D tamb´em est˜ao sendo usados em aplica¸c˜oes para pessoas com deficiˆencia visual. De fato, diversos trabalhos tˆem confirmado a utilidade do ´audio virtual como interface de usu´ario para o deficiente visual. Por exemplo, v´arios estudos concluem que o desempenho do usu´ario em atividades como a navega¸c˜ao melhora ao utilizar ´audio espacial como interface de usu´ario [10, 11, 12, 13]. Al´em disso, v´arias pesquisas tem proposto utilizar ´audio espa-cial como interface de usu´ario para o deficiente visual utilizar navegadores web [14, 15]. Inclusive, tˆem sido constru´ıdos v´arios prot´otipos de sistemas de substitui¸c˜ao sensorial e realidade aumentada visando o deficiente visual que utilizam ´audio espacial como interface [16, 17, 18, 19, 20].

(17)

Introdu¸c˜ao Geral 2

´

E precisamente neste ´ultimo tipo de aplica¸c˜ao que o projeto “Vis˜ao para o Cego: Traduzindo Conceitos Visuais 3D em Informa¸c˜oes de 3D de ´Audio” (Convˆenio Microsoft-Fapesp, processo 2012/50468-6) est´a atualmente pesquisando. O objetivo deste projeto, do qual esta disserta¸c˜ao faz parte, ´e a constru¸c˜ao e avalia¸c˜ao de um prot´otipo para aux´ılio do deficiente visual baseado na tradu¸c˜ao de informa¸c˜oes visuais 3D em informa¸c˜oes sonoras 3D. Neste projeto utiliza-se vis˜ao computacional para extrair informa¸c˜oes de alto n´ıvel e ´audio 3D para representar essa informa¸c˜ao com no¸c˜ao espacial. Especificamente, ap´os a identifica¸c˜ao de um objeto, o dispositivo reproduzir´a um som para esse objeto no seu local espacial espec´ıfico. Por exemplo, depois que o dispositivo identifique uma pessoa, o usu´ario ouvir´a seu nome como se o som se originasse no local exato onde a pessoa est´a. O Hardware deste sistema utiliza o sensor Microsoft Kinect [21] para coletar imagens coloridas e dados de profundidade, um girosc´opio para determinar a orienta¸c˜ao da cabe¸ca, fones de ouvido de condu¸c˜ao ´ossea para fornecer informa¸c˜ao sonora ao usu´ario sem bloquear o som ambiente, e um microcomputador port´atil para processar os algoritmos. O software fornecer´a v´arios modos de opera¸c˜ao para providenciar fun¸c˜oes especializadas como navega¸c˜ao, localiza¸c˜ao de pessoas e reconhecimento de objetos. Este sistema apresenta uma s´erie de desafios t´ecnicos e cient´ıficos, que incluem desenvolvimento e integra¸c˜ao de algoritmos de vis˜ao computacional assim como o projeto e avalia¸c˜ao de interfaces auditivas. ´E especificamente neste ´ultimo ponto que a presente disserta¸c˜ao pretende fornecer a base te´orica do ´audio espacial. Esta disserta¸c˜ao est´a vinculada ao projeto descrito atrav´es de uma bolsa Fapesp com n´umero de processo 2013/21349-1.

Motiva¸

ao

Os elementos principais na gera¸c˜ao do ´audio espacial s˜ao conhecidos como Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca (Head-Related Transfer Functions, HRTF). As HRTFs dependem da anatomia do indiv´ıduo pelo que devem ser medidas para cada pessoa. No entanto, a medi¸c˜ao de HRTFs, al´em de precisar de um equipamento especializado e custoso, ´e uma tarefa complexa e n˜ao escal´avel. J´a o uso de HRTFs n˜ao individualizadas causa uma diminui¸c˜ao na precis˜ao da localiza¸c˜ao de fontes sonoras. Portanto, ´e necess´ario personalizar as HRTFs para garantir ´audio 3D de alta qualidade.

Como as HRTFs est˜ao estreitamente relacionadas com determinados parˆametros antropo-m´etricos, elas podem ser personalizadas a partir de medidas antropom´etricas. Esses m´etodos s˜ao chamados de m´etodos de regress˜ao antropom´etrica porque predizem as HRTFs de um novo indiv´ıduo a partir de um modelo matem´atico. ´E comum que alguma t´ecnica de redu¸c˜ao de dimensionalidade seja aplicada `as HRTFs antes da personaliza¸c˜ao.

Nesse intuito, esta disserta¸c˜ao propˆos-se estudar o m´etodo de redu¸c˜ao de dimensionalidade n˜ao linear Isomap na an´alise e s´ıntese de ´audio espacial a fim de determinar se ele ´e capaz de descobrir as rela¸c˜oes n˜ao lineares subjacentes da percep¸c˜ao auditiva. Especificamente, este trabalho visou estudar os conceitos b´asicos do ´audio espacial a fim de conhecer seu potencial e suas limita¸c˜oes. Al´em disso, buscou analisar as caracter´ısticas das HRTFs mais relevantes na localiza¸c˜ao de fontes sonoras. O objetivo principal da presente disserta¸c˜ao foi, portanto, utilizar

(18)

Introdu¸c˜ao Geral 3

o conhecimento adquirido do ´audio 3D para introduzir uma nova t´ecnica de personaliza¸c˜ao de HRTFs baseado em antropometria usando Isomap.

Finalmente, esta disserta¸c˜ao, no contexto do projeto “Vis˜ao para o Cego: Traduzindo Conceitos Visuais 3D em Informa¸c˜oes de 3D de ´Audio” acima descrito, pretende ser usada como ponto de partida para investiga¸c˜oes e desenvolvimento de interfaces auditivas.

Organiza¸

ao da disserta¸

ao

O Cap´ıtulo 1 deste trabalho, al´em de introduzir os conceitos b´asicos do ´audio espacial e a percep¸c˜ao auditiva, inclui tamb´em uma breve descri¸c˜ao da reverbera¸c˜ao e os m´etodos de reprodu¸c˜ao de ´audio 3D. O Cap´ıtulo 2 apresenta as caracter´ısticas das HRTFs e sua rela¸c˜ao com a localiza¸c˜ao de fontes sonoras. O Cap´ıtulo 3 prop˜oe uma nova t´ecnica para personaliza¸c˜ao das HRTFs baseado em antropometria usando Isomap. Ao final, este trabalho ´e conclu´ıdo com uma an´alise dos resultados e recomenda¸c˜oes para futuras pesquisas.

(19)

Cap´ıtulo

1

Conceitos B´

asicos do ´

Audio Espacial

1.1

Introdu¸

ao

O ´audio espacial, chamado tamb´em de ´audio binaural, ´audio virtual ou ainda ´audio 3D, refere-se ao conjunto de t´ecnicas que modelam as caracter´ısticas anatˆomicas de uma pessoa (e.g. cabe¸ca, torso e ouvido externo) usando filtros digitais. Se filtrarmos uma fonte de ´audio digital atrav´es desses filtros, ´e poss´ıvel gerar sons virtuais que parecem originar-se em locais espaciais espec´ıficos [22]. Assim, o objetivo principal dos sistemas de ´audio 3D ´e controlar e manipular a percep¸c˜ao de ´audio espacial de uma pessoa dentro de um processo conhecido como manipula¸c˜ao espacial. ´E importante ressaltar que a gera¸c˜ao de ´audio 3D envolve tanto parˆametros t´ecnicos de engenharia quanto considera¸c˜oes psicoac´usticas.

Neste capitulo descreveremos os conceitos b´asicos da percep¸c˜ao auditiva, cujo estudo ´e convenientemente dividido em duas partes: o estudo da percep¸c˜ao de dire¸c˜ao e o estudo da percep¸c˜ao de distˆancia [23]. Come¸caremos apresentando os sistemas de coordenadas esf´erico e interaural na Se¸c˜ao 1.2. Na Se¸c˜ao 1.3 estudaremos os fatores que contribuem na percep¸c˜ao espacial da dire¸c˜ao. Embora o foco deste trabalho seja a percep¸c˜ao da dire¸c˜ao, na Se¸c˜ao 1.4 falaremos rapidamente dos fatores que intervˆem na percep¸c˜ao espacial da distˆancia. Al´em dos fatores de percep¸c˜ao de dire¸c˜ao e distˆancia, na Se¸c˜ao 1.5 estudaremos os fatores cognitivos. Na Se¸c˜ao 1.6 analisaremos os principais resultados experimentais existentes na literatura sobre a precis˜ao do sistema auditivo na percep¸c˜ao tanto da dire¸c˜ao quanto da distˆancia. Falaremos brevemente sobre a reverbera¸c˜ao e o efeito de precedˆencia na Se¸c˜ao 1.7. Finalmente, na Se¸c˜ao 1.8 estudaremos os dois modos de reprodu¸c˜ao de som virtual: fones de ouvido e alto-falantes.

1.2

Sistema de coordenadas

No estudo do ´audio espacial, a posi¸c˜ao de uma fonte de ´audio ´e especificada pela sua dire¸c˜ao e distˆancia em rela¸c˜ao `a cabe¸ca do ouvinte.

Antes de descrever os sistemas de coordenadas mais utilizados na analise do ´audio espacial, ´e importante definir alguns planos de referˆencia que utilizaremos ao longo desta disserta¸c˜ao.

A Figura 1.1 mostra os seguintes planos: 4

(20)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 5 x y z PLANO HORIZONTAL PLANO MEDIANO PLANO FRONTAL

Figura 1.1: Planos de referˆencia.

r ɸ ɵ x z y Frente Direita Acima Fonte Sonora

Figura 1.2: Sistema de Coordenadas Esf´erico.

• Plano mediano ou sagital: plano y-z • Plano frontal: plano x-z

• Plano horizontal ou transversal: plano x-y

O segmento de reta que liga as duas orelhas ´e chamado de eixo interaural. O ponto m´edio do eixo interaural ´e escolhido como a origem do sistema de coordenadas. O ouvido mais pr´oximo da fonte de ´audio ´e denominado de ouvido ipsilateral e o ouvido mais distante ´e chamado de ouvido contralateral.

Existem dois sistemas de coordenadas comumente utilizados na literatura: O sistema esf´erico de coordenadas e o sistema de coordenadas polares interaural.

A Figura 1.2 mostra o sistema esf´erico de coordenadas. A posi¸c˜ao da fonte de ´audio ´e definida por (r, θ, φ) onde a distˆancia desde a origem ´e representada por 0 ≤ r ≤ +∞. O ˆangulo entre o vetor da fonte de ´audio e o plano horizontal ´e representado pela eleva¸c˜ao −90◦ ≤ φ ≤ +90◦,

(21)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 6 Frente Direita Acima Θ Φ x y z r Fonte Sonora

Figura 1.3: Sistema de Coordenadas Polares Interaural.

plano horizontal; O ˆangulo no sentido hor´ario entre a proje¸c˜ao horizontal do vetor da fonte de ´

audio e o eixo y ´e denotado pelo azimute 0◦ ≤ θ < 360◦, onde 0, 90, 180, 270representam

posi¸c˜oes na frente, direita, atr´as e esquerda respectivamente no plano horizontal. O azimute θ tamb´em pode variar no intervalo −180◦ < θ ≤ +180◦, onde 0◦, 90◦, 180◦, −90◦ representam posi¸c˜oes na frente, direita, atr´as e esquerda respectivamente no plano horizontal.

A Figura 1.3 mostra o sistema de coordenadas polares interaural. A posi¸c˜ao da fonte de ´audio ´e definida por (r, Θ, Φ) onde a distˆancia desde a origem ´e representada por 0 ≤ r ≤ +∞. O azimute ´e o ˆangulo entre o vetor da fonte do ´audio e o plano mediano e varia entre −90◦ at´e +90◦. A eleva¸c˜ao ´e o ˆangulo entre o plano horizontal e a proje¸c˜ao do vetor da fonte de ´audio no

plano mediano, e varia entre −90◦ at´e +270◦. Nesse sistema, as coordenadas

(Θ, Φ) = (0◦, 0◦) , (0◦, 90◦) , (0◦, 180◦) , (0◦, 270◦) , (90◦, 0◦) , (−90◦, 0◦)

correspondem a um ponto diretamente na frente, acima, tr´as, abaixo, direita e esquerda respecti-vamente.

Salvo disposi¸c˜ao em contr´ario, o sistema esf´erico ´e adotado como padr˜ao neste trabalho. Note que as vari´aveis no sistema esf´erico est˜ao representadas por letras min´usculas enquanto aquelas do sistema interaural est˜ao representadas por mai´usculas.

1.3

Fatores de Percep¸

ao de dire¸

ao

Os fatores que determinam a percep¸c˜ao de dire¸c˜ao podem ser classificados em trˆes categorias: binaurais, espectrais e dinˆamicos.

1.3.1

Fatores binaurais

Os fatores mais importantes para determinar a posi¸c˜ao de uma fonte de ´audio no plano horizontal s˜ao chamados de fatores binaurais. Eles envolvem as diferen¸cas relativas das ondas

(22)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 7

que atingem ambas as orelhas. Essas diferen¸cas foram descritas por Lord Rayleigh em 1907 na teoria d´uplex da localiza¸c˜ao [24] como sendo a diferen¸ca de tempo interaural (Interaural Time Difference, ITD) e a diferen¸ca de intensidade interaural (Interaural Intensity Difference, IID).

A Diferen¸ca de Tempo Interaural (ITD) refere-se `a diferen¸ca de tempo de chegada entre as ondas sonoras nas orelhas esquerda e direita. A ITD depende tanto da frequˆencia quanto da dire¸c˜ao [25]. No entanto, se modelarmos a cabe¸ca como uma esfera de raio a (modelo de Woodworth [8]), a ITD independe da frequˆencia e ´e definida por

IT D (θ, φ) = a

c(arcsin (cos (φ) sin (θ)) + cos (φ) sin (θ)) , (1.1) onde c representa a velocidade do som (343 m/s).

A ITD ´e a principal caracter´ıstica para localiza¸c˜ao em frequˆencias abaixo de 1500 Hz pois, nessa faixa as dimens˜oes da cabe¸ca s˜ao menores do que o comprimento de onda das ondas sonoras. Assim, o sistema auditivo ´e capaz de detectar diferen¸cas de atraso de fase sem confus˜ao. Dependendo do tipo de est´ımulo, o ouvido humano pode diferenciar ITDs entre 0.005 e 1.5 ms [26]. J´a em altas frequˆencias, a partir de 1.5 KHz , a ITD se torna amb´ıgua porque a percep¸c˜ao de posi¸c˜ao lateral n˜ao ´e mais proporcional `a diferen¸ca de fase percebida. Mesmo assim, a ITD em altas frequˆencias ´e considerada como uma caracter´ıstica de importˆancia secundaria j´a que o sistema auditivo ´e capaz de extrair as diferen¸cas de atraso interaural dos envelopes das ondas sonoras em ambientes reverberantes [27].

Quando uma fonte de ´audio se afasta do plano mediano, a press˜ao sonora no ouvido mais distante (contralateral em rela¸c˜ao `a fonte de ´audio) ´e atenuada devido `a cabe¸ca. Esse fenˆomeno produz uma diferen¸ca de press˜ao sonora entre ambos os ouvidos, chamada de diferen¸ca de intensidade interaural (IID), que ´e especialmente not´avel em frequˆencias a partir de 1.5 kHz quando o comprimento de onda torna-se menor do que o diˆametro da cabe¸ca. A IID atinge valores entre 10 e 35 dB para frequˆencias de 3 a 10 kHz respectivamente o que permite detectar a posi¸c˜ao da fonte de ´audio em frequˆencias nas quais a IID ´e amb´ıgua. [28, 29].

1.3.2

Fatores dinˆ

amicos

Os fatores binaurais at´e aqui descritos para localizar a posi¸c˜ao horizontal (IID e ITD) do som podem se tornar amb´ıguos pois, teoricamente, ´e poss´ıvel criar IID e ITD idˆenticas para posi¸c˜oes diferentes de uma fonte de ´audio. De fato, valores iguais de ITD e IID podem existir para uma fonte de ´audio numa superf´ıcie cˆonica. Na Figura 1.4, observe que, ao manter constante o azimute no sistema de coordenadas polares interaural (veja Se¸c˜ao 1.2), forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD s˜ao teoricamente idˆenticos [22]. Essa afirma¸c˜ao ´e te´orica j´a que com uma pessoa real, as ITD e IID nunca poderiam ser idˆenticas [22]. Mesmo assim, quando as ITD e IID s˜ao muito pr´oximas para dois locais diferentes, pode existir ambiguidades.

O cone acima mencionado ´e chamado de cone da confus˜ao porque produz revers˜oes frente-tr´as ou revers˜oes acima-abaixo [22]. As revers˜oes frente-tr´as referem-se `a impress˜ao de que um som projetado numa posi¸c˜ao `a frente ou atr´as do indiv´ıduo esteja atr´as ou `a frente do mesmo, respectivamente. O mesmo conceito aplica-se para as revers˜oes acima-abaixo. Uma das formas

(23)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 8 Θ Frente Direita Acima Φ Cone de azimute constante Fonte de áudio

numa superfície cônica

Plano Me diano

Figura 1.4: a) Ao manter constante o azimute no sistema de coordenadas polares interaural, forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD s˜ao idˆenticos. Esse cone ´e conhecido como cone da confus˜ao.

de minimizar essa ambiguidade ´e utilizar caracter´ısticas dinˆamicas como a movimenta¸c˜ao da cabe¸ca. Muitos estudos tem mostrado a efic´acia da movimenta¸c˜ao da cabe¸ca para diminuir o n´umero de revers˜oes frente-tr´as ou acima-abaixo [30, 31].

1.3.3

Fatores espectrais

Os fatores espectrais ou monoaurais baseiam-se na modelagem de caracter´ısticas anatˆ o-micas como o pavilh˜ao da orelha (i.e a pina), a cabe¸ca e o torso, sendo a pina a mais importante sobretudo em frequˆencias a partir de 3 kHz quando o tamanho da pina ´e compar´avel com o comprimento de onda da fonte [32].

Tanto os fatores binaurais quanto os monoaurais s˜ao caracter´ısticas ´unicas da anatomia de cada pessoa. Essas diferen¸cas anatˆomicas s˜ao refletidas nas Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca (Head Related Transfer Function, HRTF). Uma HRTF ´e uma fun¸c˜ao de transferˆencia entre a fonte de ´audio e o ponto de entrada do conduto auditivo. Um par dessas fun¸c˜oes, uma para o ouvido esquerdo e outra para o direito, representa de maneira ´unica a posi¸c˜ao de uma fonte de ´audio no espa¸co [33]. Essas fun¸c˜oes s˜ao, em geral, n˜ao transfe-r´ıveis entre indiv´ıduos, tornando normal um aumento na taxa de erro de localiza¸c˜ao quando a HRTF n˜ao for personalizada [34]. No Cap´ıtulo 2, falaremos sobre as HRTFs com mais detalhes.

(24)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 9

1.4

Fatores de Percep¸

ao de distˆ

ancia

A percep¸c˜ao de distˆancia integra os seguintes fatores:

Intensidade: Quando a distˆancia entre o ouvinte e a fonte sonora aumenta, o n´ıvel de intensidade sonora diminui. Para uma fonte em espa¸co livre, a perda de intensidade ´e inversamente proporcional ao quadrado da distˆancia. O n´ıvel de perda em dB [35] quando uma fonte de ´

audio passa de uma distˆancia r1 a uma distˆancia r2 define-se como

perda(dB) = 20log10(

r2

r1

). (1.2)

Assim, uma fonte sonora atenua-se 6 dB com o dobro da distˆancia em espa¸co livre (i.e lei do inverso do quadrado da distˆancia). Note que essa lei n˜ao ´e aplic´avel para distˆancias dentro do campo pr´oximo (i.e distˆancias menores do que 1 metro) porque a presen¸ca da cabe¸ca afeta o n´ıvel de intensidade [3].

Do ponto de vista psicoac´ustico, a intensidade ´e considerado um fator de percep¸c˜ao rela-tivo j´a que a intensidade tamb´em pode mudar se alterarmos a potˆencia ac´ustica da fonte. Para usar a intensidade como um fator de percep¸c˜ao de distˆancia, ´e necess´ario ter algum conhecimento pr´evio das caracter´ısticas da fonte de ´audio. Por exemplo, n´os conhecemos por experiˆencia as caracter´ısticas associadas a um sussurro ou `a fala normal, sem importar a intensidade do som.

Rela¸c˜ao de energia direta-reverberante: em ambientes com superf´ıcies refletoras, a propor¸c˜ao entre a energia que chega ao ouvinte diretamente (sem contato com superf´ıcies refletoras) e a energia que chega ao ouvinte depois de refletir em aquelas superf´ıcies(energia reverberante) diminui a medida que a distˆancia aumenta. Essa propor¸c˜ao ´e conhecida como rela¸c˜ao de energia direta-reverberante. Estudos realizados por Mershon et al. [23] tem demons-trado que nossa percep¸c˜ao de distˆancia melhora em ambientes reverberantes e que a rela¸c˜ao de energia direta-reverberante ´e um fator de percep¸c˜ao absoluto, ao contr´ario da intensidade. Conte´udo espectral: para distˆancias a partir de 15 metros , ´e conhecido que as proprieda-des do ar atenuam mais as altas frequˆencias. Al´em disso, reflex˜oes em ambientes reverberantes podem tamb´em provocar mudan¸cas no espectro [3]. Da mesma forma que a intensidade, para que o conte´udo espectral seja considerado um fator de percep¸c˜ao de distˆancia, ´e necess´ario ter algum conhecimento pr´evio das caracter´ısticas da fonte de ´audio [5].

Fatores binaurais: Quando uma fonte encontra-se no campo pr´oximo, os fatores binaurais (i.e. IID e ITD) tornam-se dependentes da distˆancia e modificam o espectro caracterizado pelas HRTFs [36]. Um estudo realizado por Shinn-Cunningham [37] p˜oe em evidˆencia a dependˆencia entre os fatores binaurais e a distˆancia no campo pr´oximo.

(25)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 10

1.5

Fatores cognitivos

Al´em dos fatores descritos acima, fatores cognitivos como a familiaridade com a fonte de ´

audio e informa¸c˜oes visuais contribuem no processo de percep¸c˜ao tanto da dire¸c˜ao quanto da distˆancia.

A familiaridade refere-se ao conhecimento pr´evio do tipo da fonte de ´audio. Se uma fonte ´e associada com uma posi¸c˜ao particular ap´os experiˆencias repetidas (e.g a fala), a simula¸c˜ao da posi¸c˜ao ´e muito mais simples. Por exemplo, ´e mais f´acil simular uma voz sussurrando a 20 cm da orelha do que simular a mesma voz a 6 metros [22]. Da mesma forma, ´e mais f´acil simular o som de um avi˜ao acima de n´os do que simular o mesmo som embaixo.

Por outro lado, estudos realizados por Recanzone [38] sobre a contribui¸c˜ao das informa¸c˜oes visuais na localiza¸c˜ao de fontes de ´audio, descrevem o efeito ventr´ıloquo no qual o ouvido humano escuta um som como se ele se originasse numa fonte sonora no plano visual, embora essa fonte n˜ao seja a fonte real. Por exemplo, quando assistimos um filme no cinema, a voz dos autores parece originar-se da sua boca embora o som real origina-se nos alto-falantes.

1.6

Precis˜

ao na localiza¸

ao de fontes de ´

audio

A precis˜ao na localiza¸c˜ao de fontes de ´audio depende da faixa de frequˆencia e da posi¸c˜ao do est´ımulo [3]. Ao longo desta Se¸c˜ao descreveremos os resultados de v´arios experimentos com humanos que utilizaram sons reais reproduzidos atrav´es de alto-falantes para determinar a precis˜ao do ouvido humano na localiza¸c˜ao de fontes sonoras.

Para analisar a precis˜ao no plano horizontal e mediano, Blauert [3] prop˜oe o conceito de localization blur como sendo o erro de localiza¸c˜ao percebida numa zona no espa¸co. A Figura 1.5 mostra o erro de localiza¸c˜ao para quatro dire¸c˜oes ( 0◦, 90◦, 180◦ e 270◦) no plano horizontal calculado por Blauert [3] a partir dos resultados dos experimentos em condi¸c˜oes anecoicas (i.e sem reverbera¸c˜ao) realizados em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de ´audio 100 ms de ruido branco. Verifica-se que o menor erro de localiza¸c˜ao ´e de ±4◦ para a dire¸c˜ao frontal (i.e. azimute 0◦) e o maior est´a em torno de ±10◦ para posi¸c˜oes laterais. A an´alise de Blauert [3] mostra tamb´em que o erro de localiza¸c˜ao varia segundo o tipo de fonte, mas o m´ınimo encontra-se sempre na dire¸c˜ao frontal (i.e. azimute 0◦) atingindo o menor valor para est´ımulos como clicks (0.75◦) e a fala (1.5◦).

Por outro lado, a precis˜ao no plano mediano ´e menor do que no plano horizontal. Na Figura 1.6, podemos observar os resultados dos experimentos em condi¸c˜oes anecoicas realizados em sete indiv´ıduos por Damaske et al. [4] no plano mediano com um sinal de fala como est´ımulo de entrada. O menor erro atinge-se em posi¸c˜oes situadas na frente ou em eleva¸c˜oes pequenas onde o erro de localiza¸c˜ao est´a em torno de ±10◦. O erro aumenta `a medida que a eleva¸c˜ao cresce, at´e atingir valores m´aximos no hemisf´erio posterior onde o erro de localiza¸c˜ao ´e maior do que ±15◦.

(26)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 11 θ=270° θ=180° 180.7° ±5.5° 279.3° 1.0° ±9.2° ±3.6° ±10.0° 78.4° θ=90° θ=0°

Direção da fonte sonora em coordenadas esféricas Direção percebida

Figura 1.5: Erro de localiza¸c˜ao no plano horizontal obtida a partir dos experimentos realizados em condi¸c˜oes anecoicas (i.e sem reverbera¸c˜ao) em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de ´audio 100 ms de ruido branco. As setas representam a dire¸c˜ao da fonte sonora, os c´ırculos a posi¸c˜ao m´edia das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3].

Φ=0° Φ=36° Φ=90° Φ=144° Φ=180° 0° ±9° ±10° ±13° ±22° ±15° 30° 74° +112° +153°

Direção da fonte sonora em coordenadas interaurais. Direção percebida.

Figura 1.6: Erro de localiza¸c˜ao no plano mediano obtida a partir dos experimentos realizados por Damaske et al. [4] em sete indiv´ıduos com um sinal de fala como est´ımulo de entrada. As setas representam a dire¸c˜ao da fonte sonora, os c´ırculos a posi¸c˜ao m´edia das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3].

(27)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 12 1 5 10 1 5 10 = 0.32 k = 1.00

Distância da fonte sonora, r (m)

D ist â n ci a Est ima d a , r’ (m)

Figura 1.7: Rela¸c˜ao entre r0 e r para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0). Figura adaptada dos experimentos de Zahorik [5].

A capacidade do ouvido humano para estimar a distˆancia de uma fonte de ´audio ´e geralmente mais limitada do que a habilidade de localizar a dire¸c˜ao da mesma. Experimentos em ambientes reverberantes conduzidos em humanos por Zahorik [5] tˆem demonstrado que o sistema auditivo tende a subestimar distˆancias de fontes sonoras cuja posi¸c˜ao real encontra-se acima de aproxima-damente 1.6 m, e a sobrestimar distˆancias de fontes sonoras cuja posi¸c˜ao real localiza-se abaixo de aproximadamente 1.6 m. Ap´os analisar dados de v´arios estudos, Zahorik [5] concluiu que existe uma rela¸c˜ao entre a distˆancia percebida r0 e a distˆancia real r que pode ser descrita como

r0 = krα, (1.3)

onde k e α s˜ao constantes cujos valores dependem das condi¸c˜oes do experimento e do indiv´ıduo. Em coordenadas logar´ıtmicas a rela¸c˜ao entre r0 e r torna-se linear. Assim, uma linha com pendente 1 significa que r0 ´e idˆentica a r. A Figura 1.7 apresenta a rela¸c˜ao entre r0 e r obtida usando regress˜ao linear para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0).

1.7

Reverbera¸

ao

As reflex˜oes causadas pelas paredes, tetos, pisos ou outros objetos influenciam a percep¸c˜ao do som em ambientes fechados. Mesmo em ambientes abertos, uma quantidade significativa de energia ´e refletida pelas estruturas circundantes. No entanto, o ouvido humano apenas consegue perceber essas reflex˜oes quando a diferen¸ca de tempo entre a onda direta e a onda refletida est´a acima do limiar do eco. O limiar do eco varia segundo o tipo de fonte desde alguns milissegundos para pulsos at´e 50ms para sinais de fala [22].

Um efeito importante que acontece na faixa de 0.7 − 1.5ms (i.e acima do m´aximo valor do ITD) at´e o valor do limiar do eco ´e chamado de efeito de precedˆencia [39], efeito Hass [40]

(28)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 13

ou ainda lei do primeiro frente de onda [3]. O efeito de precedˆencia estabelece que, quando a diferen¸ca de tempo de chegada entre dois eventos sonoros encontra-se na faixa mencionada (i.e. 0.7 − 1.5ms), a posi¸c˜ao percebida pelo sistema auditivo ´e apenas aquela do som que chega

primeiro.

Por outro lado, a reverbera¸c˜ao ´e indispens´avel para simular distˆancia e fornecer ao ouvinte uma sensa¸c˜ao de imers˜ao. Para estudar o efeito reverberante de uma sala, modela-se a Resposta ao Impulso da Sala Binaural (Binaural Room Impulse Response, BRIR) [41]. Essa resposta ao impulso depende das caracter´ısticas f´ısicas da sala (tamanho, presen¸ca de materiais absorventes na sala), do ouvido (direito ou esquerdo), do indiv´ıduo e da posi¸c˜ao da fonte sonora. Um estudo mais profundo da modelagem de ambientes reverberantes est´a al´em do alcance deste texto. Para mais detalhes, recomenda-se a referˆencia [41].

1.8

Modos de reprodu¸

ao

Existem dois modos de reprodu¸c˜ao do som virtual: atrav´es de fones de ouvido e atrav´es de alto-falantes.

1.8.1

Reprodu¸

ao atrav´

es de fones de ouvido

Os fones de ouvido tem a vantagem de n˜ao depender do ambiente externo. No entanto, outros problemas surgem como a necessidade de um sistema de rastreamento da cabe¸ca. Como foi abordado na Se¸c˜ao 1.3, a ITD e IID podem tornar-se amb´ıguas devido ao cone da confus˜ao. As movimenta¸c˜oes da cabe¸ca ajudam eliminar essas ambiguidades. Por isso, ao utilizar fones de ouvido, torna-se necess´ario utilizar um sistema de rastreamento de cabe¸ca que pode ser imple-mentado mediante girosc´opios como em [42] ou ainda mediante sistemas de vis˜ao computacional como em [43].

Por outro lado, a Resposta em Frequˆencia dos Fones de Ouvido (Headphone Transfer Function, HpTF) normalmente n˜ao ´e plana, o que pode modificar o espectro do sinal de ´audio que queremos simular, destruindo os fatores espectrais que s˜ao vitais para a localiza¸c˜ao vertical e a desambigua¸c˜ao de confus˜oes frente-tr´as. Para solucionar esse inconveniente, ´e necess´ario implementar uma fase de equaliza¸c˜ao. A obten¸c˜ao da HpTF n˜ao ´e trivial e depende do tipo de fone de ouvido e das caracter´ısticas anatˆomicas do indiv´ıduo (i.e do pavilh˜ao da orelha). Isto quer dizer que ´e necess´ario medir uma HpTF para cada pessoa e tipo de fone de ouvido usando o procedimento descrito em [44]. No entanto, sempre que o fone de ouvido seja do tipo que ´e colocado na entrada do canal auditivo (i.e. que n˜ao seja do tipo circumaural), a dependˆencia das caracter´ısticas anatˆomicas do indiv´ıduo na HpTF pode ser descartada [45]. Assim, a HpTF pode ser aproximada pela resposta em frequˆencia medida pelo fabricante ou obtida mediante procedimentos como o descrito em [46], sem a necessidade de obter HpTFs individualizadas.

Outro problema comum que acontece ao utilizar fones de ouvido para reproduzir som virtual ´

e a dificuldade de externalizar o som, o que provoca que o ouvinte ache que o som est´a dentro da sua cabe¸ca. Para minimizar esse efeito, ´e importante incorporar reflex˜oes do ambiente (i.e. reverbera¸c˜ao) na gera¸c˜ao do evento auditivo [47].

(29)

Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 14

1.8.2

Reprodu¸

ao atrav´

es de alto-falantes

Os sinais binaurais originalmente s˜ao projetados para serem reproduzidos atrav´es de fones de ouvido. Quando esses sinais s˜ao reproduzidos com alto-falantes, apresenta-se o efeito da diafonia (crosstalk ). Para compensar esse efeito, ´e necess´ario utilizar m´etodos de cancelamento de diafonia [48]. No caso de sistemas com dois alto-falantes (i.e. sistemas stereo), antes da reprodu¸c˜ao, os sinais binaurais s˜ao filtrados para cancelar a diafonia produzida pelo alto-falante do ouvido oposto. No caso de m´ultiplos alto-falantes e ouvintes, Bauck et al. [49] generalizaram a teoria de cancelamento de diafonia Embora os m´etodo de reprodu¸c˜ao com alto-falantes n˜ao apresentem os problemas de externaliza¸c˜ao dos fones de ouvido, ainda ´e necess´ario implementar um sistema de rastreamento da orienta¸c˜ao e posi¸c˜ao da cabe¸ca.

(30)

Cap´ıtulo

2

Fun¸c˜

oes de Transferˆencia Relacionadas `

a

Cabe¸ca

2.1

Introdu¸

ao

As Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca (Head Related Transfer Functions, HRTF) s˜ao os elementos principais na an´alise e s´ıntese de ´audio espacial. Ao filtrar uma fonte de ´audio digital atrav´es de um par de HRTFs, uma para o ouvido esquerdo e outra para o direito, ´

e poss´ıvel gerar sons binaurais.

Na Se¸c˜ao 2.2 define-se formalmente as HRTFs. Na Se¸c˜ao 2.3 fala-se sobre as t´ecnicas mais utilizadas na medi¸c˜ao de HRTFs, e sobre as bases de dados de HRTFs constru´ıdas a partir de tais t´ecnicas. Na Se¸c˜ao 2.4, estuda-se as caracter´ısticas no dom´ınio do tempo das Respostas ao Impulso Relacionadas `a Cabe¸ca (Head Related Impulse Response, HRIR) que s˜ao as fun¸c˜oes equivalentes no tempo das HRTFs. Finalmente, s˜ao descritas na Se¸c˜ao 2.5 as principais caracter´ısticas em frequˆencia das HRTFs.

2.2

Defini¸

ao

O som emitido por uma fonte de ´audio em campo livre atinge as duas orelhas depois de interatuar com as caracter´ısticas anatˆomicas do indiv´ıduo (i.e. cabe¸ca, torso e pavilh˜ao da orelha). O sinal resultante cont´em v´arios fatores de percep¸c˜ao descritos no Cap´ıtulo 1, como a ITD, ILD e caracter´ısticas espectrais, que s˜ao modelados atrav´es das HRTF. Um par de HRTFs para os ouvidos esquerdo e direito, HL e HR respectivamente, ´e definida por

HL(r, θ, φ, f, a) = PL(r, θ, φ, f, a) P0(r, f ) , HR(r, θ, φ, f, a) = PR(r, θ, φ, f, a) P0(r, f ) , (2.1)

onde, PL e PR representam a press˜ao sonora no dom´ınio da frequˆencia nos ouvidos esquerdo e

direito respectivamente, P0 representa a press˜ao sonora no dom´ınio da frequˆencia em campo

livre no centro da cabe¸ca com a cabe¸ca ausente [44]. A vari´avel a depende das caracter´ısticas anatˆomicas de cada pessoa e ´e representada por um conjunto de medidas antropom´etricas da cabe¸ca, torso e pavilh˜ao da orelha. Se a distˆancia r for maior do que 1 metro, as HRTFs

(31)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 16 Câmara Anecoica Gerador de Sinal Analítico Amplificador de Potência Pós-processamento HRIRs não processadas HRIRs FFT HRTFs Microfone Sonda

Figura 2.1: Esquema geral para a medi¸c˜ao de HRTFs.

independem da distˆancia e s˜ao chamadas de HRTFs de campo distante [44]. Caso contr´ario, as HRTFs dependem da distˆancia e s˜ao chamadas de HRTFs de campo pr´oximo. O estudo das HRTFs de campo pr´oximo est´a al´em do alcance desta disserta¸c˜ao pelo que os termos HRTF e HRTF de campo distante ser˜ao usados indistintamente.

2.3

Medi¸

ao de HRTF

A HRTF de um indiv´ıduo para certa dire¸c˜ao pode ser obtida reproduzindo um sinal anal´ıtico na dire¸c˜ao desejada `a distˆancia de pelo menos 1 metro (i.e no campo distante) e medindo a resposta ao impulso usando microfones sonda colocados na proximidade do canal auditivo. Assim, duas HRIRs n˜ao processadas (HRIR RAW ) para o ouvido esquerdo e direito s˜ao obtidas para a dire¸c˜ao especificada. Elas s˜ao chamadas de HRIRs n˜ao processadas porque precisam ser p´os-processadas antes de poderem ser usadas como filtros. Esse procedimento ´e repetido para cada dire¸c˜ao desejada.

Observe que as HRTFs s˜ao fun¸c˜oes cont´ınuas por´em, na pr´atica, as HRTFs s˜ao medidas apenas para posi¸c˜oes discretas no espa¸co. As HRTFs para as posi¸c˜oes restantes s˜ao obtidas por interpola¸c˜ao espacial. A interpola¸c˜ao de HRTFs n˜ao ´e um assunto trivial e foi abordado em detalhe por Carlile et al. [50].

A Figura 2.1 mostra um esquema geral do procedimento de medi¸c˜ao de HRTFs descrito cujos detalhes s˜ao considerados a seguir:

Sinal anal´ıtico de entrada: ´e muito comum a presen¸ca de ru´ıdo nos sistemas de medi¸c˜ao sendo necess´ario que as caracter´ısticas do sinal de entrada ajudem a melhorar a rela¸c˜ao sinal-ru´ıdo. Embora seja poss´ıvel aumentar o n´ıvel de potˆencia do sinal de entrada, um excessivo aumento de potˆencia poderia causar distor¸c˜ao em sistemas electroac´usticos como alto-falantes e amplificadores. Assim, para aumentar o n´ıvel de potˆencia sem violar a linearidade dos sistemas electroac´usticos, um sinal de entrada ideal deveria ter um valor baixo de fator de crista (rela¸c˜ao entre o valor pico e o valor efetivo de um sinal) [51].

(32)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 17

(e.g. impulsos, barridos sinusoidais), sinais de ru´ıdo aleat´orio (e.g ru´ıdo branco, ru´ıdo rosa) e sinais de ru´ıdo pseudoaleat´orio (e.g. sequˆencias de comprimento m´aximo, c´odigos Golay) [22].

Dos sinais mencionados, os sinais de ru´ıdo pseudoaleat´orio s˜ao os mais utilizados, pois geram HRIRs com maior rela¸c˜ao sinal-ru´ıdo devido a seu baixo fator de crista [22]. Para mais detalhes, um estudo comparativo dos diferentes sinais anal´ıticos para a obten¸c˜ao de respostas ao impulso ´

e dado por Stan et al. [51].

Posi¸c˜ao do microfone sonda: O microfone ´e comumente colocado na entrada do canal auditivo bloqueado para minimizar as reflex˜oes do conduto. Essa t´ecnica foi introduzida pela primeira vez por [44] e tem sido muito utilizada pela sua facilidade e seguran¸ca. Outras posi¸c˜oes introduzidas pelo mesmo autor s˜ao na entrada do canal auditivo sem bloquear ou ainda dentro do canal auditivo perto do t´ımpano.

Indiv´ıduos: As HRIRs s˜ao fun¸c˜oes que dependem das caracter´ısticas antropom´etricas que variam de pessoa para pessoa, tornando-se dif´ıcil ter um conjunto de HRIRs gerais. Por isso, nas medi¸c˜oes de HRIR utilizam-se v´arias pessoas. Como as pessoas tendem a fazer pequenos movimentos da cabe¸ca e corpo especialmente durante sess˜oes de medi¸c˜ao longas, utilizam-se tamb´em cabe¸cas e torsos artificias como o KEMAR (Knowles Electronics Manikin For Acoustics Research) [52]. O KEMAR foi projetado baseado nas dimens˜oes m´edias das caracter´ısticas antropom´etricas de um conjunto de pessoas.

Local: Para eliminar as reflex˜oes no ambiente, ´e comum que as medi¸c˜oes de HRIR sejam feitas em cˆamaras anecoicas. No entanto, devido `as dificuldades t´ecnicas e altos custos de uma cˆamara anecoica, algumas medi¸c˜oes de HRIR tem sido feitas em cˆamaras n˜ao anecoicas [7]. Em cˆamaras n˜ao anecoicas, usualmente, o tempo de chegada das ondas refletidas pode ser controlado para que elas cheguem depois da dura¸c˜ao da HRIR (no ordem de alguns milissegun-dos). Isto pode ser alcan¸cado colocando material absorvente ac´ustico na sala [53]. Sob estas condi¸c˜oes, uma janela temporal ´e aplicada na HRIR n˜ao processada para eliminar as reflex˜oes n˜ao desejadas [7].

P´os-processamento das HRIR n˜ao processadas: Al´em do truncamento em tempo mencionado acima para eliminar as reflex˜oes, caso a HRIR for medida em cˆamaras n˜ao anecoicas, as HRIR n˜ao processadas s˜ao equalizadas para compensar as distor¸c˜oes de espectro causadas pelo sistema electroac´ustico (i.e. microfones, alto-falantes, amplificadores) [22], e para minimizar mudan¸cas no timbre do sinal a ser filtrado pelas HRTF [44].

A abordagem mais simples consiste em medir a press˜ao sonora Po no dom´ınio da frequˆencia

em campo livre no centro da cabe¸ca com a cabe¸ca ausente. Assim, se a fun¸c˜ao de transferˆencia do sistema electroac´ustico fosse H0(f ), a press˜ao sonora medida seria H0(f )P (θ, φ, f ). Usando o

mesmo sistema, a press˜ao medida no centro da cabe¸ca com a cabe¸ca ausente seria H0(f )P0(f ).

Ent˜ao, se dividirmos as duas press˜oes medidas (H0(f )P (θ, φ, f ) e H0(f )P0(f ) ), os efeitos

(33)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 18

equa¸c˜ao 2.1 [53].

O processo descrito ´e chamado de equaliza¸c˜ao baseada em medi¸c˜oes. Outras abordagens utilizadas s˜ao a equaliza¸c˜ao de campo livre e a equaliza¸c˜ao de campo difuso [44]. A primeira ´e implementada em rela¸c˜ao a uma das HRTFs medidas em uma dire¸c˜ao especifica, normalmente na dire¸c˜ao frontal (θ = 0, φ = 0) e define-se como

HLivre(θ, φ, f ) =

H(θ, φ, f )

H(θ = 0, φ = 0, f ). (2.2) Ao contr´ario da equaliza¸c˜ao baseada em medi¸c˜oes, observe que as HRTF equalizadas em campo livre independem da posi¸c˜ao escolhida do microfone, pois tanto o numerador quanto o denominador da equa¸c˜ao 2.2 cont´em a fun¸c˜ao de transferˆencia (independente da dire¸c˜ao) do canal auditivo [44]. Assim, a fun¸c˜ao de transferˆencia do canal auditivo ´e cancelada devido `a divis˜ao.

Por outro lado, a equaliza¸c˜ao de campo difuso ´e feita em rela¸c˜ao ao valor quadr´atico m´edio das magnitudes das HRTFs em todas as dire¸c˜oes

Hdif usa(θ, φ, f ) = H(θ, φ, f ) s 1 M M −1 P i=0 |H(θi, φi, f )|2 . (2.3)

Note que as HRTF equalizadas em campo difuso tamb´em independem da posi¸c˜ao escolhida do microfone. No entanto, essa afirma¸c˜ao ´e apenas v´alida para a magnitude da HRTF.

2.3.1

Bases de dados de HRTFs

Usando o procedimento descrito na Se¸c˜ao 2.3, v´arias equipes de pesquisa tem constru´ıdo bases de dados de HRTFs de campo pr´oximo.

Gardner et al. [52], Genuit et al. [54] e Bovbjerg et al. [55] tˆem medido HRTFs usando apenas cabe¸cas artificias. Uma das bases de dados mais populares em pesquisa ´e precisamente a base obtida da cabe¸ca artificial KEMAR pelo MIT Media Lab [52] que est´a publicamente dispon´ıvel para download na Internet. Ela cont´em HRTFs para 710 dire¸c˜oes cuja eleva¸c˜ao varia entre −40◦ at´e 90◦ com resolu¸c˜ao de 10◦. O azimute varia entre 0◦ e 360◦ com resolu¸c˜ao vari´avel, sendo a resolu¸c˜ao m´axima de 5◦ para regi˜oes cercanas ao plano horizontal.

Uma das bases mais completas dispon´ıveis publicamente na Internet ´e a base de dados CIPIC [7] pelo fato de ter medi¸c˜oes para uma quantidade grande de indiv´ıduos (43 humanos e o KEMAR) e suas medidas antropom´etricas. Foram realizadas 1250 medi¸c˜oes em coordenadas interaurais (veja Se¸c˜ao 1.2) para 25 azimutes n˜ao uniformemente distribu´ıdos com resolu¸c˜ao m´axima de 5◦ para dire¸c˜oes pr´oximas ao plano mediano e 50 eleva¸c˜oes com resolu¸c˜ao de 5.625◦ na faixa −45◦ - 230.625◦. Uma desvantagem da base de dados CIPIC ´e que a resolu¸c˜ao em dire¸c˜oes laterais ´e baixa (15◦-20◦).

A base de dados de Xie et al. [56] inclui medi¸c˜oes de 52 indiv´ıduos chineses (26 homens e 26 mulheres) com resolu¸c˜ao em azimute de 5◦ para seis eleva¸c˜oes equidistantes entre −30◦ e 45◦. HRTFs para as eleva¸c˜oes 60◦, 75◦ e 90◦ tamb´em foram medidas, mas com resolu¸c˜ao em azimute maior do que 10◦. Um aspecto importante dessa base de dados ´e que a quantidade de homens e

(34)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 19

mulheres ´e a mesma, o que evita qualquer vi´es devido `as diferen¸cas antropom´etricas de ambos os sexos. Al´em disso, note que todos os indiv´ıduos nesse estudo s˜ao chineses, ao contr´ario da maioria das bases como a base CIPIC que foi feita principalmente em indiv´ıduos ocidentais. Os resultados apresentados pelos autores demonstram que o fato dos chineses terem caracter´ısticas antropom´etricas diferentes daquelas dos indiv´ıduos ocidentais, faz com que as caracter´ısticas temporais e espectrais das HRTFs variem.

As maiores resolu¸c˜oes atingidas at´e hoje em HRTFs medidas s˜ao aquelas das bases de dados obtidas de cabe¸cas artificiais por Genuit et al. [54] e Bovbjerg et al. [55]. Bovbjerg et al. [55] mediram as HRTFs para 11975 dire¸c˜oes com resolu¸c˜ao de 2◦ tanto na eleva¸c˜ao quanto no azimute. Quanto `a base de Genuit et al. [54], a resolu¸c˜ao ´e de 0.9◦ no plano horizontal e varia entre 1◦ e 5◦ para o resto de dire¸c˜oes.

2.4

Caracter´ısticas no dom´ınio do tempo das HRTFs

No dom´ınio do tempo, as HRIRs s˜ao as fun¸c˜oes equivalentes das HRTFs. O fator mais im-portante no tempo ´e a ITD. A seguir ser˜ao descritas algumas abordagens utilizadas na literatura para estimar a ITD a partir de um par de HRTFs.

Abordagem 1: Calcular a ITD como sendo a diferen¸ca de tempo interaural m´edio calculado nas HRIRs esquerda e direita [57],

IT D(θ, φ) = ¯tL− ¯tR, (2.4)

onde o tempo m´edio das HRIRs ´e definido como

¯ tL = ∞ R −∞ t h2 L(t, θ, φ)dt ∞ R −∞ h2 L(t, θ, φ)dt , ¯tR = ∞ R −∞ t h2 R(t, θ, φ)dt ∞ R −∞ h2 R(t, θ, φ)dt . (2.5)

Abordagem 2: Calcular a correla¸c˜ao cruzada das HRIRs esquerda e direita [58],

ΦLR(τ ) = R+∞ −∞ hL(t + τ, θ, φ) hR(t, θ, φ) dt r  R+∞ −∞ h 2 L(t, θ, φ) dt   R+∞ −∞ h 2 R(t, θ, φ) dt  , (2.6)

onde sabemos que

0 ≤ |ΦLR(τ )| ≤ 1.

O tempo τmax que maximiza ΦLR(τ ) ´e definida como a ITD, ou seja,

IT D(θ, φ) = τmax. (2.7)

Abordagem 3: Obter a ITD a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) das HRIRs esquerda e direita [59]. Na Figura 2.2, note que no in´ıcio de cada HRIR o valor do sinal ´e zero devido ao tempo que demora em percorrer as ondas sonoras at´e atingir a orelha

(35)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 20 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 −0.1 −0.05 0 0.05 0.1 0.15 Tempo (ms) Amplitude Normalizada 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 −1 −0.5 0 0.5 1 Tempo (ms) Amplitude Normalizada HRIR Esquerda HRIR Direita Atraso de Propagação ITD

Figura 2.2: HRIRs do KEMAR da base de dados CIPIC para Θ = 80◦, Φ = 0◦. ITD calculada a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) de um par de HRTFs.

durante a medi¸c˜ao (i.e o atraso de propaga¸c˜ao). Assim, a ITD ´e definida como a diferen¸ca entre o tempo de in´ıcio da HRIR esquerda e direita, e ´e calculada por

IT D(θ, φ) = tL,η− tR,η. (2.8)

No entanto, devido a erros de medi¸c˜ao, valores diferentes de zero podem aparecer no in´ıcio da HRIR. Para reduzir os efeitos desses artefatos, considera-se o tempo de in´ıcio quando a HRIR supera uma determinada porcentagem η (5% - 20%) do valor m´aximo. Experimentos realizados por Xiaoli [59] sugerem utilizar um valor de η = 10%.

Antes de aplicar qualquer dos m´etodos descritos para a estima¸c˜ao da ITD, costuma-se filtrar a HRIR atrav´es de um filtro passa baixa para diminuir os efeitos do pavilh˜ao da orelha. Por exemplo, Xie et al. [56] usam um filtro passa baixa com frequˆencia de corte de 2.7 KHz antes de calcular a ITD usando o m´etodo da correla¸c˜ao cruzada.

O m´aximo do valor absoluto da ITD (i.e o |IT D|max) ´e considerado um parˆametro relevante nas HRIRs que caracteriza a variabilidade entre indiv´ıduos. Estudos realizados por Algazi et al. [7] demonstram que esse valor est´a fortemente correlacionado com o tamanho da cabe¸ca (coeficiente de correla¸c˜ao ρ = 0.87). Al´em disso, a m´edia da |IT D|max calculada por [56] ´e de 722µs com desvio padr˜ao σ = 22µs para homens e 686µs com σ = 17µs para mulheres. Os mesmos autores relatam que o |IT D|max ocorre normalmente no plano horizontal (i.e. φ = 0◦) no azimute θmax, entre 90◦ e 95◦, ou entre 265◦ e 270◦.

(36)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 21

2.5

Caracter´ısticas em frequˆ

encia das HRTFs

Para analisar as caracter´ısticas em frequˆencia das HRTFs, a Figura 2.3 apresenta a magnitude de algumas HRTFs no plano horizontal para quatro azimutes onde pode-se observar o seguinte [22]: 1. Abaixo de 200 Hz aproximadamente, existe uma queda do n´ıvel do sinal. Essa queda acontece porque a resposta em frequˆencia dos alto-falantes utilizados na medi¸c˜ao das HRTFs ´e normalmente limitada em baixas frequˆencias.

2. Em frequˆencias abaixo da faixa de 0.4-0.5 KHz, o efeito de atenua¸c˜ao da cabe¸ca ´e despre-z´ıvel pelo que as magnitude das HRTFs para ambos os ouvidos est˜ao em torno de 0 dB e s˜ao, grosso modo, independentes da frequˆencia.

3. `A medida que a frequˆencia cresce acima de 1.5 KHz, as diferen¸cas de n´ıvel interaural tornam-se mais evidentes. Assim, a magnitude do ouvido ipsilateral (e.g. veja na Figura 2.3 a magnitude do ouvido esquerdo no azimute θ = 80◦) ´e maior do que a magnitude do ouvido contralateral. A diferen¸ca de ambas as magnitudes (i.e a IID) ´e definida como

IID (θ, φ, f ) = 20log10 HR(θ, φ, f ) HL(θ, φ, f ) . (2.9)

4. Em altas frequˆencias, a partir da faixa de 5-6 KHz, a magnitude das HRTFs variam de uma maneira complexa apresentando picos e notches.

5. O pico perto dos 4 KHz na magnitude das HRTFs ´e devido `a ressonˆancia do canal auditivo.

2.5.1

Caracter´ısticas em frequˆ

encia causados pelo pavilh˜

ao da orelha

Considera-se que em frequˆencias a partir de 3 KHz, quando o tamanho do pavilh˜ao da orelha ´

e compar´avel com o comprimento de onda da fonte, as caracter´ısticas do pavilh˜ao tornam-se relevantes na resolu¸c˜ao de confus˜oes frente-tr´as e na localiza¸c˜ao de fontes [32].

Como foi estudado na Se¸c˜ao 1.3, ITDs e IIDs similares causam ambiguidades (i.e confus˜oes frente-tr´as) que s˜ao resolvidas pelas caracter´ısticas em alta frequˆencia devidas ao ouvido externo. Para entender como o pavilh˜ao da orelha consegue fornecer informa¸c˜oes espectrais para resolver tais ambiguidades, a Figura 2.4 mostra a magnitude das HRTFs no plano horizontal para um mesmo ouvido nos azimutes 0◦ (i.e frente) e 180◦ (i.e tr´as). Observe que em altas frequˆencias, as diferen¸cas das respostas em magnitude de ambas as dire¸c˜oes s˜ao evidentes. Essas diferen¸cas causadas pela assimetria da cabe¸ca, a posi¸c˜ao da orelha e o efeito do ouvido externo permitem resolver as revers˜oes frente-tr´as [22].

Por outro lado, a magnitude das HRTFs caraterizam-se por apresentar picos e notches em frequˆencias a partir da faixa de 5-6 KHz. A frequˆencia central do primeiro desses notches ´e

(37)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 22 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 frequência (KHz) H R T F Ma g n it u d e (d B) 0.1 0.1 0.1 0.1 HRTF Esquerda HRTF Direita θ=0° θ=30° θ=45° θ=80°

Figura 2.3: Resposta em magnitude das HRTFs do KEMAR na base de dados CIPIC para v´arios azimutes no plano horizontal.

considerado um fator importante na localiza¸c˜ao vertical de fontes sonoras segundo experimentos psicoac´usticos realizados por [60]. A Figura 2.5 mostra a magnitude de algumas HRTFs no plano mediano (i.e θ = 0◦ ). Observe que a frequˆencia central do primeiro notch ´e aproximadamente igual para ambas as orelhas.

A Figura 2.6 mostra uma representa¸c˜ao bidimensional (i.e. uma imagem) de um conjunto de HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo, onde cada coluna ´e a magnitude de uma HRTF para determinada eleva¸c˜ao. A intensidade representa o valor em dB da resposta em magnitude e os pontos em vermelho s˜ao as frequˆencias marcadas manualmente do primeiro notch para cada HRTF. Note que a frequˆencia do primeiro notch aumenta, grosso modo, `a medida que a eleva¸c˜ao passa de −45◦ a 50◦. A partir de aproximadamente 60◦ a frequˆencia do notch tende a diminuir gradualmente [56].

Outro fator importante em rela¸c˜ao `a frequˆencia do primeiro notch ´e a sua variabilidade entre diferentes indiv´ıduos. Algazi et al. [7] tˆem calculado a m´edia da frequˆencia central do primeiro notch em 52 indiv´ıduos da base de dados CIPIC [7] na dire¸c˜ao (θ = 0◦, φ = 0◦). O resultado obtido foi de 7.6 KHz com desvio padr˜ao de 1050 Hz. Considerando um desvio padr˜ao t˜ao alto, os autores concluem que existe uma alta variabilidade da frequˆencia do primeiro notch entre indiv´ıduos provocada pelas caracter´ısticas antropom´etricas do ouvido externo.

(38)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 23 0.1 1 10 −40 −20 0 20 40 frequência (KHz) H R T F M a g n it u d e (d B) θ=0°, Ouvido esquerdo θ=180°, Ouvido esquerdo

Figura 2.4: Resposta em magnitude das HRTFs nos azimutes 0◦ (i.e frente) e 180◦ (i.e tr´as) no plano horizontal. As diferen¸cas em altas frequˆencias permitem resolver confus˜oes frente-tr´as.

1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 ɸ=−45°, ouvido Esquerdo ɸ=0°, ouvido Esquerdo ɸ=45°, ouvido Esquerdo ɸ=−45°, ouvido Direito ɸ=0°, ouvido Direito ɸ=45°, ouvido Direito 6.0 KHz 6.2 KHz 8.1 KHz 8.4 KHz 10.1 KHz 10.4 KHz Frequência (KHz) H R T F Ma g n it u d e (d B)

Figura 2.5: Resposta em magnitude de v´arias HRTFs no plano mediano (i.e. θ = 0). O primeiro notch para cada eleva¸c˜ao foi ressaltado.

(39)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 24 Elevação (graus) 0 50 100 150 200 0 2 4 6 8 10 12 14 16 18 −35 −30 −25 −20 −15 −10 −5 0 5 10 -45 dB F re q u ê n ci a (KH z)

Figura 2.6: Representa¸c˜ao em duas dimens˜oes da resposta em magnitude das HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo. Cada linha representa uma HRTF e a intensidade o valor em dB da resposta em magnitude. O primeiro notch para cada eleva¸c˜ao foi ressaltado em vermelho.

2.5.2

Caracter´ısticas de fase m´ınima das HRTFs

As HRTFs s˜ao fun¸c˜oes de vari´avel complexa que portanto tˆem magnitude e fase. Segundo Oppenheim et al. [61], as fun¸c˜oes de transferˆencia LTI e por conseguinte as HRTFs, podem ser representadas pelo produto da sua fun¸c˜ao de fase m´ınima Hmin(θ, φ, f ), uma fun¸c˜ao passa tudo

exp [jψall(θ, φ, f )] e uma fun¸c˜ao de fase linear exp [−j2πf T (θ, φ)],

H (θ, φ, f ) = Hmin(θ, φ, f ) exp [jψall(θ, φ, f )] exp [−j2πf T (θ, φ)] , (2.10)

onde T (θ, φ) ´e um atraso em tempo causado pela propaga¸c˜ao das ondas sonoras desde a fonte de ´

audio at´e o ouvido, e corresponde aproximadamente ao atraso de propaga¸c˜ao da Figura 2.2 [62]. Por outro lado, sabemos que a magnitude de uma fun¸c˜ao de transferˆencia e sua correspondente magnitude de fase m´ınima s˜ao iguais [61], pelo que

Hmin(θ, φ, f ) = |Hmin(θ, φ, f )| exp [jψmin(θ, φ, f )]

Hmin(θ, φ, f ) = |H (θ, φ, f )| exp [jψmin(θ, φ, f )] ,

(2.11) onde a fase da fun¸c˜ao de fase m´ınima e o logaritmo da magnitude est˜ao relacionados mediante a transformada de Hilbert ψmin(θ, φ, f ) = − 1 π +∞ Z −∞ ln |H (θ, φ, x)| f − x dx. (2.12)

(40)

Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 25

Da equa¸c˜ao 2.10, deduz-se que a fase de uma HRTF ´e dada por

ψ (θ, φ, f ) = ψmin(θ, φ, f ) + ψall(θ, φ, f ) − 2πf T (θ, φ) . (2.13)

Se a componente de fase da fun¸c˜ao passa tudo ψall for desprez´ıvel, a HRTF pode ser aproximada

como

H (θ, φ, x) ≈ Hmin(θ, φ, f ) exp [−j2πf T (θ, φ)] . (2.14)

A equa¸c˜ao 2.14 ´e chamada de aproxima¸c˜ao de fase m´ınima das HRTFs, na qual uma HRTF ´

e aproximada pela sua fun¸c˜ao de fase m´ınima em cascata com um atraso puro T (θ, φ). Na pr´atica, esse atraso ´e a ITD calculada a partir de algum dos m´etodos descritos na Se¸c˜ao 2.4 ou ainda outro m´etodo. Note que, nesse caso, o atraso seria colocado apenas em uma das HRTFs. Estudos realizados por [62] e [63] tˆem demonstrado a validade do modelo de fase m´ınima das HRTFs. Esta aproxima¸c˜ao ´e importante porque permite processar a HRTF utilizando apenas a sua magnitude. Assim que a magnitude da HRTF for processada, a HRTF complexa pode ser reconstru´ıda utilizando a equa¸c˜ao 2.14.

Referências

Documentos relacionados

O CES é constituído por 54 itens, destinados a avaliar: (a) cinco tipos de crenças, a saber: (a1) Estatuto de Emprego - avalia até que ponto são favoráveis, as

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

Tabela 3: Parâmetros de GL na preferência pelos bebedouros direito ou esquerdo médias das cinco sessões de Trinomys yonenagae machos e fêmeas n=14 em gaiola de alojamento, sessões

O presente trabalho se configura como uma ação afirmativa tendo como objetivo discutir e refletir sobre a seguinte questão: como se pode incluir a educação para as

A utilização de matérias-primas alternativas típicas de cada país, como o óleo de mamona no Brasil, é outro ponto de elevado interesse industrial tanto por razões econômicas

Por último, la Convención Americana sobre Derechos Humanos (en adelante CADH) en el art. Toda persona tiene derecho a la libertad de pensamiento y de expresión. Este

O Pólo das Tecnologias de Produção (Produtech) engloba Empresas Produtoras de Tecnologia de Produção (EPTP) e respectivas associações empresariais, um conjunto de

Neste contexto o presente estudo teve como objetivo analisar a percepção dos estudantes de uma escola pública rural e uma escoa urbana do Cariri Ocidental da