Felipe Leonel Grijalva Ar´
evalo
Redu¸
c˜
ao de Dimensionalidade usando Isomap aplicada
ao ´
Audio Espacial
Campinas 2014
Universidade Estadual de Campinas
Faculdade de Engenharia El´
etrica e de Computa¸c˜
ao
Felipe Leonel Grijalva Ar´
evalo
Redu¸c˜ao de Dimensionalidade usando Isomap aplicada ao ´Audio Espacial
Disserta¸c˜ao de mestrado apresentada `a Faculdade de Engenharia El´etrica e de Computa¸c˜ao como parte dos requisitos exigidos para a obten¸c˜ao do t´ıtulo de Mestre em Engenharia El´etrica. ´Area de concentra¸c˜ao: Engenharia de Computa¸c˜ao.
Orientador: Luiz C´esar Martini
Co-Orientador: Siome Klein Goldenstein
Este exemplar corresponde `a vers˜ao final da disserta¸c˜ao defendida pelo aluno, e orientada pelo Prof. Dr. Luiz C´esar Martini
Campinas 2014
A mi esposa e hija por su invaluable compa˜n´ıa, amor y comprensi´on en este ambicioso proyecto que es la vida.
Agradecimentos
A Deus, o arquiteto da vida.
A minha esposa e filha, pelo amor incondicional, vocˆes s˜ao a minha for¸ca. Aos meus pais, pela apoio durante esta jornada.
Ao professor Luiz Martini, pela oportunidade de trabalhar como seu orientando e pelos conheci-mentos transmitidos ao longo deste tempo.
Ao professor Siome Goldenstein (IC/Unicamp), pelas ´otimas recomenda¸c˜oes feitas e discuss˜oes frut´ıferas.
Ao Dinei Florencio (Microsoft Research), pela parceria, sugest˜oes e contribui¸c˜oes feitas.
Aos meus colegas mais pr´oximos: Vanessa, Laurindo, Douglas e Augusto, pela convivˆencia e a troca de experiˆencias.
Ao professor Julio Larco, pela amizade e ideias para melhorar este trabalho. Aos meus amigos e demais colegas da FEEC.
`
A Capes pelo apoio financeiro.
A Iece/Senescyt pelo apoio financeiro.
Aos membros da banca examinadora, pelos coment´arios, sugest˜oes e contribui¸c˜oes, que ajudaram a melhorar a qualidade deste manuscrito.
`
A Funda¸c˜ao de Amparo `a Pesquisa do Estado de S˜ao Paulo (FAPESP) pelo apoio financeiro concedido atrav´es do processo no 2013/21349-1.
Resumo
Conforme as aplica¸c˜oes de realidade aumentada tornam-se mais relevantes, h´a um crescente esfor¸co na pesquisa do ´audio espacial. O termo ´audio espacial refere-se ao conjunto de t´ecnicas onde a anatomia de uma pessoa (i.e. o pavilh˜ao da orelha, a cabe¸ca e o torso) ´e modelada por meio de filtros digitais. Ao filtrar uma fonte de ´audio atrav´es desses filtros, o ouvinte ´e capaz de perceber um som como se ele fosse reproduzido em um local espec´ıfico no espa¸co. No dom´ınio da frequˆencia, esses filtros s˜ao conhecidos como Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca (Head-Related Transfer Functions, HRTF).
Nesta disserta¸c˜ao, estabelecem-se os princ´ıpios b´asicos do ´audio espacial, for-necendo uma analise das caracter´ısticas espectrais das HRTFs. Al´em disso, como essas caracter´ısticas espectrais diferem de uma pessoa para outra, prop˜oe-se um novo m´etodo baseado em antropometria para personalizar HRTFs no plano horizontal. O m´etodo usa o Isomap, redes neurais artificias e um procedimento de reconstru-¸
c˜ao baseado na vizinhan¸ca. Assim, modificou-se a constru¸c˜ao do grafo do Isomap para ressaltar a individualidade das HRTFs e efetuar uma redu¸c˜ao de dimensionali-dade n˜ao linear das HRTFs. Em seguida, utilizou-se uma rede neural artificial para modelar as rela¸c˜oes n˜ao lineares entre as caracter´ısticas antropom´etricas e as HRTFs de baixa dimensionalidade. E finalmente, usou-se uma abordagem de reconstru¸c˜ao com base na vizinhan¸ca para reconstruir a HRTF a partir do seu equivalente de baixa dimensionalidade. As simula¸c˜oes mostram que a abordagem proposta tem um desempenho melhor do que o PCA (Principal Component Analysis, Analise de Componentes Principais) e confirmam que o Isomap ´e capaz de descobrir as rela¸c˜oes n˜ao lineares subjacentes da percep¸c˜ao auditiva.
Palavras-chave: ´Audio 3D, ´Audio espacial, HRTF, Variedade, Isomap, Realidade Aumentada
Abstract
As auditory augmented reality applications become more important, there is in-creasing effort in spatial audio research. The term spatial audio refers to techniques where a person’s anatomy (i.e. the pinnae, head and torso) is modeled as digital filters. By filtering a sound source with these filters, a listener is capable of perceiving a sound as though it were reproduced at a specific spatial location. In the frequency domain, these filters are known as Head-Related Transfer Functions (HRTFs). This dissertation states the basic principles of spatial audio and provides an analysis of the spectral characteristics of HRTFs. Moreover, since these spectral fea-tures differ among individuals, we introduce a new anthropometric-based method for customizing of HRTFs in the horizontal plane. The method uses Isomap, artificial neural networks (ANN), and a neighborhood-based reconstruction procedure. We first modify Isomap’s graph construction step to emphasize the individuality of HRTFs and perform a customized nonlinear dimensionality reduction of the HTRFs. We then use an ANN to model the nonlinear relationship between anthropometric features and our low-dimensional HRTFs. Finally, we use a neighborhood-based reconstruction approach to reconstruct the HRTF from the estimated low-dimensional version. Simulations show that our approach performs better than PCA (Princi-pal Component Analysis) and confirm that Isomap is capable of discovering the underlying nonlinear relationships of sound perception.
Keywords: 3D sound, Spatial audio, HRTF, Manifold, Isomap, Auditory Augmented Reality, Virtual Auditory Display
Lista de Figuras
1.1 Planos de referˆencia. . . 5 1.2 Sistema de Coordenadas Esf´erico. . . 5 1.3 Sistema de Coordenadas Polares Interaural. . . 6 1.4 a) Ao manter constante o azimute no sistema de coordenadas polares interaural,
forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD s˜ao idˆenticos. Esse cone ´e conhecido como cone da confus˜ao. . . 8 1.5 Erro de localiza¸c˜ao no plano horizontal obtida a partir dos experimentos realizados
em condi¸c˜oes anecoicas (i.e sem reverbera¸c˜ao) em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de ´audio 100 ms de ruido branco. As setas representam a dire¸c˜ao da fonte sonora, os c´ırculos a posi¸c˜ao m´edia das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3]. . . 11 1.6 Erro de localiza¸c˜ao no plano mediano obtida a partir dos experimentos realizados
por Damaske et al. [4] em sete indiv´ıduos com um sinal de fala como est´ımulo de entrada. As setas representam a dire¸c˜ao da fonte sonora, os c´ırculos a posi¸c˜ao m´edia das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3]. . . 11 1.7 Rela¸c˜ao entre r0 e r para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0). Figura adaptada
dos experimentos de Zahorik [5]. . . 12 2.1 Esquema geral para a medi¸c˜ao de HRTFs. . . 16 2.2 HRIRs do KEMAR da base de dados CIPIC para Θ = 80◦, Φ = 0◦. ITD calculada
a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) de um par de HRTFs. 20 2.3 Resposta em magnitude das HRTFs do KEMAR na base de dados CIPIC para
v´arios azimutes no plano horizontal. . . 22 2.4 Resposta em magnitude das HRTFs nos azimutes 0◦ (i.e frente) e 180◦ (i.e tr´as) no
plano horizontal. As diferen¸cas em altas frequˆencias permitem resolver confus˜oes frente-tr´as. . . 23 2.5 Resposta em magnitude de v´arias HRTFs no plano mediano (i.e. θ = 0). O
primeiro notch para cada eleva¸c˜ao foi ressaltado. . . 23
2.6 Representa¸c˜ao em duas dimens˜oes da resposta em magnitude das HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo. Cada linha representa uma HRTF e a intensidade o valor em dB da resposta em magnitude. O primeiro notch para cada eleva¸c˜ao foi ressaltado em vermelho. . . 24 3.1 Diagrama de blocos da abordagem proposta para personalizar HRTFs no plano
horizontal. . . 29 3.2 Exemplo da primeira regra para construir o grafo do Isomap. Os v´ertices
simboli-zam HRTFs de alta dimensionalidade de P = 3 indiv´ıduos. Cada cor representa um indiv´ıduo diferente, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas ´e igual a 0.01 · dX(xi, xj) e que cada v´ertice
conecta-se a P − 1 = 2 vizinhos. . . 31 3.3 Exemplo da segunda regra para construir o grafo do Isomap. Os v´ertices
simboli-zam HRTFs de alta dimensionalidade de trˆes indiv´ıduos. Cada cor representa um indiv´ıduo diferente, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas ´e igual a 0.01 · dX(xi, xj) e que cada v´ertice
conecta-se a P = 3 vizinhos. . . 31 3.4 Exemplo da terceira regra para construir o grafo do Isomap. Os v´ertices simbolizam
HRTFs de alta dimensionalidade de um mesmo indiv´ıduo, onde E = Ouvido Esquerdo e D= Ouvido Direito. Note que o comprimento de todas as arestas ´e igual a dX(xi, xj) e que cada v´ertice conecta-se a 2 vizinhos. . . 32
3.5 Estimativa de Dimensionalidade Intr´ınseca. Usando um limiar de 0.025, a dimen-sionalidade intr´ınseca foi escolhida como sendo d=4. . . 33 3.6 Variedade calculada pelo Isomap para K = 61 vizinhos a) Variedade de uma
dimens˜ao em fun¸c˜ao do azimute b) Variedade em duas dimens˜oes c) Variedade em trˆes dimens˜oes. . . 34 3.7 Variabilidade dentro dos agrupamentos causada pela diferen¸cas antropom´etricas
entre indiv´ıduos. Pontos vermelhos e azuis representam HRTFs de azimutes sim´etricos dos ouvidos esquerdo e direito, respectivamente. . . 35 3.8 Rede Neural Artificial com fun¸c˜ao de ativa¸c˜ao sigmoide na camada oculta e
fun¸c˜ao de ativa¸c˜ao linear na camada de sa´ıda para predizer HRTFs de baixa dimensionalidade. . . 35 3.9 Medi¸c˜oes antropom´etricas selecionados de acordo com [6]. Figura adaptada de [7]. 38 3.10 Distor¸c˜ao espectral m´edia em fun¸c˜ao do azimute. . . 39 3.11 Distor¸c˜ao espectral. . . 39
Lista de Tabelas
3.1 Intervalo de confian¸ca (±2σ, 95%) da distor¸c˜ao espectral m´edia para v´arios azimutes. 37
Lista de Acrˆ
onimos
ANN Artificial Neural Network. Rede Neural Artificial.
BRIR Binaural Room Impulse Response. Resposta ao Impulso da Sala Binaural. FFT Fast Fourier Transform.
Transforma R´apida de Fourier. IID Interaural Intensity Difference.
Diferen¸ca de Intensidade Interaural. Isomap Isometric Feature Mapping.
Mapeamento de Caracter´ısticas Isom´etricas. ITD Interaural Time Difference.
Diferen¸ca de Tempo Interaural. HpTF Headphone Transfer Function.
Resposta em Frequˆencia dos Fones de Ouvido. HRIR Head-Related Impulse Response.
Resposta ao Impulso Relacionadas `a Cabe¸ca. HRTF Head-Related Transfer Function.
Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca. KEMAR Knowles Electronics Manikin For Acoustics Research.
Manequim Knowles Electronics para Pesquisa em Ac´ustica. LLE Locally Linear Embedding.
Embedding Localmente Linear. PCA Principal Component Analysis.
An´alise de Componentes Principais.
Lista de S´ımbolos
(r, θ, φ) raio r, azimute θ e eleva¸c˜ao φ de um ponto no sistema esf´erico de coordenadas.
(r, Θ, Φ) raio r, azimute Θ e eleva¸c˜ao Φ de um ponto em coordenadas polares interaural.
a raio da cabe¸ca no modelo de Woodworth [8]. c velocidade do som (343 m/s).
r utilizada de forma geral para representar uma distˆancia.
k, α constantes do modelo de percep¸c˜ao de distˆancia definido por Zahorik [5]. HL, HR HRTF para o ouvido esquerdo e direito respectivamente.
hL, hR HRIR para ouvido esquerdo e direto respectivamente.
PL, PR press˜ao sonora no dom´ınio da frequˆencia
no ouvido esquerdo e direto respectivamente. P0 press˜ao sonora no dom´ınio da frequˆencia
no centro da cabe¸ca com a cabe¸ca ausente.
ΦLR(τ ) a correla¸c˜ao cruzada das HRIRs esquerda e direita.
tL, tR tempo m´edio da HRIR esquerda e direita respectivamente.
tL,η, tR,η tempo de in´ıcio da HRIR esquerda e direita respectivamente.
Hmin HRTF de fase m´ınima.
T (θ, φ) Tempo de propaga¸c˜ao das ondas sonoras desde a fonte at´e o ouvido. ψ Fase de uma fun¸c˜ao de transferˆencia.
ψall Fase de uma fun¸c˜ao de transferˆencia passa tudo.
ψmin Fase m´ınima de uma fun¸c˜ao de transferˆencia.
N N´umero de amostras ou observa¸c˜oes.
D N´umero de dimens˜oes das amostras de alta dimensionalidade. d N´umero de dimens˜oes das amostras de baixa dimensionalidade.
X Matriz do conjunto de dados de alta dimensionalidade de tamanho D × N . Y Matriz do conjunto de dados de baixa dimensionalidade de tamanho d × N . xi Vetor de tamanho D × 1 que representa uma amostra
ou observa¸c˜ao de alta dimensionalidade.
yi Vetor de tamanho d × 1 que representa uma amostra
ou observa¸c˜ao de baixa dimensionalidade. G(V, E) Grafo de um conjunto de v´ertices ∈ V
conectados por um conjunto de arestas ∈ E. vi ∈ V Um v´ertice do grafo G.
dX(xi, xj) Distˆancia euclidiana entre dois vetores.
K N´umero de vizinhos no Isomap.
DG A matriz de distˆancias geod´esicas entre todas as amostras na variedade.
δ Fun¸c˜ao delta de Kronecker. λ Autovalor. P N´umero de indiv´ıduos. M N´umero de azimutes. sij Fator de escalamento. b H HRTF reconstru´ıda.
s N´umero de parˆametros antropom´etricos. SDM Distor¸c˜ao Espectral M´edia.
Sum´
ario
Introdu¸c˜ao Geral 1
1 Conceitos B´asicos do ´Audio Espacial 4
1.1 Introdu¸c˜ao . . . 4
1.2 Sistema de coordenadas . . . 4
1.3 Fatores de Percep¸c˜ao de dire¸c˜ao . . . 6
1.3.1 Fatores binaurais . . . 6
1.3.2 Fatores dinˆamicos . . . 7
1.3.3 Fatores espectrais . . . 8
1.4 Fatores de Percep¸c˜ao de distˆancia . . . 9
1.5 Fatores cognitivos . . . 10
1.6 Precis˜ao na localiza¸c˜ao de fontes de ´audio . . . 10
1.7 Reverbera¸c˜ao . . . 12
1.8 Modos de reprodu¸c˜ao . . . 13
1.8.1 Reprodu¸c˜ao atrav´es de fones de ouvido . . . 13
1.8.2 Reprodu¸c˜ao atrav´es de alto-falantes . . . 14
2 Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 15 2.1 Introdu¸c˜ao . . . 15
2.2 Defini¸c˜ao . . . 15
2.3 Medi¸c˜ao de HRTF . . . 16
2.3.1 Bases de dados de HRTFs . . . 18
2.4 Caracter´ısticas no dom´ınio do tempo das HRTFs . . . 19
2.5 Caracter´ısticas em frequˆencia das HRTFs . . . 21
2.5.1 Caracter´ısticas em frequˆencia causados pelo pavilh˜ao da orelha . . . 21
2.5.2 Caracter´ısticas de fase m´ınima das HRTFs . . . 24
3 Personaliza¸c˜ao de HRTFs usando Isomap no plano horizontal 26 3.1 Introdu¸c˜ao . . . 26
3.2 Trabalhos anteriores . . . 27
3.3 Personaliza¸c˜ao de HRTFs . . . 28
Introdu¸c˜ao Geral xv
3.3.1 Redu¸c˜ao de dimensionalidade usando o Isomap . . . 28
3.3.2 Regress˜ao usando uma Rede Neural Artificial . . . 33
3.3.3 Reconstru¸c˜ao baseada na vizinhan¸ca . . . 33
3.4 Simula¸c˜oes . . . 34
3.4.1 Resultados . . . 37
4 Conclus˜oes e Perspectivas 40 4.1 Perspectivas . . . 41
Introdu¸c˜
ao Geral
O objetivo do ´audio espacial ou ´audio 3D ´e simular uma fonte de ´audio em posi¸c˜oes espaciais arbitr´arias. Assim, o ouvinte ´e capaz de perceber essas fontes sonoras como se fossem reproduzidas em um local espec´ıfico no espa¸co.
Os sistemas de ´audio espacial est˜ao sendo usados numa ampla gama de aplica¸c˜oes com requerimentos diferentes. O tipo de sistema de ´audio 3D escolhido para determinada aplica¸c˜ao depende de fatores como o realismo desejado, a precis˜ao requerida, os custos e a facilidade de uso.
Por exemplo, se o sistema de ´audio espacial for aplicado na pesquisa dos fatores que deter-minam a nossa percep¸c˜ao auditiva, ´e necess´ario que esse sistema permita manipular com alta precis˜ao o ´audio que atinge os dois ouvidos. Para este tipo de aplica¸c˜oes, o custo e facilidade de uso n˜ao s˜ao cr´ıticos.
Por outro lado, os sistemas de ´audio espacial tem que ser relativamente baratos e f´aceis de usar quando forem usados para testar a percep¸c˜ao auditiva em pessoas com deficiˆencias auditivas. Neste caso, a precis˜ao do sistema do ´audio 3D n˜ao ´e cr´ıtica.
J´a em aplica¸c˜oes de controle, informa¸c˜ao espacial complexa deve ser apresentada a um operador humano. Por exemplo, a informa¸c˜ao apresentada aos controladores de tr´afego a´ereo [9] ou operadores de equipamento remoto. Nestas aplica¸c˜oes, o mais importante ´e a quantidade de informa¸c˜ao fornecida, sendo em geral menos cr´ıtico o realismo, o custo e a precis˜ao.
Uma das maiores aplica¸c˜oes de sistemas de ´audio 3D ´e na ind´ustria do entretenimento (e.g. cinema, videojogos) onde hoje ´e comum encontrar os chamados de cinema em casa (home theaters) que utilizam v´arios alto-falantes para fornecer a sensa¸c˜ao de fontes de ´audio em movimento em torno do ouvinte. Neste tipo de aplica¸c˜oes, a precis˜ao n˜ao ´e t˜ao importante quanto o realismo e facilidade de uso.
Finalmente, os sistemas de ´audio 3D tamb´em est˜ao sendo usados em aplica¸c˜oes para pessoas com deficiˆencia visual. De fato, diversos trabalhos tˆem confirmado a utilidade do ´audio virtual como interface de usu´ario para o deficiente visual. Por exemplo, v´arios estudos concluem que o desempenho do usu´ario em atividades como a navega¸c˜ao melhora ao utilizar ´audio espacial como interface de usu´ario [10, 11, 12, 13]. Al´em disso, v´arias pesquisas tem proposto utilizar ´audio espa-cial como interface de usu´ario para o deficiente visual utilizar navegadores web [14, 15]. Inclusive, tˆem sido constru´ıdos v´arios prot´otipos de sistemas de substitui¸c˜ao sensorial e realidade aumentada visando o deficiente visual que utilizam ´audio espacial como interface [16, 17, 18, 19, 20].
Introdu¸c˜ao Geral 2
´
E precisamente neste ´ultimo tipo de aplica¸c˜ao que o projeto “Vis˜ao para o Cego: Traduzindo Conceitos Visuais 3D em Informa¸c˜oes de 3D de ´Audio” (Convˆenio Microsoft-Fapesp, processo 2012/50468-6) est´a atualmente pesquisando. O objetivo deste projeto, do qual esta disserta¸c˜ao faz parte, ´e a constru¸c˜ao e avalia¸c˜ao de um prot´otipo para aux´ılio do deficiente visual baseado na tradu¸c˜ao de informa¸c˜oes visuais 3D em informa¸c˜oes sonoras 3D. Neste projeto utiliza-se vis˜ao computacional para extrair informa¸c˜oes de alto n´ıvel e ´audio 3D para representar essa informa¸c˜ao com no¸c˜ao espacial. Especificamente, ap´os a identifica¸c˜ao de um objeto, o dispositivo reproduzir´a um som para esse objeto no seu local espacial espec´ıfico. Por exemplo, depois que o dispositivo identifique uma pessoa, o usu´ario ouvir´a seu nome como se o som se originasse no local exato onde a pessoa est´a. O Hardware deste sistema utiliza o sensor Microsoft Kinect [21] para coletar imagens coloridas e dados de profundidade, um girosc´opio para determinar a orienta¸c˜ao da cabe¸ca, fones de ouvido de condu¸c˜ao ´ossea para fornecer informa¸c˜ao sonora ao usu´ario sem bloquear o som ambiente, e um microcomputador port´atil para processar os algoritmos. O software fornecer´a v´arios modos de opera¸c˜ao para providenciar fun¸c˜oes especializadas como navega¸c˜ao, localiza¸c˜ao de pessoas e reconhecimento de objetos. Este sistema apresenta uma s´erie de desafios t´ecnicos e cient´ıficos, que incluem desenvolvimento e integra¸c˜ao de algoritmos de vis˜ao computacional assim como o projeto e avalia¸c˜ao de interfaces auditivas. ´E especificamente neste ´ultimo ponto que a presente disserta¸c˜ao pretende fornecer a base te´orica do ´audio espacial. Esta disserta¸c˜ao est´a vinculada ao projeto descrito atrav´es de uma bolsa Fapesp com n´umero de processo 2013/21349-1.
Motiva¸
c˜
ao
Os elementos principais na gera¸c˜ao do ´audio espacial s˜ao conhecidos como Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca (Head-Related Transfer Functions, HRTF). As HRTFs dependem da anatomia do indiv´ıduo pelo que devem ser medidas para cada pessoa. No entanto, a medi¸c˜ao de HRTFs, al´em de precisar de um equipamento especializado e custoso, ´e uma tarefa complexa e n˜ao escal´avel. J´a o uso de HRTFs n˜ao individualizadas causa uma diminui¸c˜ao na precis˜ao da localiza¸c˜ao de fontes sonoras. Portanto, ´e necess´ario personalizar as HRTFs para garantir ´audio 3D de alta qualidade.
Como as HRTFs est˜ao estreitamente relacionadas com determinados parˆametros antropo-m´etricos, elas podem ser personalizadas a partir de medidas antropom´etricas. Esses m´etodos s˜ao chamados de m´etodos de regress˜ao antropom´etrica porque predizem as HRTFs de um novo indiv´ıduo a partir de um modelo matem´atico. ´E comum que alguma t´ecnica de redu¸c˜ao de dimensionalidade seja aplicada `as HRTFs antes da personaliza¸c˜ao.
Nesse intuito, esta disserta¸c˜ao propˆos-se estudar o m´etodo de redu¸c˜ao de dimensionalidade n˜ao linear Isomap na an´alise e s´ıntese de ´audio espacial a fim de determinar se ele ´e capaz de descobrir as rela¸c˜oes n˜ao lineares subjacentes da percep¸c˜ao auditiva. Especificamente, este trabalho visou estudar os conceitos b´asicos do ´audio espacial a fim de conhecer seu potencial e suas limita¸c˜oes. Al´em disso, buscou analisar as caracter´ısticas das HRTFs mais relevantes na localiza¸c˜ao de fontes sonoras. O objetivo principal da presente disserta¸c˜ao foi, portanto, utilizar
Introdu¸c˜ao Geral 3
o conhecimento adquirido do ´audio 3D para introduzir uma nova t´ecnica de personaliza¸c˜ao de HRTFs baseado em antropometria usando Isomap.
Finalmente, esta disserta¸c˜ao, no contexto do projeto “Vis˜ao para o Cego: Traduzindo Conceitos Visuais 3D em Informa¸c˜oes de 3D de ´Audio” acima descrito, pretende ser usada como ponto de partida para investiga¸c˜oes e desenvolvimento de interfaces auditivas.
Organiza¸
c˜
ao da disserta¸
c˜
ao
O Cap´ıtulo 1 deste trabalho, al´em de introduzir os conceitos b´asicos do ´audio espacial e a percep¸c˜ao auditiva, inclui tamb´em uma breve descri¸c˜ao da reverbera¸c˜ao e os m´etodos de reprodu¸c˜ao de ´audio 3D. O Cap´ıtulo 2 apresenta as caracter´ısticas das HRTFs e sua rela¸c˜ao com a localiza¸c˜ao de fontes sonoras. O Cap´ıtulo 3 prop˜oe uma nova t´ecnica para personaliza¸c˜ao das HRTFs baseado em antropometria usando Isomap. Ao final, este trabalho ´e conclu´ıdo com uma an´alise dos resultados e recomenda¸c˜oes para futuras pesquisas.
Cap´ıtulo
1
Conceitos B´
asicos do ´
Audio Espacial
1.1
Introdu¸
c˜
ao
O ´audio espacial, chamado tamb´em de ´audio binaural, ´audio virtual ou ainda ´audio 3D, refere-se ao conjunto de t´ecnicas que modelam as caracter´ısticas anatˆomicas de uma pessoa (e.g. cabe¸ca, torso e ouvido externo) usando filtros digitais. Se filtrarmos uma fonte de ´audio digital atrav´es desses filtros, ´e poss´ıvel gerar sons virtuais que parecem originar-se em locais espaciais espec´ıficos [22]. Assim, o objetivo principal dos sistemas de ´audio 3D ´e controlar e manipular a percep¸c˜ao de ´audio espacial de uma pessoa dentro de um processo conhecido como manipula¸c˜ao espacial. ´E importante ressaltar que a gera¸c˜ao de ´audio 3D envolve tanto parˆametros t´ecnicos de engenharia quanto considera¸c˜oes psicoac´usticas.
Neste capitulo descreveremos os conceitos b´asicos da percep¸c˜ao auditiva, cujo estudo ´e convenientemente dividido em duas partes: o estudo da percep¸c˜ao de dire¸c˜ao e o estudo da percep¸c˜ao de distˆancia [23]. Come¸caremos apresentando os sistemas de coordenadas esf´erico e interaural na Se¸c˜ao 1.2. Na Se¸c˜ao 1.3 estudaremos os fatores que contribuem na percep¸c˜ao espacial da dire¸c˜ao. Embora o foco deste trabalho seja a percep¸c˜ao da dire¸c˜ao, na Se¸c˜ao 1.4 falaremos rapidamente dos fatores que intervˆem na percep¸c˜ao espacial da distˆancia. Al´em dos fatores de percep¸c˜ao de dire¸c˜ao e distˆancia, na Se¸c˜ao 1.5 estudaremos os fatores cognitivos. Na Se¸c˜ao 1.6 analisaremos os principais resultados experimentais existentes na literatura sobre a precis˜ao do sistema auditivo na percep¸c˜ao tanto da dire¸c˜ao quanto da distˆancia. Falaremos brevemente sobre a reverbera¸c˜ao e o efeito de precedˆencia na Se¸c˜ao 1.7. Finalmente, na Se¸c˜ao 1.8 estudaremos os dois modos de reprodu¸c˜ao de som virtual: fones de ouvido e alto-falantes.
1.2
Sistema de coordenadas
No estudo do ´audio espacial, a posi¸c˜ao de uma fonte de ´audio ´e especificada pela sua dire¸c˜ao e distˆancia em rela¸c˜ao `a cabe¸ca do ouvinte.
Antes de descrever os sistemas de coordenadas mais utilizados na analise do ´audio espacial, ´e importante definir alguns planos de referˆencia que utilizaremos ao longo desta disserta¸c˜ao.
A Figura 1.1 mostra os seguintes planos: 4
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 5 x y z PLANO HORIZONTAL PLANO MEDIANO PLANO FRONTAL
Figura 1.1: Planos de referˆencia.
r ɸ ɵ x z y Frente Direita Acima Fonte Sonora
Figura 1.2: Sistema de Coordenadas Esf´erico.
• Plano mediano ou sagital: plano y-z • Plano frontal: plano x-z
• Plano horizontal ou transversal: plano x-y
O segmento de reta que liga as duas orelhas ´e chamado de eixo interaural. O ponto m´edio do eixo interaural ´e escolhido como a origem do sistema de coordenadas. O ouvido mais pr´oximo da fonte de ´audio ´e denominado de ouvido ipsilateral e o ouvido mais distante ´e chamado de ouvido contralateral.
Existem dois sistemas de coordenadas comumente utilizados na literatura: O sistema esf´erico de coordenadas e o sistema de coordenadas polares interaural.
A Figura 1.2 mostra o sistema esf´erico de coordenadas. A posi¸c˜ao da fonte de ´audio ´e definida por (r, θ, φ) onde a distˆancia desde a origem ´e representada por 0 ≤ r ≤ +∞. O ˆangulo entre o vetor da fonte de ´audio e o plano horizontal ´e representado pela eleva¸c˜ao −90◦ ≤ φ ≤ +90◦,
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 6 Frente Direita Acima Θ Φ x y z r Fonte Sonora
Figura 1.3: Sistema de Coordenadas Polares Interaural.
plano horizontal; O ˆangulo no sentido hor´ario entre a proje¸c˜ao horizontal do vetor da fonte de ´
audio e o eixo y ´e denotado pelo azimute 0◦ ≤ θ < 360◦, onde 0◦, 90◦, 180◦, 270◦ representam
posi¸c˜oes na frente, direita, atr´as e esquerda respectivamente no plano horizontal. O azimute θ tamb´em pode variar no intervalo −180◦ < θ ≤ +180◦, onde 0◦, 90◦, 180◦, −90◦ representam posi¸c˜oes na frente, direita, atr´as e esquerda respectivamente no plano horizontal.
A Figura 1.3 mostra o sistema de coordenadas polares interaural. A posi¸c˜ao da fonte de ´audio ´e definida por (r, Θ, Φ) onde a distˆancia desde a origem ´e representada por 0 ≤ r ≤ +∞. O azimute ´e o ˆangulo entre o vetor da fonte do ´audio e o plano mediano e varia entre −90◦ at´e +90◦. A eleva¸c˜ao ´e o ˆangulo entre o plano horizontal e a proje¸c˜ao do vetor da fonte de ´audio no
plano mediano, e varia entre −90◦ at´e +270◦. Nesse sistema, as coordenadas
(Θ, Φ) = (0◦, 0◦) , (0◦, 90◦) , (0◦, 180◦) , (0◦, 270◦) , (90◦, 0◦) , (−90◦, 0◦)
correspondem a um ponto diretamente na frente, acima, tr´as, abaixo, direita e esquerda respecti-vamente.
Salvo disposi¸c˜ao em contr´ario, o sistema esf´erico ´e adotado como padr˜ao neste trabalho. Note que as vari´aveis no sistema esf´erico est˜ao representadas por letras min´usculas enquanto aquelas do sistema interaural est˜ao representadas por mai´usculas.
1.3
Fatores de Percep¸
c˜
ao de dire¸
c˜
ao
Os fatores que determinam a percep¸c˜ao de dire¸c˜ao podem ser classificados em trˆes categorias: binaurais, espectrais e dinˆamicos.
1.3.1
Fatores binaurais
Os fatores mais importantes para determinar a posi¸c˜ao de uma fonte de ´audio no plano horizontal s˜ao chamados de fatores binaurais. Eles envolvem as diferen¸cas relativas das ondas
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 7
que atingem ambas as orelhas. Essas diferen¸cas foram descritas por Lord Rayleigh em 1907 na teoria d´uplex da localiza¸c˜ao [24] como sendo a diferen¸ca de tempo interaural (Interaural Time Difference, ITD) e a diferen¸ca de intensidade interaural (Interaural Intensity Difference, IID).
A Diferen¸ca de Tempo Interaural (ITD) refere-se `a diferen¸ca de tempo de chegada entre as ondas sonoras nas orelhas esquerda e direita. A ITD depende tanto da frequˆencia quanto da dire¸c˜ao [25]. No entanto, se modelarmos a cabe¸ca como uma esfera de raio a (modelo de Woodworth [8]), a ITD independe da frequˆencia e ´e definida por
IT D (θ, φ) = a
c(arcsin (cos (φ) sin (θ)) + cos (φ) sin (θ)) , (1.1) onde c representa a velocidade do som (343 m/s).
A ITD ´e a principal caracter´ıstica para localiza¸c˜ao em frequˆencias abaixo de 1500 Hz pois, nessa faixa as dimens˜oes da cabe¸ca s˜ao menores do que o comprimento de onda das ondas sonoras. Assim, o sistema auditivo ´e capaz de detectar diferen¸cas de atraso de fase sem confus˜ao. Dependendo do tipo de est´ımulo, o ouvido humano pode diferenciar ITDs entre 0.005 e 1.5 ms [26]. J´a em altas frequˆencias, a partir de 1.5 KHz , a ITD se torna amb´ıgua porque a percep¸c˜ao de posi¸c˜ao lateral n˜ao ´e mais proporcional `a diferen¸ca de fase percebida. Mesmo assim, a ITD em altas frequˆencias ´e considerada como uma caracter´ıstica de importˆancia secundaria j´a que o sistema auditivo ´e capaz de extrair as diferen¸cas de atraso interaural dos envelopes das ondas sonoras em ambientes reverberantes [27].
Quando uma fonte de ´audio se afasta do plano mediano, a press˜ao sonora no ouvido mais distante (contralateral em rela¸c˜ao `a fonte de ´audio) ´e atenuada devido `a cabe¸ca. Esse fenˆomeno produz uma diferen¸ca de press˜ao sonora entre ambos os ouvidos, chamada de diferen¸ca de intensidade interaural (IID), que ´e especialmente not´avel em frequˆencias a partir de 1.5 kHz quando o comprimento de onda torna-se menor do que o diˆametro da cabe¸ca. A IID atinge valores entre 10 e 35 dB para frequˆencias de 3 a 10 kHz respectivamente o que permite detectar a posi¸c˜ao da fonte de ´audio em frequˆencias nas quais a IID ´e amb´ıgua. [28, 29].
1.3.2
Fatores dinˆ
amicos
Os fatores binaurais at´e aqui descritos para localizar a posi¸c˜ao horizontal (IID e ITD) do som podem se tornar amb´ıguos pois, teoricamente, ´e poss´ıvel criar IID e ITD idˆenticas para posi¸c˜oes diferentes de uma fonte de ´audio. De fato, valores iguais de ITD e IID podem existir para uma fonte de ´audio numa superf´ıcie cˆonica. Na Figura 1.4, observe que, ao manter constante o azimute no sistema de coordenadas polares interaural (veja Se¸c˜ao 1.2), forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD s˜ao teoricamente idˆenticos [22]. Essa afirma¸c˜ao ´e te´orica j´a que com uma pessoa real, as ITD e IID nunca poderiam ser idˆenticas [22]. Mesmo assim, quando as ITD e IID s˜ao muito pr´oximas para dois locais diferentes, pode existir ambiguidades.
O cone acima mencionado ´e chamado de cone da confus˜ao porque produz revers˜oes frente-tr´as ou revers˜oes acima-abaixo [22]. As revers˜oes frente-tr´as referem-se `a impress˜ao de que um som projetado numa posi¸c˜ao `a frente ou atr´as do indiv´ıduo esteja atr´as ou `a frente do mesmo, respectivamente. O mesmo conceito aplica-se para as revers˜oes acima-abaixo. Uma das formas
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 8 Θ Frente Direita Acima Φ Cone de azimute constante Fonte de áudio
numa superfície cônica
Plano Me diano
Figura 1.4: a) Ao manter constante o azimute no sistema de coordenadas polares interaural, forma-se um cone sobre cuja superf´ıcie os valores de IID e ITD s˜ao idˆenticos. Esse cone ´e conhecido como cone da confus˜ao.
de minimizar essa ambiguidade ´e utilizar caracter´ısticas dinˆamicas como a movimenta¸c˜ao da cabe¸ca. Muitos estudos tem mostrado a efic´acia da movimenta¸c˜ao da cabe¸ca para diminuir o n´umero de revers˜oes frente-tr´as ou acima-abaixo [30, 31].
1.3.3
Fatores espectrais
Os fatores espectrais ou monoaurais baseiam-se na modelagem de caracter´ısticas anatˆ o-micas como o pavilh˜ao da orelha (i.e a pina), a cabe¸ca e o torso, sendo a pina a mais importante sobretudo em frequˆencias a partir de 3 kHz quando o tamanho da pina ´e compar´avel com o comprimento de onda da fonte [32].
Tanto os fatores binaurais quanto os monoaurais s˜ao caracter´ısticas ´unicas da anatomia de cada pessoa. Essas diferen¸cas anatˆomicas s˜ao refletidas nas Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca (Head Related Transfer Function, HRTF). Uma HRTF ´e uma fun¸c˜ao de transferˆencia entre a fonte de ´audio e o ponto de entrada do conduto auditivo. Um par dessas fun¸c˜oes, uma para o ouvido esquerdo e outra para o direito, representa de maneira ´unica a posi¸c˜ao de uma fonte de ´audio no espa¸co [33]. Essas fun¸c˜oes s˜ao, em geral, n˜ao transfe-r´ıveis entre indiv´ıduos, tornando normal um aumento na taxa de erro de localiza¸c˜ao quando a HRTF n˜ao for personalizada [34]. No Cap´ıtulo 2, falaremos sobre as HRTFs com mais detalhes.
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 9
1.4
Fatores de Percep¸
c˜
ao de distˆ
ancia
A percep¸c˜ao de distˆancia integra os seguintes fatores:
Intensidade: Quando a distˆancia entre o ouvinte e a fonte sonora aumenta, o n´ıvel de intensidade sonora diminui. Para uma fonte em espa¸co livre, a perda de intensidade ´e inversamente proporcional ao quadrado da distˆancia. O n´ıvel de perda em dB [35] quando uma fonte de ´
audio passa de uma distˆancia r1 a uma distˆancia r2 define-se como
perda(dB) = 20log10(
r2
r1
). (1.2)
Assim, uma fonte sonora atenua-se 6 dB com o dobro da distˆancia em espa¸co livre (i.e lei do inverso do quadrado da distˆancia). Note que essa lei n˜ao ´e aplic´avel para distˆancias dentro do campo pr´oximo (i.e distˆancias menores do que 1 metro) porque a presen¸ca da cabe¸ca afeta o n´ıvel de intensidade [3].
Do ponto de vista psicoac´ustico, a intensidade ´e considerado um fator de percep¸c˜ao rela-tivo j´a que a intensidade tamb´em pode mudar se alterarmos a potˆencia ac´ustica da fonte. Para usar a intensidade como um fator de percep¸c˜ao de distˆancia, ´e necess´ario ter algum conhecimento pr´evio das caracter´ısticas da fonte de ´audio. Por exemplo, n´os conhecemos por experiˆencia as caracter´ısticas associadas a um sussurro ou `a fala normal, sem importar a intensidade do som.
Rela¸c˜ao de energia direta-reverberante: em ambientes com superf´ıcies refletoras, a propor¸c˜ao entre a energia que chega ao ouvinte diretamente (sem contato com superf´ıcies refletoras) e a energia que chega ao ouvinte depois de refletir em aquelas superf´ıcies(energia reverberante) diminui a medida que a distˆancia aumenta. Essa propor¸c˜ao ´e conhecida como rela¸c˜ao de energia direta-reverberante. Estudos realizados por Mershon et al. [23] tem demons-trado que nossa percep¸c˜ao de distˆancia melhora em ambientes reverberantes e que a rela¸c˜ao de energia direta-reverberante ´e um fator de percep¸c˜ao absoluto, ao contr´ario da intensidade. Conte´udo espectral: para distˆancias a partir de 15 metros , ´e conhecido que as proprieda-des do ar atenuam mais as altas frequˆencias. Al´em disso, reflex˜oes em ambientes reverberantes podem tamb´em provocar mudan¸cas no espectro [3]. Da mesma forma que a intensidade, para que o conte´udo espectral seja considerado um fator de percep¸c˜ao de distˆancia, ´e necess´ario ter algum conhecimento pr´evio das caracter´ısticas da fonte de ´audio [5].
Fatores binaurais: Quando uma fonte encontra-se no campo pr´oximo, os fatores binaurais (i.e. IID e ITD) tornam-se dependentes da distˆancia e modificam o espectro caracterizado pelas HRTFs [36]. Um estudo realizado por Shinn-Cunningham [37] p˜oe em evidˆencia a dependˆencia entre os fatores binaurais e a distˆancia no campo pr´oximo.
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 10
1.5
Fatores cognitivos
Al´em dos fatores descritos acima, fatores cognitivos como a familiaridade com a fonte de ´
audio e informa¸c˜oes visuais contribuem no processo de percep¸c˜ao tanto da dire¸c˜ao quanto da distˆancia.
A familiaridade refere-se ao conhecimento pr´evio do tipo da fonte de ´audio. Se uma fonte ´e associada com uma posi¸c˜ao particular ap´os experiˆencias repetidas (e.g a fala), a simula¸c˜ao da posi¸c˜ao ´e muito mais simples. Por exemplo, ´e mais f´acil simular uma voz sussurrando a 20 cm da orelha do que simular a mesma voz a 6 metros [22]. Da mesma forma, ´e mais f´acil simular o som de um avi˜ao acima de n´os do que simular o mesmo som embaixo.
Por outro lado, estudos realizados por Recanzone [38] sobre a contribui¸c˜ao das informa¸c˜oes visuais na localiza¸c˜ao de fontes de ´audio, descrevem o efeito ventr´ıloquo no qual o ouvido humano escuta um som como se ele se originasse numa fonte sonora no plano visual, embora essa fonte n˜ao seja a fonte real. Por exemplo, quando assistimos um filme no cinema, a voz dos autores parece originar-se da sua boca embora o som real origina-se nos alto-falantes.
1.6
Precis˜
ao na localiza¸
c˜
ao de fontes de ´
audio
A precis˜ao na localiza¸c˜ao de fontes de ´audio depende da faixa de frequˆencia e da posi¸c˜ao do est´ımulo [3]. Ao longo desta Se¸c˜ao descreveremos os resultados de v´arios experimentos com humanos que utilizaram sons reais reproduzidos atrav´es de alto-falantes para determinar a precis˜ao do ouvido humano na localiza¸c˜ao de fontes sonoras.
Para analisar a precis˜ao no plano horizontal e mediano, Blauert [3] prop˜oe o conceito de localization blur como sendo o erro de localiza¸c˜ao percebida numa zona no espa¸co. A Figura 1.5 mostra o erro de localiza¸c˜ao para quatro dire¸c˜oes ( 0◦, 90◦, 180◦ e 270◦) no plano horizontal calculado por Blauert [3] a partir dos resultados dos experimentos em condi¸c˜oes anecoicas (i.e sem reverbera¸c˜ao) realizados em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de ´audio 100 ms de ruido branco. Verifica-se que o menor erro de localiza¸c˜ao ´e de ±4◦ para a dire¸c˜ao frontal (i.e. azimute 0◦) e o maior est´a em torno de ±10◦ para posi¸c˜oes laterais. A an´alise de Blauert [3] mostra tamb´em que o erro de localiza¸c˜ao varia segundo o tipo de fonte, mas o m´ınimo encontra-se sempre na dire¸c˜ao frontal (i.e. azimute 0◦) atingindo o menor valor para est´ımulos como clicks (0.75◦) e a fala (1.5◦).
Por outro lado, a precis˜ao no plano mediano ´e menor do que no plano horizontal. Na Figura 1.6, podemos observar os resultados dos experimentos em condi¸c˜oes anecoicas realizados em sete indiv´ıduos por Damaske et al. [4] no plano mediano com um sinal de fala como est´ımulo de entrada. O menor erro atinge-se em posi¸c˜oes situadas na frente ou em eleva¸c˜oes pequenas onde o erro de localiza¸c˜ao est´a em torno de ±10◦. O erro aumenta `a medida que a eleva¸c˜ao cresce, at´e atingir valores m´aximos no hemisf´erio posterior onde o erro de localiza¸c˜ao ´e maior do que ±15◦.
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 11 θ=270° θ=180° 180.7° ±5.5° 279.3° 1.0° ±9.2° ±3.6° ±10.0° 78.4° θ=90° θ=0°
Direção da fonte sonora em coordenadas esféricas Direção percebida
Figura 1.5: Erro de localiza¸c˜ao no plano horizontal obtida a partir dos experimentos realizados em condi¸c˜oes anecoicas (i.e sem reverbera¸c˜ao) em 600 e 900 indiv´ıduos por Preibish-Effenberger [1] e Haustein et al. [2] respectivamente, usando como fonte de ´audio 100 ms de ruido branco. As setas representam a dire¸c˜ao da fonte sonora, os c´ırculos a posi¸c˜ao m´edia das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3].
Φ=0° Φ=36° Φ=90° Φ=144° Φ=180° 0° ±9° ±10° ±13° ±22° ±15° 30° 74° +112° +153°
Direção da fonte sonora em coordenadas interaurais. Direção percebida.
Figura 1.6: Erro de localiza¸c˜ao no plano mediano obtida a partir dos experimentos realizados por Damaske et al. [4] em sete indiv´ıduos com um sinal de fala como est´ımulo de entrada. As setas representam a dire¸c˜ao da fonte sonora, os c´ırculos a posi¸c˜ao m´edia das respostas dos indiv´ıduos e os segmentos de c´ırculo a variabilidade. Figura adaptada de Blauert [3].
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 12 1 5 10 1 5 10 = 0.32 k = 1.00
Distância da fonte sonora, r (m)
D ist â n ci a Est ima d a , r’ (m)
Figura 1.7: Rela¸c˜ao entre r0 e r para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0). Figura adaptada dos experimentos de Zahorik [5].
A capacidade do ouvido humano para estimar a distˆancia de uma fonte de ´audio ´e geralmente mais limitada do que a habilidade de localizar a dire¸c˜ao da mesma. Experimentos em ambientes reverberantes conduzidos em humanos por Zahorik [5] tˆem demonstrado que o sistema auditivo tende a subestimar distˆancias de fontes sonoras cuja posi¸c˜ao real encontra-se acima de aproxima-damente 1.6 m, e a sobrestimar distˆancias de fontes sonoras cuja posi¸c˜ao real localiza-se abaixo de aproximadamente 1.6 m. Ap´os analisar dados de v´arios estudos, Zahorik [5] concluiu que existe uma rela¸c˜ao entre a distˆancia percebida r0 e a distˆancia real r que pode ser descrita como
r0 = krα, (1.3)
onde k e α s˜ao constantes cujos valores dependem das condi¸c˜oes do experimento e do indiv´ıduo. Em coordenadas logar´ıtmicas a rela¸c˜ao entre r0 e r torna-se linear. Assim, uma linha com pendente 1 significa que r0 ´e idˆentica a r. A Figura 1.7 apresenta a rela¸c˜ao entre r0 e r obtida usando regress˜ao linear para um indiv´ıduo t´ıpico (α = 0.32, k = 1.0).
1.7
Reverbera¸
c˜
ao
As reflex˜oes causadas pelas paredes, tetos, pisos ou outros objetos influenciam a percep¸c˜ao do som em ambientes fechados. Mesmo em ambientes abertos, uma quantidade significativa de energia ´e refletida pelas estruturas circundantes. No entanto, o ouvido humano apenas consegue perceber essas reflex˜oes quando a diferen¸ca de tempo entre a onda direta e a onda refletida est´a acima do limiar do eco. O limiar do eco varia segundo o tipo de fonte desde alguns milissegundos para pulsos at´e 50ms para sinais de fala [22].
Um efeito importante que acontece na faixa de 0.7 − 1.5ms (i.e acima do m´aximo valor do ITD) at´e o valor do limiar do eco ´e chamado de efeito de precedˆencia [39], efeito Hass [40]
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 13
ou ainda lei do primeiro frente de onda [3]. O efeito de precedˆencia estabelece que, quando a diferen¸ca de tempo de chegada entre dois eventos sonoros encontra-se na faixa mencionada (i.e. 0.7 − 1.5ms), a posi¸c˜ao percebida pelo sistema auditivo ´e apenas aquela do som que chega
primeiro.
Por outro lado, a reverbera¸c˜ao ´e indispens´avel para simular distˆancia e fornecer ao ouvinte uma sensa¸c˜ao de imers˜ao. Para estudar o efeito reverberante de uma sala, modela-se a Resposta ao Impulso da Sala Binaural (Binaural Room Impulse Response, BRIR) [41]. Essa resposta ao impulso depende das caracter´ısticas f´ısicas da sala (tamanho, presen¸ca de materiais absorventes na sala), do ouvido (direito ou esquerdo), do indiv´ıduo e da posi¸c˜ao da fonte sonora. Um estudo mais profundo da modelagem de ambientes reverberantes est´a al´em do alcance deste texto. Para mais detalhes, recomenda-se a referˆencia [41].
1.8
Modos de reprodu¸
c˜
ao
Existem dois modos de reprodu¸c˜ao do som virtual: atrav´es de fones de ouvido e atrav´es de alto-falantes.
1.8.1
Reprodu¸
c˜
ao atrav´
es de fones de ouvido
Os fones de ouvido tem a vantagem de n˜ao depender do ambiente externo. No entanto, outros problemas surgem como a necessidade de um sistema de rastreamento da cabe¸ca. Como foi abordado na Se¸c˜ao 1.3, a ITD e IID podem tornar-se amb´ıguas devido ao cone da confus˜ao. As movimenta¸c˜oes da cabe¸ca ajudam eliminar essas ambiguidades. Por isso, ao utilizar fones de ouvido, torna-se necess´ario utilizar um sistema de rastreamento de cabe¸ca que pode ser imple-mentado mediante girosc´opios como em [42] ou ainda mediante sistemas de vis˜ao computacional como em [43].
Por outro lado, a Resposta em Frequˆencia dos Fones de Ouvido (Headphone Transfer Function, HpTF) normalmente n˜ao ´e plana, o que pode modificar o espectro do sinal de ´audio que queremos simular, destruindo os fatores espectrais que s˜ao vitais para a localiza¸c˜ao vertical e a desambigua¸c˜ao de confus˜oes frente-tr´as. Para solucionar esse inconveniente, ´e necess´ario implementar uma fase de equaliza¸c˜ao. A obten¸c˜ao da HpTF n˜ao ´e trivial e depende do tipo de fone de ouvido e das caracter´ısticas anatˆomicas do indiv´ıduo (i.e do pavilh˜ao da orelha). Isto quer dizer que ´e necess´ario medir uma HpTF para cada pessoa e tipo de fone de ouvido usando o procedimento descrito em [44]. No entanto, sempre que o fone de ouvido seja do tipo que ´e colocado na entrada do canal auditivo (i.e. que n˜ao seja do tipo circumaural), a dependˆencia das caracter´ısticas anatˆomicas do indiv´ıduo na HpTF pode ser descartada [45]. Assim, a HpTF pode ser aproximada pela resposta em frequˆencia medida pelo fabricante ou obtida mediante procedimentos como o descrito em [46], sem a necessidade de obter HpTFs individualizadas.
Outro problema comum que acontece ao utilizar fones de ouvido para reproduzir som virtual ´
e a dificuldade de externalizar o som, o que provoca que o ouvinte ache que o som est´a dentro da sua cabe¸ca. Para minimizar esse efeito, ´e importante incorporar reflex˜oes do ambiente (i.e. reverbera¸c˜ao) na gera¸c˜ao do evento auditivo [47].
Cap´ıtulo 1. Conceitos B´asicos do ´Audio Espacial 14
1.8.2
Reprodu¸
c˜
ao atrav´
es de alto-falantes
Os sinais binaurais originalmente s˜ao projetados para serem reproduzidos atrav´es de fones de ouvido. Quando esses sinais s˜ao reproduzidos com alto-falantes, apresenta-se o efeito da diafonia (crosstalk ). Para compensar esse efeito, ´e necess´ario utilizar m´etodos de cancelamento de diafonia [48]. No caso de sistemas com dois alto-falantes (i.e. sistemas stereo), antes da reprodu¸c˜ao, os sinais binaurais s˜ao filtrados para cancelar a diafonia produzida pelo alto-falante do ouvido oposto. No caso de m´ultiplos alto-falantes e ouvintes, Bauck et al. [49] generalizaram a teoria de cancelamento de diafonia Embora os m´etodo de reprodu¸c˜ao com alto-falantes n˜ao apresentem os problemas de externaliza¸c˜ao dos fones de ouvido, ainda ´e necess´ario implementar um sistema de rastreamento da orienta¸c˜ao e posi¸c˜ao da cabe¸ca.
Cap´ıtulo
2
Fun¸c˜
oes de Transferˆencia Relacionadas `
a
Cabe¸ca
2.1
Introdu¸
c˜
ao
As Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca (Head Related Transfer Functions, HRTF) s˜ao os elementos principais na an´alise e s´ıntese de ´audio espacial. Ao filtrar uma fonte de ´audio digital atrav´es de um par de HRTFs, uma para o ouvido esquerdo e outra para o direito, ´
e poss´ıvel gerar sons binaurais.
Na Se¸c˜ao 2.2 define-se formalmente as HRTFs. Na Se¸c˜ao 2.3 fala-se sobre as t´ecnicas mais utilizadas na medi¸c˜ao de HRTFs, e sobre as bases de dados de HRTFs constru´ıdas a partir de tais t´ecnicas. Na Se¸c˜ao 2.4, estuda-se as caracter´ısticas no dom´ınio do tempo das Respostas ao Impulso Relacionadas `a Cabe¸ca (Head Related Impulse Response, HRIR) que s˜ao as fun¸c˜oes equivalentes no tempo das HRTFs. Finalmente, s˜ao descritas na Se¸c˜ao 2.5 as principais caracter´ısticas em frequˆencia das HRTFs.
2.2
Defini¸
c˜
ao
O som emitido por uma fonte de ´audio em campo livre atinge as duas orelhas depois de interatuar com as caracter´ısticas anatˆomicas do indiv´ıduo (i.e. cabe¸ca, torso e pavilh˜ao da orelha). O sinal resultante cont´em v´arios fatores de percep¸c˜ao descritos no Cap´ıtulo 1, como a ITD, ILD e caracter´ısticas espectrais, que s˜ao modelados atrav´es das HRTF. Um par de HRTFs para os ouvidos esquerdo e direito, HL e HR respectivamente, ´e definida por
HL(r, θ, φ, f, a) = PL(r, θ, φ, f, a) P0(r, f ) , HR(r, θ, φ, f, a) = PR(r, θ, φ, f, a) P0(r, f ) , (2.1)
onde, PL e PR representam a press˜ao sonora no dom´ınio da frequˆencia nos ouvidos esquerdo e
direito respectivamente, P0 representa a press˜ao sonora no dom´ınio da frequˆencia em campo
livre no centro da cabe¸ca com a cabe¸ca ausente [44]. A vari´avel a depende das caracter´ısticas anatˆomicas de cada pessoa e ´e representada por um conjunto de medidas antropom´etricas da cabe¸ca, torso e pavilh˜ao da orelha. Se a distˆancia r for maior do que 1 metro, as HRTFs
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 16 Câmara Anecoica Gerador de Sinal Analítico Amplificador de Potência Pós-processamento HRIRs não processadas HRIRs FFT HRTFs Microfone Sonda
Figura 2.1: Esquema geral para a medi¸c˜ao de HRTFs.
independem da distˆancia e s˜ao chamadas de HRTFs de campo distante [44]. Caso contr´ario, as HRTFs dependem da distˆancia e s˜ao chamadas de HRTFs de campo pr´oximo. O estudo das HRTFs de campo pr´oximo est´a al´em do alcance desta disserta¸c˜ao pelo que os termos HRTF e HRTF de campo distante ser˜ao usados indistintamente.
2.3
Medi¸
c˜
ao de HRTF
A HRTF de um indiv´ıduo para certa dire¸c˜ao pode ser obtida reproduzindo um sinal anal´ıtico na dire¸c˜ao desejada `a distˆancia de pelo menos 1 metro (i.e no campo distante) e medindo a resposta ao impulso usando microfones sonda colocados na proximidade do canal auditivo. Assim, duas HRIRs n˜ao processadas (HRIR RAW ) para o ouvido esquerdo e direito s˜ao obtidas para a dire¸c˜ao especificada. Elas s˜ao chamadas de HRIRs n˜ao processadas porque precisam ser p´os-processadas antes de poderem ser usadas como filtros. Esse procedimento ´e repetido para cada dire¸c˜ao desejada.
Observe que as HRTFs s˜ao fun¸c˜oes cont´ınuas por´em, na pr´atica, as HRTFs s˜ao medidas apenas para posi¸c˜oes discretas no espa¸co. As HRTFs para as posi¸c˜oes restantes s˜ao obtidas por interpola¸c˜ao espacial. A interpola¸c˜ao de HRTFs n˜ao ´e um assunto trivial e foi abordado em detalhe por Carlile et al. [50].
A Figura 2.1 mostra um esquema geral do procedimento de medi¸c˜ao de HRTFs descrito cujos detalhes s˜ao considerados a seguir:
Sinal anal´ıtico de entrada: ´e muito comum a presen¸ca de ru´ıdo nos sistemas de medi¸c˜ao sendo necess´ario que as caracter´ısticas do sinal de entrada ajudem a melhorar a rela¸c˜ao sinal-ru´ıdo. Embora seja poss´ıvel aumentar o n´ıvel de potˆencia do sinal de entrada, um excessivo aumento de potˆencia poderia causar distor¸c˜ao em sistemas electroac´usticos como alto-falantes e amplificadores. Assim, para aumentar o n´ıvel de potˆencia sem violar a linearidade dos sistemas electroac´usticos, um sinal de entrada ideal deveria ter um valor baixo de fator de crista (rela¸c˜ao entre o valor pico e o valor efetivo de um sinal) [51].
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 17
(e.g. impulsos, barridos sinusoidais), sinais de ru´ıdo aleat´orio (e.g ru´ıdo branco, ru´ıdo rosa) e sinais de ru´ıdo pseudoaleat´orio (e.g. sequˆencias de comprimento m´aximo, c´odigos Golay) [22].
Dos sinais mencionados, os sinais de ru´ıdo pseudoaleat´orio s˜ao os mais utilizados, pois geram HRIRs com maior rela¸c˜ao sinal-ru´ıdo devido a seu baixo fator de crista [22]. Para mais detalhes, um estudo comparativo dos diferentes sinais anal´ıticos para a obten¸c˜ao de respostas ao impulso ´
e dado por Stan et al. [51].
Posi¸c˜ao do microfone sonda: O microfone ´e comumente colocado na entrada do canal auditivo bloqueado para minimizar as reflex˜oes do conduto. Essa t´ecnica foi introduzida pela primeira vez por [44] e tem sido muito utilizada pela sua facilidade e seguran¸ca. Outras posi¸c˜oes introduzidas pelo mesmo autor s˜ao na entrada do canal auditivo sem bloquear ou ainda dentro do canal auditivo perto do t´ımpano.
Indiv´ıduos: As HRIRs s˜ao fun¸c˜oes que dependem das caracter´ısticas antropom´etricas que variam de pessoa para pessoa, tornando-se dif´ıcil ter um conjunto de HRIRs gerais. Por isso, nas medi¸c˜oes de HRIR utilizam-se v´arias pessoas. Como as pessoas tendem a fazer pequenos movimentos da cabe¸ca e corpo especialmente durante sess˜oes de medi¸c˜ao longas, utilizam-se tamb´em cabe¸cas e torsos artificias como o KEMAR (Knowles Electronics Manikin For Acoustics Research) [52]. O KEMAR foi projetado baseado nas dimens˜oes m´edias das caracter´ısticas antropom´etricas de um conjunto de pessoas.
Local: Para eliminar as reflex˜oes no ambiente, ´e comum que as medi¸c˜oes de HRIR sejam feitas em cˆamaras anecoicas. No entanto, devido `as dificuldades t´ecnicas e altos custos de uma cˆamara anecoica, algumas medi¸c˜oes de HRIR tem sido feitas em cˆamaras n˜ao anecoicas [7]. Em cˆamaras n˜ao anecoicas, usualmente, o tempo de chegada das ondas refletidas pode ser controlado para que elas cheguem depois da dura¸c˜ao da HRIR (no ordem de alguns milissegun-dos). Isto pode ser alcan¸cado colocando material absorvente ac´ustico na sala [53]. Sob estas condi¸c˜oes, uma janela temporal ´e aplicada na HRIR n˜ao processada para eliminar as reflex˜oes n˜ao desejadas [7].
P´os-processamento das HRIR n˜ao processadas: Al´em do truncamento em tempo mencionado acima para eliminar as reflex˜oes, caso a HRIR for medida em cˆamaras n˜ao anecoicas, as HRIR n˜ao processadas s˜ao equalizadas para compensar as distor¸c˜oes de espectro causadas pelo sistema electroac´ustico (i.e. microfones, alto-falantes, amplificadores) [22], e para minimizar mudan¸cas no timbre do sinal a ser filtrado pelas HRTF [44].
A abordagem mais simples consiste em medir a press˜ao sonora Po no dom´ınio da frequˆencia
em campo livre no centro da cabe¸ca com a cabe¸ca ausente. Assim, se a fun¸c˜ao de transferˆencia do sistema electroac´ustico fosse H0(f ), a press˜ao sonora medida seria H0(f )P (θ, φ, f ). Usando o
mesmo sistema, a press˜ao medida no centro da cabe¸ca com a cabe¸ca ausente seria H0(f )P0(f ).
Ent˜ao, se dividirmos as duas press˜oes medidas (H0(f )P (θ, φ, f ) e H0(f )P0(f ) ), os efeitos
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 18
equa¸c˜ao 2.1 [53].
O processo descrito ´e chamado de equaliza¸c˜ao baseada em medi¸c˜oes. Outras abordagens utilizadas s˜ao a equaliza¸c˜ao de campo livre e a equaliza¸c˜ao de campo difuso [44]. A primeira ´e implementada em rela¸c˜ao a uma das HRTFs medidas em uma dire¸c˜ao especifica, normalmente na dire¸c˜ao frontal (θ = 0, φ = 0) e define-se como
HLivre(θ, φ, f ) =
H(θ, φ, f )
H(θ = 0, φ = 0, f ). (2.2) Ao contr´ario da equaliza¸c˜ao baseada em medi¸c˜oes, observe que as HRTF equalizadas em campo livre independem da posi¸c˜ao escolhida do microfone, pois tanto o numerador quanto o denominador da equa¸c˜ao 2.2 cont´em a fun¸c˜ao de transferˆencia (independente da dire¸c˜ao) do canal auditivo [44]. Assim, a fun¸c˜ao de transferˆencia do canal auditivo ´e cancelada devido `a divis˜ao.
Por outro lado, a equaliza¸c˜ao de campo difuso ´e feita em rela¸c˜ao ao valor quadr´atico m´edio das magnitudes das HRTFs em todas as dire¸c˜oes
Hdif usa(θ, φ, f ) = H(θ, φ, f ) s 1 M M −1 P i=0 |H(θi, φi, f )|2 . (2.3)
Note que as HRTF equalizadas em campo difuso tamb´em independem da posi¸c˜ao escolhida do microfone. No entanto, essa afirma¸c˜ao ´e apenas v´alida para a magnitude da HRTF.
2.3.1
Bases de dados de HRTFs
Usando o procedimento descrito na Se¸c˜ao 2.3, v´arias equipes de pesquisa tem constru´ıdo bases de dados de HRTFs de campo pr´oximo.
Gardner et al. [52], Genuit et al. [54] e Bovbjerg et al. [55] tˆem medido HRTFs usando apenas cabe¸cas artificias. Uma das bases de dados mais populares em pesquisa ´e precisamente a base obtida da cabe¸ca artificial KEMAR pelo MIT Media Lab [52] que est´a publicamente dispon´ıvel para download na Internet. Ela cont´em HRTFs para 710 dire¸c˜oes cuja eleva¸c˜ao varia entre −40◦ at´e 90◦ com resolu¸c˜ao de 10◦. O azimute varia entre 0◦ e 360◦ com resolu¸c˜ao vari´avel, sendo a resolu¸c˜ao m´axima de 5◦ para regi˜oes cercanas ao plano horizontal.
Uma das bases mais completas dispon´ıveis publicamente na Internet ´e a base de dados CIPIC [7] pelo fato de ter medi¸c˜oes para uma quantidade grande de indiv´ıduos (43 humanos e o KEMAR) e suas medidas antropom´etricas. Foram realizadas 1250 medi¸c˜oes em coordenadas interaurais (veja Se¸c˜ao 1.2) para 25 azimutes n˜ao uniformemente distribu´ıdos com resolu¸c˜ao m´axima de 5◦ para dire¸c˜oes pr´oximas ao plano mediano e 50 eleva¸c˜oes com resolu¸c˜ao de 5.625◦ na faixa −45◦ - 230.625◦. Uma desvantagem da base de dados CIPIC ´e que a resolu¸c˜ao em dire¸c˜oes laterais ´e baixa (15◦-20◦).
A base de dados de Xie et al. [56] inclui medi¸c˜oes de 52 indiv´ıduos chineses (26 homens e 26 mulheres) com resolu¸c˜ao em azimute de 5◦ para seis eleva¸c˜oes equidistantes entre −30◦ e 45◦. HRTFs para as eleva¸c˜oes 60◦, 75◦ e 90◦ tamb´em foram medidas, mas com resolu¸c˜ao em azimute maior do que 10◦. Um aspecto importante dessa base de dados ´e que a quantidade de homens e
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 19
mulheres ´e a mesma, o que evita qualquer vi´es devido `as diferen¸cas antropom´etricas de ambos os sexos. Al´em disso, note que todos os indiv´ıduos nesse estudo s˜ao chineses, ao contr´ario da maioria das bases como a base CIPIC que foi feita principalmente em indiv´ıduos ocidentais. Os resultados apresentados pelos autores demonstram que o fato dos chineses terem caracter´ısticas antropom´etricas diferentes daquelas dos indiv´ıduos ocidentais, faz com que as caracter´ısticas temporais e espectrais das HRTFs variem.
As maiores resolu¸c˜oes atingidas at´e hoje em HRTFs medidas s˜ao aquelas das bases de dados obtidas de cabe¸cas artificiais por Genuit et al. [54] e Bovbjerg et al. [55]. Bovbjerg et al. [55] mediram as HRTFs para 11975 dire¸c˜oes com resolu¸c˜ao de 2◦ tanto na eleva¸c˜ao quanto no azimute. Quanto `a base de Genuit et al. [54], a resolu¸c˜ao ´e de 0.9◦ no plano horizontal e varia entre 1◦ e 5◦ para o resto de dire¸c˜oes.
2.4
Caracter´ısticas no dom´ınio do tempo das HRTFs
No dom´ınio do tempo, as HRIRs s˜ao as fun¸c˜oes equivalentes das HRTFs. O fator mais im-portante no tempo ´e a ITD. A seguir ser˜ao descritas algumas abordagens utilizadas na literatura para estimar a ITD a partir de um par de HRTFs.
Abordagem 1: Calcular a ITD como sendo a diferen¸ca de tempo interaural m´edio calculado nas HRIRs esquerda e direita [57],
IT D(θ, φ) = ¯tL− ¯tR, (2.4)
onde o tempo m´edio das HRIRs ´e definido como
¯ tL = ∞ R −∞ t h2 L(t, θ, φ)dt ∞ R −∞ h2 L(t, θ, φ)dt , ¯tR = ∞ R −∞ t h2 R(t, θ, φ)dt ∞ R −∞ h2 R(t, θ, φ)dt . (2.5)
Abordagem 2: Calcular a correla¸c˜ao cruzada das HRIRs esquerda e direita [58],
ΦLR(τ ) = R+∞ −∞ hL(t + τ, θ, φ) hR(t, θ, φ) dt r R+∞ −∞ h 2 L(t, θ, φ) dt R+∞ −∞ h 2 R(t, θ, φ) dt , (2.6)
onde sabemos que
0 ≤ |ΦLR(τ )| ≤ 1.
O tempo τmax que maximiza ΦLR(τ ) ´e definida como a ITD, ou seja,
IT D(θ, φ) = τmax. (2.7)
Abordagem 3: Obter a ITD a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) das HRIRs esquerda e direita [59]. Na Figura 2.2, note que no in´ıcio de cada HRIR o valor do sinal ´e zero devido ao tempo que demora em percorrer as ondas sonoras at´e atingir a orelha
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 20 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 −0.1 −0.05 0 0.05 0.1 0.15 Tempo (ms) Amplitude Normalizada 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 −1 −0.5 0 0.5 1 Tempo (ms) Amplitude Normalizada HRIR Esquerda HRIR Direita Atraso de Propagação ITD
Figura 2.2: HRIRs do KEMAR da base de dados CIPIC para Θ = 80◦, Φ = 0◦. ITD calculada a partir da diferen¸ca entre o tempo de in´ıcio (i.e onset time) de um par de HRTFs.
durante a medi¸c˜ao (i.e o atraso de propaga¸c˜ao). Assim, a ITD ´e definida como a diferen¸ca entre o tempo de in´ıcio da HRIR esquerda e direita, e ´e calculada por
IT D(θ, φ) = tL,η− tR,η. (2.8)
No entanto, devido a erros de medi¸c˜ao, valores diferentes de zero podem aparecer no in´ıcio da HRIR. Para reduzir os efeitos desses artefatos, considera-se o tempo de in´ıcio quando a HRIR supera uma determinada porcentagem η (5% - 20%) do valor m´aximo. Experimentos realizados por Xiaoli [59] sugerem utilizar um valor de η = 10%.
Antes de aplicar qualquer dos m´etodos descritos para a estima¸c˜ao da ITD, costuma-se filtrar a HRIR atrav´es de um filtro passa baixa para diminuir os efeitos do pavilh˜ao da orelha. Por exemplo, Xie et al. [56] usam um filtro passa baixa com frequˆencia de corte de 2.7 KHz antes de calcular a ITD usando o m´etodo da correla¸c˜ao cruzada.
O m´aximo do valor absoluto da ITD (i.e o |IT D|max) ´e considerado um parˆametro relevante nas HRIRs que caracteriza a variabilidade entre indiv´ıduos. Estudos realizados por Algazi et al. [7] demonstram que esse valor est´a fortemente correlacionado com o tamanho da cabe¸ca (coeficiente de correla¸c˜ao ρ = 0.87). Al´em disso, a m´edia da |IT D|max calculada por [56] ´e de 722µs com desvio padr˜ao σ = 22µs para homens e 686µs com σ = 17µs para mulheres. Os mesmos autores relatam que o |IT D|max ocorre normalmente no plano horizontal (i.e. φ = 0◦) no azimute θmax, entre 90◦ e 95◦, ou entre 265◦ e 270◦.
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 21
2.5
Caracter´ısticas em frequˆ
encia das HRTFs
Para analisar as caracter´ısticas em frequˆencia das HRTFs, a Figura 2.3 apresenta a magnitude de algumas HRTFs no plano horizontal para quatro azimutes onde pode-se observar o seguinte [22]: 1. Abaixo de 200 Hz aproximadamente, existe uma queda do n´ıvel do sinal. Essa queda acontece porque a resposta em frequˆencia dos alto-falantes utilizados na medi¸c˜ao das HRTFs ´e normalmente limitada em baixas frequˆencias.
2. Em frequˆencias abaixo da faixa de 0.4-0.5 KHz, o efeito de atenua¸c˜ao da cabe¸ca ´e despre-z´ıvel pelo que as magnitude das HRTFs para ambos os ouvidos est˜ao em torno de 0 dB e s˜ao, grosso modo, independentes da frequˆencia.
3. `A medida que a frequˆencia cresce acima de 1.5 KHz, as diferen¸cas de n´ıvel interaural tornam-se mais evidentes. Assim, a magnitude do ouvido ipsilateral (e.g. veja na Figura 2.3 a magnitude do ouvido esquerdo no azimute θ = 80◦) ´e maior do que a magnitude do ouvido contralateral. A diferen¸ca de ambas as magnitudes (i.e a IID) ´e definida como
IID (θ, φ, f ) = 20log10 HR(θ, φ, f ) HL(θ, φ, f ) . (2.9)
4. Em altas frequˆencias, a partir da faixa de 5-6 KHz, a magnitude das HRTFs variam de uma maneira complexa apresentando picos e notches.
5. O pico perto dos 4 KHz na magnitude das HRTFs ´e devido `a ressonˆancia do canal auditivo.
2.5.1
Caracter´ısticas em frequˆ
encia causados pelo pavilh˜
ao da orelha
Considera-se que em frequˆencias a partir de 3 KHz, quando o tamanho do pavilh˜ao da orelha ´
e compar´avel com o comprimento de onda da fonte, as caracter´ısticas do pavilh˜ao tornam-se relevantes na resolu¸c˜ao de confus˜oes frente-tr´as e na localiza¸c˜ao de fontes [32].
Como foi estudado na Se¸c˜ao 1.3, ITDs e IIDs similares causam ambiguidades (i.e confus˜oes frente-tr´as) que s˜ao resolvidas pelas caracter´ısticas em alta frequˆencia devidas ao ouvido externo. Para entender como o pavilh˜ao da orelha consegue fornecer informa¸c˜oes espectrais para resolver tais ambiguidades, a Figura 2.4 mostra a magnitude das HRTFs no plano horizontal para um mesmo ouvido nos azimutes 0◦ (i.e frente) e 180◦ (i.e tr´as). Observe que em altas frequˆencias, as diferen¸cas das respostas em magnitude de ambas as dire¸c˜oes s˜ao evidentes. Essas diferen¸cas causadas pela assimetria da cabe¸ca, a posi¸c˜ao da orelha e o efeito do ouvido externo permitem resolver as revers˜oes frente-tr´as [22].
Por outro lado, a magnitude das HRTFs caraterizam-se por apresentar picos e notches em frequˆencias a partir da faixa de 5-6 KHz. A frequˆencia central do primeiro desses notches ´e
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 22 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 1 10 −40 −20 0 20 40 frequência (KHz) H R T F Ma g n it u d e (d B) 0.1 0.1 0.1 0.1 HRTF Esquerda HRTF Direita θ=0° θ=30° θ=45° θ=80°
Figura 2.3: Resposta em magnitude das HRTFs do KEMAR na base de dados CIPIC para v´arios azimutes no plano horizontal.
considerado um fator importante na localiza¸c˜ao vertical de fontes sonoras segundo experimentos psicoac´usticos realizados por [60]. A Figura 2.5 mostra a magnitude de algumas HRTFs no plano mediano (i.e θ = 0◦ ). Observe que a frequˆencia central do primeiro notch ´e aproximadamente igual para ambas as orelhas.
A Figura 2.6 mostra uma representa¸c˜ao bidimensional (i.e. uma imagem) de um conjunto de HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo, onde cada coluna ´e a magnitude de uma HRTF para determinada eleva¸c˜ao. A intensidade representa o valor em dB da resposta em magnitude e os pontos em vermelho s˜ao as frequˆencias marcadas manualmente do primeiro notch para cada HRTF. Note que a frequˆencia do primeiro notch aumenta, grosso modo, `a medida que a eleva¸c˜ao passa de −45◦ a 50◦. A partir de aproximadamente 60◦ a frequˆencia do notch tende a diminuir gradualmente [56].
Outro fator importante em rela¸c˜ao `a frequˆencia do primeiro notch ´e a sua variabilidade entre diferentes indiv´ıduos. Algazi et al. [7] tˆem calculado a m´edia da frequˆencia central do primeiro notch em 52 indiv´ıduos da base de dados CIPIC [7] na dire¸c˜ao (θ = 0◦, φ = 0◦). O resultado obtido foi de 7.6 KHz com desvio padr˜ao de 1050 Hz. Considerando um desvio padr˜ao t˜ao alto, os autores concluem que existe uma alta variabilidade da frequˆencia do primeiro notch entre indiv´ıduos provocada pelas caracter´ısticas antropom´etricas do ouvido externo.
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 23 0.1 1 10 −40 −20 0 20 40 frequência (KHz) H R T F M a g n it u d e (d B) θ=0°, Ouvido esquerdo θ=180°, Ouvido esquerdo
Figura 2.4: Resposta em magnitude das HRTFs nos azimutes 0◦ (i.e frente) e 180◦ (i.e tr´as) no plano horizontal. As diferen¸cas em altas frequˆencias permitem resolver confus˜oes frente-tr´as.
1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 1 10 −20 −10 0 10 20 ɸ=−45°, ouvido Esquerdo ɸ=0°, ouvido Esquerdo ɸ=45°, ouvido Esquerdo ɸ=−45°, ouvido Direito ɸ=0°, ouvido Direito ɸ=45°, ouvido Direito 6.0 KHz 6.2 KHz 8.1 KHz 8.4 KHz 10.1 KHz 10.4 KHz Frequência (KHz) H R T F Ma g n it u d e (d B)
Figura 2.5: Resposta em magnitude de v´arias HRTFs no plano mediano (i.e. θ = 0). O primeiro notch para cada eleva¸c˜ao foi ressaltado.
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 24 Elevação (graus) 0 50 100 150 200 0 2 4 6 8 10 12 14 16 18 −35 −30 −25 −20 −15 −10 −5 0 5 10 -45 dB F re q u ê n ci a (KH z)
Figura 2.6: Representa¸c˜ao em duas dimens˜oes da resposta em magnitude das HRTFs para o ouvido esquerdo de um mesmo indiv´ıduo. Cada linha representa uma HRTF e a intensidade o valor em dB da resposta em magnitude. O primeiro notch para cada eleva¸c˜ao foi ressaltado em vermelho.
2.5.2
Caracter´ısticas de fase m´ınima das HRTFs
As HRTFs s˜ao fun¸c˜oes de vari´avel complexa que portanto tˆem magnitude e fase. Segundo Oppenheim et al. [61], as fun¸c˜oes de transferˆencia LTI e por conseguinte as HRTFs, podem ser representadas pelo produto da sua fun¸c˜ao de fase m´ınima Hmin(θ, φ, f ), uma fun¸c˜ao passa tudo
exp [jψall(θ, φ, f )] e uma fun¸c˜ao de fase linear exp [−j2πf T (θ, φ)],
H (θ, φ, f ) = Hmin(θ, φ, f ) exp [jψall(θ, φ, f )] exp [−j2πf T (θ, φ)] , (2.10)
onde T (θ, φ) ´e um atraso em tempo causado pela propaga¸c˜ao das ondas sonoras desde a fonte de ´
audio at´e o ouvido, e corresponde aproximadamente ao atraso de propaga¸c˜ao da Figura 2.2 [62]. Por outro lado, sabemos que a magnitude de uma fun¸c˜ao de transferˆencia e sua correspondente magnitude de fase m´ınima s˜ao iguais [61], pelo que
Hmin(θ, φ, f ) = |Hmin(θ, φ, f )| exp [jψmin(θ, φ, f )]
Hmin(θ, φ, f ) = |H (θ, φ, f )| exp [jψmin(θ, φ, f )] ,
(2.11) onde a fase da fun¸c˜ao de fase m´ınima e o logaritmo da magnitude est˜ao relacionados mediante a transformada de Hilbert ψmin(θ, φ, f ) = − 1 π +∞ Z −∞ ln |H (θ, φ, x)| f − x dx. (2.12)
Cap´ıtulo 2. Fun¸c˜oes de Transferˆencia Relacionadas `a Cabe¸ca 25
Da equa¸c˜ao 2.10, deduz-se que a fase de uma HRTF ´e dada por
ψ (θ, φ, f ) = ψmin(θ, φ, f ) + ψall(θ, φ, f ) − 2πf T (θ, φ) . (2.13)
Se a componente de fase da fun¸c˜ao passa tudo ψall for desprez´ıvel, a HRTF pode ser aproximada
como
H (θ, φ, x) ≈ Hmin(θ, φ, f ) exp [−j2πf T (θ, φ)] . (2.14)
A equa¸c˜ao 2.14 ´e chamada de aproxima¸c˜ao de fase m´ınima das HRTFs, na qual uma HRTF ´
e aproximada pela sua fun¸c˜ao de fase m´ınima em cascata com um atraso puro T (θ, φ). Na pr´atica, esse atraso ´e a ITD calculada a partir de algum dos m´etodos descritos na Se¸c˜ao 2.4 ou ainda outro m´etodo. Note que, nesse caso, o atraso seria colocado apenas em uma das HRTFs. Estudos realizados por [62] e [63] tˆem demonstrado a validade do modelo de fase m´ınima das HRTFs. Esta aproxima¸c˜ao ´e importante porque permite processar a HRTF utilizando apenas a sua magnitude. Assim que a magnitude da HRTF for processada, a HRTF complexa pode ser reconstru´ıda utilizando a equa¸c˜ao 2.14.