Convolu¸c˜ao no dom´ınio do tempo - Processamentos representativos para manipula¸c˜ao de ´ audi

2.2 Processamentos representativos para manipula¸c˜ao de ´ audio

2.2.2 Convolu¸c˜ao no dom´ınio do tempo

A convolu¸cão é uma opera¸cão definida sobre fun¸cões cont´ınuas bastante utilizada nos campos da probabilidade, estat´ıstica, visão computacional, processamento de sinais e equa¸cões diferenciais. Também definida no caso discreto, a convolu¸cão é opera¸cão básica para representa¸cão e manipula¸cão de sinais em diferentes bases, dando origem às transformadas de Fourier, de Wavelets, entre outras. A opera¸cão de convolu¸cão circular é definida sobre dois vetores x, y ∈ CN e resulta num novo vetor w ∈ CN _{com componentes w}

r dados por: wr = N −1 X k=0 xky(r−k) (mod N ).

A convolu¸cão circular é denotada por w = x ∗ y e é fácil ver que possui as propriedades de linearidade, comutatividade, e associatividade. Além disso, pode ser formulada matricialmente e é periódica se os vetores x e y forem estendidos periodicamente, com per´ıodo N , para todos os valores inteiros (Broughton e Bryan,2011).

O teorema da convolu¸cão diz que a opera¸cão de convolu¸cão circular de dois sinais no dom´ınio do tempo corresponde à opera¸cão de multiplica¸cão ponto a ponto dos espectros destes sinais no dom´ınio das frequências. Mais formalmente, sejam x e y dois vetores em CN com DFTs, respecti- vamente, X e Y, e seja w = x ∗ y, com DFT W. Então, vale que:

Wk = XkYk, para 0 ≤ k ≤ N − 1.

Isso permite ver que a convolu¸cão circular pode ser implementada de forma eficiente através da expressão w = IF F T (F F T (x). ∗ F F T (y)), onde .∗ denota o produto dos vetores componente a componente. Essa implementa¸cão é chamada de convolu¸cão rápida, e tem custo computacional O(N log(N )) ao invés de O(N2), associado ao cálculo direto da expressão de wr, r = 0, 1, . . . , N −1. Convolu¸cão circular e filtros FIR

O resultado visto acima permite utilizar a convolu¸cão circular no dom´ınio temporal para obter um novo sinal cujo espectro seja a multiplica¸cão dos espectros de dois sinais de entrada. Dado um vetor h com DFT H, se a convolu¸cão de h com um sinal de entrada x resulta na modifica¸cão do espectro X de forma controlada, torna-se interessante chamar h de filtro. Quanto menor for o número de coeficientes de h diferentes de zero, menor é o custo computacional da implementa¸cão do filtro diretamente através da expressão da convolu¸cão no dom´ınio do tempo. O maior coeficiente

2.2 PROCESSAMENTOS REPRESENTATIVOS PARA MANIPULAÇ ÃO DE ÁUDIO 29

Figura 2.2: Esquema geral para a implementa¸cão de filtros FIR utilizando convolu¸cão no dom´ınio do tempo: o sinal da entrada x[n] é convolvido com os coeficientes bi, para i = 1 . . . N , que caracterizam a resposta

impulsiva do filtro, e gera um sinal de sa´ıda y[n].

não nulo define a ordem do filtro e determina o número de amostras “do passado” que serão utilizadas para calcular uma nova amostra de sa´ıda. Assim, caracter´ısticas interessantes para sinais candidatos a filtro são possuir espectro conhecido e parametrizável, para permitir o controle dos efeitos no sinal de entrada, e representa¸cão temporal com poucos coeficientes, de forma a viabilizar uma implementa¸cão com baixa complexidade computacional no dom´ınio do tempo.

A implementa¸cão da convolu¸cão diretamente no dom´ınio do tempo é uma técnica amplamente utilizada em uma série de algoritmos de computa¸cão musical, sendo particularmente eficiente quando a ordem do filtro é pequena. Uma classe de filtros bastante estudada e que possui as caracter´ısticas acima são os filtros de resposta impulsiva finita (ou filtros FIR), cujo esquema geral pode ser visto na Figura 2.2. A equa¸cão geral do cálculo do sinal y resultante da filtragem de um sinal de entrada x de tamanho N por um filtro FIR h de ordem K, implementado utilizando a convolu¸cão no dom´ınio do tempo, é escrita da seguinte forma:

yn= K X

k=0

hnxn−k, n = 0, . . . , N − 1.

Note que nesta formula¸cão, o cálculo das primeiras K − 1 amostras necessitarão de valores de xn para n negativo. Uma solu¸cão comum é utilizar valores nulos nestes casos, o que corresponde à interpreta¸cão da convolu¸cão linear que será discutida a seguir, através da implementa¸cão conhecida como convolu¸cão linear rápida.

Convolu¸cão linear e convolu¸cão linear rápida

Uma outra opera¸cão, que está relacionada à convolu¸cão circular mas possui complexidade computacional mais baixa e fornece um resultado um pouco diferente, é a chamada convolu¸cão linear, que essencialmente se difere da convolu¸cão circular pelo anulamento dos termos xn−k quando n − k < 0 (ao invés de considerá-los iguais a x_{(n−k) (mod N )}). Dados dois sinais x e h de tamanho N , a convolu¸cão linear pode ser computada eficientemente da seguinte forma:

1. Estenda os sinais x e y com zeros `a direita at´e o tamanho 2N . 2. Compute a FFT de 2N pontos dos dois sinais.

3. Multiplique os espectros calculados para obter Yn= XnHn, para n = 0, . . . , 2N − 1.

4. Compute a IFFT de 2N pontos do sinal Y = (Y0, . . . , Y2N −1) para obter y com coeficientes yn para n = 0, . . . , Y2N −1.

Como é baseada nos algoritmos da FFT e IFFT, o cálculo da convolu¸cão linear rápida possui complexidade computacional igual a O(2N log(2N )), que é essencialmente O(N log(N )). Apesar disso, o vetor obtido não corresponde ao sinal cujo espectro é a multiplica¸cão dos espectros dos sinais de entrada de tamanho N , pois o sinal y obtido pela convolu¸cão linear rápida possui tamanho

2N e seu espectro é a multiplica¸cão dos espectros dos sinais de entrada estendidos com zeros até o tamanho de 2N .

A implementa¸cão da convolu¸cão linear diretamente no dom´ınio do tempo, que possui custo computacional O(N ) por amostra, tem a vantagem de permitir a implementa¸cão de filtros com coeficientes que variam no tempo, além de permitir a interpreta¸cão de x como fluxo de entrada (de tamanho arbitrário) e h como resposta impulsiva de um filtro de tamanho N . A complexidade computacional do cálculo da implementa¸cão da convolu¸cão no dom´ınio do tempo depende, portanto, do tamanho do sinal de entrada e da ordem do filtro utilizado. Se a ordem do filtro é constante, então a complexidade é linear no tamanho do sinal de entrada. Neste sentido, a dúvida relevante para este trabalho é sobre o tamanho máximo de um filtro que pode ser aplicado a um sinal de entrada em tempo real em cada dispositivo considerado. A exemplo do que foi comentado sobre a FFT na Se¸cão 2.2.1, a resposta dependerá da natureza de cada dispositivo. No Cap´ıtulo 3, por exemplo, será visto que a restri¸cão dos filtros a uma fam´ılia bastante espec´ıfica permite aumentar consideravelmente a ordem de alguns filtros implementados no Arduino.

Janelamento, processamento em blocos, e efeitos no espectro

No processamento de áudio digital em tempo real, supõe-se que o sinal digital é obtido e/ou gerado em blocos de amostras que representam se¸cões do sinal correspondentes a intervalos de tempo iguais (veja a Se¸cão 1.1.1). Por este motivo, o sinal completo nunca está totalmente dispon´ıvel antes do final da execu¸cão do processamento. As únicas partes do sinal que estão dispon´ıveis para processamento são o bloco atual e os blocos passados, limitados pelo tamanho da memória do dispositivo utilizado. O arcabou¸co teórico que fundamenta a manipula¸cão do sinal em blocos é chamado janelamento, que pode ser entendido como um “recorte” do sinal digital de forma que se considere somente um peda¸co de tamanho fixo por vez.

Em sua forma mais simples, o janelamento pode ser compreendido como a multiplica¸cão ponto a ponto do sinal digital original por uma vetor que vale 1 nos ´ındices que correspondem ao bloco considerado e zero em todos os outros pontos. Como a multiplica¸cão no dom´ınio do tempo corresponde à opera¸cão de convolu¸cão no dom´ınio das frequências (veja a Se¸cão 2.2.2), o janelamento introduz uma distor¸cão no sinal que é quantificável. O efeito do janelamento no dom´ınio do tempo corresponde, no dom´ınio das frequências, à convolu¸cão do espectro do sinal original com o espectro da janela utilizada. A janela retangular, por sua descontinuidade acentuada (em termos discretos) nos pontos onde come¸ca e termina, possui um espectro relativamente rico em rela¸cão a outras janelas, mais frequentemente utilizadas, que possuem transi¸cões mais suaves nas extremidades.

Considere que x ∈ CN seja o sinal original e que X ∈ CN seja o vetor que representa suas componentes em frequência calculadas pela FFT (veja a Se¸cão 2.2.1). Considere também que w ∈ CN _seja uma janela com wk= 0 para k < m e k ≥ m+M para uma certa escolha de m e M , e que W ∈ CN seja seu espectro. Considere, ainda, o sinal ˜x = (wmxm, wm+1xm+1, . . . , wm+M −1xm+M −1) ∈ CM que corresponde à multiplica¸cão ponto a ponto de x com w, considerando somente os M valores dentro da janela. Qual é, então, a rela¸cão entre os espectros de x e ˜x? Suponha que N = qM para algum q inteiro. Então, a FFT ˜X ∈ CM _{do sinal ˜}_{x é dada por ˜}_X

s =

e2πims/M

N (X ∗ W)qs, para s = 0, 1, . . . , M − 1 (Broughton e Bryan,2011).

Sobreposi¸c˜ao de blocos e janelamento deslizante

Mesmo em processamentos que não sejam realizados em tempo real pode haver motivos para realizar o janelamento do sinal. Um exemplo são processamentos em tempo-frequência utilizando a FFT (vista na Se¸cão 2.2.1). Uma transformada do sinal completo captura uma descri¸cão das frequências que compõem o sinal como um todo e muitas vezes pode não capturar com precisão aquelas frequências que estão presentes somente em uma parte do sinal. Através do janelamento, é poss´ıvel analisar se¸cões menores do sinal e observar eventos transientes, que ocorrem somente em regiões pequenas do sinal (veja mais sobre isso nas Se¸cões 2.2.3 e 2.2.4). A resolu¸cão da análise, ou

2.2 PROCESSAMENTOS REPRESENTATIVOS PARA MANIPULAÇ ÃO DE ÁUDIO 31 seja, o número de componentes igualmente espa¸cadas entre 0 e R/2 Hz que podem ser representadas por uma FFT feita sobre um bloco de amostras, é determinada pelo tamanho do bloco.

Há portanto uma certa dualidade entre a resolu¸cão nos dom´ınios do tempo e das frequências. Diminuir o tamanho dos blocos com o objetivo de aumentar a resolu¸cão no dom´ınio do tempo implica necessariamente em diminuir a resolu¸cão, ou a quantidade de componentes calculadas pela FFT, no dom´ınio das frequências. Uma forma de obter um balan¸co entre a resolu¸cão nos dois dom´ınios é permitir a sobreposi¸cão de blocos no dom´ınio do tempo. A sobreposi¸cão permite que a resolu¸cão no dom´ınio das frequências seja mantida, pois o tamanho de cada bloco é o mesmo, e que a resolu¸cão no dom´ınio do tempo seja aumentada, pois a cada passo o in´ıcio do novo bloco considerado é menos distante no tempo do in´ıcio do bloco anterior (Zölzer,2002). A realiza¸cão da opera¸cão de janelamento sobre um sinal de forma que janelas sucessivas sejam consideradas a cada itera¸cão (com ou sem sobreposi¸cão) é chamada janelamento deslizante.

No caso de processos de s´ıntese que utilizam janelamento deslizante é necessário tomar uma decisão sobre a forma de combinar as partes dos blocos de amostras sobrepostas em blocos adjacen- tes. Uma técnica bastante utilizada é chamada overlap-add . Se o janelamento foi feito utilizando uma janela com extremidades suaves, o procedimento de overlap-add consiste apenas em somar as amostras que se sobrepõem nos diferentes blocos, para obter a amostra final.

No documento Processamento de áudio em tempo real em dispositivos computacionais de alta disponibilidade... (páginas 42-45)