Pr´ e-Processamento - Conclus˜ oes - Contribuições ao problema de extração de tempo musical

3.4 Conclus˜ oes

4.1.1 Pr´ e-Processamento

Todo o processo de manipula¸cão de um sinal com um determinado objetivo pode ser precedido de alguma adequa¸cão deste para que o processamento posterior seja otimizado no que se refere, por exemplo, a tempo de execu¸cão, esfor¸co computacional, redu¸cão de dimensões etc. No caso de um sinal musical, para fins de dete¸cão de onsets, duas estratégias básicas são utilizadas: separa¸cão de transientes e regime permanente do sinal e separa¸cão em bandas de frequência [28]. Neste trabalho, optou-se pela análise multirresolu¸cão via tranformada Wavelet, que, do ponto de vista do dom´ınio da frequência, separa o espectro do sinal em bandas de oitava [12].

4.1.1.1 Transformada Wavelet

Para avaliar o uso desta ferramenta matemática, para o contexto de extra¸cão de caracter´ısticas de áudio musical, foram realizados alguns experimentos de análise wavelet com diferentes n´ıveis de resolu¸cão e wavelets mãe. A figura 4.1a refere-se a um sinal de bateria sintético formado por bumbo (B) e caixa (C), sendo executado a 100 bpm.

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 x 105 −0.5 0 0.5 a) Sinal 500 1000 1500 2000 2500 3000 3500 4000 −5 0 5 10 b) A 7 0.5 1 1.5 2 2.5 x 105 −0.05 0 0.05 Amostras c) D 1 C B C B B

Figura 4.1: Decomposi¸c˜ao Wavelet em 7 n´ıveis, coiflet3: (a) Sinal, (b) Aproxima¸c˜ao (A7),

Na figura 4.1a, está o áudio da bateria com 44, 1 kHz de amostragem. Um compasso equivale ao padrão (B, C, B, B, C) identificado na figura 4.1a, que se repete por mais 4 vezes. Pode-se observar que, no sinal aproxima¸cão (A7) (figura 4.1b), a proeminência é

do bumbo. O ´ultimo n´ıvel de resolu¸c˜ao, detalhe 1 (D1) (figura 4.1c), mostra a presen¸ca

marcante da caixa e um spike, provavelmente gerado pelo kick do pedal de bumbo. Pôde- se observar, então, que a multirresolu¸cão promovida pela transformada Wavelet separou o sinal em diferentes escalas.

Com este exemplo, percebe-se que um pré-processamento utilizando wavelets pode gerar resultados interessantes para a deteçcão de onsets e uma posterior análise de periodicida- des existentes no sinal, fato corroborado por outras pesquisas [32–36]. Assim como um

Tabela 4.1: Vetores de coeficientes wavelets Nome da faixa Faixa de frequˆencias (Hz)

Subgraves 20 − 60

Baixas 60 − 250

M´edias-baixas 250 − 2.000 M´edias-altas 2.000 − 6.000

Altas 6.000 − 20.000

Tabela 4.2: Vetores de coeficientes wavelets

N´ıvel wavelet Nome Faixa de frequˆencias (kHz) A5 Aproxima¸c˜ao 5 0 − 0, 689 D5 Detalhe 5 0, 689 − 1, 378 D4 Detalhe 4 1, 378 − 2, 756 D3 Detalhe 3 2, 756 − 5, 513 D2 Detalhe 2 5, 513 − 11, 025 D1 Detalhe 1 11, 025 − 22, 050

músico, em um conjunto musical, pode se utilizar dos diferentes instrumentos musicais que executam padrões r´ıtmicos distintos para perceber o andamento musical, é poss´ıvel utilizar as diferentes resolu¸cões wavelet para a extra¸cão de conteúdo r´ıtmico. Desta forma, após a avalia¸cão de formas de wavelet mãe e n´ıveis poss´ıveis, optou-se por utilizar a transformada Wavelet com 5 n´ıveis de decomposi¸cão e wavelet mãe coiflet3. A escolha desta base de fun- ¸cões se deve ao fato das coiflets terem fase quase linear, o que contribui para a simplifica¸cão do processo de compensa¸cão de atrasos distintos no banco de filtros para os diferentes sinais em futuras aplica¸cões em tempo real [36]. A escolha do número de n´ıveis de decomposi¸cão buscou um equil´ıbrio entre a práxis em equalizadores de sistemas de áudio, que dividem, geralmente, o espectro em 5 regiões conforme a tabela 4.1, e as pesquisas cient´ıficas na área da ACA [37].

Definiu-se o número de amostras a serem processadas dos sinais como sendo potência de base 2, para adequa¸cões ao algoritmo DWT. Então, os sinais de áudio analisados, em formato wav, possuem 524.288 amostras (219), o que corresponde a aproximadamente 11,89 segundos de áudio (em taxa de amostragem de 44, 1 kHz). Assim, foram gerados, para cada arquivo de áudio, 6 vetores de coeficientes Wavelet, identificados conforme exibido na tabela 4.2, com suas respectivas bandas de frequência. E importante ressaltar que´ o aumento de uma resolu¸cão para outra adjacente resulta em uma dobra no número de amostras existentes no vetor. Cada vetor passou pelos processamentos indicados nas se¸cões a seguir.

4.1.1.2 Divis˜ao do Sinal em Blocos

Em sistemas ACA, quase todo o processamento é realizado dividindo o sinal em blocos (frame-wise ou block-wise processing) [1]. Para fins de deteçcão de onsets, esta prática é conveniente, pois o que se busca é identificar, computacionalmente, mudan¸cas entre trechos do áudio que seriam percebidas como fronteiras auditivas por parte do ouvinte.

Neste trabalho, definiram-se duas estratégias para a divisão de cada vetor wavelet. A primeira utilizou um número fixo NF de blocos por resolu¸cão. A segunda utilizou um

número variável NF(r) de blocos em fun¸cão da resolu¸cão wavelet r [38].

Número Fixo de Frames Esta foi a primeira abordagem implementada neste trabalho. Ela consistiu na divisão de cada resolu¸cão wavelet pelo mesmo número NF de frames. As

fun¸cões ODF foram geradas, como de costume na literatura [28], a partir das diferen¸cas de caracter´ısticas entre os blocos, ou seja, cada par de blocos gera um ponto da ODF. Já que a presente abordagem considerou o mesmo número de frames para todas as 6 resolu¸cões, as 6 fun¸cões ODF tiveram o mesmo comprimento LODF. A vantagem disto é que o pro-

cessamento de sinal e a armazenagem dos dados se tornou mais simplificada. Apesar do fato de os blocos das diferentes resolu¸cões possu´ırem número de amostras diferentes, uma rela¸cão diádica, o comprimento temporal TF dos frames é o mesmo, ou seja, mesma janela

de tempo dos blocos para todas as resolu¸cões. Isto não permitiu explorar a capacidade multirresolu¸cão em toda a sua magnitude. Por isto, resolveu-se investir em um processamento baseado em NF variando por resolu¸cão.

Número Variável de Frames Quando o número de frames varia de uma resolu¸cão para a outra, é poss´ıvel obter fun¸cões ODF mais detalhadas a partir de n´ıveis wavelet com mais detalhes, ou seja, mais amostras. Com base nesta constata¸cão, implementou-se uma rela¸cão também diádica entre os números de blocos por resolu¸cão, como exibido na tabela 4.3. O procedimento implementado neste trabalho foi a fixa¸cão do comprimento LF (em

amostras) dos frames de cada resolu¸c˜ao ao mesmo valor: LF = 256 amostras, da resolu¸c˜ao

em questão. Fixar este parâmetro significou variar a janela temporal equivalente dos blocos entre as resolu¸cões, permitindo obter mais detalhes dos vetores com mais amostras. Para aumentar a resolu¸cão temporal foi utilizado um salto de LH = LF/2 amostras, entre frames

adjacentes, garantindo um overlap de 50% entre blocos. 4.1.1.3 Janelamento

Depois da divisão de cada resolu¸cão em blocos, aplicou-se uma janela de Hanning de mesmo comprimento dos frames de cada resolu¸cão. Este procedimento, clássico em

Tabela 4.3: Rela¸cão do número de frames entre as resolu¸cões wavelet N´ıvel wavelet Número de frames

A5 NF/32 D5 NF/16 D4 NF/8 D3 NF/4 D2 NF/2 D1 NF

processamento de sinais [11], reduz o espalhamento espectral que é gerado no processo de truncamento de informa¸cão que foi realizado com a divisão dos sinais em blocos.

No documento Contribuições ao problema de extração de tempo musical (páginas 84-87)