• Nenhum resultado encontrado

3.4 Conclus˜ oes

4.1.1 Pr´ e-Processamento

Todo o processo de manipula¸c˜ao de um sinal com um determinado objetivo pode ser precedido de alguma adequa¸c˜ao deste para que o processamento posterior seja otimizado no que se refere, por exemplo, a tempo de execu¸c˜ao, esfor¸co computacional, redu¸c˜ao de dimens˜oes etc. No caso de um sinal musical, para fins de dete¸c˜ao de onsets, duas estrat´egias b´asicas s˜ao utilizadas: separa¸c˜ao de transientes e regime permanente do sinal e separa¸c˜ao em bandas de frequˆencia [28]. Neste trabalho, optou-se pela an´alise multirresolu¸c˜ao via tranformada Wavelet, que, do ponto de vista do dom´ınio da frequˆencia, separa o espectro do sinal em bandas de oitava [12].

4.1.1.1 Transformada Wavelet

Para avaliar o uso desta ferramenta matem´atica, para o contexto de extra¸c˜ao de carac- ter´ısticas de ´audio musical, foram realizados alguns experimentos de an´alise wavelet com diferentes n´ıveis de resolu¸c˜ao e wavelets m˜ae. A figura 4.1a refere-se a um sinal de bateria sint´etico formado por bumbo (B) e caixa (C), sendo executado a 100 bpm.

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 x 105 −0.5 0 0.5 a) Sinal 500 1000 1500 2000 2500 3000 3500 4000 −5 0 5 10 b) A 7 0.5 1 1.5 2 2.5 x 105 −0.05 0 0.05 Amostras c) D 1 C B C B B

Figura 4.1: Decomposi¸c˜ao Wavelet em 7 n´ıveis, coiflet3: (a) Sinal, (b) Aproxima¸c˜ao (A7),

(c) Detalhe 1 (D1). Os outros detalhes foram omitidos para simplifica¸c˜ao.

Na figura 4.1a, est´a o ´audio da bateria com 44, 1 kHz de amostragem. Um compasso equivale ao padr˜ao (B, C, B, B, C) identificado na figura 4.1a, que se repete por mais 4 vezes. Pode-se observar que, no sinal aproxima¸c˜ao (A7) (figura 4.1b), a proeminˆencia ´e

do bumbo. O ´ultimo n´ıvel de resolu¸c˜ao, detalhe 1 (D1) (figura 4.1c), mostra a presen¸ca

marcante da caixa e um spike, provavelmente gerado pelo kick do pedal de bumbo. Pˆode- se observar, ent˜ao, que a multirresolu¸c˜ao promovida pela transformada Wavelet separou o sinal em diferentes escalas.

Com este exemplo, percebe-se que um pr´e-processamento utilizando wavelets pode gerar resultados interessantes para a detec¸c˜ao de onsets e uma posterior an´alise de periodicida- des existentes no sinal, fato corroborado por outras pesquisas [32–36]. Assim como um

Tabela 4.1: Vetores de coeficientes wavelets Nome da faixa Faixa de frequˆencias (Hz)

Subgraves 20 − 60

Baixas 60 − 250

M´edias-baixas 250 − 2.000 M´edias-altas 2.000 − 6.000

Altas 6.000 − 20.000

Tabela 4.2: Vetores de coeficientes wavelets

N´ıvel wavelet Nome Faixa de frequˆencias (kHz) A5 Aproxima¸c˜ao 5 0 − 0, 689 D5 Detalhe 5 0, 689 − 1, 378 D4 Detalhe 4 1, 378 − 2, 756 D3 Detalhe 3 2, 756 − 5, 513 D2 Detalhe 2 5, 513 − 11, 025 D1 Detalhe 1 11, 025 − 22, 050

m´usico, em um conjunto musical, pode se utilizar dos diferentes instrumentos musicais que executam padr˜oes r´ıtmicos distintos para perceber o andamento musical, ´e poss´ıvel utilizar as diferentes resolu¸c˜oes wavelet para a extra¸c˜ao de conte´udo r´ıtmico. Desta forma, ap´os a avalia¸c˜ao de formas de wavelet m˜ae e n´ıveis poss´ıveis, optou-se por utilizar a transformada Wavelet com 5 n´ıveis de decomposi¸c˜ao e wavelet m˜ae coiflet3. A escolha desta base de fun- ¸c˜oes se deve ao fato das coiflets terem fase quase linear, o que contribui para a simplifica¸c˜ao do processo de compensa¸c˜ao de atrasos distintos no banco de filtros para os diferentes sinais em futuras aplica¸c˜oes em tempo real [36]. A escolha do n´umero de n´ıveis de decomposi¸c˜ao buscou um equil´ıbrio entre a pr´axis em equalizadores de sistemas de ´audio, que dividem, geralmente, o espectro em 5 regi˜oes conforme a tabela 4.1, e as pesquisas cient´ıficas na ´area da ACA [37].

Definiu-se o n´umero de amostras a serem processadas dos sinais como sendo potˆencia de base 2, para adequa¸c˜oes ao algoritmo DWT. Ent˜ao, os sinais de ´audio analisados, em formato wav, possuem 524.288 amostras (219), o que corresponde a aproximadamente 11,89 segundos de ´audio (em taxa de amostragem de 44, 1 kHz). Assim, foram gerados, para cada arquivo de ´audio, 6 vetores de coeficientes Wavelet, identificados conforme exibido na tabela 4.2, com suas respectivas bandas de frequˆencia. E importante ressaltar que´ o aumento de uma resolu¸c˜ao para outra adjacente resulta em uma dobra no n´umero de amostras existentes no vetor. Cada vetor passou pelos processamentos indicados nas se¸c˜oes a seguir.

4.1.1.2 Divis˜ao do Sinal em Blocos

Em sistemas ACA, quase todo o processamento ´e realizado dividindo o sinal em blocos (frame-wise ou block-wise processing) [1]. Para fins de detec¸c˜ao de onsets, esta pr´atica ´e conveniente, pois o que se busca ´e identificar, computacionalmente, mudan¸cas entre trechos do ´audio que seriam percebidas como fronteiras auditivas por parte do ouvinte.

Neste trabalho, definiram-se duas estrat´egias para a divis˜ao de cada vetor wavelet. A primeira utilizou um n´umero fixo NF de blocos por resolu¸c˜ao. A segunda utilizou um

n´umero vari´avel NF(r) de blocos em fun¸c˜ao da resolu¸c˜ao wavelet r [38].

N´umero Fixo de Frames Esta foi a primeira abordagem implementada neste trabalho. Ela consistiu na divis˜ao de cada resolu¸c˜ao wavelet pelo mesmo n´umero NF de frames. As

fun¸c˜oes ODF foram geradas, como de costume na literatura [28], a partir das diferen¸cas de caracter´ısticas entre os blocos, ou seja, cada par de blocos gera um ponto da ODF. J´a que a presente abordagem considerou o mesmo n´umero de frames para todas as 6 resolu¸c˜oes, as 6 fun¸c˜oes ODF tiveram o mesmo comprimento LODF. A vantagem disto ´e que o pro-

cessamento de sinal e a armazenagem dos dados se tornou mais simplificada. Apesar do fato de os blocos das diferentes resolu¸c˜oes possu´ırem n´umero de amostras diferentes, uma rela¸c˜ao di´adica, o comprimento temporal TF dos frames ´e o mesmo, ou seja, mesma janela

de tempo dos blocos para todas as resolu¸c˜oes. Isto n˜ao permitiu explorar a capacidade mul- tirresolu¸c˜ao em toda a sua magnitude. Por isto, resolveu-se investir em um processamento baseado em NF variando por resolu¸c˜ao.

N´umero Vari´avel de Frames Quando o n´umero de frames varia de uma resolu¸c˜ao para a outra, ´e poss´ıvel obter fun¸c˜oes ODF mais detalhadas a partir de n´ıveis wavelet com mais detalhes, ou seja, mais amostras. Com base nesta constata¸c˜ao, implementou-se uma rela¸c˜ao tamb´em di´adica entre os n´umeros de blocos por resolu¸c˜ao, como exibido na tabela 4.3. O procedimento implementado neste trabalho foi a fixa¸c˜ao do comprimento LF (em

amostras) dos frames de cada resolu¸c˜ao ao mesmo valor: LF = 256 amostras, da resolu¸c˜ao

em quest˜ao. Fixar este parˆametro significou variar a janela temporal equivalente dos blocos entre as resolu¸c˜oes, permitindo obter mais detalhes dos vetores com mais amostras. Para aumentar a resolu¸c˜ao temporal foi utilizado um salto de LH = LF/2 amostras, entre frames

adjacentes, garantindo um overlap de 50% entre blocos. 4.1.1.3 Janelamento

Depois da divis˜ao de cada resolu¸c˜ao em blocos, aplicou-se uma janela de Hanning de mesmo comprimento dos frames de cada resolu¸c˜ao. Este procedimento, cl´assico em

Tabela 4.3: Rela¸c˜ao do n´umero de frames entre as resolu¸c˜oes wavelet N´ıvel wavelet N´umero de frames

A5 NF/32 D5 NF/16 D4 NF/8 D3 NF/4 D2 NF/2 D1 NF

processamento de sinais [11], reduz o espalhamento espectral que ´e gerado no processo de truncamento de informa¸c˜ao que foi realizado com a divis˜ao dos sinais em blocos.