• Nenhum resultado encontrado

Redu¸ c˜ ao ou Gera¸ c˜ ao da ODF

3.4 Conclus˜ oes

4.1.2 Redu¸ c˜ ao ou Gera¸ c˜ ao da ODF

A gera¸c˜ao da ODF ´e denominada de redu¸c˜ao, pois resulta de uma esp´ecie de processo de subamostragem. De um modo geral, os m´etodos de redu¸c˜ao podem ser divididos em dois grandes grupos: m´etodos baseados no uso de caracter´ısticas predefinidas do sinal [28, 39–42] ou m´etodos baseados em modelos probabil´ısticos do sinal e aprendizado de m´aquina [28, 31, 43–48]. Optou-se, neste trabalho, por explorar os m´etodos de redu¸c˜ao baseados nas caracter´ısticas do sinal.

4.1.2.1 Redu¸c˜ao Baseada em Caracter´ısticas Temporais e Espectrais do Sinal

Atualmente, h´a in´umeros m´etodos de gera¸c˜ao de ODF a partir das caracter´ısticas tem- porais e espectrais de um sinal [28, 49, 50]. Os m´etodos mais antigos operavam diretamente as amostras do ´audio x(n) no dom´ınio do tempo. A abordagem geral era observar mudan¸cas na amplitude do sinal. Entre as caracter´ısticas mais utilizadas estavam a envolt´oria, calcu- lada por processos de retifica¸c˜ao e filtragem passa-baixa, e a energia local, ou seja, energia de cada frame [28]. A dificuldade destes m´etodos ´e que eles funcionam bem quando o si- nal de interesse possui eventos percussivos intensos com pouca informa¸c˜ao no background. Desta forma, estas opera¸c˜oes de extra¸c˜ao de onsets, no dom´ınio do tempo, prejudicavam a detec¸c˜ao de onsets suaves por conta do mascaramento decorrente de sinais com energia maior.

Os m´etodos de detec¸c˜ao mais recentes utilizam as informa¸c˜oes decorrentes do espectro de frequˆencia dos sinais, mais especificamente de X(k, n), a STFT do sinal x(n). A dife- ren¸ca fundamental entre a variedade de abordagens existentes ´e quanto ao uso isolado ou conjunto do espectro de amplitude e do espectro de fase. A seguir, discuti-se brevemente discutidos os principais m´etodos.

Conte´udo de Alta Frequˆencia O m´etodo do conte´udo de alta frequˆencia (HFC - High Fre- quency Content ) [28,51] pondera linearmente cada bin da STFT com um fator proporcional `

a sua frequˆencia. Desta forma, a fun¸c˜ao de detec¸c˜ao ´e calculada por,

ODFHF C(n) = 2 LF LF/2 X k=1 |k| · |X(n, k)|2 (4.1)

onde LF ´e o n´umero de amostras da STFT, n o ´ındice do frame e k o ´ındice do bin.

A desvantagem desta abordagem ´e que ela n˜ao incorpora a evolu¸c˜ao temporal do sinal, somente a energia absoluta do frame atual.

Diferen¸ca Espectral e Fluxo Espectral O m´etodo da diferen¸ca espectral (SD - Spectral Dif- ference) e do fluxo espectral (SF - Spectral Flux ) [28,52–54] utiliza informa¸c˜oes temporais e espectrais, pois baseia-se no c´alculo da diferen¸ca entre os m´odulos da STFT de dois blocos adjacentes. A partir das diferen¸cas para cada bin de frequˆencia, s˜ao somadas aquelas que resultam em um valor positivo para a constru¸c˜ao da ODF. A fun¸c˜ao de detec¸c˜ao pode ser calculada com a norma L2 (equa¸c˜ao 4.2) ou L1 (equa¸c˜ao 4.3).

ODFSD(n) = LF/2 X k=1 {H[|X(n, k)| − |X(n − 1, k)|]}2 (4.2) ODFSF(n) = LF/2 X k=1 H[|X(n, k)| − |X(n − 1, k)|] (4.3)

onde H[x] = x+|x|2 ´e uma retifica¸c˜ao de meia onda.

Desvio de Fase O desvio de fase (PD - Phase Deviation) utiliza o espectro de fase da STFT [28, 39]. A mudan¸ca de fase em um bin de frequˆencia da STFT ´e uma estimativa da frequˆencia instantˆanea deste bin. Se ϕ(n, k) ´e a fase de X(n, k), em uma faixa −π < ϕ(n, k) ≤ π, ent˜ao a frequˆencia instantˆanea ´e dada pela diferen¸ca de primeira ordem ϕ0 = ϕ(n, k) − ϕ(n − 1, k). Logo, uma varia¸c˜ao da frequˆencia instantˆanea, ϕ00= ϕ0(n, k) − ϕ0(n−1, k), indica um poss´ıvel onset. Para tornar a detec¸c˜ao mais imune `as multiplicidades dos valores dos ˆangulos a fun¸c˜ao de detec¸c˜ao ´e calculada por,

ODFP D(n) = 2 LF LF/2 X k=1 |ϕ00(n, k)| (4.4)

Wavelet Regularity Modulus Este m´etodo faz uso de uma decomposi¸c˜ao wavelet com fun- ¸c˜ao Haar [28, 55] e explora o fato de que, em pontos onde ocorrem transientes, os coefi- cientes wavelet ao longo das v´arias escalas ter˜ao magnitude consider´avel, formando uma estrutura di´adica. A dificuldade deste m´etodo ´e que onsets suaves, onde praticamente n˜ao h´a transiente, se tornam dif´ıceis de detectar.

Dom´ınio Complexo O m´etodo do dom´ınio complexo (CD - Complex Domain) [28] incor- pora as informa¸c˜oes do espectro de amplitude e de fase. A amplitude esperada para um frame real ´e estimada com base nos dois blocos anteriores. Um valor alvo, XA(n, k), ´e

calculado considerando-se amplitude constante e uma taxa de varia¸c˜ao de fase: XA(n, k) =

|X(n, k)|ej(ϕ(n−1,k)+ϕ0(n−1,k)). Assim, este valor ´e comparado com o valor real do frame

para construir a fun¸c˜ao de detec¸c˜ao:

ODFCD(n) = LF/2

X

k=1

|X(n, k) − XA(n, k)| (4.5) Uma pequena varia¸c˜ao pode ser adicionada ao CD gerando imunidade a offsets (de- cr´escimo abrupto de amplitude). Esta varia¸c˜ao do m´etodo ´e conhecida como dom´ınio complexo retificado (RCD - Rectified Complex Domain), onde s´o os valores positivos do CD s˜ao somados. ODFRCD(n) = LF/2 X k=1 H[X(n, k) − XA(n, k)] (4.6)

Por levar em conta as informa¸c˜oes do espectro de amplitude e de fase e, por isto, ser suscet´ıvel a onsets suaves, adotou-se, neste trabalho, a ODFRCD como fun¸c˜ao de detec¸c˜ao

de onsets. Para uma base comparativa, efetuou-se um experimento avaliando um m´etodo puramente energ´etico temporal (ODFE), o SD e o RCD.

4.1.2.2 Experimento 1: Fun¸c˜oes ODF para bateria, viol˜ao e gaita

O objetivo deste experimento foi avaliar a escolha do m´etodo de redu¸c˜ao utilizado neste trabalho. Estudos comparativos [28] indicam que os m´etodos do dom´ınio complexo, da diferen¸ca espectral e do fluxo espectral, em geral, possuem boa performance para um vasta quantidade de material musical. Por julgarmos que a informa¸c˜ao de fase deve ser utilizada conjuntamente com o m´odulo, confrontou-se a ODFRCD com a ODFSD. Ainda, como

um m´etodo puramente energ´etico, como corroborado pela literatura [28], seria o de pior performance, o utilizamos como baseline. Esta fun¸c˜ao de detec¸c˜ao (ODFE) ´e calculada,

simplesmente, com o cˆomputo da diferen¸ca de energia entre cada frame adjacente do sinal segmentado.

Para a realiza¸c˜ao do experimento foram gravados, em formato wav, trˆes trechos de ´

audio, seguindo os padr˜oes utilizados neste trabalho. Os ´audios s˜ao identificados a seguir: • Bateria sintetizada (bumbo e caixa), executada a 100 bpm (grava¸c˜ao autoral) • Viol˜ao real, executado a 100 bpm (grava¸c˜ao autoral). M´usica: I’m Only Sleeping

(The Beatles)

• Gaita real, executada a 100 bpm (grava¸c˜ao autoral). M´usica: Love Me Do (The Beatles)

A escolha destes instrumentos buscou uma compara¸c˜ao dos m´etodos entre instrumentos que possu´ıssem envolt´orias distintas e, por isto, optou-se por um instrumento de percuss˜ao (figura 4.2), um de corda (figura 4.3), e um de sopro (figura 4.4).

Para a bateria, mesmo sinal de ´audio utilizado na an´alise wavelet anteriormente apresen- tada (figura 4.1), as batidas do bumbo e da caixa, pulsos de energia muito bem localizados no sinal de ´audio, tornam a detec¸c˜ao uma tarefa simples. Com isto, os trˆes m´etodos sob avalia¸c˜ao resultam em boa performance, conforme pˆode-se observar na figura 4.2. Ainda assim, o dom´ınio complexo retificado (figura 4.2(d)) exibiu uma fun¸c˜ao mais est´avel, no que se refere `as amplitudes relativas entre os seus picos.

0 1 2 3 4 5 x 105 −0.5 0 0.5 Amostras Amplitude

(a) ´Audio de bateria

0 1000 2000 3000 4000 0 10 20 30 Frames ODF E

(b) M´etodo de energia temporal

0 1000 2000 3000 4000 0 0.05 0.1 0.15 Frames ODF SD

(c) M´etodo da diferen¸ca espectral (SD )

0 1000 2000 3000 4000 0 0.2 0.4 0.6 0.8 1 Frames ODF RCD

(d) M´etodo do dom´ınio complexo retificado (RCD )

Figura 4.2: ODFE, ODFSD e ODFRCD para ´audio de bateria (sintetizado, grava¸c˜ao au-

No caso do sinal de viol˜ao (figura 4.3(a)), que foi executado com batidas de palheta, caracterizando um sinal com ataque mais pronunciado dentre as possibilidades do ins- trumento, pˆode-se perceber que, como n˜ao houve regi˜oes t˜ao bem definidas no ´audio, os algoritmos tiveram mais dificuldade para detectar onsets bem definidos. Contudo, apesar da existˆencia de artefatos entre os onsets, o SD e o RCD exibiram a maior parte destes eventos. 0 1 2 3 4 5 x 105 −0.2 −0.1 0 0.1 0.2 Amostras Amplitude

(a) ´Audio de viol˜ao

0 1000 2000 3000 4000 0 0.5 1 1.5 Frames ODF E

(b) M´etodo de energia temporal

0 1000 2000 3000 4000 0 2 4 6 8 x 10−3 Frames ODF SD

(c) M´etodo da diferen¸ca espectral (SD )

0 1000 2000 3000 4000 0 0.1 0.2 0.3 Frames ODF RCD

(d) M´etodo do dom´ınio complexo retificado (RCD )

Figura 4.3: ODFE, ODFSD e ODFRCD para ´audio de viol˜ao (real, grava¸c˜ao autoral)

Para a gaita (figura 4.4(a)), que ´e um instrumento cuja natureza da excita¸c˜ao sonora difere dos dois exemplos anteriores, tornando o ataque mais suave, os resultados demons- traram que o SD n˜ao obteve uma boa performance. O m´etodo de energia ainda detectou onsets, mas isto ocorreu pelo fato de que o trecho executado possu´ıa regi˜oes razoavelmente definidas de pulsos de energia.

Neste experimento, utilizamos o ´audio bruto para a constru¸c˜ao das fun¸c˜oes ODF. Na proposta desta tese, foram constru´ıdas ODF multiresolucionais, uma para cada vetor de coeficientes wavelet. Assim, gerou-se, por m´usica do banco de dados, 6 fun¸c˜oes de detec¸c˜ao de onsets, conforme elencadas na tabela 4.4.