• Nenhum resultado encontrado

NOTAS E ACORDES NOTAS E ACORDES

4. MÉTODO DE IDENTIFICAÇÃO DE NOTAS E ACORDES

4.4. AJUSTES E REPRESENTAÇÃO DA IMAGEM BINÁRIA

4.4.1. Conexão entre os pixels

É bastante natural esperar que cada linha da matriz binarizada apresente oscilações (alternâncias entre 0’s e 1’s) devido à natureza da energia instantânea do sinal analisado ser oscilatória. Uma vez que a energia instantânea do sinal é definida como sendo o módulo elevado ao quadrado do mesmo, logo a frequência de oscilação da energia deverá ser estimada em média como sendo o dobro da frequência da nota à qual se deseja analisar.

Analisando “componente a componente” a nota de menor frequência está em torno dos 32 Hz, ao passo que a maior por volta dos 4 kHz; isto significa que, a cada um segundo, podem aparecer de 64 a 8000 oscilações. Assim, sabendo que existem 8000 amostras em um segundo, pode ocorrer desde 1 nível lógico baixo para cada 1 nível lógico alto até 128 níveis lógico baixo para cada 128 níveis lógico alto.

Na ausência de nota é assumido nível lógico baixo durante todo o tempo em que esta ocorrer (cenário de baixo ruído).

A técnica de conectividade entre pixels (Gonzales & Woods, 2010) permite remover todas as oscilações presentes analisando linha a linha a matriz binária. Ela é baseada numa máscara de tamanho 1×150; assim, havendo uma conectividade de pixels (nível lógico alto ou baixo) de comprimento superior a 150 (intervalo continuo sem variação do sinal maior que 150 pixels), este é caracterizado como presença de silêncio. Caso contrário, caracteriza-se como presença de informação (nota musical) nas componentes da linha analisada.

Portanto, todo trecho do sinal que tiver oscilações que satisfaçam o critério enunciado no parágrafo anterior, assumirá nível lógico alto (presença de informação), caso contrário, o nível lógico permanecerá inalterado (ausência de informação).

A técnica para análise de oscilações consiste em gerar uma matriz de frequências relativas que contabiliza o número de ocorrências de repetições do mesmo nível lógico em um dado intervalo de tempo, ou seja, cada valor mostrado denotará o tempo de sustentação de um estado fixo (tempo de invariância do sinal). O exemplo da matriz imagem I, vista na seção 3.5, quando binarizada por Otsu, pode ser representada pela matriz b como mostra a Figura 4.9.

Método de Identificação de Notas e Acordes 65 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 0 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 b     =    

FIGURA 4.9: Representação digital da imagem binária da figura 3.11.

Aplicando o processo de conectividade entre os pixels por linha na matriz b chega-se então à matriz R.

2 1 2 1 2 1 2 1

1 3 2 3 3

11 1

R NaN NaN NaN

NaN NaN NaN NaN NaN NaN

 

 

=

 

 

FIGURA 4.10: Representação das frequências relativas presentes em instantes contínuos de

tempo.

A partir da matriz R e seguindo então o critério baseado na máscara de tamanho 1×

150 descrito anteriormente, a nova matriz binária b’ (sem oscilações) será assim

representada: 1 1 1 1 1 1 1 1 1 1 1 1 ' 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 b     =    

FIGURA 4.11: Representação da imagem binária após aplicação do algoritmo de conectividade

entre os pixels.

Voltando ao nosso exemplo de um arquivo de áudio no formato wav, constituído de três notas musicais sobrepostas no tempo (Lá=440 Hz; Dó=523 Hz; Mi=659 Hz), geradas em um intervalo de 1 segundo, cuja matriz de frequências relativas é mostrada na Figura 4.12, o símbolo “NaN” diz que a partir daquele instante não existe mais informações (amostras) para serem computadas.

FIGURA 4.12:Trecho da matriz de frequências relativas presentes em instantes contínuos de tempo. A figura mostra apenas alguns bancos (45 a 52).

De acordo com o critério proposto, os valores superiores a 150 representam sustentações longas e logo são considerados como intervalo de silêncio, ao passo que valores inferiores são considerados como sustentações curtas e logo vistos como intervalos de oscilações de notas musicais. A soma de todos os valores linha a linha sempre resultará em N (número total de amostras do sinal), neste caso 8000 (áudio de 1 segundo de duração, amostrado a uma taxa de 8 kHz), portanto as linhas que apresentam o valor 8000 em sua primeira célula não apresentam informação útil disponível.

A seguir, a Figura 4.13 ilustra todo processo de aplicação do método apresentado anteriormente. Percebe-se que as linhas constituídas de informações são exatamente aquelas cujo código musical representa as notas armazenadas.

Método de Identificação de Notas e Acordes 67

FIGURA 4.13: Processo de conexão entre pixels, aplicado à imagem da figura 4.8. Um zoom

digital demonstra com clareza a presença de informações nas linhas que caracterizam cada nota.

4.4.2. Condição de elegibilidade

Na seção 4.4.1 viu-se um método rápido e eficiente para localizar notas musicais contidas em um sinal de áudio. Através da imagem binária da Figura 4.13 demonstrou-se que é possível interpretar todas as informações referentes à ocorrência de notas musicais em um sinal de áudio; basta olhar a imagem como uma função espacial f(x,y), onde a coordenada x representa o instante de tempo discreto e a coordenada y, a frequência discreta que classifica a nota; a amplitude de f é um sinal digital binário que poderá assumir o valor zero (ausência de informação, representado pela cor preta) ou um (presença de informação, representado pela cor branca).

Devido às impurezas contidas em um sinal qualquer, tais como interferência de filtros adjacentes, aproximações matemáticas nas modelagens dos filtros ou picos curtos de frequências devido às mudanças abruptas ocorridas na transição do sinal, é bastante comum se esperar a presença de componentes de energia suficientemente grandes de forma que venha a ser classificada como uma nota musical; no entanto, como esses sinais são de natureza instável – ocorrem como surtos em rápidos intervalos de tempo e de forma isolada – é comum eles aparecerem na imagem como uma nota qualquer, sobretudo com tempo de ocorrência impraticável para ser classificado como uma nota.

Imagem binária final (sem oscilações) Imagem binária (com oscilações)

em maior escala 45

48 52

As notas são capturadas pelo seu código musical; notas simultâneas geram os acordes.

O critério de classificação por tempo de duração visa analisar todas as ocorrências, todas as notas encontradas, de acordo com seu tempo de duração (comprimento de cada linha detectada na imagem binária). A priori todas as linhas brancas contínuas são candidatas a serem classificadas como nota, no entanto, são elegíveis apenas aquelas que satisfizerem o critério a seguir:

• Notas musicais são apenas aquelas que possuírem tempo de duração superior a cinquenta milissegundos (linha branca com comprimento superior a 400 pixels). Este valor foi escolhido com base nos instrumentos a serem analisados (violão e piano). Instrumentos deste tipo chegam a produzir notas com tempo de estadia superior a 50 ms.

• As notas deverão ser analisadas separadamente (linha a linha da imagem binária). Supondo agora a análise de um sinal de áudio de 1,5 segundos (12000 amostras) constituído das seguintes informações musicais: nota Sol na 3ª escala e acorde Dó maior na 4ª escala. De acordo com a Tabela 4.4, pode-se consultar a lei de formação para o acorde Dó maior e os respectivos códigos musicais poderão ser obtidos pela Tabela 4.1.

FIGURA 4.14: Exemplo de ocorrências de notas musicais.

0 2000 4000 6000 8000 10000 12000 0 0.5 1 X: 1374 Y: 1 G 3 ( 3 1 ) X: 5602 Y: 1 0 2000 4000 6000 8000 10000 12000 0 0.5 1 X: 5407 Y: 1 C 4 ( 3 6 ) X: 9611 Y: 1 0 2000 4000 6000 8000 10000 12000 0 0.5 1 X: 5429 Y: 1 E 4 ( 4 0 ) X: 9605 Y: 1 0 2000 4000 6000 8000 10000 12000 0 0.5 1 X: 5442 Y: 1 G 4 ( 4 3 ) X: 9575 Y: 1 0 2000 4000 6000 8000 10000 12000 0 0.5 1 X: 500 Y: 1 G 4 # ( 4 4 ) X: 1000 Y: 1 X: 1e+004 Y: 1 X: 1.17e+004 Y: 1

Método de Identificação de Notas e Acordes 69

A Figura 4.14 descreve uma análise gráfica de todas as linhas da imagem binária candidatas à classificação. Na linha 44 percebe-se a existência de duas ocorrências em intervalos de tempo distintos da nota Sol# na 4ª escala, no entanto, pelo critério descrito anteriormente, o tempo de duração delas não satisfaz à condição de elegibilidade, ao contrário das demais linhas apresentadas, desta forma a linha 44 deverá ser desclassificada do processo.

FIGURA 4.15: Exemplo de ocorrências de notas musicais após aplicação da condição de

elegibilidade.

O método para obtenção dos tempos de estadia de cada nota é realizado pelo cálculo da derivada parcial - para uma função degrau têm-se dois impulsos (positivo e negativo) respectivamente nas bordas de subida e descida - em função da coordenada x da imagem, desta forma, as fronteiras de cada linha são obtidas, tornando-se então possível a computação de tais intervalos.