Compara¸ c˜ ao com M´ etodos Existentes - Contribuições ao problema de extração de tempo musica

Para verificar o desempenho do sistema proposto nesta tese com outros métodos presen- tes na literatura realizou-se o treinamento da configura¸cão MLP com máquinas especialistas por resolu¸cão no front-end. O conjunto de dados utilizado para os três conjuntos de treinamento foi o banco de dados autoral. Utilizou-se o banco Zapata para simula¸cão do sistema treinado e posterior compara¸cão com os 21 métodos citados em [23]. Os resultados da simula¸cão do método proposto e os dois melhores resultados e o pior apresentados em [23] são exibidos na tabela 6.22.

Analisando os resultados da tabela 6.22 observa-se que o método proposto teve um desempenho inferior aos dois melhores resultados (BeatIt e Klapuri). O método proposto superou apenas, na métrica 1, a pior estratégia (jAudio) dentre os 21 algoritmos testados

Tabela 6.22: Resultados comparativos do m´etodo proposto com a literatura M´etrica Proposto BeatIt Klapuri jAudio

1 11,61% 60,43% 58,49% 5,16 %

2 13,76% 78,28% 91,18% 32,26%

3 16,34% 78,49% 91,18% 36,56%

em [23]. É provável que o fato de a fun¸cão custo utilizada ser o MSE esteja contribu´ındo para o desempenho inferior do algoritmo devido aos erros quadráticos por multiplicidade gerarem grandes valores.

6.4 Conclus˜oes

Neste cap´ıtulo foram apresentadas duas propostas para o mapeamento dos descritores extra´ıdos das PeDF para o tempo musical: o uso de perceptrons de múltiplas camadas (uma única oculta) convencionais e o uso de máquinas de aprendizado extremo.

O uso de MLP para o mapeamento foi realizado com duas configura¸cões. A primeira utilizou um único MLP que teve como entradas o conjunto total e os subconjuntos de atributos propostos neste trabalho. A segunda configura¸cão explorou o conceito de redes especializadas para cada n´ıvel de resolu¸cão DWT, no front-end da instância decisória, que denominamos configura¸cão multiresolucional. O subconjunto denominado de principais atributos de primeira e segunda ordem exibiram os melhores resultados para o objetivo em questão nas duas configura¸cões propostas. O fato dos atributos principais de segunda ordem, utilizados isoladamente, terem obtido um baixo desempenho corroboraram as análises realizadas no cap´ıtulo 5 de que esta classe de descritores gera informa¸cões de natureza qua- litativa a respeito das PeDF, não sendo capaz de produzir um mapeamento direto para o andamento da pe¸ca musical. A compara¸cão entre as duas configura¸cões indicou que a abordagem usando duas etapas, front-end especialista e outra máquina no back-end, apresentou resultados melhores. Adicionalmente, na configura¸cão multirresolucional, foram testados, como back-end, um regressor linear e um MLP, sendo que este último gerou os melhores resultados.

As propostas desenvolvidas no cap´ıtulo 5, referentes à sele¸cão forward de atributos via Gram-Schmidt, o pré-agrupamento de observa¸cões via clustering com K-means e a pré- sele¸cão esférica de observa¸cões por intermédio da PCA foram aplicadas para a realiza¸cão de treinamentos com configura¸cões multirresolucionais. Na aplica¸cão da sele¸cão de atributos, utilizou-se tanto atributos distintos quanto quantidades distintas para cada resolu¸cão do front-end, conforme resultado do cap´ıtulo 5. Os resultados do método se mostraram

razoáveis quando comparados à sele¸cão de atributos baseada no mapeamento direto e na seletividade quanto ao grau de periodicidade, ru´ıdo e tonal. O agrupamento de observa¸cões em 2 grupos, e a posterior distribui¸cão balanceada de andamentos dos alvos, também se mostrou uma abordagem interessante gerando resultados equivalentes ao GS. A sele¸cão esférica de observa¸cões gerou os melhores resultados, pois eliminou outliers do processo de treinamento.

O uso da ELM para a extra¸cão de tempo também foi explorado usando as duas configura¸cões citadas para o MLP. Utilizando a configura¸cão com uma única máquina, foi efetuada uma varredura de topologias, de 1 a 50 neurônios, com ELM sem regulariza¸cão e constatou-se que, a partir de um número N = 8 neurônios, o erro de valida¸cão assumiu uma tendência de crescimento. A avalia¸cão dos valores dos erros demonstrou a necessidade de regularizar a máquina. Desta forma, foi feita uma varredura do parâmetro de regulariza¸cão e todas as 20 topologias indicaram o mesmo valor para o erro m´ınimo da valida¸cão: λ = 32. Com a configura¸cão multirresolucional, duas possibilidades foram exploradas: o uso de uma ELM completa, no front-end, para cada resolu¸cão, e a aplica¸cão do compartilhamento da camada oculta, no front-end. Os resultados, no que se refere às performances, foram similares. Contudo, a performance do sistema de compartilhamento da camada escondida foi alcan¸cada com um número bem menor de neurônios.

A compara¸cão entre o desempenho da melhor configura¸cão obtida do sistema proposto e de métodos existentes na literatura demonstrou que o sistema desta tese obteve resultados muito modestos. Acredita-se que o MSE, enquanto fun¸cão custo, deva ser substitu´ıdo por outra estratégia que não gere altos valores de erro quando a hipótese for um múltiplo ou submúltiplo do alvo.

Cap´ıtulo 7

Conclus˜oes e Perspectivas

A vida é o que acontece com você enquanto você está ocupado fazendo outros planos.

John Lennon

7.1 Conclus˜oes

A extra¸cão de tempo musical ainda é um problema em aberto na área de MIR. No presente trabalho, o uso de atributos extra´ıdos de fun¸cões PeDF multiresolucionais como entradas para máquinas de aprendizado para estimar o tempo musical foi investigado. Esta abordagem teve inspira¸cão livre no sistema aural e neural humano, que, além de realizar discrimina¸cão em frequência e tomar decisões, é capaz de pôr em foco determinada escala de um fenômeno f´ısico para melhor compreendê-lo.

Com base nestas capacidades dos seres humanos, optou-se pela utiliza¸cão da transformada Wavelet para realizar uma análise multiresolucional do sinal musical. A partir de cada resolu¸cão geraram-se fun¸cões ODF e PeDF multiresolucionais. Das fun¸cões de periodicidade, para os diferentes n´ıveis wavelet, extra´ıram-se atributos que foram utilizados como entrada para o treinamento de máquinas de aprendizado do tipo MLP e ELM para estimar o tempo musical.

Para o desenvolvimento da proposta acima, no cap´ıtulo 2, discutiu-se sobre as teorias básicas utilizadas. Desta forma, fez-se necessário algum entedimento a respeito do ritmo e de sua rela¸cão com a percep¸cão auditiva humana, pois não há conexão direta entre eventos sonoros e eventos auditivos, isto é, o que se ouve ritmicamente não necessariamente existe como representa¸cão de um fenômeno f´ısico no áudio. Neste contexto, a compreensão da forma¸cão de fronteiras auditivas é extremamente importante, pois estes fenômenos percep- tuais podem ser estimulados, por exemplo, quando há certas mudan¸cas de amplitude e varia¸cões abruptas de frequência.

Para além das questões da percep¸cão auditiva, foi realizado um estudo sobre MIR que permitiu o aprofundamento dos métodos utilizados em processamento digital de sinais de ´

audio. Para extrair pontos do sinal musical referentes ao in´ıcio de poss´ıveis fronteiras auditivas, os onsets, o sinal precisava ser segmentado adequadamente. Além disto, um estudo sobre os atributos clássicos utilizados na ACA também foi efetuado, permitindo sua posterior adapta¸cão às fun¸cões PeDF.

Com o objetivo de aplica¸c˜ao da transformada Wavelet, realizou-se estudo sobre as rela- ¸

cões entre bancos de filtros, teoria multiresolu¸cão e wavelets. Por fim, ainda nesse cap´ıtulo, algumas ferramentas de aprendizado de máquina foram exploradas, como a regressão linear, as redes tipo MLP e as redes tipo ELM. Para construir uma metodologia a respeito de quais e quantos atributos e observa¸cões aplicar nestas máquinas, foram exploradas, ainda, a teoria de sele¸cão de atributos e variáveis, a análise de componentes principais e o K-Means clustering.

No cap´ıtulo 3, o objetivo foi fornecer uma descri¸cão em blocos do sistema geral desta tese e descrever as configura¸cões propostas por nós para as máquinas de aprendizado. Ainda, neste cap´ıtulo, os bancos de dados utilizados foram especificados. Para esta pesquisa, utilizamos dois bancos musicais: um autoral e outro fornecido por pesquisador externo ao trabalho. O banco autoral, uma das contribui¸cões deste trabalho, foi confeccionado especificamente para esta tese com mais de 65% de músicas brasileiras, perfazendo um total de 507 observa¸cões, dos mais variados gêneros musicais. O outro banco possui 465 músicas, também de diversos gêneros. Devido ao fato da não-platitude do histograma da distribui¸cão dos tempos do banco total, implementou-se uma abordagem denominada distribui¸cão balanceada de tempos para amenizar as disparidades entre os histogramas dos três subconjuntos usados para o treinamento das máquinas. O objetivo foi garantir boa representatividade dos alvos nos três conjuntos. Finalmente, o cap´ıtulo se encerrou com o estabelecimento de uma metodologia para a avalia¸cão dos erros baseada no conceito de janela de precisão utilizado na literatura MIR e uma reflexão a respeito da qualidade dos erros que possuem rela¸cão de multiplicidade com o ground truth. Como utilizamos um erro quadrático médio como fun¸cão performance para as máquinas de aprendizado, um erro por um valor múltiplo teria mais impacto absoluto na performance do que erros próximos ao ground truth. Contudo, o valor múltiplo representa uma informa¸cão pertinente à estrutura r´ıtmica e, por isto, possui mais qualidade.

No cap´ıtulo 4, foram desenvolvidas e analisadas as estratégias de processamento digital de sinais utilizadas para a confeçcão das fun¸cões PeDF. Três blocos fundamentais de

processamento do sistema geral foram explanados neste cap´ıtulo. O primeiro foi o bloco de decomposi¸cão wavelet, onde foram utilizados 5 n´ıveis perfazendo um total de 6 vetores de coeficientes wavelet com rela¸cão diádica de amostras entre eles, com uma wavelet mãe do tipo Coiflet3. Esta transformada demonstrou boa performance para a decomposi¸cão da hierarquia r´ıtmica. Após este bloco, cada um dos 6 vetores seguiu um ramo próprio no fluxo de sinal, recebendo, contudo, o mesmo tratamento. O segundo bloco foi a gera¸cão da fun¸cão ODF. Este bloco extraiu o sinal de onsets utilizando o método do dom´ınio com- plexo retificado e, comparativamente a outros métodos aqui testados, obteve resultados satisfatórios e mais adequados. Cada ODF multiresolucional passou por um refinamento utilizando-se de um filtro de média móvel como limiar de descarte dos valores inferiores a este gerando a ODFL. O terceiro bloco de cada resolu¸cão gerou as fun¸cões PeDF. Estas

foram analisadas quanto à capacidade de gerar poss´ıveis candidatos a tempo. Neste ponto, a conclusão a que se chegou foi que músicas com arranjos com tendência mais periódica geram fun¸cões PeDF mais “comportadas”, ou seja, com maior grau de periodicidade, me- nor grau de ru´ıdo e maior grau tonal, em contraste com as músicas com arranjos mais aleatórios.

No cap´ıtulo 5, o processo de extra¸cão de atributos foi explanado. Pré-processamentos foram realizados nas fun¸cões PeDF para refiná-las antes da extra¸cão. Assim, o n´ıvel médio foi retirado e 5% do in´ıcio e do fim dos vetores foram eliminados. Um conjunto inicial de 12 atributos, normalmente utilizados diretamente nos sinais de áudio, foi escolhido e adaptado para ser aplicado às fun¸cões PeDF. Para isto, consideraram-se estas fun¸cões quasi -periódicas. Um novo atributo foi proposto especificamente para a aplica¸cão na PeDF : a raia máxima do espectro r´ıtmico. A escolha do conjunto adaptado e o projeto do novo atributo foram realizados a partir de duas premissas. A primeira é de que havia necessidade de termos uma classe de atributos que intrinsecamente pudessem portar a informa¸cão de tempo, isto é, “atributos quantitativos”. A segunda é de que seria importante termos outra classe que portasse informa¸cões a respeito do grau de periodicidade, de ru´ıdo e tonal, “atributos qualitativos”. À primeira classe foi dada a denomina¸cão de atributos de primeira ordem, e, à outra, de atributos de segunda ordem. Com isto, foram desenvolvidas as equa¸cões de mapeamento direto para o andamento musical, quando se utilizam atributos de primeira ordem. Isto feito, a capacidade de mapeamento direto destes atributos foi avaliada considerando-se pelo menos um acerto dentro da janela de precisão em um dos n´ıveis DWT. O novo atributo proposto foi o que obteve a melhor avalia¸cão, alcan¸cando 95, 37% de acerto para o banco total, sendo mesmo superior a todos os outros da mesma classe usados

conjuntamente. Na avalia¸c˜ao dos demais, considerou-se um bom desempenho para aqueles que obtiveram mais de 60% de acerto. Assim, foram selecionados como principais atributos de primeira ordem o νERf 1, o νη e o νSC. Desenvolveu-se, tamb´em, uma metodologia

para avalia¸cão da performance dos atributos de segunda ordem quanto à seletividade de fun¸cões PeDF “comportadas”. Os descritores spectral flatness, predictivity ratio, o desvio padrão relativo e o spectral spread relativo foram os mais bem avaliados na metodologia desenvolvida de ranking de formas de onda e foram denominados de principais atributos de segunda ordem. O atributo νSD foi desprezado devido à sua performance pobre.

Um método de sele¸cão forward via GS foi implementado e testado de duas maneiras: com um vetor de atributos x ∈ R72, todas as resolu¸cões concatenadas, e com um vetor x ∈ R12, resolu¸cões consideradas isoladamente. Aqui, buscou-se não somente a sele¸cão de atributos em si, mas a perspectiva de duas configura¸cões poss´ıveis para as máquinas de aprendizado: uma padrão e uma multiresolu¸cão. A performance da sele¸cão, no que se refere ao MSE, foi pobre. Contudo, o comportamento descendente do erro, saturando a partir de um determinado número de atributos selecionados, indicou uma possibilidade de uso do subconjunto de atributos bem classificados no ranking.

Foram implementadas duas estratégias de estudo do espa¸co de atributos. A primeira utilizou um clustering via K-Means e permitiu a proposta de pré-sele¸cão de observa¸cões no processo de separa¸cão dos três subconjuntos de treinamento. Isto foi uma contribui¸cão interessante, pois permite refinar a qualidade destes conjuntos para aprimorar o treinamento das máquinas de aprendizado. Na avalia¸cão da segunda estratégia, análise PCA, vislumbrou-se a possibilidade da sele¸cão de observa¸cões para evitar poss´ıveis outliers. Ob- serva¸cões muito d´ıspares das demais, principalmente as que possu´ıam mudan¸cas bruscas no arranjo apareceram desgarradas da nuvem mais densa de exemplos. Com esta constata¸cão foi feita uma proposta de sele¸cão esférica do espa¸co de atributos.

O cap´ıtulo 6 tratou do uso e avalia¸cão das máquinas de aprendizado para mapear os atributos das fun¸cões PeDF para o tempo musical. Todas as configura¸cões propostas no cap´ıtulo 3 foram implementadas para as possibilidades de sele¸cão de atributos e observa- ¸cões desenvolvidas no cap´ıtulo 5. Para o uso do MLP, a configura¸cão que obteve o melhor desempenho foi a de front-end especialista e back-end com outro MLP. O vetor de entradas que promoveu o melhor desempenho para todas as configura¸cões foi o dos principais atributos de primeira e segunda ordem. Este resultado, refor¸cou o método de sele¸cão de atributos baseado no mapeamento direto e no ranking seletivo de fun¸cões PeDF.

Dado que a configura¸cão especialista resultou na melhor performance, optou-se por utilizá-la para a avalia¸cão das metodologias propostas de sele¸cão de atributos via GS, pré- sele¸cão de observa¸cões via K-Means e sele¸cão esférica de observa¸cões via PCA. As duas primeiras propostas tiveram desempenho semelhante, contudo, a sele¸cão esférica gerou os melhores resultados.

O uso das redes ELM também foi explorado nas duas configura¸cões propostas para o MLP. Devido à grande flexibilidade e velocidade de treinamento da ELM, a regulariza¸cão foi bastante testada e melhorou levemente os resultados. A contribui¸cão mais interessante foi o uso do compartilhamento da camada oculta para aproveitar as vantagens das entradas multiresolucionais em separado. Contudo, o resultado desta configura¸cão, que foi promis- sora dentre as possibilidades exploradas com a ELM, foi t´ımido quando comparado com o front-end especialista MLP.

A configura¸cão com redes MLP especialistas no front-end e back-end MLP foi confron- tada com 21 métodos existentes na literatura. Utilizou-se o banco fornecido por Zapata para a simula¸cão do sistema proposto nesta tese, após o treinamento deste com o banco autoral. Os resultados demonstraram que o sistema proposto obteve resultados modestos em compara¸cão aos principais métodos da literatura superando apenas o pior desempenho em [23]. Acredita-se que a pesquisa deva se aprofundar para conseguir alternativas ao MSE como fun¸cão custo. Outras estratégias que não gerem altos valores de erro, quando a hipótese for um múltiplo ou submúltiplo do alvo, devem ser investigadas.

No documento Contribuições ao problema de extração de tempo musical (páginas 141-149)