• Nenhum resultado encontrado

Compara¸ c˜ ao com M´ etodos Existentes

Para verificar o desempenho do sistema proposto nesta tese com outros m´etodos presen- tes na literatura realizou-se o treinamento da configura¸c˜ao MLP com m´aquinas especialistas por resolu¸c˜ao no front-end. O conjunto de dados utilizado para os trˆes conjuntos de treina- mento foi o banco de dados autoral. Utilizou-se o banco Zapata para simula¸c˜ao do sistema treinado e posterior compara¸c˜ao com os 21 m´etodos citados em [23]. Os resultados da simula¸c˜ao do m´etodo proposto e os dois melhores resultados e o pior apresentados em [23] s˜ao exibidos na tabela 6.22.

Analisando os resultados da tabela 6.22 observa-se que o m´etodo proposto teve um desempenho inferior aos dois melhores resultados (BeatIt e Klapuri). O m´etodo proposto superou apenas, na m´etrica 1, a pior estrat´egia (jAudio) dentre os 21 algoritmos testados

Tabela 6.22: Resultados comparativos do m´etodo proposto com a literatura M´etrica Proposto BeatIt Klapuri jAudio

1 11,61% 60,43% 58,49% 5,16 %

2 13,76% 78,28% 91,18% 32,26%

3 16,34% 78,49% 91,18% 36,56%

em [23]. ´E prov´avel que o fato de a fun¸c˜ao custo utilizada ser o MSE esteja contribu´ındo para o desempenho inferior do algoritmo devido aos erros quadr´aticos por multiplicidade gerarem grandes valores.

6.4 Conclus˜oes

Neste cap´ıtulo foram apresentadas duas propostas para o mapeamento dos descritores extra´ıdos das PeDF para o tempo musical: o uso de perceptrons de m´ultiplas camadas (uma ´unica oculta) convencionais e o uso de m´aquinas de aprendizado extremo.

O uso de MLP para o mapeamento foi realizado com duas configura¸c˜oes. A primeira utilizou um ´unico MLP que teve como entradas o conjunto total e os subconjuntos de atributos propostos neste trabalho. A segunda configura¸c˜ao explorou o conceito de redes especializadas para cada n´ıvel de resolu¸c˜ao DWT, no front-end da instˆancia decis´oria, que denominamos configura¸c˜ao multiresolucional. O subconjunto denominado de principais atributos de primeira e segunda ordem exibiram os melhores resultados para o objetivo em quest˜ao nas duas configura¸c˜oes propostas. O fato dos atributos principais de segunda or- dem, utilizados isoladamente, terem obtido um baixo desempenho corroboraram as an´alises realizadas no cap´ıtulo 5 de que esta classe de descritores gera informa¸c˜oes de natureza qua- litativa a respeito das PeDF, n˜ao sendo capaz de produzir um mapeamento direto para o andamento da pe¸ca musical. A compara¸c˜ao entre as duas configura¸c˜oes indicou que a abor- dagem usando duas etapas, front-end especialista e outra m´aquina no back-end, apresentou resultados melhores. Adicionalmente, na configura¸c˜ao multirresolucional, foram testados, como back-end, um regressor linear e um MLP, sendo que este ´ultimo gerou os melhores resultados.

As propostas desenvolvidas no cap´ıtulo 5, referentes `a sele¸c˜ao forward de atributos via Gram-Schmidt, o pr´e-agrupamento de observa¸c˜oes via clustering com K-means e a pr´e- sele¸c˜ao esf´erica de observa¸c˜oes por interm´edio da PCA foram aplicadas para a realiza¸c˜ao de treinamentos com configura¸c˜oes multirresolucionais. Na aplica¸c˜ao da sele¸c˜ao de atribu- tos, utilizou-se tanto atributos distintos quanto quantidades distintas para cada resolu¸c˜ao do front-end, conforme resultado do cap´ıtulo 5. Os resultados do m´etodo se mostraram

razo´aveis quando comparados `a sele¸c˜ao de atributos baseada no mapeamento direto e na seletividade quanto ao grau de periodicidade, ru´ıdo e tonal. O agrupamento de observa¸c˜oes em 2 grupos, e a posterior distribui¸c˜ao balanceada de andamentos dos alvos, tamb´em se mostrou uma abordagem interessante gerando resultados equivalentes ao GS. A sele¸c˜ao esf´erica de observa¸c˜oes gerou os melhores resultados, pois eliminou outliers do processo de treinamento.

O uso da ELM para a extra¸c˜ao de tempo tamb´em foi explorado usando as duas con- figura¸c˜oes citadas para o MLP. Utilizando a configura¸c˜ao com uma ´unica m´aquina, foi efetuada uma varredura de topologias, de 1 a 50 neurˆonios, com ELM sem regulariza¸c˜ao e constatou-se que, a partir de um n´umero N = 8 neurˆonios, o erro de valida¸c˜ao assumiu uma tendˆencia de crescimento. A avalia¸c˜ao dos valores dos erros demonstrou a necessi- dade de regularizar a m´aquina. Desta forma, foi feita uma varredura do parˆametro de regulariza¸c˜ao e todas as 20 topologias indicaram o mesmo valor para o erro m´ınimo da valida¸c˜ao: λ = 32. Com a configura¸c˜ao multirresolucional, duas possibilidades foram ex- ploradas: o uso de uma ELM completa, no front-end, para cada resolu¸c˜ao, e a aplica¸c˜ao do compartilhamento da camada oculta, no front-end. Os resultados, no que se refere `as performances, foram similares. Contudo, a performance do sistema de compartilhamento da camada escondida foi alcan¸cada com um n´umero bem menor de neurˆonios.

A compara¸c˜ao entre o desempenho da melhor configura¸c˜ao obtida do sistema proposto e de m´etodos existentes na literatura demonstrou que o sistema desta tese obteve resultados muito modestos. Acredita-se que o MSE, enquanto fun¸c˜ao custo, deva ser substitu´ıdo por outra estrat´egia que n˜ao gere altos valores de erro quando a hip´otese for um m´ultiplo ou subm´ultiplo do alvo.

Cap´ıtulo 7

Conclus˜oes e Perspectivas

A vida ´e o que acontece com vocˆe enquanto vocˆe est´a ocupado fazendo outros planos.

John Lennon

7.1 Conclus˜oes

A extra¸c˜ao de tempo musical ainda ´e um problema em aberto na ´area de MIR. No presente trabalho, o uso de atributos extra´ıdos de fun¸c˜oes PeDF multiresolucionais como entradas para m´aquinas de aprendizado para estimar o tempo musical foi investigado. Esta abordagem teve inspira¸c˜ao livre no sistema aural e neural humano, que, al´em de realizar discrimina¸c˜ao em frequˆencia e tomar decis˜oes, ´e capaz de pˆor em foco determinada escala de um fenˆomeno f´ısico para melhor compreendˆe-lo.

Com base nestas capacidades dos seres humanos, optou-se pela utiliza¸c˜ao da transfor- mada Wavelet para realizar uma an´alise multiresolucional do sinal musical. A partir de cada resolu¸c˜ao geraram-se fun¸c˜oes ODF e PeDF multiresolucionais. Das fun¸c˜oes de pe- riodicidade, para os diferentes n´ıveis wavelet, extra´ıram-se atributos que foram utilizados como entrada para o treinamento de m´aquinas de aprendizado do tipo MLP e ELM para estimar o tempo musical.

Para o desenvolvimento da proposta acima, no cap´ıtulo 2, discutiu-se sobre as teorias b´asicas utilizadas. Desta forma, fez-se necess´ario algum entedimento a respeito do ritmo e de sua rela¸c˜ao com a percep¸c˜ao auditiva humana, pois n˜ao h´a conex˜ao direta entre eventos sonoros e eventos auditivos, isto ´e, o que se ouve ritmicamente n˜ao necessariamente existe como representa¸c˜ao de um fenˆomeno f´ısico no ´audio. Neste contexto, a compreens˜ao da forma¸c˜ao de fronteiras auditivas ´e extremamente importante, pois estes fenˆomenos percep- tuais podem ser estimulados, por exemplo, quando h´a certas mudan¸cas de amplitude e varia¸c˜oes abruptas de frequˆencia.

Para al´em das quest˜oes da percep¸c˜ao auditiva, foi realizado um estudo sobre MIR que permitiu o aprofundamento dos m´etodos utilizados em processamento digital de sinais de ´

audio. Para extrair pontos do sinal musical referentes ao in´ıcio de poss´ıveis fronteiras auditivas, os onsets, o sinal precisava ser segmentado adequadamente. Al´em disto, um estudo sobre os atributos cl´assicos utilizados na ACA tamb´em foi efetuado, permitindo sua posterior adapta¸c˜ao `as fun¸c˜oes PeDF.

Com o objetivo de aplica¸c˜ao da transformada Wavelet, realizou-se estudo sobre as rela- ¸

c˜oes entre bancos de filtros, teoria multiresolu¸c˜ao e wavelets. Por fim, ainda nesse cap´ıtulo, algumas ferramentas de aprendizado de m´aquina foram exploradas, como a regress˜ao li- near, as redes tipo MLP e as redes tipo ELM. Para construir uma metodologia a respeito de quais e quantos atributos e observa¸c˜oes aplicar nestas m´aquinas, foram exploradas, ainda, a teoria de sele¸c˜ao de atributos e vari´aveis, a an´alise de componentes principais e o K-Means clustering.

No cap´ıtulo 3, o objetivo foi fornecer uma descri¸c˜ao em blocos do sistema geral desta tese e descrever as configura¸c˜oes propostas por n´os para as m´aquinas de aprendizado. Ainda, neste cap´ıtulo, os bancos de dados utilizados foram especificados. Para esta pesquisa, utilizamos dois bancos musicais: um autoral e outro fornecido por pesquisador externo ao trabalho. O banco autoral, uma das contribui¸c˜oes deste trabalho, foi confeccionado especificamente para esta tese com mais de 65% de m´usicas brasileiras, perfazendo um total de 507 observa¸c˜oes, dos mais variados gˆeneros musicais. O outro banco possui 465 m´usicas, tamb´em de diversos gˆeneros. Devido ao fato da n˜ao-platitude do histograma da distribui¸c˜ao dos tempos do banco total, implementou-se uma abordagem denominada distribui¸c˜ao balanceada de tempos para amenizar as disparidades entre os histogramas dos trˆes subconjuntos usados para o treinamento das m´aquinas. O objetivo foi garantir boa representatividade dos alvos nos trˆes conjuntos. Finalmente, o cap´ıtulo se encerrou com o estabelecimento de uma metodologia para a avalia¸c˜ao dos erros baseada no conceito de janela de precis˜ao utilizado na literatura MIR e uma reflex˜ao a respeito da qualidade dos erros que possuem rela¸c˜ao de multiplicidade com o ground truth. Como utilizamos um erro quadr´atico m´edio como fun¸c˜ao performance para as m´aquinas de aprendizado, um erro por um valor m´ultiplo teria mais impacto absoluto na performance do que erros pr´oximos ao ground truth. Contudo, o valor m´ultiplo representa uma informa¸c˜ao pertinente `a estrutura r´ıtmica e, por isto, possui mais qualidade.

No cap´ıtulo 4, foram desenvolvidas e analisadas as estrat´egias de processamento digi- tal de sinais utilizadas para a confec¸c˜ao das fun¸c˜oes PeDF. Trˆes blocos fundamentais de

processamento do sistema geral foram explanados neste cap´ıtulo. O primeiro foi o bloco de decomposi¸c˜ao wavelet, onde foram utilizados 5 n´ıveis perfazendo um total de 6 vetores de coeficientes wavelet com rela¸c˜ao di´adica de amostras entre eles, com uma wavelet m˜ae do tipo Coiflet3. Esta transformada demonstrou boa performance para a decomposi¸c˜ao da hierarquia r´ıtmica. Ap´os este bloco, cada um dos 6 vetores seguiu um ramo pr´oprio no fluxo de sinal, recebendo, contudo, o mesmo tratamento. O segundo bloco foi a gera¸c˜ao da fun¸c˜ao ODF. Este bloco extraiu o sinal de onsets utilizando o m´etodo do dom´ınio com- plexo retificado e, comparativamente a outros m´etodos aqui testados, obteve resultados satisfat´orios e mais adequados. Cada ODF multiresolucional passou por um refinamento utilizando-se de um filtro de m´edia m´ovel como limiar de descarte dos valores inferiores a este gerando a ODFL. O terceiro bloco de cada resolu¸c˜ao gerou as fun¸c˜oes PeDF. Estas

foram analisadas quanto `a capacidade de gerar poss´ıveis candidatos a tempo. Neste ponto, a conclus˜ao a que se chegou foi que m´usicas com arranjos com tendˆencia mais peri´odica geram fun¸c˜oes PeDF mais “comportadas”, ou seja, com maior grau de periodicidade, me- nor grau de ru´ıdo e maior grau tonal, em contraste com as m´usicas com arranjos mais aleat´orios.

No cap´ıtulo 5, o processo de extra¸c˜ao de atributos foi explanado. Pr´e-processamentos foram realizados nas fun¸c˜oes PeDF para refin´a-las antes da extra¸c˜ao. Assim, o n´ıvel m´edio foi retirado e 5% do in´ıcio e do fim dos vetores foram eliminados. Um conjunto inicial de 12 atributos, normalmente utilizados diretamente nos sinais de ´audio, foi escolhido e adaptado para ser aplicado `as fun¸c˜oes PeDF. Para isto, consideraram-se estas fun¸c˜oes quasi -peri´odicas. Um novo atributo foi proposto especificamente para a aplica¸c˜ao na PeDF : a raia m´axima do espectro r´ıtmico. A escolha do conjunto adaptado e o projeto do novo atributo foram realizados a partir de duas premissas. A primeira ´e de que havia necessidade de termos uma classe de atributos que intrinsecamente pudessem portar a informa¸c˜ao de tempo, isto ´e, “atributos quantitativos”. A segunda ´e de que seria importante termos outra classe que portasse informa¸c˜oes a respeito do grau de periodicidade, de ru´ıdo e tonal, “atributos qualitativos”. `A primeira classe foi dada a denomina¸c˜ao de atributos de primeira ordem, e, `a outra, de atributos de segunda ordem. Com isto, foram desenvolvidas as equa¸c˜oes de mapeamento direto para o andamento musical, quando se utilizam atributos de primeira ordem. Isto feito, a capacidade de mapeamento direto destes atributos foi avaliada considerando-se pelo menos um acerto dentro da janela de precis˜ao em um dos n´ıveis DWT. O novo atributo proposto foi o que obteve a melhor avalia¸c˜ao, alcan¸cando 95, 37% de acerto para o banco total, sendo mesmo superior a todos os outros da mesma classe usados

conjuntamente. Na avalia¸c˜ao dos demais, considerou-se um bom desempenho para aqueles que obtiveram mais de 60% de acerto. Assim, foram selecionados como principais atributos de primeira ordem o νERf 1, o νη e o νSC. Desenvolveu-se, tamb´em, uma metodologia

para avalia¸c˜ao da performance dos atributos de segunda ordem quanto `a seletividade de fun¸c˜oes PeDF “comportadas”. Os descritores spectral flatness, predictivity ratio, o desvio padr˜ao relativo e o spectral spread relativo foram os mais bem avaliados na metodologia desenvolvida de ranking de formas de onda e foram denominados de principais atributos de segunda ordem. O atributo νSD foi desprezado devido `a sua performance pobre.

Um m´etodo de sele¸c˜ao forward via GS foi implementado e testado de duas maneiras: com um vetor de atributos x ∈ R72, todas as resolu¸c˜oes concatenadas, e com um vetor x ∈ R12, resolu¸c˜oes consideradas isoladamente. Aqui, buscou-se n˜ao somente a sele¸c˜ao de atributos em si, mas a perspectiva de duas configura¸c˜oes poss´ıveis para as m´aquinas de aprendizado: uma padr˜ao e uma multiresolu¸c˜ao. A performance da sele¸c˜ao, no que se refere ao MSE, foi pobre. Contudo, o comportamento descendente do erro, saturando a partir de um determinado n´umero de atributos selecionados, indicou uma possibilidade de uso do subconjunto de atributos bem classificados no ranking.

Foram implementadas duas estrat´egias de estudo do espa¸co de atributos. A primeira utilizou um clustering via K-Means e permitiu a proposta de pr´e-sele¸c˜ao de observa¸c˜oes no processo de separa¸c˜ao dos trˆes subconjuntos de treinamento. Isto foi uma contribui¸c˜ao interessante, pois permite refinar a qualidade destes conjuntos para aprimorar o treina- mento das m´aquinas de aprendizado. Na avalia¸c˜ao da segunda estrat´egia, an´alise PCA, vislumbrou-se a possibilidade da sele¸c˜ao de observa¸c˜oes para evitar poss´ıveis outliers. Ob- serva¸c˜oes muito d´ıspares das demais, principalmente as que possu´ıam mudan¸cas bruscas no arranjo apareceram desgarradas da nuvem mais densa de exemplos. Com esta constata¸c˜ao foi feita uma proposta de sele¸c˜ao esf´erica do espa¸co de atributos.

O cap´ıtulo 6 tratou do uso e avalia¸c˜ao das m´aquinas de aprendizado para mapear os atributos das fun¸c˜oes PeDF para o tempo musical. Todas as configura¸c˜oes propostas no cap´ıtulo 3 foram implementadas para as possibilidades de sele¸c˜ao de atributos e observa- ¸c˜oes desenvolvidas no cap´ıtulo 5. Para o uso do MLP, a configura¸c˜ao que obteve o melhor desempenho foi a de front-end especialista e back-end com outro MLP. O vetor de entra- das que promoveu o melhor desempenho para todas as configura¸c˜oes foi o dos principais atributos de primeira e segunda ordem. Este resultado, refor¸cou o m´etodo de sele¸c˜ao de atributos baseado no mapeamento direto e no ranking seletivo de fun¸c˜oes PeDF.

Dado que a configura¸c˜ao especialista resultou na melhor performance, optou-se por utiliz´a-la para a avalia¸c˜ao das metodologias propostas de sele¸c˜ao de atributos via GS, pr´e- sele¸c˜ao de observa¸c˜oes via K-Means e sele¸c˜ao esf´erica de observa¸c˜oes via PCA. As duas primeiras propostas tiveram desempenho semelhante, contudo, a sele¸c˜ao esf´erica gerou os melhores resultados.

O uso das redes ELM tamb´em foi explorado nas duas configura¸c˜oes propostas para o MLP. Devido `a grande flexibilidade e velocidade de treinamento da ELM, a regulariza¸c˜ao foi bastante testada e melhorou levemente os resultados. A contribui¸c˜ao mais interessante foi o uso do compartilhamento da camada oculta para aproveitar as vantagens das entradas multiresolucionais em separado. Contudo, o resultado desta configura¸c˜ao, que foi promis- sora dentre as possibilidades exploradas com a ELM, foi t´ımido quando comparado com o front-end especialista MLP.

A configura¸c˜ao com redes MLP especialistas no front-end e back-end MLP foi confron- tada com 21 m´etodos existentes na literatura. Utilizou-se o banco fornecido por Zapata para a simula¸c˜ao do sistema proposto nesta tese, ap´os o treinamento deste com o banco autoral. Os resultados demonstraram que o sistema proposto obteve resultados modestos em compara¸c˜ao aos principais m´etodos da literatura superando apenas o pior desempenho em [23]. Acredita-se que a pesquisa deva se aprofundar para conseguir alternativas ao MSE como fun¸c˜ao custo. Outras estrat´egias que n˜ao gerem altos valores de erro, quando a hip´otese for um m´ultiplo ou subm´ultiplo do alvo, devem ser investigadas.