• Nenhum resultado encontrado

Sele¸ c˜ ao Esf´ erica de Observa¸ c˜ oes

5.6 Avalia¸ c˜ ao do Espa¸ co de Atributos

5.6.3 Sele¸ c˜ ao Esf´ erica de Observa¸ c˜ oes

Uma das possibilidades vislumbradas neste trabalho com o estudo do espa¸co de atribu- tos via PCA foi a pr´e-sele¸c˜ao de observa¸c˜oes de forma a gerar um subconjunto de m´usicas mais aninhado e por isto mais adequado ao treinamento da m´aquina de aprendizado. Desta forma, implementou-se um m´etodo que s´o admite observa¸c˜oes que se incluam em uma de- terminada esfera. O centro desta esfera localiza-se no centro de gravidade (CG) da nuvem de observa¸c˜oes. O raio da esfera (resf) ´e calculado pela distˆancia m´edia das observa¸c˜oes ao

CG. Este processo permite automatizar a escolha de trechos das m´usicas para a constru¸c˜ao do banco de dados que gera os atributos. M´usicas com pausas ou mudan¸cas abruptas no arranjo geram candidatos a outliers. Por isto, no pr´oximo cap´ıtulo, levaremos em conta

0 0.2 0.4 0.6 0.8 1 1 2 3 4 Valor da Silhueta Cluster

Figura 5.14: Silhueta do banco total para todos os n´ıveis DWT, K=4 Tabela 5.6: Resultados do clustering, n´ıveis DWT versus Silhueta m´edia, K = 4

N´ıvel DWT Silhueta m´edia

A5 39,02% D5 37,36% D4 38,79% D3 41,35% D2 43,86% D1 44,38%

o banco de dados original e pr´e-selecionado via sele¸c˜ao esf´erica para compara¸c˜ao dos re- sultados. A figura 5.16 exibe uma compara¸c˜ao entre o banco de dados original e o banco selecionado. Na figura 5.16(b) percebe-se que a distribui¸c˜ao das observa¸c˜oes no espa¸co de atributos foi mais uniforme, sem outliers apreci´aveis, em contraste com a figura 5.16(a).

5.7 Conclus˜oes

Neste cap´ıtulo, foi definido o conjunto de atributos extra´ıdos das PeDF multirresoluci- onais e a forma de adapt´a-los ao processo de extra¸c˜ao. Um novo atributo foi proposto para fins espec´ıficos da an´alise r´ıtmica: a raia m´axima do espectro r´ıtmico. Alguns atributos, aqui denominados atributos de primeira ordem, foram avaliados quanto `a capacidade de gerar diretamente o valor do andamento musical em algumas das resolu¸c˜oes wavelet e o novo atributo proposto foi o que obteve a melhor avalia¸c˜ao. Este m´etodo de avalia¸c˜ao foi denominado de mapeamento direto. Outros atributos, aqui denominados atributos de segunda ordem, foram avaliados quanto `a capacidade de gerar informa¸c˜ao referente ao grau de periodicidade, de ru´ıdo e tonal. Os descritores spectral flatness e predictivity ratio exibiram excelente capacidade de seletividade de PeDF adequadas `a aplica¸c˜ao proposta nesta tese. J´a o desvio padr˜ao e o spectral spread foram utilizados como medidas relativas tomando como base a m´edia e o centr´oide espectral, respectivamente, e isto viabilizou o uso destes descritores. A metodologia empregada para a avalia¸c˜ao desta segunda classe de

0 0.2 0.4 0.6 0.8 1 1 2 3 4 Valor da Silhueta Cluster (a) A5 0 0.2 0.4 0.6 0.8 1 1 2 3 4 Valor da Silhueta Cluster (b) D5 0 0.2 0.4 0.6 0.8 1 1 2 3 4 Valor da Silhueta Cluster (c) D4 0 0.2 0.4 0.6 0.8 1 1 2 3 4 Valor da Silhueta Cluster (d) D3 0 0.2 0.4 0.6 0.8 1 1 2 3 4 Valor da Silhueta Cluster (e) D2 0 0.2 0.4 0.6 0.8 1 1 2 3 4 Valor da Silhueta Cluster (f) D1

Figura 5.15: Silhuetas do banco total para cada n´ıvel DWT, K=4

−1 0 1 −1 −0.5 0 0.5 1 −1 0 1 Componente 1 Componente 2 Componente 3

(a) Sem sele¸c˜ao, 972 observa¸c˜oes

−1 0 1 −1 −0.5 0 0.5 1 −1 0 1 Componente 1 Componente 2 Componente 3

(b) Com sele¸c˜ao, 585 observa¸c˜oes

Figura 5.16: Banco de dados total utilizando sele¸c˜ao esf´erica via PCA

atributos foi denominada de ranking seletivo. Estes sete atributos, de primeira e segunda ordem, foram considerados como um grupo denominado principais atributos.

Um m´etodo de sele¸c˜ao de atributos tipo forward utilizando o Gram-Schmidt foi im- plementado e testado em dois contextos distintos: vetor de atributos x ∈ R72 com todas as resolu¸c˜oes wavelet inclusas e vetor de atributos x ∈ R12 com resolu¸oes consideradas

isoladamente. Os experimentos realizados demostraram limita¸c˜oes desta estrat´egia no que se refere ao valor absoluto do MSE, mas o comportamento descendente deste erro exibiu satura¸c˜ao a partir do limiar de confiabilidade estabelecido, e isto indicou um caminho para a escolha de um poss´ıvel subconjunto de atributos utilizados para os treinamentos das m´a- quinas no cap´ıtulo subsequente. Assim, o ensaio 2 exibiu um ranking com 21 atributos sendo que dos 12 atributos originais somente o spectral skewness n˜ao foi selecionado. No experimento 3, os rankings realizados para as diferentes resolu¸c˜oes wavelet selecionaram atributos distintos, o que pode indicar uma estrat´egia interessante para o treinamento de uma ANN, tornando o treinamento de seis instˆancias decis´orias, que utilizam subconjuntos de atributos distintos, uma alternativa poss´ıvel. No experimento 4, um modelo de segunda ordem foi testado para verificar o comportamento do MSE, e este apresentou uma pequena redu¸c˜ao. Contudo, dado o n´umero de atributos por resolu¸c˜ao, esta alternativa foi encarada com reserva.

Duas estrat´egias de estudo do espa¸co de atributos foram implementadas, a an´alise PCA e um processo de clustering por K-means. No experimento1, a utiliza¸c˜ao da PCA permitiu confirmar a escolha de n´umero vari´avel de frames para cada resolu¸c˜ao da DWT, pois os bancos de dados exibiram uma nuvem de observa¸c˜oes mais aninhada no espa¸co de atributos. Nos experimentos 2 e 3 observou-se que as m´usicas mais afastadas do conjunto de observa¸c˜oes possu´ıam singularidades no que se refere ao arranjo musical como pausas e interven¸c˜oes instrumentais de car´ater mais estoc´astico, permitindo, assim, a identifica¸c˜ao de poss´ıveis outliers. A implementa¸c˜ao de clustering via K-means permitiu a identifica¸c˜ao de 2 clusters. O fato de o n´ıvel D1 ter exibido um desempenho melhor no que se refere `a

forma¸c˜ao de clusters ´e intrigante e pode indicar que nem todo arquivo de ´audio do banco de dados possui informa¸c˜oes com magnitude apreci´avel na faixa de frequˆencia acima de 11, 025 kHz. Desta forma, como o melhor resultado indicado pela m´edia da silhueta foi de 2 clusters para o D1 isto pode significar um cluster mais informativo para esta resolu¸c˜ao

e um outro menos informativo, com predom´ınio de ru´ıdo. Isto se tornou um caminho para o processo de reparti¸c˜ao dos exemplos para os conjuntos utilizados no aprendizado supervisionado do cap´ıtulo 6.

Finalmente, a PCA permitiu a implementa¸c˜ao de uma proposta nova denominada de sele¸c˜ao esf´erica de observa¸c˜oes, cujo intuito foi o de automatizar o processo de exclus˜ao

de poss´ıveis outliers do banco de dados. Esta estrat´egia consistiu do c´alculo do centro de gravidade da nuvem de observa¸c˜oes resultante do PCA, no cˆomputo da distˆancia m´edia de cada observa¸c˜ao a este centro, e na sele¸c˜ao de observa¸c˜oes que estivessem dentro de uma esfera cujo raio seja o valor da distˆancia m´edia citada. Isto gerou um conjunto de exemplos mais aninhado no espa¸co de atributos.

Como ´ultima observa¸c˜ao, ´e importante destacar que, mesmo aqueles atributos que n˜ao obtiveram resultados expressivos nos ensaios de avalia¸c˜ao de mapeamento de BPM e seletividade, n˜ao puderam ser sumariamente descartados. Sabe-se que, da teoria de extra¸c˜ao e sele¸c˜ao de vari´aveis [16], atributos irrelevantes isoladamente podem se tornar relevantes quando utilizados conjuntamente com outros atributos. Desta forma, os 12 atributos aqui escolhidos foram utilizados nos treinamentos das m´aquinas de aprendizado a seguir `a luz das conclus˜oes obtidas nos ensaios do presente cap´ıtulo.

Cap´ıtulo 6

Aprendizado de M´aquina: Implementa¸c˜ao e Avalia¸c˜ao

O c´erebro eletrˆonico faz tudo, faz quase tudo, faz quase tudo, mas ele ´e mudo. O c´erebro eletrˆonico comanda, manda e desmanda, ele ´e quem manda, mas ele n˜ao anda.

Gilberto Gil

As redes neurais tˆem sido utilizadas para a solu¸c˜ao de v´arias tarefas na ´area de MIR. Dentre as aplica¸c˜oes pode-se destacar a detec¸c˜ao de pitch e tonalidade [63–65] , transcri¸c˜ao musical [66–68] e a detec¸c˜ao de onsets [43, 47, 69–72]. Uma das contribui¸c˜oes desta tese foi utilizar as redes para mapear atributos de fun¸c˜oes de periodicidade para o tempo musical. Desta forma, este cap´ıtulo trata do projeto, implementa¸c˜ao, processo de treinamento, e avalia¸c˜ao das m´aquinas de aprendizado escolhidas neste estudo: perceptrons de m´ultiplas camadas e m´aquinas de aprendizado extremo. Uma s´erie de experimentos foi realizada com atributos e conjuntos de observa¸c˜oes distintos aplicando as metodologias e resultados desenvolvidos no cap´ıtulo 5. Os objetivos deste cap´ıtulo foram estudar o desempenho das m´aquinas em si, e sua performance na presen¸ca do conjunto de descritores escolhidos e seus poss´ıveis subconjuntos.

6.1 Rede Neural Artificial

Nos experimentos a seguir foi utilizado um MLP de 3 camadas, sendo uma ´unica oculta, e vetores de entradas x ∈ Rn, onde n ´e o n´umero de atributos. Os conjuntos de treina- mento, de valida¸c˜ao e de teste foram identificados, respectivamente, como train, val e test. Em todos os experimentos, sempre que poss´ıvel, os andamentos foram distribu´ıdos equita- tivamente entre os 3 conjuntos, utilizando o algoritmo da distribui¸c˜ao balanceada. Desta forma a divis˜ao dos conjuntos, quando utilizado o banco completo com 972 observa¸c˜oes, foi de 43,6% para train, 28,2% para test e 28,2% para val, salvo as aplica¸c˜oes do processo de clustering e de sele¸c˜ao esf´erica, desenvolvidos no cap´ıtulo 5. Testes iniciais com os m´etodos de treinamento LM e SCG foram realizados buscando identificar o algoritmo mais adequado

aos experimentos. Optou-se pelo SCG, pois este obteve os melhores resultados para redes n˜ao regularizadas. As performances foram avaliadas com o MSE dos andamentos.