• Nenhum resultado encontrado

CLASSIFICAÇÃO EM GÊNEROS MUSICAIS. Gabriel BRITTO Luiz CHAMON

N/A
N/A
Protected

Academic year: 2021

Share "CLASSIFICAÇÃO EM GÊNEROS MUSICAIS. Gabriel BRITTO Luiz CHAMON"

Copied!
32
0
0

Texto

(1)

Gabriel BRITTO

Luiz CHAMON

(2)

Introdução

Contexto e justificativa

O problema e a solução

Features

RNA

Estrutura

Aprendizado

Resultados e discussões

Demonstração

Conclusão e perspectivas

(3)

 Aumentaram enormemente as bases de dados musicais

(30 musicólogos levaram 1 ano para categorizar 100.000 músicas

do MSN music search)

 Gêneros são a principal fonte de classificação musical ...

(iTunes: 14 milhões de músicas)

... mas é difícil defini-los O que é rock? O que é jazz? Discordância entre taxonomias (Amazon: 719 gêneros iTunes: 244 gêneros)

CLASSIFICAÇÃO MUSICAL É UM PROBLEMA NÃO-TRIVIAL

(4)

Categorizar músicas em gêneros automaticamente baseado em trechos de suas gravações e exemplos rotulados a priori

A SOLUÇÃO

Cálculo de features Trecho de 30 s Gênero Chamon Gabriel GTZAN [6]

DESCRIÇÃO DO PROBLEMA

(5)

RMS [2]

Usado como medida da energia média da música.

Spectral Centroid [2]

Uma espécie de centro de massa do espectro, determina uma relação entre altas e baixas freqüências.

20 MFCCs [2]

Muito usado em reconhecimento de voz. É uma medida de variações no tom.

(6)

Zero-crossing [2]

Representa uma medida do “ruído” de fundo em uma música. Trata-se simplesmente do número de cruzamentos por zero no domínio do tempo.

Spectral bandwidth [2]

Mede a variação do espectro em torno da centróide espectral.

Band energy ratio [2]

Razão da energia no primeiro quarto do espectro com relação ao espectro todo.

(7)

FEATURES

Loudness [4]

Modelo psicoacústico de sensação sonora (“intensidade” percebida).

Sharpness [4]

Medida de conteúdo espectral de altas freqüências. Avaliação psicoacústica do quão “afiado”, “agudo” um som é.

Octave spectral contrast [3]

(8)

ESTRUTURA

Gêneros Musicais Considerados

1) Blues

2) Classical

3) Country

4) Disco

5) Hip-Hop

6) Jazz

7) Metal

8) Pop

9) Reggae

10) Rock

(9)

. . . . . . . . .

f

f

f

f

f

f

f

f

x1 x2 x3 x75 N1 N2 N3 N20 y1 y2 y3 y10 Camada Oculta Camada de Saída Pesos V Pesos W Entradas (Features) Saídas (Gêneros)

ESTRUTURA

(10)

100 amostras 100 amostras 100 amostras Entradas (75 features) Saídas (10 gêneros) # # # # # # # # # # # # # # # # ... ... # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... Gênero 1 Gênero 2 Gênero 10

ESTRUTURA

(11)

Gênero 1 Gênero 2 Gênero 10 . . . Conjunto de Treinamento Gênero 1 Gênero 2 . . . Gênero 10 Conjunto de Validação Gênero 1 Gênero 2 Gênero 10 . . . Conjunto de Teste Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock) Conjunto Completo 75% das Amostras 15% das Amostras 10% das Amostras

APRENDIZADO

(12)

2 abordagens

Gradiente Descendente com “Cross-Validation”

Gradiente Normalizado com “Early Stopping”

(13)

oAlgoritmo:

•“Backpropagation” e “Cross-Validation”

oParâmetros:

•Número de nós:

20 na camada oculta

10 na camada de saída (1 para cada gênero)

•Taxa de aprendizagem:

η = 0,35

•Erro máximo no aprendizado:

erro = 0.1

•Número máximo de iterações:

numMaxIt = 50000

APRENDIZADO

(14)

Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock) Treinando RNA... . . . . . . . . . f f f f f f f f

APRENDIZADO

Gradiente Descendente com “Cross-Validation”

V

W

(15)

Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock) Validando RNA... . . . . . . . . . f f f f f f f f

APRENDIZADO

Gradiente Descendente com “Cross-Validation”

V

W

(16)

Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock) Treinando RNA... . . . . . . . . . f f f f f f f f

APRENDIZADO

Gradiente Descendente com “Cross-Validation”

V

W

(17)

Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock) Validando RNA... . . . . . . . . . f f f f f f f f

APRENDIZADO

Gradiente Descendente com “Cross-Validation”

V

W

(18)

Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock) Treinando RNA... . . . . . . . . . f f f f f f f f

APRENDIZADO

Gradiente Descendente com “Cross-Validation”

V

W

(19)

Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock) Validando RNA... . . . . . . . . . f f f f f f f f

APRENDIZADO

Gradiente Descendente com “Cross-Validation”

V

W

(20)

Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock)

Escolhendo o melhor conjunto de pesos... . . . . . . . . . f f f f f f f f

V

W

1º treino

V

W

2º treino

V

W

3º treino

V

W

APRENDIZADO

(21)

Gênero 1 (Blues) Gênero 2 (Classical) . . . Gênero 10 (Rock) Testando RNA... . . . . . . . . . f f f f f f f f

APRENDIZADO

Gradiente Descendente com “Cross-Validation”

(22)

o Algoritmo:

• “Scaled conjugate gradient” e “early stopping”

o Parâmetros:

• Número de nós:

20 na camada oculta

10 na camada de saída

• Regularização:

λ = 5e-7

• Erros na validação:

max_fail = 10

• Número máximo de iterações:

epochs = 50000

APRENDIZADO

Gradiente Normalizado com “Early Stopping”

(23)

AMOSTRAS DE TESTE x RNA

Gradiente Descendente com “Cross-Validation”

Na figura acima, amostras de teste de cada gênero (azul)

(24)

MATRIZES DE CONFUSÃO (TREINO E VALIDAÇÃO)

(25)

MATRIZES DE CONFUSÃO (TREINO E VALIDAÇÃO)

(26)

MATRIZES DE CONFUSÃO (TESTE)

(27)

Gradiente Normalizado com “Early Stopping”

(28)

COMPARAÇÃO COM A LITERATURA

Referência Base de Dados Precisão

Bergstra GTZAN 82.50%

Li GTZAN 78.50%

Panagakis GTZAN 78.20%

Britto, Chamon ¹ GTZAN 77.00%

Lidy GTZAN 76.80%

Benetos GTZAN 75.00%

Holzapfel GTZAN 74.00%

Britto, Chamon ² GTZAN 68.00%

Tzanetakis GTZAN 61.00%

(29)

0 20 40 60 80 100 120 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7

Confusão em função do número de nós

Número de nós Ín d ic e d e c o n fu s ã o 0 20 40 60 80 100 120 0.008 0.01 0.012 0.014 0.016 0.018 0.02 0.022 0.024 Número de nós E rr o m é d io q u a d rá ti c o

Erro médio quadrático em função do número de nós

CONFUSÃO x NÚMERO DE NÓS

(30)

DEMONSTRAÇÃO

1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Gladiators - Dreadlocks the time is now

1 2 3 4 5 6 7 8 9 10 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14

(31)

CONCLUSÃO E PERSPECTIVAS

O problema de classificação em gêneros musicais é não-trivial, devido

à indefinição e subjetividade destes.

É fundamental para um bom desempenho da solução que os

conjuntos de treinamento, validação e teste sejam adequados, assim

como a técnica de aprendizagem adotada.

Os resultados talvez pudessem ser melhorados com a inclusão de

novos “features” (e.g. ritmo) e uma base de dados mais extensa.

(32)

REFERÊNCIAS

[1] SCARINGELLA, N.; ZOIA, G.; MLYNEK, D. Automatic genre classification of music content: a survey. Signal

Processing Magazine. Piscataway, v. 23[2], p. 133-141, 2006.

[2] LI,D.; SETHI, I. K.; DIMITROVA, N.; McGEE, T. Classification of general audio data for content-based retrieval.

Pattern Recognition Letters. Amsterdam, v. 22, p. 533-544, 2001.

[3] JIANG, D.-N.; LU, L.; ZHANG, H.-J.; TAO, J.-H.; CAI, L.-H. Music type classification by spectral contrast feature. In:

IEEE ICME, 2002, Lausanne. Anais… Lausanne: Swiss Federal Institute of Techonology, 2002.

[4] McKINNEY, M. F.; BREEBAART, J. Features for audio and music classification. In: ISMIR, 2003, Baltimore. Anais… [5] PANAGAKIS, Y.; KOTROPOULOS, C.; ARCE, G. R. Music genre classification via sparse representations of

auditory temporal modulations. In: EUSIPCO, 2009, Glasgow. Anais…

[6] TZANETAKIS, G.; COOK, P. GTZAN Genre Collection. Disponível em: http://marsyas.info/download/data_sets. Acesso em: 7 de jun. 2011.

[7] HAYKIN, S. Neural Networks: A comprehensive foundation. Upper Saddle River: Prentice-Hall, 1999. 842 p. [8] REFAEILZADEH, P.; TANG, L.; LIU, H. Cross-Validation. In: ÖSZU, M. T.; LIU, L. Encyclopedia of Database

Systems. New York: Springer, 2009. Disponível em:

Referências

Documentos relacionados

O setor de energia é muito explorado por Rifkin, que desenvolveu o tema numa obra específica de 2004, denominada The Hydrogen Economy (RIFKIN, 2004). Em nenhuma outra área

A partir desta imagem aplicaremos as técnicas de morfologia matemática para tratamento desta imagem e aplicação do reconhecimento das letras e número da placa através do

Parágrafo Quarto - Caso o FUNDO venha a investir em fundos geridos por terceiros não ligados ao ADMINISTRADOR ou à GESTORA, cujas políticas de investimento

Outro aspecto a ser observado é que, apesar da maioria das enfermeiras referirem ter aprendido e executado as fases do processo na graduação, as dificuldades na prática

8º A Diretoria Executiva será composta pelo Presidente, pelo Vice-Presidente de Orientação e Fiscalização Profissional, pelo Vice-Presidente Administrativo e Financeiro,

No final, os EUA viram a maioria das questões que tinham de ser resolvidas no sentido da criação de um tribunal que lhe fosse aceitável serem estabelecidas em sentido oposto, pelo

modo favorável; porem uma contusão mais forte pode terminar-se não só pela resolução da infiltração ou do derramamento sanguíneo no meio dos. tecidos orgânicos, como até

CONCURSO PÚBLICO DE TÍTULOS E PROVAS PARA PROVIMENTO DE UM CARGO DE PROFESSOR ADJUNTO DA UNIVERSIDADE FEDERAL DE PERENAMBUCO, ÁREA: TEORIA E HISTÓRIA DA ARQUITETURA,