• Nenhum resultado encontrado

Classificação automática de gêneros musicais em bases de letras de músicas em diferentes idiomas utilizando métodos de combinação de classificadores

N/A
N/A
Protected

Academic year: 2021

Share "Classificação automática de gêneros musicais em bases de letras de músicas em diferentes idiomas utilizando métodos de combinação de classificadores"

Copied!
76
0
0

Texto

(1)

C ˆ

AMPUS CORN ´

ELIO PROC ´

OPIO

DIRETORIA DE PESQUISA E P ´

OS-GRADUAC

¸ ˜

AO

PROGRAMA DE P ´

OS-GRADUAC

¸ ˜

AO EM INFORM ´

ATICA

ADRIANO ALVES DE LIMA

CLASSIFICAC

¸ ˜

AO AUTOM ´

ATICA DE G ˆ

ENEROS MUSICAIS EM

BASES DE LETRAS DE M ´

USICAS EM DIFERENTES IDIOMAS

UTILIZANDO M ´

ETODOS DE COMBINAC

¸ ˜

AO DE

CLASSIFICADORES

DISSERTAC

¸ ˜

AO DE MESTRADO

CORN ´ELIO PROC ´OPIO

(2)

CLASSIFICAC

¸ ˜

AO AUTOM ´

ATICA DE G ˆ

ENEROS MUSICAIS EM

BASES DE LETRAS DE M ´

USICAS EM DIFERENTES IDIOMAS

UTILIZANDO M ´

ETODOS DE COMBINAC

¸ ˜

AO DE

CLASSIFICADORES

Dissertac¸˜ao de mestrado apresentada ao Programa de P´os-Graduac¸˜ao em Inform´atica da Universidade Tecnol´ogica Federal do Paran´a – UTFPR como re-quisito parcial para a obtenc¸˜ao do t´ıtulo de “Mestre em Inform´atica”.

Orientador: Prof. Dr. Carlos N. Silla Jr.

CORN ´ELIO PROC ´OPIO

(3)

L732 Lima, Adriano Alves de

Classificação automática de gêneros musicais em bases de letras de músicas em diferentes idiomas utilizando métodos de combinação de classificadores / Adriano Alves de Lima. – 2016.

73 f. : il. ; 31 cm

Orientador: Carlos Nascimento Silla Junior.

Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós- Graduação em Informática. Cornélio Procópio, 2016.

Bibliografia: p. 70-73.

1. Classificação. 2. Identidade de gênero na música. 3. Idiomas. 4. Linguística – Processamento de dados. 5. Informática – Dissertações.I. Silla Junior, Carlos Nascimento, orient. II. Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Informática. III. Título.

CDD (22. ed.) 004

(4)

Câmpus Cornélio Procópio

Programa de Pós-Graduação em Informática

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.

Tel. +55 (43) 3520-4055 / e-mail: ppgi-cp@utfpr.edu.br / www.utfpr.edu.br/cornelioprocopio/ppgi Título da Dissertação Nº 15:

Classificação Automática de Gêneros Musicais em Bases

de Letras de Músicas em Diferentes Idiomas Utilizando

Métodos de Combinação de Classificadores

”.

por

Adriano Alves de Lima

Orientador: Prof. Dr. Carlos Nascimento Silla Junior

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM INFORMÁTICA – Área de Concentração: Computação Aplicada, pelo Programa de Pós-Graduação em Informática – PPGI – da Universidade Tecnológica Federal do Paraná – UTFPR – Câmpus Cornélio Procópio, às 08h e 30min do dia 17 de dezembro de 2015. O trabalho foi _aprovado_ pela Banca Examinadora, composta pelos professores:

__________________________________

Prof. Dr. Carlos Nascimento Silla Junior

(Presidente – UTFPR-CP)

__________________________________

Prof. Dr. Danlio Sipoli Sanches

(UTFPR-CP)

_________________________________

Prof. Dr. Emerson Cabrera Paraíso

(PUC-PR)

Visto da coordenação: __________________________________ Carlos Nascimento Silla Junior

Coordenador do Programa de Pós-Graduação em Informática UTFPR Câmpus Cornélio Procópio

(5)

Primeiramente, agradec¸o a Deus pela benc¸˜ao de chegar a esta fase da vida e estar preparado para muitas outras.

Aos meus pais Wiliam de Alves de Lima e Renilde Ferreira de Lima. Minha amada m˜ae por seu apoio incondicional e incentivo. E a mem´oria de meu querido pai, que enquanto presente sempre me apoiou e me orientou em minhas decis˜oes.

A minha namorada e parceira de todas as horas, por seu amor, compreens˜ao e ajuda em diversos momentos neste per´ıodo.

Aos meus companheiros de trabalho de Maring´a, Londrina e tamb´em do Laborat´orio de Computac¸˜ao e Tecnologia Musical pela companhia, compartilhamento de conhecimento e momentos divertidos.

Agradec¸o em especial ao meu orientador Carlos Nascimento Silla Junior pela amizade, orientac¸˜oes no desenvolvimento do trabalho e parcerias incont´aveis.

A banca examinadora pela atenc¸˜ao dada a esse trabalho e aos demais professores e servidores da Universidade Tecnol´ogica Federal do Paran´a, campus Corn´elio Proc´opio e Lon-drina, pelo compartilhamento de conhecimento e ajuda nesta jornada.

Agradec¸o tamb´em aos amigos de turma pela parceria nos trabalhos e tamb´em pelos momentos de conversa e troca de experiˆencia.

Por fim, pec¸o desculpas aos demais amigos e pessoas n˜ao citados que me auxiliaram nesta longa caminhada, meus sinceros agradecimentos.

(6)

alma para reconhecer seus erros e fracassos e utiliz´a-los para plantar as mais belas sementes no terreno de sua inteligˆencia.” Augusto Cury

(7)

de LIMA, Adriano Alves. CLASSIFICAC¸ ˜AO AUTOM ´ATICA DE G ˆENEROS MUSICAIS

EM BASES DE LETRAS DE M ´USICAS EM DIFERENTES IDIOMAS UTILIZANDO M ´ETODOS

DE COMBINAC¸ ˜AO DE CLASSIFICADORES. 74 f. Dissertac¸˜ao de Mestrado – Programa

de P´os-graduac¸˜ao em Inform´atica, Universidade Tecnol´ogica Federal do Paran´a. Corn´elio Proc´opio, 2016.

A classificac¸˜ao autom´atica de gˆeneros musicais ´e uma tarefa importante na ´area de recuperac¸˜ao da informac¸˜ao musical. Para auxiliar esta tarefa diversos recursos lingu´ısticos de processa-mento de linguagem natural vem sendo utilizados em letras de m´usicas. Isto ´e importante consi-derando que a classificac¸˜ao baseada em ´audio pode ser complementada com caracter´ısticas das letras de m´usicas para auxiliar na melhoria dos resultados. Este trabalho busca realizar a an´alise de tais ferramentas de processamento de linguagem natural aplicadas as letras de m´usicas em diferentes idiomas para a classificac¸˜ao de gˆeneros musicais. Al´em disso, foram estudadas ou-tras t´ecnicas para melhorar os resultados da classificac¸˜ao, como por exemplo, combinac¸˜ao de caracter´ısticas por meio de early fusion e late fusion.

Para realizar os experimentos foram criadas trˆes bases de dados com letras de m´usicas em diversos gˆeneros nos idiomas Latinos (Portuguˆes e Espanhol), N´ordicos (Dinamarquˆes, Noru-eguˆes e Sueco) e Inglˆes. Os resultados obtidos demonstram que a combinac¸˜ao das abordagens por meio das t´ecnicas de late fusion atrav´es do produto da probabilidade e da t´ecnica de early fusionproporcionaram os melhores resultados na classificac¸˜ao de gˆeneros musicais utilizando letras de m´usicas em diferentes idiomas.

Palavras-chave: classificac¸˜ao, gˆeneros musicais, diferentes idiomas, letras de m´usicas, early fusion, late fusion

(8)

de LIMA, Adriano Alves. MUSIC GENRE AUTOMATIC CLASSIFICATION IN SONG LY-RICS DATABASE IN DIFFERENT LANGUAGES USING ENSEMBLES CLASSIFIERS METHODS. 74 f. Dissertac¸˜ao de Mestrado – Programa de P´os-graduac¸˜ao em Inform´atica, Universidade Tecnol´ogica Federal do Paran´a. Corn´elio Proc´opio, 2016.

The automatic music genre classification is an important area in music information retrieval. For assist this task many languages resources of natural language processing has been used in song lyrics. This is important considering that the classification audio-based might be comple-mented with lyrics features to improve the results. This work analyzes such natural language processing tools employed to song lyrics in different languages for the music genre classi-fication. Furthermore, we studied other techniques to improve the classification results, for example, features combination by mean of early and late fusion methods.

To run the experiments were created three lyrics database in various music genres into the Latin languages (Portuguese and Spanish), Nordic (Danish, Norwegian and Swedish) and En-glish. The results obtained shown that the combination approaches by mean of late fusion with product of the probability and early fusion outperformed the other approaches in music genre classification using song lyrics in different languages.

Keywords: classification, music genres, different languages, song lyrics, early fusion, late fusion

(9)

FIGURA 1 Esquema de combinac¸˜ao de caracter´ısticas por early fusion . . . 23 –

FIGURA 2 Esquema de combinac¸˜ao de caracter´ısticas por late fusion usando

pro-babilidade m´axima . . . 24 –

FIGURA 3 Esquema de combinac¸˜ao de caracter´ısticas por late fusion usando soma

das probabilidades . . . 25 –

FIGURA 4 Esquema de combinac¸˜ao de caracter´ısticas por late fusion usando

pro-duto das probabilidades . . . 26 –

FIGURA 5 Nuvem de palavras para o gˆenero dance da NLD . . . 31 –

FIGURA 6 Nuvem de palavras para o gˆenero pop rock da NLD . . . 31 –

FIGURA 7 Nuvem de palavras para o gˆenero rap da NLD . . . 31 –

FIGURA 8 Nuvem de palavras para o gˆenero pop da NLD . . . 32 –

FIGURA 9 Nuvem de palavras para o gˆenero rock da NLD . . . 32 –

FIGURA 10 Nuvem de palavras para o gˆenero ax´e da LMLD . . . 33 –

FIGURA 11 Nuvem de palavras para o gˆenero bachata da LMLD . . . 33 –

FIGURA 12 Nuvem de palavras para o gˆenero bolero da LMLD . . . 33 –

FIGURA 13 Nuvem de palavras para o gˆenero pagode da LMLD . . . 34 –

FIGURA 14 Nuvem de palavras para o gˆenero forr´o da LMLD . . . 34 –

FIGURA 15 Nuvem de palavras para o gˆenero ga´ucha da LMLD . . . 34 –

FIGURA 16 Nuvem de palavras para o gˆenero merengue da LMLD . . . 35 –

FIGURA 17 Nuvem de palavras para o gˆenero salsa da LMLD . . . 35 –

FIGURA 18 Nuvem de palavras para o gˆenero sertaneja da LMLD . . . 35 –

FIGURA 19 Nuvem de palavras para o gˆenero tango da LMLD . . . 36 –

FIGURA 20 Nuvem de palavras para o gˆenero blues da LGTZAN . . . 37 –

FIGURA 21 Nuvem de palavras para o gˆenero country da LGTZAN . . . 37 –

FIGURA 22 Nuvem de palavras para o gˆenero disco da LGTZAN . . . 37 –

FIGURA 23 Nuvem de palavras para o gˆenero hip hop da LGTZAN . . . 38 –

FIGURA 24 Nuvem de palavras para o gˆenero metal da LGTZAN . . . 38 –

FIGURA 25 Nuvem de palavras para o gˆenero pop da LGTZAN . . . 38 –

FIGURA 26 Nuvem de palavras para o gˆenero rock da LGTZAN . . . 39 –

FIGURA 27 Nuvem de palavras para o gˆenero reggae da LGTZAN . . . 39 –

(10)

TABELA 1 Caracter´ısticas estil´ısticas . . . 20 –

TABELA 2 Resumo dos trabalhos relacionados . . . 29 –

TABELA 3 N´umero de atributos para cada representac¸˜ao sem e com remoc¸˜ao de

stopwordspara cada base de dados de letras de m´usicas. . . 40 –

TABELA 4 Mapeamento de caracteres especiais para os idiomas N´ordicos . . . 41

TABELA 5 Resultados para cada base de dados individualmente . . . 43 –

TABELA 6 Resultados para os m´etodos early e late fusion na LGTZAN . . . 46

TABELA 7 Resultados para os m´etodos early e late fusion na LMLD . . . 51 –

TABELA 8 Resultados para os m´etodos early e late fusion na NLD . . . 55 –

TABELA 9 Resultados para os m´etodos early e late fusion na JLD . . . 59 –

(11)

BOW Bag Of Words

ELF Ethnic Lyrics Fetcher

JLD Joint Lyrics Database

LGTZAN Lyrics GTZAN

LMD Latin Music Database

LMLD Latin Music Lyrics Database

MIR Music Information Retrieval

MIREX Music Information REtrieval eXchange

NLD Nordic Lyrics Database

PLN Processamento de Linguagem Natural

POS Part-Of-Speech

SMO Sequential Minimal Optimization

SSD Statistical Spectrum Descriptors

SVM Support Vector Machines

SWR Stopwords Removal

(12)

T F Frequˆencia do termo em um documento

nD N´umero de documentos utilizados

nDF N´umero de documentos onde ocorre a representac¸˜ao do termo

V p Verdadeiro positivo

F p Falso positivo

Fn Falso negativo

Z Instˆancia para ser classificada

m Quantidade de classes poss´ıveis

R Modelos de representac¸˜oes

xi I-´esimo classificador x

(13)

1 INTRODUC¸ ˜AO . . . 12 1.1 CONTEXTUALIZAC¸ ˜AO . . . 12 1.2 MOTIVAC¸ ˜AO E JUSTIFICATIVA . . . 12 1.3 HIP ´OTESE . . . 13 1.4 OBJETIVOS . . . 13 1.4.1 Objetivos Espec´ıficos . . . 14 1.5 ORGANIZAC¸ ˜AO DO DOCUMENTO . . . 14 2 PROBLEMA . . . 15 3 REFERENCIAL TE ´ORICO . . . 17 3.1 MINERAC¸ ˜AO DE TEXTOS . . . 17 3.1.1 Remoc¸˜ao de stopwords . . . 17 3.1.2 Stemming . . . 18 3.1.3 Caracteres n-gramas . . . 18 3.1.4 TF-IDF . . . 18

3.1.5 Caracter´ısticas estil´ısticas de texto . . . 19

3.2 APRENDIZADO SUPERVISIONADO . . . 19

3.2.1 Classificador SVM . . . 20

3.2.2 M´etodos para a avaliac¸˜ao de modelos . . . 21

3.2.2.1 Validac¸˜ao cruzada . . . 21

3.2.2.2 M´etricas para avaliac¸˜ao de resultados . . . 22

3.3 COMBINAC¸ ˜AO DE CLASSIFICADORES . . . 22

3.3.1 Early Fusion . . . 22

3.3.2 Late Fusion . . . 23

3.3.2.1 Probabilidade M´axima . . . 24

3.3.2.2 Soma das Probabilidades . . . 25

3.3.2.3 Produto das Probabilidades . . . 25

3.4 TRABALHOS RELACIONADOS . . . 26

4 METODOLOGIA . . . 30

4.1 CRIAC¸ ˜AO DAS BASES DE DADOS . . . 30

4.1.1 Nordic Lyrics Database . . . 30

4.1.2 Latin Music Lyrics Database . . . 32

4.1.3 Lyrics GTZAN Database . . . 36

4.1.4 Joint Lyrics Database . . . 39

4.1.5 Detalhes das bases de dados . . . 39

4.2 PROCESSAMENTO DE LETRAS DE M ´USICAS . . . 40

4.2.1 Detecc¸˜ao de idiomas . . . 41

4.2.2 Pr´e-processamento . . . 41

4.2.3 Stoplists utilizadas . . . 42

(14)

TOS COMPUTACIONAIS . . . 43

5.1 RESULTADOS PARA ABORDAGENS SEM COMBINAC¸ ˜AO (NO FUSION) . . . . 43

5.1.1 Qual representac¸˜ao usar? . . . 44

5.1.2 Qual ´e o impacto das stopwords? . . . 44

5.2 AVALIAC¸ ˜AO E DISCUSS ˜AO GLOBAL DOS RESULTADOS . . . 45

6 EXPERIMENTOS COMPUTACIONAIS . . . 46

6.1 RESULTADOS PARA A COMBINAC¸ ˜AO DE CLASSIFICADORES NA LGTZAN 46 6.1.1 Combinando N-Gramas com Representac¸˜oes Stemming . . . 48

6.1.2 Combinando N-Gramas com Caracter´ısticas Estil´ısticas . . . 49

6.1.3 Combinando N-Gramas, Stemming e Caracter´ısticas Estil´ısticas . . . 49

6.1.4 Outras Combinac¸˜oes . . . 50

6.2 RESULTADOS PARA A COMBINAC¸ ˜AO DE CLASSIFICADORES NA LMLD . . 51

6.2.1 Combinando Representac¸˜oes N-Gramas com Stemming . . . 52

6.2.2 Combinando N-Gramas com Caracter´ısticas Estil´ısticas . . . 53

6.2.3 Combinando N-Gramas, Stemming e Caracter´ısticas Estil´ısticas . . . 54

6.2.4 Outras Combinac¸˜oes . . . 54

6.3 RESULTADOS PARA A COMBINAC¸ ˜AO DE CLASSIFICADORES NA NLD . . . . 55

6.3.1 Combinando as Representac¸˜oes N-Gramas com Stemming . . . 57

6.3.2 Combinando N-Gramas com Caracter´ısticas Estil´ısticas . . . 57

6.3.3 Combinando N-Gramas, Stemming e Caracter´ısticas Estil´ısticas . . . 58

6.3.4 Outras Combinac¸˜oes . . . 58

6.4 RESULTADOS PARA A COMBINAC¸ ˜AO DE CLASSIFICADORES NA JLD . . . . 59

6.4.1 Combinando N-Gramas com Representac¸˜oes Stemming . . . 61

6.4.2 Combinando N-Gramas com Caracter´ısticas Estil´ısticas . . . 62

6.4.3 Combinando N-Gramas, Stemming e Caracter´ısticas Estil´ısticas . . . 62

6.4.4 Outras Combinac¸˜oes . . . 63

6.5 AVALIAC¸ ˜AO E DISCUSS ˜AO GLOBAL DOS RESULTADOS . . . 63

6.5.1 Avaliac¸˜ao dos Resultados . . . 64

6.5.2 Teste Friedman e Nemenyi . . . 64

6.5.3 An´alise dos Testes Estat´ısticos . . . 65

7 CONCLUS ˜OES . . . 67

(15)

1 INTRODUC¸ ˜AO

1.1 CONTEXTUALIZAC¸ ˜AO

O estudo das tecnologias musicais tem sido um campo importante em muitas ´areas de pesquisa, como por exemplo, em Music Information Retrieval (MIR), na qual as pesquisas comumente s˜ao direcionadas a recuperac¸˜ao por similaridade musical, classificac¸˜ao de gˆeneros musicais ou an´alise de m´usicas e representac¸˜ao do conhecimento (ORIO, 2006). Em diver-sos trabalhos (NEUMAYER; RAUBER, 2007; MAYER et al., 2008a, 2008b; MAYER; NEU-MAYER, 2009; MAYER; RAUBER, 2010, 2011) foi demonstrado que as letras de m´usicas s˜ao relevantes para auxiliar ou substituir outras abordagens na tarefa de classificac¸˜ao de gˆeneros musicais. Al´em disso, as letras de m´usicas tamb´em foram utilizadas para melhorar o reconheci-mento de emoc¸˜ao em m´usicas (HU et al., 2009, 2009; HU; DOWNIE, 2010a, 2010b). Levando em considerac¸˜ao que a m´usica est´a presente em diferentes pa´ıses e culturas, naturalmente as letras das m´usicas s˜ao escritas em diferentes idiomas. Entretanto a maioria dos trabalhos de-senvolvidos utilizam apenas letras de m´usicas em inglˆes. Mais ainda, de acordo com (SILLA JR. et al., 2010; ZAANEN; KANTERS, 2010) o uso de letras de m´usicas geralmente depende de ferramentas de Processamento de Linguagem Natural (PLN) que muitas vezes n˜ao est˜ao dispon´ıveis para m´usicas de outros idiomas, como por exemplo, Part-Of-Speech (POS).

1.2 MOTIVAC¸ ˜AO E JUSTIFICATIVA

A an´alise e desenvolvimento de t´ecnicas para a classificac¸˜ao autom´atica de gˆeneros musicais utilizando letras de m´usicas em diferentes idiomas s˜ao necess´arios devido ao au-mento exponencial de dados musicais nos ´ultimos anos (ORIO, 2006; NEUMAYER; RAU-BER, 2007). Al´em disso, em Bibliotecas de M´usicas Digitais ´e comum usar gˆeneros musicais para organizar as colec¸˜oes de m´usicas. Para os usu´arios finais dos sistemas a navegac¸˜ao e busca atrav´es de gˆeneros musicais ´e mais significante do que recomendac¸˜oes ou similaridade por

(16)

artis-tas ou m´usicas de acordo com (LEE; DOWNIE, 2004). Mais ainda, a classificac¸˜ao autom´atica de gˆeneros musicais ´e tamb´em importante para aplicac¸˜oes comerciais, tais como: Super Player e Pandora (MCKAY; FUJINAGA, 2006; ORIO, 2006). Isto se deve ao fato do gˆenero musical ser uma categoria e/ou conceito popular para a classificac¸˜ao das m´usicas, independentemente da raz˜ao, prop´osito ou crit´erio (FABBRI, 1999a).

O estado da arte n˜ao contempla estudos voltados para a classificac¸˜ao de gˆeneros musi-cais utilizando letras de m´usicas em diferentes idiomas, sendo, portanto, focados em letras no idioma Inglˆes (MAYER et al., 2008a, 2008b; MCKAY et al., 2010; MAYER; RAUBER, 2011; FELL; SPORLEDER, 2014). Esse trabalho abrange a an´alise de t´ecnicas de classificac¸˜ao uti-lizando recursos dependentes e independentes de idiomas aplicadas as letras de m´usicas em diferentes idiomas, al´em das combinac¸˜oes destas t´ecnicas visando a melhoria da performance de classificac¸˜ao (SILLA JR.; FREITAS, 2009, 2011). As combinac¸˜oes foram feitas por meio das t´ecnicas early e late fusion. A combinac¸˜ao por early fusion realiza a junc¸˜ao das carac-ter´ısticas unimodais antes da etapa de aprendizado de m´aquina. Em contra partida, os m´etodos baseados em late fusion realizam a combinac¸˜ao de caracter´ısticas ou sa´ıdas dos classificado-res posteriormente a etapa de aprendizado de m´aquina (SNOEK et al., 2005). Para avaliar as t´ecnicas houve a necessidade de desenvolver trˆes bases de letras de m´usicas em diferentes gˆeneros e idiomas, al´em da junc¸˜ao destas para verificar se os resultados obtidos nas bases in-dividualmente podem ser escalados para bases de dados com maior complexidade atrav´es da variac¸˜ao de idiomas e gˆeneros musicais.

1.3 HIP ´OTESE

A hip´otese que conduzir´a o desenvolvimento deste trabalho ´e a que se segue: O uso de t´ecnicas de combinac¸˜ao de classificadores leva a melhores taxas no reconhecimento de gˆeneros utilizando letras de m´usicas.

1.4 OBJETIVOS

Esse trabalho tem como objetivo principal a an´alise de t´ecnicas de PLN para a classificac¸˜ao de gˆeneros musicais utilizando letras de m´usicas em diferentes idiomas e a avaliac¸˜ao destas t´ecnicas combinadas.

(17)

1.4.1 OBJETIVOS ESPEC´IFICOS

• Analisar as t´ecnicas de combinac¸˜ao de early fusion e late fusion.

• Desenvolver novas bases de letras de m´usicas em diferentes idiomas e gˆeneros. • Avaliar os m´etodos de combinac¸˜ao.

1.5 ORGANIZAC¸ ˜AO DO DOCUMENTO

Esse trabalho est´a divido em 7 cap´ıtulos. Al´em do cap´ıtulo inicial de introduc¸˜ao do trabalho que esclarece a contextualizac¸˜ao, motivac¸˜ao e justificativa, objetivos e organizac¸˜ao do documento, os demais cap´ıtulos s˜ao os seguintes:

• Problema: neste cap´ıtulo ´e apresentado de forma detalhada qual o problema central desse trabalho. Este cap´ıtulo se faz necess´ario para apresentar o estado da arte em classificac¸˜ao de gˆeneros musicais utilizando letras de m´usicas e tamb´em para esclare-cer de forma detalhada os termos importantes para compreens˜ao do trabalho.

• Referencial Te´orico: neste cap´ıtulo s˜ao apresentados os m´etodos que ser˜ao utilizados para realizac¸˜ao do trabalho.

• Metodologia: neste cap´ıtulo s˜ao apresentados os protocolos experimentais utilizados. Sendo eles: criac¸˜ao das bases de dados, processamento de letras de m´usicas e interpreta-c¸˜ao e avaliainterpreta-c¸˜ao dos resultados.

• Resultados sem Combinac¸˜ao: neste cap´ıtulo s˜ao apresentados os experimentos realiza-dos com as representac¸˜oes individualmente nesse trabalho.

• Experimentos Computacionais: neste cap´ıtulo s˜ao apresentados os experimentos rea-lizados com as representac¸˜oes combinadas. Para cada experimento realizado ´e apresen-tado: a combinac¸˜ao dos dados utilizados, as t´ecnicas testadas, os resultados obtidos, e a interpretac¸˜ao e an´alise dos resultados.

• Considerac¸˜oes Finais: neste cap´ıtulo s˜ao apresentadas as considerac¸˜oes finais do traba-lho realizado e os trabatraba-lhos futuros.

(18)

2 PROBLEMA

A classificac¸˜ao autom´atica de gˆeneros musicais ´e uma tarefa importante conside-rando o crescimento cont´ınuo dos dados musicais nos ´ultimos anos (algumas Bibliotecas de M´usicas Digitais possuem milh˜oes de m´usicas) e tamb´em pela popularidade dos gˆeneros para a categorizac¸˜ao das m´usicas (FABBRI, 1999a; LEE; DOWNIE, 2004; ORIO, 2006; MCKAY; FUJINAGA, 2006; NEUMAYER; RAUBER, 2007). Para a tarefa de classificac¸˜ao autom´atica de gˆeneros musicais ´e poss´ıvel usar dados culturais (WHITMAN; SMARAGDIS, 2002), ´audio (LI et al., 2003; SCARINGELLA et al., 2006; FU et al., 2011; SILLA JR. et al., 2010) e/ou letras de m´usicas (FELL; SPORLEDER, 2014). Esse trabalho foca na classificac¸˜ao autom´atica de gˆeneros musicais utilizando letras de m´usicas, mas com potencial para auxiliar e em al-guns casos melhorar os resultados da classificac¸˜ao de gˆeneros musicais utilizando ´audio, tendo em vista que o uso de ´audio isoladamente atingiu um “limite” (“glass ceiling”) (PACHET; AUCOUTURIER, 2004), podendo inclusive ser utilizada individualmente (MAYER et al., 2008a, 2008b; MAYER; NEUMAYER, 2009; MAYER; RAUBER, 2010, 2011). As letras de m´usicas possuem estrutura e vocabul´ario diferentes de textos comuns, desta forma as t´ecnicas padr˜oes utilizadas na classificac¸˜ao de texto n˜ao necessariamente obt´em os mesmos resultados na classificac¸˜ao de gˆeneros musicais utilizando letras de m´usicas. Al´em disso, as ferramentas PLN s˜ao desenvolvidas majoritariamente para o idioma Inglˆes (MAYER et al., 2008a, 2008b; MCKAY et al., 2010; MAYER; RAUBER, 2011; FELL; SPORLEDER, 2014).

Como as t´ecnicas de PLN s˜ao desenvolvidas tendo como foco principal o idioma Inglˆes, muitas vezes a aplicac¸˜ao de tais t´ecnicas em outros idiomas se torna invi´avel, pois cada idioma tem estrutura e vocabul´ario espec´ıficos. Note que a motivac¸˜ao para aplicac¸˜ao de t´ecnicas em diversos idiomas ´e relevante, pois a m´usica ´e um fenˆomeno global e est´a presente em diversos pa´ıses e culturas.

Al´em dos trabalhos da literatura focarem principalmente no desenvolvimento de t´ecni-cas para o idioma Inglˆes (MAYER et al., 2008a, 2008b; MCKAY et al., 2010; MAYER;

(19)

RAUBER, 2011; FELL; SPORLEDER, 2014), muitas vezes estas t´ecnicas s˜ao exclusivamente dependentes de idioma. Desta forma, as t´ecnicas desenvolvidas acabam considerando carac-ter´ısticas exclusivas do idioma em quest˜ao, como por exemplo, g´ırias e estruturas ortogr´aficas. Neste contexto, torna-se dif´ıcil inclusive adaptar o uso para outros idiomas.

(20)

3 REFERENCIAL TE ´ORICO

Neste cap´ıtulo s˜ao abordadas as ferramentas, t´ecnicas e recursos utilizados para a minerac¸˜ao de texto conforme a Sec¸˜ao 3.1. Na Sec¸˜ao 3.2 s˜ao apresentados os algoritmos e m´etricas de avaliac¸˜ao utilizados no aprendizado supervisionado de m´aquina. Na Sec¸˜ao 3.3 s˜ao apresentadas as t´ecnicas de combinac¸˜ao de classificadores: early e late fusion. Na Sec¸˜ao 3.4 s˜ao apresentados os trabalhos relacionados com classificac¸˜ao autom´atica de gˆeneros musicais utilizando letras de m´usicas.

3.1 MINERAC¸ ˜AO DE TEXTOS

A Minerac¸˜ao de Textos ´e uma ´area da inteligˆencia artificial cujo objetivo ´e o desenvol-vimento de t´ecnicas computacionais sobre o aprendizado e tamb´em a construc¸˜ao de sistemas inteligentes capazes de obter conhecimento de forma autom´atica em grandes quantidades de dados (MONARD; BARANAUSKAS, 2003; LAROSE, 2014). Nesta sec¸˜ao s˜ao apresentadas algumas das t´ecnicas comumente utilizadas em Minerac¸˜ao de Textos para extrair caracter´ısticas e padronizar os dados: Na Sec¸˜ao 3.1.1 ´e apresentado o processo de remoc¸˜ao de stopwords; A t´ecnica stemming ´e apresentada na Sec¸˜ao 3.1.2; Uma abordagem alternativa s˜ao os n-gramas apresentados na Sec¸˜ao 3.1.3; O TF-IDF ´e utilizado em conjunto com as abordagens anteriores para se obter a importˆancia das palavras, o qual ´e apresentado na Sec¸˜ao 3.1.4; por fim, na Sec¸˜ao 3.1.5 s˜ao apresentadas as caracter´ısticas estil´ısticas.

3.1.1 REMOC¸ ˜AO DE STOPWORDS

As stopwords s˜ao palavras comuns (por exemplo, artigos e preposic¸˜oes) que carregam pouco significado semˆantico para o texto. Estas palavras irrelevantes s˜ao inclu´ıdas em uma lista pr´e-definida chamada “lista de stopwords” ou “stoplist”.

(21)

3.1.2 STEMMING

A t´ecnica stemming ´e utilizada para obter o radical de todas as palavras a partir de um conjunto de textos. Por exemplo, dadas as palavras “computing” e “computer” em Inglˆes, o resultado do algoritmo de stemming poderia ser “comput” (PORTER, 1980). Sebastiani (SE-BASTIANI, 2002) mostra que esta t´ecnica ´e largamente utilizada no dom´ınio de classificac¸˜ao de textos com o objetivo de reduzir a dimensionalidade. Este tamb´em ´e um procedimento muito r´apido. ´E importante ressaltar que os algoritmos de “stemming” s˜ao dependentes de linguagem e, portanto podem n˜ao estar dispon´ıveis para alguns idiomas (WU; SALTON, 1981).

3.1.3 CARACTERES N-GRAMAS

Esta t´ecnica transforma palavras em n-gramas. Um n-grama ´e uma sequˆencia de n caracteres (adicionando o caractere especial “ ” para denotar o in´ıcio e o final da palavra), por exemplo, dado o termo “text”: para n = 2, os atributos representativos poderiam ser “ t”, “te”, “ex”, “xt” e “t ”; para n = 3, “ te”, “tex”, “ext” e “xt ”; e para n = 4, “ tex”, “text” e “ext ” (CAVNAR; TRENKLE, 1994). Note que a abordagem por caracteres n-gramas ´e ligeiramente diferente das word gramas, as quais s˜ao palavras utilizadas em conjunto para formar os n-gramas. Por exemplo, na abordagem por word n-gramas com n = 2, o texto “minerac¸˜ao de texto em classificac¸˜ao de gˆeneros musicais” gera os seguintes atributos: “minerac¸˜ao de”, “de texto”, “texto em”, “em classificac¸˜ao”, “classificac¸˜ao de”, “de gˆeneros” e “gˆeneros musicais”.

´

E importante ressaltar que as word n-gramas s˜ao utilizadas em idiomas orientais devido a difi-culdade de se separar palavras em letras em tais idiomas (HU et al., 2009).

Em casos distintos de idiomas esta t´ecnica ´e geralmente utilizada quando os idiomas tem um radical comum. Desta forma, a variac¸˜ao de algumas palavras n˜ao influenciam os ra-dicais que s˜ao comuns entre os idiomas. Portanto, esta abordagem permite inferir morfemas dividindo a palavra em uma sequˆencia de tamanho fixo, n, a qual ´e pr´e definida de acordo com o contexto da aplicac¸˜ao. Note que os n-gramas gerados s˜ao ´unicos, portanto, n˜ao h´a repetic¸˜ao nas caracter´ısticas geradas.

3.1.4 TF-IDF

Existem muitos m´etodos para calcular o peso de cada termo (por exemplo, Weighted

Inverse Document Frequency(TOKUNAGA; MAKOTO, 1994) e Relevˆancia do Termo (WU;

(22)

BUC-KLEY, 1988). A vantagem do TF-IDF ´e o trade-off entre quanto um termo ocorre (frequˆencia do termo) e em quantos documentos o termo ocorre. Significando que um termo que ocorre frequentemente em um dado documento pode ser importante, mas somente se este n˜ao ocorrer em todos os outros documentos. A f´ormula para computar o TF-IDF ´e apresentada na Equac¸˜ao (1).

T FIDF= T F × log nD

nDF (1)

onde:

• T F ´e a frequˆencia de um termo no documento, em outras palavras, o n´umero de vezes que o termo ocorre em um documento;

• nD ´e o n´umero de documentos utilizados;

• nDF ´e o n´umero de documentos onde ocorre a representac¸˜ao do termo;

3.1.5 CARACTER´ISTICAS ESTIL´ISTICAS DE TEXTO

A utilizac¸˜ao das caracter´ısticas estil´ısticas de texto para a classificac¸˜ao de gˆeneros musicais baseada em letras de m´usicas foi originalmente proposta no trabalho de (MAYER et al., 2008b). No trabalho de (MAYER et al., 2008b) eles propuseram contagens simples de pontuac¸˜oes especiais (por exemplo, “!”, “-”, “?”), ocorrˆencia de d´ıgitos, palavras e palavras ´unicas por linha, taxa de palavras ´unicas, caracteres por palavra e palavras por linha. A principal motivac¸˜ao de utilizar as caracter´ısticas estil´ısticas ´e captar as “palavras de interjeic¸˜ao” nas letras de m´usicas, pontuac¸˜oes especiais e computar estat´ısticas simples de texto. Posteriormente, estas caracter´ısticas estil´ısticas de texto foram complementadas com novas m´etricas propostas (conforme Tabela 1) para a tarefa de classificac¸˜ao de emoc¸˜oes baseada em letras de m´usicas (HU; DOWNIE, 2010a). A utilizac¸˜ao das caracter´ısticas estil´ısticas de texto para a classificac¸˜ao de gˆeneros musicais baseada em letras de m´usicas foi originalmente proposta no trabalho de (MAYER et al., 2008b).

3.2 APRENDIZADO SUPERVISIONADO

De acordo com (MONARD; BARANAUSKAS, 2003) um algoritmo baseado no apre-ndizado supervisionado, recebe um conjunto de exemplos de treinamento. Geralmente esses

(23)

Tabela 1: Caracter´ısticas estil´ısticas

Caracter´ıstica Definic¸˜ao

palavras de interjeic¸˜ao freq. normal. “ja”, “hejsan”, “yo”, “uh”, “ah”, “aj”,

“yeah”, “hej”, “vad”, “oj”, “hey”, “hei”, “ooh”

pontuac¸˜oes especiais frequˆencia normalizada de “!”, “:”, “?”, “-”, “;”

N ´UMERO frequˆencia normalizada dos n´umeros

N´umero de palavras n´umero total de palavras

N´umero de palavras ´unicas n´umero total de palavras ´unicas

taxaDePalavrasRepetidas (Node palav. - Node palav. ´unicas) / Node palav.

M´edia de tamanho da palavra n´umero m´edio de caracteres por palavra

N´umero de linhas n´umero total de linhas

N´umero de linhas ´unicas n´umero total de linhas ´unicas

N´umero de linhas em branco n´umero de linhas em branco

taxaDeLinhasEmBranco Node linhas em branco / Node linhas

m´ediaDeTamanhoDeLinhas Node palavras / Node linhas

desvioPadraoDoTamanhoDaLinha desvio padr˜ao do n´umero de palavras por linha

palavras ´UnicasPorLinha Node palavras ´unicas / Node linhas

taxaDeLinhaRepetida (Node linhas - Node linhas ´unicas) / Node linhas

taxaM´ediaDePalavraRepetidaPorLinha taxa m´edia de palavra repetida por linha

taxaDesvPadraoPalavRepetPorLinha taxa de desvio padr˜ao de palavra repetida por linha

Fonte: Adaptado de (HU; DOWNIE, 2010a)

exemplos s˜ao compostos por um vetor de caracter´ısticas e o r´otulo da classe associada. Nesse caso, o objetivo do algoritmo ´e construir um classificador, com base nas amostras de exemplo, que seja capaz de rotular uma nova amostra sem r´otulo que seja inserida posteriormente. Em s´ıntese, esse tipo de aprendizado ´e utilizado quando as classes j´a s˜ao conhecidas pelo usu´ario. Na sec¸˜ao 3.2.1 ´e apresentado o classificador supervisionado Support Vector Machines (SVM) e na sec¸˜ao 3.2.2 s˜ao apresentados os procedimentos utilizados para avaliar os resultados obtidos pelo SVM.

3.2.1 CLASSIFICADOR SVM

O SVM ´e um algoritmo de aprendizado supervisionado de m´aquina que utiliza hiper-planos para separar duas classes atrav´es do mapeamento dos exemplos de treinamento (BUR-GES, 1998). Com o objetivo de classificar m´ultiplas classes foi utilizado o algoritmo1

Se-quential Minimal Optimization (SMO) para o treinamento com os parˆametros padr˜oes e as

caracter´ısticas normalizadas (PLATT, 1999).

(24)

O treinamento de um SVM requer a soluc¸˜ao de um problema de otimizac¸˜ao de progra-mac¸˜ao quadr´atica (PLATT, 1999). O SMO divide este problema de prograprogra-mac¸˜ao quadr´atica em uma s´erie de problemas menores. Estes problemas de programac¸˜ao quadr´atica menores s˜ao resolvidos analiticamente usando otimizac¸˜ao num´erica em repetic¸˜oes internas. A quantidade de mem´oria necess´aria para o SMO ´e linear no conjunto de treinamento, a qual permite ao SMO manipular grandes conjuntos. Desta forma, o SMO ´e mais r´apido do que o SVM para conjuntos de dados lineares e esparsos.

Em (DHANARAJ; LOGAN, 2005) foi demonstrado que os SVMs apresentam trˆes principais vantagens: n˜ao requer um ajuste complexo dos parˆametros, pode generalizar pe-quenos conjuntos e s˜ao adequados para o aprendizado em espac¸os com alta dimensionalidade. Al´em disso, o classificador SVM tem recebido atenc¸˜ao em MIR principalmente pelo desem-penho e melhores resultados comparado a outros classificadores padr˜oes como ´Arvores de De-cis˜ao, K-Vizinhos Mais Pr´oximos e Random Forests (LAURIER et al., 2008). Entre outros artigos que usaram o SVM e outras derivac¸˜oes para a tarefa de classificac¸˜ao de gˆeneros musi-cais est˜ao (MAYER et al., 2008a, 2008b; MAYER; NEUMAYER, 2009; MAYER; RAUBER, 2010, 2011), portanto, optou-se por utilizar o SVM como classificador devido a maioria dos tra-balhos de classificac¸˜ao de gˆeneros musicais utilizando letras de m´usicas obterem os melhores resultados atrav´es do SVM, devido a sua capacidade de lidar com espac¸os de dimensionalidade em grande escala.

3.2.2 M ´ETODOS PARA A AVALIAC¸ ˜AO DE MODELOS

3.2.2.1 VALIDAC¸ ˜AO CRUZADA

De acordo com (MONARD; BARANAUSKAS, 2003; LAROSE, 2014) este ´e um tipo de abordagem baseada em amostragem. A validac¸˜ao cruzada divide aleatoriamente o conjunto de dados em r partic¸˜oes mutuamente exclusivas. Essas partic¸˜oes possuem tamanho aproxima-damente igual a n/r amostras. Os exemplos nas partic¸˜oes (r −1) s˜ao utilizados para treinamento e a hip´otese ´e testada na partic¸˜ao remanescente. Este processo ´e repetido r vezes, cada uma considerando uma partic¸˜ao diferente para teste. O erro ´e estimado por meio da m´edia dos erros calculados em cada uma das r partic¸˜oes.

(25)

3.2.2.2 M ´ETRICAS PARA AVALIAC¸ ˜AO DE RESULTADOS

Para avaliar o desempenho da classificac¸˜ao podem ser utilizadas as seguintes m´etricas: precis˜ao, que calcula a porcentagem de amostras positivas classificadas corretamente sobre o total de amostras classificadas como positivas (Equac¸˜ao 2); sensitividade, a qual retorna a por-centagem de amostras positivas classificadas corretamente sobre o total de amostras positivas (cobertura conforme Equac¸˜ao 3); e f-measure, tamb´em chamada de f-score, ´e a m´edia

pon-derada de precis˜ao e sensitividade (Equac¸˜ao 4) (KOHAVI; PROVOST, 1998). V pindica o

n´umero de exemplos positivos da classe que foram previstos corretamente, F p refere-se ao n´umero de exemplos positivos da classe que foram classificados incorretamente e Fn que in-dica o n´umero de exemplos negativos da classe que foram previstos incorretamente.

Precisao˜ = V p

V p+ F p (2)

Cobertura= V p

V p+ Fn (3)

F-measure= 2.Precisao˜ ×Cobertura

Precisao˜ +Cobertura (4)

3.3 COMBINAC¸ ˜AO DE CLASSIFICADORES

Neste trabaho foram feitas diversas combinac¸˜oes das representac¸˜oes individuais para verificar se a fus˜ao dos m´etodos melhora os resultados da classificac¸˜ao. Estas combinac¸˜oes foram feitas utilizando os m´etodos early fusion (Sec¸˜ao 3.3.1) e late fusion (Sec¸˜ao 3.3.2).

3.3.1 EARLY FUSION

A Figura 1 ilustra a t´ecnica early fusion. De acordo com (SNOEK et al., 2005) early fusion ´e o esquema de fus˜ao que integra caracter´ısticas unimodais antes da etapa de aprendi-zado. Desta forma, abordagens de indexac¸˜ao que s˜ao baseadas em early fusion primeiramente extraem as caracter´ısticas unimodais. Depois da an´alise de v´arias caracter´ısticias de texto, as caracter´ısticas extra´ıdas s˜ao combinadas em uma representac¸˜ao simples. Ap´os a combinac¸˜ao das caracter´ısticas unimodais de texto em uma representac¸ao multimodal, os m´etodos early fu-sioniniciam o aprendizado supervisionado para classificar baseado nos conceitos semˆanticos.

(26)

Figura 1: Esquema de combinac¸˜ao de caracter´ısticas por early fusion.

Fonte: Autoria pr´opria

Uma vantagem adicional ´e a necessidade de uma fase de aprendizado apenas. A desvantagem desta abordagem ´e a dificuldade para combinar caracter´ısticas em uma representac¸˜ao comum. A t´ecnica de early fusion foi previamente aplicada em (SNOEK et al., 2005; LIMA et al., 2014).

3.3.2 LATE FUSION

De acordo com (SNOEK et al., 2005) late fusion ´e um esquema de fus˜ao que reduz as caracter´ısticas unimodais para realizarem o aprendizado separadamente, posteriormente in-tegrando as sa´ıdas. Desta forma, abordagens de indexac¸˜ao que s˜ao baseadas em late fusion tamb´em iniciam com a extrac¸˜ao das caracter´ısticas unimodais. Em contraste com early fusion, onde as caracter´ısticas s˜ao combinadas em representac¸˜ao multimodal, abordagens baseadas em late fusionrealizam o aprendizado a partir das caracter´ısticas unimodais. Em geral, esquemas late fusioncombinam as sa´ıdas dos classificadores unimodais em uma representac¸˜ao multimo-dal.

Late Fusionfoca nas caracter´ısticas individuais de cada modalidade. As sa´ıdas unimo-dais s˜ao fundidas em uma representac¸˜ao semˆantica multimodal. Uma grande desvantagem de esquemas late fusion ´e a performance que acaba sendo comprometida, pois muitas modalidades requerem um est´agio de aprendizado supervisionado separadamente. Outra desvantagem das abordagens late fusion ´e a potencial perca de correlac¸˜ao no espac¸o de caracter´ısticas mixada.

O uso da combinac¸˜ao de classificadores (uma forma de uso dos m´etodos late fusion) tem por objetivo melhorar a performance de classificac¸˜ao atrav´es da complementariedade das sa´ıdas dos classificadores. Neste trabalho foram usados 3 m´etodos de combinac¸˜ao de

(27)

classifica-dores, sendo estes os mais comuns encontrados na literatura: probabilidade m´axima, soma das probabilidades e produto da probabilidade (KITTLER et al., 1998). Neste sentido, foi usada uma abordagem similar na qual ´e poss´ıvel usar um classificador com diferentes representac¸˜oes combinando as sa´ıdas (para cada representac¸˜ao ´e gerado um modelo de treinamento). Esta abordagem ´e conhecida tamb´em como late fusion (XU et al., 1992; HO et al., 1994).

3.3.2.1 PROBABILIDADE M ´AXIMA

A partir das probabilidades obtidas de cada classificador ´e realizado o procedimento para encontrar uma classe com a maior probabilidade entre as representac¸˜oes sendo esta a sa´ıda gerada da combinac¸˜ao de classificadores. A definic¸˜ao formal apresentada na Equac¸˜ao (5) ´e baseada em (KITTLER et al., 1998):

classi f ique Z→ wj se

P(wj|x1, ..., xR) = max

k P(wk|xk, ..., xR),

(5)

onde Z ´e uma instˆancia para ser classificada em uma das m classes poss´ıveis (w1, ...,

wm). Assuma que R classificadores (neste caso R representa modelos de representac¸˜oes)

de-nota um vetor usado pelo ith classificador xi. A Figura 2 ilustra a t´ecnica late fusion usando

probabilidade m´axima.

Figura 2: Esquema de combinac¸˜ao de caracter´ısticas por late fusion usando proba-bilidade m´axima.

(28)

3.3.2.2 SOMA DAS PROBABILIDADES

Este m´etodo faz a soma da probabilidade de cada r´otulo obtido pelos classificadores e seleciona a classe com o valor mais alto. Desta forma, cada classificador auxilia individual-mente a sa´ıda da classificac¸˜ao e colabora para uma decis˜ao consensual tornando a classificac¸˜ao mais consistente com a melhoria da acur´acia. Seguindo as definic¸˜oes em (KITTLER et al., 1998) a equac¸˜ao (6) demonstra as definic¸˜oes formais para obter a sa´ıda do m´etodo da soma da probabilidade. A Figura 3 ilustra a t´ecnica late fusion usando soma das probabilidades.

classi f ique Z→ wj se P(wj) + R

i=1 P(wj|xi) = m max k=1 " P(wk) + R

i=1 P(wk|xi) # (6)

onde Z ´e uma instˆancia para ser classificada em uma das m classes poss´ıveis (w1, ...,

wm). Assuma que R classificadores (neste caso R representa modelos de representac¸˜oes) denota um vetor usado pelo ith classificador xi.

Figura 3: Esquema de combinac¸˜ao de caracter´ısticas por late fusion usando soma das probabilidades.

Fonte: Autoria pr´opria

3.3.2.3 PRODUTO DAS PROBABILIDADES

A decis˜ao baseada no produto da probabilidade ´e realizada pela multiplicac¸˜ao entre as probabilidades das classes retornada de cada representac¸˜ao ou classificador. Ent˜ao, ´e selecio-nada a classe com o valor mais alto. Esta abordagem considera que as representac¸˜oes usadas

(29)

s˜ao condicionalmente independentes. Seguindo as definic¸˜oes em (KITTLER et al., 1998) a Equac¸˜ao (7) demonstra as definic¸˜oes formais para obter a sa´ıda do m´etodo do produto da pro-babilidade. A Figura 4 ilustra a t´ecnica late fusion usando o produto das probabilidades.

classi f ique Z→ wj se P(wj) + R

i=1 P(wj|xi) = m max k=1 P(wk) + R

i=1 P(wk|xi) (7)

onde Z ´e uma instˆancia para ser classificada em uma das m classes poss´ıveis (w1, ...,

wm). Assuma que R classificadores (neste caso R representa modelos de representac¸˜oes) denota

um vetor usado pelo ith classificador xi.

Figura 4: Esquema de combinac¸˜ao de caracter´ısticas por late fusion usando pro-duto das probabilidades.

Fonte: Autoria pr´opria

3.4 TRABALHOS RELACIONADOS

No trabalho de (MAYER et al., 2008b) os autores propuseram o uso de caracter´ısticas de rimas, estil´ısticas e Part-Of-Speech (POS) que ´e uma t´ecnica de categorizac¸˜ao de palavras com propriedades gramaticais similares. Al´em disso, em (MAYER et al., 2008b) foi proposta a combinac¸˜ao dessas caracter´ısticas com a abordagem de Bag Of Words (BOW) ponderadas com Term Frequency Inverse Document Frequency (TF-IDF) para a tarefa de classificac¸˜ao de gˆeneros musicais baseada em letras de m´usicas. Nos experimentos de (MAYER et al., 2008b) foi utilizada uma base de dados com 397 letras de m´usicas em Inglˆes distribu´ıdas em 10 gˆeneros musicais (Country: 29, Folk: 44, Grunge: 40, Hip Hop: 41, Metal: 46, Pop: 42, Punk Rock:

(30)

40, R&B: 40, Reggae: 33, Slow Rock: 42). O melhor resultado obtido nos experimentos de (MAYER et al., 2008b) foi utilizando o classificador SVM com um vetor combinado das carac-ter´ısticas de rimas e estil´ısticas com POS. Eles tamb´em reportaram bons resultados utilizando as caracter´ısticas estil´ısticas isoladamente. Por´em, neste trabalho foram utilizadas t´ecnicas es-pec´ıficas de idioma, como por exemplo, as caracter´ısticas de rimas, as quais s˜ao dependentes de idioma. Al´em disso, os autores utilizaram uma base de dados exclusivamente com letras de m´usicas em Inglˆes, sendo que n˜ao necessariamente poder˜ao ser obtidos os mesmos resultados em bases de dados com letras em outros idiomas.

No trabalho de (MAYER et al., 2008a) os autores propuseram combinar as ter´ısticas de rimas e estil´ısticas desenvolvidas anteriormente (baseadas em letras) com carac-ter´ısticas padr˜oes baseadas em ´audio para a tarefa de classificac¸˜ao de gˆeneros musicais. Nos experimentos de (MAYER et al., 2008a) foram empregadas duas bases de dados. A primeira base de dados (collection 600) tem 600 m´usicas uniformemente distribu´ıdas entre 10 gˆeneros musicais. A segunda base de dados (collection 3010) tem 3.010 m´usicas dos mesmos gˆeneros musicais, mas com a seguinte distribuic¸˜ao: Country: 227, Folk: 179, Grunge: 181, Hip Hop: 381, Metal: 371, Pop: 371, Punk Rock: 374, R&B: 373, Reggae: 181, Slow Rock: 372. Nos experimentos de (MAYER et al., 2008a), o melhor resultado para a primeira base de dados (collection 600) foi obtido com o classificador SVM usando caracter´ısticas de ´audio conheci-das como Statistical Spectrum Descriptors (SSD) em combinac¸˜ao com as caracter´ısticas es-til´ısticas de texto e POS (extra´ıdas de letras) atrav´es da t´ecnica de early fusion. Para a segunda base de dados (collection 3010) o melhor resultado foi tamb´em obtido pelo uso de SSD em combinac¸˜ao com caracter´ısticas estil´ısticas de texto e POS atrav´es da t´ecnica de early fusion.

A mesma abordagem usada em (MAYER et al., 2008a) foi estendida (MAYER; NEU-MAYER, 2009) para lidar com uma base de dados de 20.109 m´usicas com 14 gˆeneros musicais (Pop: 6.156, Alternative: 3.699, Rock: 3.666, Hip Hop: 2.234, Country: 1.990, R&B: 1.107, Christian: 490, Comedy: 206, Reggae: 121, Dance/Electronic: 112, Blues: 99, Jazz: 97, Sco-res/Soundtrack: 70, Classical: 62). O melhor resultado obtido por (MAYER et al., 2008a) foi atrav´es da combinac¸˜ao de SSD com todas as caracter´ısticas baseadas em letras de m´usicas.

No trabalho de (MCKAY et al., 2010) foi avaliada a performance de classificac¸˜ao de gˆeneros musicais utilizando caracter´ısticas baseadas em letras de m´usicas em relac¸˜ao a ca-racter´ısticas de ´audio, simb´olicas ou culturais. Nos experimentos foi utilizada uma base de dados de 250 m´usicas com letras em Inglˆes distribu´ıdas igualitariamente entre 10 gˆeneros mu-sicais (Modern Blues, Traditional Blues, Baroque, Romantic, Bop, Swing, Hardcore Rap, Pop

(31)

Rap, Alternative Rock, Metal). Na avaliac¸˜ao realizada por (MCKAY et al., 2010) os resulta-dos obtiresulta-dos demonstraram que as caracter´ısticas baseadas em letras de m´usicas frequentemente melhoram os resultados de classificac¸˜ao ao serem combinadas com outras abordagens atrav´es da t´ecnica de early fusion.

No trabalho de (FELL; SPORLEDER, 2014), novas caracter´ısticas baseadas em letras de m´usicas foram propostas. Mais precisamente, os autores definiram 13 conjuntos de carac-ter´ısticas baseadas em letras de m´usicas que se enquadram em uma de cinco dimens˜oes: Vo-cabul´ario, Estilo, Semˆantica, Orientac¸˜ao ou Estrutura da M´usica. A dimens˜ao do vocabul´ario ´e composta dos top K n-gramas com TF-IDF e palavras sem padr˜ao (por exemplo, palavras incomuns ou g´ırias). A dimens˜ao estilo ´e composta de POS, echoism (repetic¸˜oes de letras ou palavras, por exemplo, “money, money”) e caracter´ısticas de rimas. Note que as caracter´ısticas de rimas de (FELL; SPORLEDER, 2014) s˜ao baseadas exclusivamente no gˆenero musical Rap do trabalho de (HIRJEE; BROWN, 2010), diferindo portanto das demais utilizadas em outros trabalhos (MAYER et al., 2008b, 2008a; MAYER; NEUMAYER, 2009) que s˜ao baseadas em outros gˆeneros. As caracter´ısticas na dimens˜ao semˆantica foram obtidas com base nos trabalhos de (MARTINDALE, 1975, 1990). Para a dimens˜ao de orientac¸˜ao eles usam a informac¸˜ao se a canc¸˜ao narra experiˆencias sobre o passado ou presente/futuro. Eles tamb´em modelaram como “egocˆentrica” uma m´usica pela computac¸˜ao de frequˆencias de pronomes. Para a dimens˜ao de estrutura da m´usica eles pesquisaram por estruturas repetitivas nas letras de m´usicas. Nos experimentos de (FELL; SPORLEDER, 2014) foi empregada uma base de dados com 3.360 m´usicas com letras em Inglˆes de 8 gˆeneros musicais diferentes (Blues, Rap, Metal, Folk, R&B, Reggae, Country e Religious). O melhor resultado obtido com esses experimentos foi utili-zando o classificador SVM com todos os 13 conjuntos de caracter´ısticas atrav´es de early fusion baseadas em letras de m´usicas.

A an´alise dos trabalhos relacionados apresentada nesta subsec¸˜ao mostra que para o problema de classificac¸˜ao de gˆeneros musicais baseada em letras de m´usicas, somente letras no idioma Inglˆes tem sido usadas. Infelizmente a maioria das caracter´ısticas propostas base-adas em letras de m´usicas n˜ao podem ser usbase-adas devido a falta de recursos lingu´ısticos com-pat´ıveis. Uma das excec¸˜oes ´e o uso das caracter´ısticas estil´ısticas introduzidas em (MAYER et al., 2008b) e que tem sido utilizadas neste trabalho. Al´em disso, a ideia de combinac¸˜ao da representac¸˜ao BOW (tanto utilizando a abordagem stemming ou caracter n-gramas) em combinac¸˜ao somente com as caracter´ısticas estil´ısticas tˆem sido negligenciada. Na Tabela 2 s˜ao descritos resumidamente os principais trabalhos do estado da arte.

(32)

Tabela 2: Resumo dos trabalhos relacionados

Trabalho Caracter´ısticas Base(s) Melhor

Resultado

Mayer et al. (2008b) Rimas, Estil´ısticas, 397 letras em SVM+

POS, BOW, TFIDF Inglˆes; 10 gˆeneros junc¸˜ao das

caracter´ısticas

Mayer et al. (2008a) SSD+Mesmas de Collection 600/ SVM+

(MAYER et al., 2008b) collection 3010; todas as

10 gˆeneros caracter´ısticas

Mayer e Neumayer (2009) Mesmas de 20.109 m´usicas; Junc¸˜ao das

(MAYER et al., 2008a) 14 gˆeneros caracter´ısticas

McKay et al. (2010) Letras, simb´olicas, 250 m´usicas em Junc¸˜ao das

´audio, culturais Inglˆes; 10 gˆeneros caracter´ısticas

Fell e Sporleder (2014) 13 conjuntos em 5 3.360 letras em SVM+

dimens˜oes: estilo, Inglˆes; 8 gˆeneros junc¸˜ao das

vocabul´ario, semˆantica, caracter´ısticas

(33)

4 METODOLOGIA

Neste cap´ıtulo s˜ao apresentadas as etapas realizadas para a execuc¸˜ao dos experimen-tos: Na Sec¸˜ao 4.1 s˜ao apresentados os detalhes das bases de dados criadas; e na Sec¸˜ao 4.2 s˜ao apresentadas as t´ecnicas utilizadas para o processamento das letras de m´usicas.

4.1 CRIAC¸ ˜AO DAS BASES DE DADOS

Com o intuito de atender ao objetivo principal deste trabalho, ou seja, analisar a efic´acia de diferentes abordagens para a classificac¸˜ao autom´atica de gˆeneros musicais usando letras de m´usicas em diferentes idiomas, foi necess´ario criar novas bases de dados para esse prop´osito, pois como apresentado no cap´ıtulo 2, os trabalhos existentes focam exclusivamente na classificac¸˜ao de gˆeneros musicais em inglˆes.

4.1.1 NORDIC LYRICS DATABASE

A Nordic Lyrics Database (NLD) foi criada em (LIMA et al., 2014) usando o seguinte procedimento: no primeiro est´agio foi aplicado um question´ario para alguns residentes da Di-namarca, Noruega e Su´ecia. Neste question´ario os participantes foram instru´ıdos para informar as m´usicas favoritas com os respectivos t´ıtulos, o artista, gˆenero musical e idioma. Note que foi imposta uma restric¸˜ao no question´ario para informar apenas m´usicas da Dinamarca, Noruega e Su´ecia. No segundo est´agio, as m´usicas foram buscadas manualmente na Web para recuperar as letras para os experimentos deste trabalho.

A NLD cont´em 1.513 letras de m´usicas divididas em cinco gˆeneros (Dance: 265, Pop Rock: 263, Rap: 100, Pop: 357 and Rock: 528) distribu´ıdos em trˆes idiomas N´ordicos (Sueco, Dinamarquˆes e Norueguˆes). Os gˆeneros musicais foram rotulados seguindo a definic¸˜ao demonstrada de (FABBRI, 1999b): “a kind of music, as it is acknowledged by a community for any reason or purpose or criteria”. A NLD cont´em alguns termos no idioma Inglˆes conforme

(34)

pode ser visto nas Figuras 5, 6, 7, 8 e 9, as quais apresentam nuvens de palavras com os 150 maiores valores de TFIDF.

Figura 5: Nuvem de palavras para o gˆenero dance da NLD.

Fonte: Autoria pr´opria

Figura 6: Nuvem de palavras para o gˆenero pop rock da NLD.

Fonte: Autoria pr´opria

Figura 7: Nuvem de palavras para o gˆenero rap da NLD.

(35)

Figura 8: Nuvem de palavras para o gˆenero pop da NLD.

Fonte: Autoria pr´opria

Figura 9: Nuvem de palavras para o gˆenero rock da NLD.

Fonte: Autoria pr´opria

4.1.2 LATIN MUSIC LYRICS DATABASE

A Latin Music Database (LMD) (SILLA JR. et al., 2008) ´e uma base de dados de m´usicas que tem sido usada no Music Information REtrieval eXchange (MIREX) (DOWNIE, 2008) e cont´em m´usicas de 10 gˆeneros latinos diferentes (Ax´e, Bachata, Bolero, Forr´o, Ga´ucha, Merengue, Pagode, Salsa, Sertaneja, Tango). Neste trabalho foi criada a Latin Music Lyrics

Database (LMLD) atrav´es da recuperac¸˜ao das letras de m´usicas da LMD usando o Ethnic

Lyrics Fetcher(ELF) (RIBEIRO et al., 2014).

A vers˜ao final da LMLD cont´em 3.116 m´usicas latinas divididas em 10 gˆeneros (Ax´e: 303, Bachata: 303, Bolero: 301, Pagode: 301, Forr´o: 313, Ga´ucha: 300, Merengue: 291, Salsa: 299, Sertaneja: 308 and Tango: 397) distribu´ıdas em trˆes idiomas diferentes (Espanhol,

(36)

Portuguˆes e Inglˆes). Nas Figuras 10-19 s˜ao apresentadas as nuvens de palavras com os 150 maiores valores de TFIDF para cada gˆenero da LMLD.

Figura 10: Nuvem de palavras para o gˆenero ax´e da LMLD.

Fonte: Autoria pr´opria

Figura 11: Nuvem de palavras para o gˆenero bachata da LMLD.

Fonte: Autoria pr´opria

Figura 12: Nuvem de palavras para o gˆenero bolero da LMLD.

(37)

Figura 13: Nuvem de palavras para o gˆenero pagode da LMLD.

Fonte: Autoria pr´opria

Figura 14: Nuvem de palavras para o gˆenero forr´o da LMLD.

Fonte: Autoria pr´opria

Figura 15: Nuvem de palavras para o gˆenero ga´ucha da LMLD.

(38)

Figura 16: Nuvem de palavras para o gˆenero merengue da LMLD.

Fonte: Autoria pr´opria

Figura 17: Nuvem de palavras para o gˆenero salsa da LMLD.

Fonte: Autoria pr´opria

Figura 18: Nuvem de palavras para o gˆenero sertaneja da LMLD.

(39)

Figura 19: Nuvem de palavras para o gˆenero tango da LMLD.

Fonte: Autoria pr´opria

4.1.3 LYRICS GTZAN DATABASE

A base de dados GTZAN ´e uma das bases de dados mais empregada para a tarefa da classificac¸˜ao de gˆeneros musicais. A base de dados original tem o ´audio de 1.000 m´usicas igual-mente distribu´ıdas entre os dez gˆeneros musicais (Blues, Classical, Country, Disco, Hip-hop, Jazz, Metal, Pop, Reggae and Rock). Neste trabalho foi criada a Lyrics GTZAN (LGTZAN). Mesmo a GTZAN sendo um recurso importante para a comunidade de MIR, a vers˜ao com le-tras desta base de dados n˜ao foi criada anteriormente. Para recuperar as lele-tras da LGTZAN, foi utilizado o ELF (RIBEIRO et al., 2014) para recuperar automaticamente as letras de m´usicas a partir da Web. Ap´os a recuperac¸˜ao pelo ELF, foi realizada uma verificac¸˜ao manual para eliminar as letras de m´usicas que eram apenas instrumentais.

A LGTZAN cont´em 592 letras de m´usicas divididas em 8 gˆeneros (Blues: 52, Coun-try: 89, Disco: 73, Hip Hop: 83, Metal: 61, Pop: 77, Reggae: 57 and Rock: 100) distribu´ıdas em trˆes idiomas diferentes (Inglˆes, Portuguˆes e Espanhol). Note que a base de dados LGTZAN n˜ao cont´em alguns gˆeneros da GTZAN original, pois todas as m´usicas dos gˆeneros Classical e Jazz eram instrumentais. Al´em disso, algumas m´usicas de outros gˆeneros tamb´em foram de-tectadas como instrumentais e por esta raz˜ao nem todos os gˆeneros da LGTZAN tˆem 100 letras de m´usicas. Nas Figuras 20-27 s˜ao apresentadas as nuvens de palavras com os 150 maiores valores de TFIDF para cada gˆenero da LGTZAN.

(40)

Figura 20: Nuvem de palavras para o gˆenero blues da LGTZAN.

Fonte: Autoria pr´opria

Figura 21: Nuvem de palavras para o gˆenero country da LGTZAN.

Fonte: Autoria pr´opria

Figura 22: Nuvem de palavras para o gˆenero disco da LGTZAN.

(41)

Figura 23: Nuvem de palavras para o gˆenero hip hop da LGTZAN.

Fonte: Autoria pr´opria

Figura 24: Nuvem de palavras para o gˆenero metal da LGTZAN.

Fonte: Autoria pr´opria

Figura 25: Nuvem de palavras para o gˆenero pop da LGTZAN.

(42)

Figura 26: Nuvem de palavras para o gˆenero rock da LGTZAN.

Fonte: Autoria pr´opria

Figura 27: Nuvem de palavras para o gˆenero reggae da LGTZAN.

Fonte: Autoria pr´opria

4.1.4 JOINT LYRICS DATABASE

Neste trabalho tamb´em foi criada a Joint Lyrics Database (JLD) atrav´es da combinac¸˜ao das letras de m´usicas da NLD, LMLD e LGTZAN. A motivac¸˜ao para a criac¸˜ao da JLD ´e ava-liar se em um cen´ario desafiador que lida com letras e gˆeneros musicais de v´arios lugares do mundo as t´ecnicas utilizadas apresentar˜ao a mesma performance. A JLD cont´em 5,221 letras de m´usicas distribu´ıdas entre 21 gˆeneros em 6 idiomas diferentes.

4.1.5 DETALHES DAS BASES DE DADOS

A quantidade de atributos gerada por representac¸˜ao e por base de dados sem (-SWR) e com remoc¸˜ao de stopwords (+SWR) s˜ao apresentados na Tabela 3. Note que embora n˜ao haja

(43)

diferenc¸a nos atributos para algumas representac¸˜oes (por exemplo, 2-gramas para a LMLD), existe diferenc¸a nos arquivos de caracter´ısticas gerados, os quais podem gerar diferentes resul-tados no experimentos reporresul-tados. Note tamb´em que n˜ao foram aplicados m´etodos de reduc¸˜ao de dimensionalidade devido aos trabalhos da literatura n˜ao realizarem tais tarefas e tamb´em a experimentos anteriores retornarem resultados inferiores utilizando m´etodos como: carac-ter´ısticas com melhor TF-IDF ou com melhor TF.

Tabela 3: N´umero de atributos para cada representac¸˜ao sem e com remoc¸˜ao de stopwordspara cada base de dados de letras de m´usicas.

Abordagem LGTZAN LMLD NLD JLD Stemming-SWR 7.913 22.087 20.962 48.658 Stemming+SWR 7.850 22.025 20.704 46.201 2-Gramas-SWR 681 860 1.087 1.103 2-Gramas+SWR 680 860 1.079 1.103 3-Gramas-SWR 4.790 6.330 9.945 10.942 3-Gramas+SWR 4.781 6.321 9.829 10.942 4-Gramas-SWR 13.707 24.778 36.741 49.359 4-Gramas+SWR 13.653 24.741 35.705 49.326

Fonte: Autoria pr´opria

4.2 PROCESSAMENTO DE LETRAS DE M ´USICAS

Uma abordagem comumente empregada para o processamento de texto ´e o BOW (SEBASTIANI, 2002), no qual os documentos s˜ao representados em vetores de palavras que ocorrem nos documentos. Esta abordagem ´e necess´aria para padronizar as letras de m´usicas em um formato fixo e compreendido pelo classificador. Desta forma, nesta sec¸˜ao s˜ao descri-tos os m´etodos utilizados no processamento das letras de m´usicas e tamb´em na fase de pr´e-processamento, como mostrado na Figura 28. Na fase de pr´e-processamento s˜ao realizados os seguintes passos: identificac¸˜ao do idioma, remoc¸˜ao dos caracteres especiais e a padronizac¸˜ao das letras de m´usicas. Existem 5 etapas independentes na fase de processamento das letras de m´usicas, s˜ao elas: processo opcional de remoc¸˜ao das stopwords (note que embora as stopwords sejam dependentes de idiomas foram utilizadas em ambas as abordagens para complementar os experimentos), o stemming (dependente de idioma), os caracteres n-gramas (que ´e indepen-dente de idioma), o m´etodo TF-IDF (utilizado com stemming e n-gramas) e as caracter´ısticas estil´ısticas de texto.

(44)

Figura 28: Vis˜ao geral das etapas de processamento de letras de m´usicas.

Fonte: Autoria pr´opria

Tabela 4: Mapeamento de caracteres especiais para os idiomas N´ordicos

Idioma(s) Caracteres Especiais Caracter equivalente

Dinamarquˆes, Norueguˆes æ ae

Dinamarquˆes, Norueguˆes ø oe

Dinamarquˆes, Norueguˆes, Sueco ˚a aa

Sueco ¨o oe

Sueco ¨a ae

Fonte: Autoria pr´opria.

4.2.1 DETECC¸ ˜AO DE IDIOMAS

Esta etapa de processamento de letras de m´usicas consiste na detecc¸˜ao do idioma do documento utilizando uma Biblioteca de c´odigo aberto em linguagem Java chamada “Language Detection” (SHUYO, 2010).

4.2.2 PR ´E-PROCESSAMENTO

Antes do processamento das letras de m´usicas ´e importante ter uma fase de pr´e-processamento para remoc¸˜ao de caracteres especiais, pois existem algumas letras de m´usicas que precisam ser padronizadas para manter seu significado (idiomas N´ordicos), conforme a Tabela 4. A pr´oxima etapa consiste em colocar todas as palavras em min´usculo para auxi-liar as comparac¸˜oes entre as palavras. Depois desta etapa de pr´e-processamento ser˜ao obtidos documentos padronizados sem s´ımbolos in´uteis.

(45)

4.2.3 STOPLISTSUTILIZADAS

Neste trabalho s˜ao utilizadas uma “stoplist1” para cada idioma, sendo: 114 para Sueco, 176 para Norueguˆes e 94 para Dinamarquˆes.

4.2.4 CARACTER´ISTICAS ESTIL´ISTICAS DE TEXTO UTILIZADAS

Neste trabalho foi empregado um subconjunto de caracter´ısticas estil´ısticas propos-tas para a tarefa de classificac¸˜ao de emoc¸˜oes baseada em letras de m´usicas (HU; DOWNIE, 2010a). Este subconjunto foi utilizado porque complementa as caracter´ısticas estil´ısticas origi-nais com novas m´etricas conforme apresentado anteriormente na sec¸˜ao 3.1.5 e tamb´em devido a melhora de resultados obtida em (MAYER et al., 2008b). Neste trabalho n˜ao foram usadas as caracter´ısticas estil´ısticas relacionadas aos arquivos de ´audio (por exemplo, n´umero de palavras por minuto ou o n´umero de linhas por minuto). A principal vantagem das caracter´ısticas es-til´ısticas ´e que s˜ao computadas medidas estat´ısticas simples baseadas na frequˆencia da palavra ou caractere.

(46)

5 RESULTADOS SEM COMBINAC¸ ˜AO (NO FUSION) PARA OS EXPERIMENTOS COMPUTACIONAIS

Neste cap´ıtulo ser˜ao respondidas as seguintes quest˜oes atrav´es de experimentos con-trolados: Quando lidamos com cada conjunto de dados que tem letras de m´usicas em dife-rentes idiomas qual representac¸˜ao deveria ser utilizada? Uma representac¸˜ao dependente de idioma (usando ferramentas de idioma tais como stemmers ou remoc¸˜ao de stopwords) ´e melhor do que uma representac¸˜ao independente de idioma (usando n-gramas)? Qual ´e o impacto das stopwordsna classificac¸˜ao de gˆeneros musicais utilizando letras de m´usicas? Al´em disso, o que acontece com todas essas quest˜oes quando os trˆes conjuntos de dados s˜ao combinados na JLD? Para avaliar os resultados neste trabalho foi usada a F1-score (a qual ´e a m´edia harmˆonica das m´etricas de precision e recall) com o procedimento de validac¸˜ao cruzada fator 10.

5.1 RESULTADOS PARA ABORDAGENS SEM COMBINAC¸ ˜AO (NO FUSION)

Os resultados (em %) detalhados sem (-SWR) ou com (+SWR) remoc¸˜ao de stopwords para cada representac¸˜ao no fusion s˜ao apresentados na Tabela 5.

Tabela 5: Resultados para cada base de dados individualmente

Abordagem LGTZAN LMLD NLD JLD Stemming-SWR 34.3 37.6 38.7 35.3 Stemming+SWR 40.4 31.7 35.1 30.9 2-Gramas-SWR 34.6 51.3 62.9 46.7 2-Gramas+SWR 36.7 49.9 62.6 46.1 3-Gramas-SWR 42.6 60.3 77.4 51.8 3-Gramas+SWR 40.9 60.3 78.4 52.2 4-Gramas-SWR 43.9 65.6 87.1 49.7 4-Gramas+SWR 42.2 65.4 87.5 49.2 Estil´ıstica-SWR 33.8 58.9 35.6 47.3 Estil´ıstica+SWR 34.3 59.9 32.6 49.1

(47)

5.1.1 QUAL REPRESENTAC¸ ˜AO USAR?

A an´alise dos resultados apresentados na Tabela 5 apresenta resultados interessantes. Primeiro, a melhor abordagem para a LGTZAN ´e o 4-Gramas sem SWR (43.9%). Segundo, as caracter´ısticas estil´ısticas obtiveram resultados similares com a abordagem stemming sem SWR. Terceiro, a abordagem 4-Gramas ainda provˆe resultados melhores do que as abordagens 2-Gramas e 3-Gramas.

A an´alise dos resultados da LMLD apresentados na Tabela 5 apresenta resultados similares aos analisados para a LGTZAN. A melhor abordagem na LMLD ´e a abordagem 4-Gramas sem remoc¸˜ao de stopwords (65.6%). Primeiro, o stemming obteve o pior resultado dentre todas as demais abordagens. Segundo, o 4-Gramas provˆe resultados melhores do que o 2-Gramas e 3-Gramas.

A melhor abordagem para a NLD (apresentada na Tabela 5) ´e o 4-Gramas com SWR (87.5%). Primeiro, aumentando o valor de n na representac¸˜ao n-gramas ´e poss´ıvel melhorar os resultados da classificac¸˜ao. Segundo, a representac¸˜ao n-grama ´e melhor do que stemming em todas as parametrizac¸˜oes. Terceiro, o uso das caracter´ısticas estil´ısticas provˆe um resultado in-teressante que atinge resultados de classificac¸˜ao similares a abordagem stemming, mas usando somente 17 caracter´ısticas.

Os resultados da JLD s˜ao apresentados na Tabela 5. A melhor abordagem para a JLD ´e o 3-Gramas com SWR (52.2%). Este ´e um resultado interessante, pois para as bases de le-tras individuais, o 3-Gramas n˜ao atingiu os melhores resultados nas diferentes bases de dados. Para a NLD este atingiu 78.4% de F-measure, enquanto a melhor abordagem (4-Gramas-SWR) atingiu 87.7%. Para a LMLD este obteve 60.3% enquanto que a melhor abordagem (4-Gramas-SWR) atingiu 65.6%. Para a LGTZAN, o 3-Gramas+SWR obteve 40.9%, enquanto o melhor resultado (4-Gramas) obteve 43.9%. A an´alise destes resultados demonstra que enquanto al-guns m´etodos trabalharam bem nas bases de letras individualmente, eles n˜ao trabalharam t˜ao bem com um n´umero maior de idiomas.

5.1.2 QUAL ´E O IMPACTO DAS STOPWORDS?

Os resultados sem e com SWR para a LGTZAN s˜ao apresentados na Tabela 5. Note que o uso de SWR claramente melhora a medida de classificac¸˜ao F-measure da abordagem stemmingde 34.3% para 40.4%. Para as caracter´ısticas estil´ısticas de texto existe um pequeno ganho em F-measure enquanto que para as abordagens baseadas em n-gramas sempre h´a perca

(48)

em F-measure.

Para a LMLD o uso de SWR melhora os resultados como mostrado na Tabela 5. Ape-nas as caracter´ısticas estil´ısticas de texto s˜ao beneficiadas pelo uso da remoc¸˜ao das stopwords. Para as representac¸˜oes N-Gramas existe uma diminuic¸˜ao exceto para 3-Gramas que mantive-ram o mesmo resultado. A abordagem stemming n˜ao obteve bons resultados com o uso de SWR diminuindo de 37.6% para 31.7%.

Ao lidar com letras em idiomas N´ordicos ainda n˜ao est´a claro se as stopwords deve-riam ou n˜ao ser removidas. A an´alise dos resultados apresentados na Tabela 5 demonstra que removendo as stopwords das letras de m´usicas na NLD prejudica os resultados da classificac¸˜ao em v´arias representac¸˜oes.

Para a JLD, o uso de SWR claramente melhora os resultados para as caracter´ısticas estil´ısticas de texto como apresentado na Tabela 5. Enquanto existe um pequeno ganho (0.4%) em F-measure para 3-Gramas e uma diminuic¸˜ao em F-measure (4.4%) para stemming.

5.2 AVALIAC¸ ˜AO E DISCUSS ˜AO GLOBAL DOS RESULTADOS

O melhor resultado obtido dentre todas as base de dados foi 87.5% para a NLD usando 4-gramas com SWR. Para as demais bases, o melhor resultado de cada uma foi: 4-Gramas-SWR para a LGTZAN e LMLD, atingindo respectivamente 43.9% e 65.6% de F-measure; 3-Gramas+SWR (atingindo 52.2%) para a JLD. Portanto, os resultados experimentais demons-tram uma tendˆencia para o uso da abordagem 4-gramas ao lidar com letras de m´usicas em diferentes idiomas.

Experimentos adicionais foram executados para avaliar o impacto da remoc¸˜ao das stopwords na tarefa de classificac¸˜ao de letras de m´usicas. Isto ´e importante por duas raz˜oes: n˜ao est´a claro se as stopwords deveriam ou n˜ao ser removidas ao lidar com letras de m´usicas; e as stopwords s˜ao recursos dependentes de idiomas e podem n˜ao estar dispon´ıveis para alguns idiomas. Para as caracter´ısticas estil´ısticas est´a claro que o uso de SWR sempre melhora os re-sultados nos experimentos realizados. No entanto, para as demais t´ecnicas n˜ao houve melhoria evidente, pois em alguns casos melhorou e em outros n˜ao.

(49)

6 EXPERIMENTOS COMPUTACIONAIS

6.1 RESULTADOS PARA A COMBINAC¸ ˜AO DE CLASSIFICADORES NA LGTZAN

Nesta sec¸˜ao est˜ao os resultados (em %) para as combinac¸˜oes das representac¸˜oes usando as abordagens early e late fusion (com os m´etodos da probabilidade m´axima, soma e produto das probabilidades) para a LGTZAN apresentados na Tabela 6. Esta sec¸˜ao cont´em os resulta-dos detalharesulta-dos para a LGTZAN para as seguintes quest˜oes: A combinac¸˜ao com alta dimensi-onalidade atrav´es de N-Gramas+Stemming ´e a melhor abordagem? Ao usar as caracter´ısticas estil´ısticas qual ´e a melhor combinac¸˜ao N-Gramas+Estil´ıstica, N-Gramas+Stemming+

Estil´ıstica ou outras combinac¸˜oes?

Tabela 6: Resultados para os m´etodos early e late fusion na LGTZAN

Combinac¸˜ao Early Fusion Max Soma Produto

2-Gramas+Stemming-SWR 42.4 41.2 44.5 45.9 2-Gramas+Stemming+SWR 49.7 50.2 52.2 58.4 3-Gramas+Stemming-SWR 44.8 48.5 54.6 53.0 3-Gramas+Stemming+SWR 52.5 60.2 59.5 63.5 4-Gramas+Stemming-SWR 43.6 55.4 60.8 55.9 4-Gramas+Stemming+SWR 53.4 64.6 67.6 64.7 N-Gramas+Stemming-SWR 45.6 52.8 59.2 58.5 N-Gramas+Stemming+SWR 43.3 52.4 60.2 59.6 2-Gramas+3-Gramas+Stemming-SWR 45.1 47.1 56.2 55.4 2-Gramas+3-Gramas+Stemming+SWR 52.5 56.6 57.8 58.9 2-Gramas+4-Gramas+Stemming-SWR 45.4 54.2 57.6 57.1 2-Gramas+4-Gramas+Stemming+SWR 52.0 58.2 62.3 64.0 3-Gramas+4-Gramas+Stemming-SWR 44.4 54.4 61.3 58.6 3-Gramas+4-Gramas+Stemming+SWR 53.0 64.2 61.6 62.5

(50)

Tabela 6 – Continuac¸˜ao da p´agina anterior

Combinac¸˜ao Early Fusion Max Soma Produto

2-Gramas+Estil´ıstica-SWR 42.6 47.6 49.4 54.8 2-Gramas+Estil´ıstica+SWR 43.9 43.5 42.9 43.8 3-Gramas+Estil´ıstica-SWR 44.8 58.1 51.3 63.2 3-Gramas+Estil´ıstica+SWR 46.8 57.3 59.5 64.6 4-Gramas+Estil´ıstica-SWR 42.4 65.7 66.7 69.9 4-Gramas+Estil´ıstica+SWR 42.9 62.6 65.8 70.7 2-Gramas+3-Gramas+Estil´ıstica-SWR 50.7 53.9 61.4 78.5 2-Gramas+3-Gramas+Estil´ıstica+SWR 48.3 51.8 56.3 58.9 2-Gramas+4-Gramas+Estil´ıstica-SWR 51.9 60.2 65.6 65.2 2-Gramas+4-Gramas+Estil´ıstica+SWR 50.7 53.2 61.9 67.3 3-Gramas+4-Gramas+Estil´ıstica-SWR 50.8 64.8 65.1 67.0 3-Gramas+4-Gramas+Estil´ıstica+SWR 50.5 64.5 60.3 61.6 N-Gramas+Estil´ıstica-SWR 50.7 59.7 50.5 68.5 N-Gramas+Estil´ıstica+SWR 50.2 52.2 58.6 63.5 2-Gramas+Stemming+Estil´ıstica-SWR 46.8 52.1 60.8 65.8 2-Gramas+Stemming+Estil´ıstica+SWR 52.5 51.1 60.4 62.6 3-Gramas+Stemming+Estil´ıstica-SWR 51.0 57.1 68.4 53.0 3-Gramas+Stemming+Estil´ıstica+SWR 54.2 60.6 67.4 59.7 4-Gramas+Stemming+Estil´ıstica-SWR 52.5 63.0 63.2 63.0 4-Gramas+Stemming+Estil´ıstica+SWR 53.9 64.7 62.4 70.3 N-Gramas+Stemming+Estil´ıstica-SWR 50.7 54.3 60.0 64.6 N-Gramas+Stemming+Estil´ıstica+SWR 50.8 54.3 67.0 63.6 2-Gramas+3-Gramas+Stemming+Estil´ıstica-SWR 51.2 56.6 59.5 61.2 2-Gramas+3-Gramas+Stemming+Estil´ıstica+SWR 54.2 56.7 59.9 65.1 2-Gramas+4-Gramas+Stemming+Estil´ıstica-SWR 51.2 60.3 64.8 64.3 2-Gramas+4-Gramas+Stemming+Estil´ıstica+SWR 53.9 58.2 66.6 67.7 3-Gramas+4-Gramas+Stemming+Estil´ıstica-SWR 50.3 61.5 63.9 65.5 3-Gramas+4-Gramas+Stemming+Estil´ıstica+SWR 54.9 61.6 66.4 66.1 Stemming+Estil´ıstica-SWR 41.7 48.5 52.4 58.9 Stemming+Estil´ıstica+SWR 48.0 53.2 53.3 53.2 2-Gramas+3-Gramas-SWR 44.9 50.6 53.4 56.1

Referências

Documentos relacionados

O Conselho Federal de Psicologia (CFP) apresenta à categoria e à sociedade em geral o documento de Referências Técnicas para a Prática de Psicólogas(os) em Programas de atenção

45 Figure 18 - Study of the extract concentration in the phycobiliproteins extraction and purification using the mixture point composed of 10 wt% Tergitol 15-S-7 + 0.3

Essa modalidade consiste em um “estudo profundo e exaustivo de um ou de poucos objetos, com contornos claramente definidos, permitindo seu amplo e detalhado

Com a mudança de gestão da SRE Ubá em 2015, o presidente do CME de 2012 e também Analista Educacional foi nomeado Diretor Educacional da SRE Ubá e o projeto começou a ganhar

O Documento Orientador da CGEB de 2014 ressalta a importância do Professor Coordenador e sua atuação como forma- dor dos professores e que, para isso, o tempo e

Quando conheci o museu, em 2003, momento em foi reaberto, ele já se encontrava em condições precárias quanto à conservação de documentos, administração e organização do acervo,

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se

Em que pese ausência de perícia médica judicial, cabe frisar que o julgador não está adstrito apenas à prova técnica para formar a sua convicção, podendo