• Nenhum resultado encontrado

2 CIÊNCIA DA INFORMAÇÃO E MÚSICA

2.5 Recuperação da informação musical

2.5.1 Pesquisas musicais em conteúdo interno

Embora a catalogação bibliográfica discutida na seção 2.4 seja importante, os metadados aplicados não conseguem atender a todas as necessidades de consultas musicais, dado que a música é usada para uma variedade de propósitos. Para ilus- trar, algumas perguntas mal resolvidas por metadados bibliográficos podem ser cita- das: (i) Como o dono de um restaurante encontra músicas que tenham a ver com cer- ta clientela? (ii) Como um instrutor de ginástica aeróbica procura por músicas que te- nham certo batimento ou ritmo? (iii) Como um diretor de filme procura músicas que transmitam certo estado de humor? (iv) Como um fisioterapeuta procura por músicas que tornem seus pacientes mais calmos? Os questionamentos citados pressupõem outros usos para a música muitas vezes relacionados a questões sociais e psicológi- cas. Para esses casos os atributos de recuperação que melhor descrevem as músi- cas estão presentes dentro do próprio conteúdo musical, tais como ritmo, humor e estilo musical.

Além de promover vantagens no processo de recuperação, a análise do conte- údo interno incrementa uma mudança de paradigma no trato da informação musical.

Typke, Wiering e Veltkamp (2005) relacionam alguns exemplos das inovações que essa abordagem traz para os usuários:

(i) Habilitação das pesquisas por atributos de áudio ou QBH44: em lojas de discos, é comum clientes apenas conhecerem um tom de uma música que eles gosta- riam de comprar, mas nada sabem sobre o título do trabalho, o compositor ou os executores da música. Balconistas com um vasto conhecimento de música para atender esse público são raros e seria interessante ter sistemas computa- cionais capazes de identificar melodias e sugerir registros musicais. Nesse ca- so, o cliente pode solfejar a melodia desejada e recuperar resultados que se- jam similares ao áudio da consulta.

(ii) Melhoria nas pesquisas musicológicas: uma atividade comum de musicólogos é a análise de obras de compositores, muitas vezes no intuito de encontrar como influenciaram uns aos outros ou como seus trabalhos são relacionados a trabalhos anteriores (trabalhos deles mesmos ou de outros compositores). Esta tarefa tem sido feita manualmente ao longo dos séculos e, assim que sistemas de recuperação musical puderem executar essa tarefa com eficiência, desco- bertas mais interessantes virão à tona de forma mais rápida e os ganhos serão, provavelmente, maiores e com um esforço menor.

(iii) Melhoria relativa para questões de direitos autorais: atualmente existem muitas dúvidas sobre copyright que poderiam ser resolvidas, evitadas ou ponderadas mais facilmente se os compositores pudessem facilmente comprovar se al- guém os está plagiando ou se um novo trabalho lhes traria o risco de serem acusados de plágio. Sistemas de recuperação por conteúdo realizariam esse trabalho com facilidade.

A recuperação musical baseada em conteúdo interno (content-based) parte da premissa de que qualquer documento pode ser descrito por um conjunto de descrito- res extraídos diretamente a partir do áudio ou da notação simbólica, pelo uso de me- todologias específicas aplicadas a cada uma das representações possíveis. De posse desses descritores de conteúdo e das dimensões de interesse (ritmo, melodia, etc.)

44 QBH ou Query by Humming – é um termo que designa a possibilidade de se realizar consultas por meio de interfaces que conseguem perceber melodias cantadas pelo próprio usuário. Tais melodias são usadas como parâmetro de consulta para pesquisa no corpus de documentos musicais.

torna-se possível indexar, organizar e recuperar músicas em bases musicais.

Os métodos de recuperação por conteúdo interno envolvem a comparação de um determinado atributo ou parâmetro de pesquisa com os registros de uma base de documentos, a fim de se obter uma resposta satisfatória para o usuário, conforme o modelo de recuperação musical apresentado na Figura 2.21. Nessa figura é mostrado que uma representação da expressão de busca do usuário é comparada com as re- presentações dos documentos da base de dados para chegar ao resultado.

Documentos musicais

(áudio ou simbólico) Parâmetros de consulta (áudio ou texto)

Comparação de similaridades Extração de características Extração de características Representação Representação Resposta da consulta Usuário Perfil do usuário

Figura 2.21: Representação generalizada da arquitetura de um sistema MIR

Fonte: Lesaffre(2006, p. 24)

Como as músicas e as expressões de busca podem estar em formato de áudio ou simbólico, esse modelo presume a seguinte combinação de possibilidades de comparação de representações: (i) simbólico com simbólico, (ii) áudio com áudio, ou

(iii) um misto entre essas duas formas de representação. As respostas da consulta,

por sua vez, podem retornar elementos cujas características são exatas ou similares ao que se procura.

Como os documentos e expressão de busca da Figura 2.21 são representados por um conjunto de termos de indexação retirados do próprio documento, surge a possibilidade de utilização de operadores booleanos e de proximidade nos índices dos documentos e a medição da distância dos resultados recuperados em relação ao parâmetro de consulta informado pelo usuário. Todos esses elementos se fazem ne-

cessários na recuperação musical, tanto nas bases de dados com notação simbólica, quanto nas bases de dados descritas em formato de áudio, que são destacadas em função das diferenças de estrutura nos formatos de cada uma.

Em particular, os diferentes elementos de um trabalho musical e as formas al- ternativas nas quais ele pode ser instanciado possuem uma importância enorme no desenvolvimento de metodologias e técnicas para recuperação musical. Em outras palavras, as características da música a serem mapeadas e os formatos de instancia- ção da música são requisitos para a definição da metodologia de recuperação musical a ser adotada. Os estudos de usuário auxiliam nesse processo porque ajudam a des- cobrir que características da música devem ser mapeadas e quais são os formatos adequados a serem adotados para satisfazer esse usuário.

A idéia de similaridade na informação musical é derivada das estratégias de cálculo de aproximação providas pelos modelos quantitativos aplicados na recupera- ção textual. Especificamente no modelo vetorial, a expressão de busca e os docu- mentos do corpus são representados por vetores cujas dimensões são termos de in- dexação ou características colhidas do próprio documento, cada uma delas com pe- sos distintos no processo de recuperação. Portanto, é possível obter documentos que respondem parcialmente a uma expressão de busca, ordenados pelo grau de similari- dade em relação à expressão de busca, como ocorre no Google, por exemplo.

A grande dificuldade de aplicação do modelo vetorial em documentos é a esco- lha correta dos atributos ou dimensões de interesse e os pesos corretos a serem apli- cados em cada um. Para a música, que envolve várias dimensões, saber qual delas possui maior peso e quais características são mais relevantes é um trabalho de muita investigação. Esse trabalho de descoberta de atributos e atribuição de pesos, também conhecido como anotação musical, pode ser feito de forma manual ou automática45.

Visando estabelecer um raciocínio para similaridade musical, Byrd (2007-d) propõe algumas relações entre documentos para descrever o que há de comum entre eles, sejam registros de áudio, partituras ou outro tipo de documento musical.

45

Projetos como o Pandora (www.pandora.com) e o One Lhama (www.onellama.com) têm procurado realizar o trabalho de anotação musical automaticamente (CELMA e LAMERE, 2007, p. 169-182).

Segundo a visão gradual de similaridade de Byrd (2007-d), dois documentos podem ser considerados iguais quando possuem a mesma música, o mesmo arranjo, a mesma performance e a mesma gravação. Documentos quase iguais são aqueles que possuem a mesma música, o mesmo arranjo, a mesma performance, porém as gravações são diferentes. Um pouco mais distantes estão dois documentos que pos- suem a mesma música e o mesmo arranjo, mas a performance e as gravações são diferentes. A distância é maior que no caso anterior, quando os dois documentos pos- suem a mesma música, porém os arranjos são diferentes. Quando dois documentos possuem músicas diferentes, mesmo que fortemente relacionadas com variações li- vres e revisões extensivas, a distância é tão maior que chega a comprometer a noção de similaridade entre elas. Se os dois documentos pertencerem ao mesmo gênero são menos similares do que nos casos anteriores. Dois documentos são praticamente diferentes se a única semelhança entre eles é o fato de que a música de um foi influ- enciada pela música do outro46. Por fim, se não ocorre nenhum dos casos citados, esses dois documentos são considerados completamente diferentes.

(a) Espaço vetorial contendo dois documentos e uma expressão de busca

(

)

( )

( )

= = = × × = t i i,y t i i,x t i i,x i,y w w w w ) y , x ( sim 1 2 1 2 1

(b) Fórmula para cálculo de distância entre dois vetores

Figura 2.22: Exemplo de aplicação do modelo vetorial para cálculo de similaridade

Fonte: Ferneda(2003, p. 29 e 30)

A identificação de atributos e pesos que permitam gerar a noção de similarida- de citada em Byrd (2006) facilita a aplicação do modelo vetorial citado. Para ilustrar a aplicação desse modelo, na Figura 2.22 (a) estão representados dois documentos e uma expressão de busca, cada um deles com três índices identificados como relevan- tes no processo de comparação. O cálculo de similaridade entre esses documentos e a expressão de busca é feito medindo-se a distância entre os vetores no espaço veto- rial definido, de acordo com a fórmula apresentada na Figura 2.22 (b).

Os primeiros trabalhos sobre recuperação musical foram voltados para o for- mato simbólico, com enfoque muito grande para extração de informações sobre a par- te melódica da música. Nesse contexto, destacaram-se tanto os formatos estrutura- dos e representativos do CMN como os formatos semi-estruturados associados ao MIDI que permitem a performance de documentos musicais.

Apesar das características relevantes da música serem extraídas mais facil- mente no formato simbólico, tem sido percebida uma mudança de foco do processa- mento musical simbólico para o processamento de áudio, desencadeando avanços na extração automática de características em arquivos de áudio e acelerando a populari- dade de formatos como o MP3. Essa afirmação pode ser comprovada pela quantida- de de artigos publicados que enfocam mais detalhadamente os problemas de descri- tores de conteúdo em músicas no formato de áudio47.

O aumento do número de usuários que regularmente acessam música no for- mato de áudio gerou várias outras necessidades motivando pesquisas relacionadas com a filtragem, classificação e agrupamentos de músicas, todas elas baseadas em uma ou mais dimensões musicais presentes no áudio. Uma visão geral dos proble- mas e técnicas conhecidas para recuperar formatos de áudio e simbólico está descrita a seguir.

Músicas em notação simbólica

Por possuir algum tipo de estruturação, presume-se que as músicas anotadas (ou em formato CMN) estarão indexadas de forma organizada por algum atributo in- terno retirado da notação simbólica utilizada. A aplicação de técnicas divide-se em

métodos usados em música monofônica e polifônica e em todos os métodos probabi- lísticos.

A música monofônica é formada por contornos melódicos com apresentação de uma nota por vez, caracterizando uma seqüência ou string que pode representar in- tervalos, seqüências de pitches e outros elementos da música. Por esse motivo, mé- todos de indexação tradicional para tratamento de strings textuais – árvores balance- adas (ou b-trees), arquivos invertidos e outras técnicas computacionais similares – podem ser utilizados sem maiores problemas. A diferença é que os textos usam es- ses métodos para indexar palavras e, no caso de música monofônica, a string é sepa- rada em segmentos (identificados de acordo com alguma estratégia de análise meló- dica), os quais serão as unidades indexáveis. Apenas para esclarecer o que signifi- cam segmentos, na Figura 2.23 é apresentado um exemplo dessa técnica em música monofônica, seguindo o raciocínio melódico. Nesse caso, as sequências de notas com hachuras são agrupadas para associação com um índice.

Figura 2.23: Exemplo de segmentação de música monofônica

Uma vez identificados e indexados, os segmentos da música são analisados por algoritmos de comparação que procuram por ocorrências da consulta ou de parte dela nos diversos segmentos do piece48 melódico. Essas comparações envolvem en- contrar uma subseqüência mais comum e mais longa na melodia, ou encontrar ocor- rências de uma seqüência em outra. O resultado dessas comparações pode produzir resultados únicos, no caso de pesquisas que envolvam a busca por um determinado padrão (comparação exata) e, pode também produzir resultados diferentes, caso a busca desejada seja por padrões similares ao parâmetro de consulta (comparação por aproximação).

No caso da busca exata, os mesmos algoritmos de indexação tradicionais nati- vos de bancos de dados textuais podem ser usados com boa eficiência. Um exemplo de sistema que trabalha dessa forma é o Themefinder, um sistema musical que usa a

notação **kern e faz pesquisa em bases musicais simbólicas procurando por entradas que sejam idênticas a determinadas expressões regulares. Nesse caso, não existe a noção de distância, mas diferentes trechos da música podem conter os atributos de uma mesma expressão regular. No caso de buscas por similaridade (comparação por aproximação), a noção de distância entre o parâmetro de consulta e os trechos anali- sados deve ser incluída. Nesse caso, é feita uma pré-seleção de candidatos, que pro- vavelmente possuem diferentes tamanhos, e, dentre esses, são eleitos apenas os resultados factíveis de serem comparados. Sobre os resultados, são aplicados algo- ritmos de cálculo de distância para classificá-los por grau de similaridade em relação ao parâmetro de consulta (do mais similar ao menos similar), como ocorre em siste- mas de busca como o Yahoo e o Google. Um exemplo de sistema que trabalha com comparações aproximadas é o Musipedia49.

Com relação às músicas polifônicas, elas são caracterizadas por conjuntos de notas musicais emitidas ao mesmo tempo, formando a dimensão harmônica da músi- ca. Nesse caso, os acordes das músicas são considerados como descritores relevan- tes e são usados para comparar e agrupar documentos musicais. Portanto, ao invés de se usar técnicas baseadas em seqüências de notas contínuas, como foi feito nas músicas monofônicas, aqui são utilizados métodos baseados em conjuntos de notas tocadas simultaneamente. A música é visualizada como um conjunto de eventos com propriedades como onset time, pitch e duração, que são usadas para o processo de segmentação da música em compassos (TYPKE, WIERING e VELTKAMP, 2005)

O processo de reconhecimento e segmentação de acordes em músicas polifô- nicas é mais elaborado do que em músicas monofônicas. De um modo geral, as téc- nicas em uso supõem que na transcrição de acordes não existem progressões har- mônicas paralelas, ou seja, não existem dois acordes paralelos tocando em conjunto. Uma outra premissa assumida por algoritmos e técnicas de tratamento harmônico é que, apesar de diferentes seqüências de acordes poderem soar razoavelmente bem com a mesma melodia, assume-se que apenas uma única seqüência correta de acor-

49 Disponível em http://musipedia.org.

des exista50.

Raphael e Stoddard (2003) apresentam uma abordagem estatística para mar- car regiões contíguas de uma partitura com informações sobre os acordes musicais. Nesse caso, usa-se o Modelo de Markov Escondido51 para agregar conhecimento sobre aspectos polifônicos de tal forma que, no processo de análise das músicas, seja possível encontrar uma marcação harmônica global adequada. Uma outra abordagem estatística para modelar informação polifônica diretamente é apresentada em Lavren- ko e Pickens (2003), onde as dimensões horizontal e vertical da música são tratadas em um único bloco usando novamente as técnicas relacionadas ao Modelo de Mar- kov.

Um passo final no processamento de informação harmônica é a transformação das características extraídas em uma representação apropriada. A teoria musical ofe- rece uma variedade de estilos para representar a informação em acordes progressi- vos de acordo com: (i) o nome do acorde (CM7, Dm7, F/C, ...), (ii) a sua função har- mônica (i7, ii7, ivc,...), ou (iii) usando uma notação numérica conhecida como “figura do baixo”. Nesse sentido, os trabalhos reportados por Cruz, Ferneda, Brandão, Costa, Almeida, Cunha, Sousa, Denicol e Silva (2004) sobre a Teoria das Árvores Harmôni- cas, e por Abdallah, Gomez, Harte e Sandler (2005), sobre o uso de estrutura de ár- vores simples implementadas em linguagem marcada, são propostas interessantes para a representação de acordes.

Além das técnicas de recuperação específicas de músicas monofônica e poli- fônica, no contexto das músicas simbólicas existe uma outra abordagem focada na aplicação de métodos probabilísticos para a recuperação de informações musicais. Nessa abordagem, as propriedades de partes candidatas do corpus musical são comparadas com as propriedades do parâmetro de consulta, usando-se métricas es- tatísticas para a obtenção dos resultados. Um bom exemplo de uso de técnicas pro- babilísticas é o GUIDO (SELFRIDGE-FIELD, 1997), um sistema de recuperação ba-

50 Diz-se isso porque existe uma abordagem típica para música tipo jazz, onde músicos modificam uma seqüên- cia de acordes para um estilo particular. As modificações harmônicas de Charlie Parker e de John Coltrane são exemplos típicos. No caso da música brasileira isso também acontece, principalmente em estilos musicais que se caracterizam pela improvisação, como é o caso do choro.

51

Modelo de Markov Escondido é uma técnica herdada da área de processamento da fala. Mais detalhes podem ser encontrados em Rabiner (1989).

seado em conteúdo citado enormemente na referência bibliográfica concernente. Músicas em formato de áudio

Arquivos de áudio são representações digitais de uma música cujo nível de complexidade para processamento é maior do que nas representações simbólicas, uma vez que a composição é contaminada por ruídos e incorpora variações delica- das, quase imperceptíveis, de tempo e dinâmica das notas. Por sua vez, a represen- tação de áudio é mais precisa, já que em músicas simbólicas ocorrem ambigüidades e é comum existirem descrições em que certas características relativamente impor- tantes são deixadas de lado e ficam sem especificação. Além disso, é comum existi- rem duas performances com as mesmas representações MIDI ou CMN, mas com di- ferenças radicais nos seus arquivos de áudio.

Existem métodos de pesquisa em arquivos de áudio com complexidades varia- das. Como exemplo, canções podem ser solfejadas (cantadas) em um microfone, to- cadas à partir de um drive de CD ou selecionadas à partir de arquivos de áudio do disco rígido. Portanto, os documentos recuperados podem incluir arquivos de vários formatos, e o corpus de áudio pode ser comparado com expressões de busca no for- mato de áudio ou simbólico, dependendo do tipo de sistema.

No caso da comparação direta de áudio com áudio algumas técnicas podem ser relacionadas (TYPKE, WIERING e VELTKAMP, 2005). Uma técnica usada para comparação exata (e não por similaridade) entre dois arquivos de áudio é conhecida como fingerprinting ou marca d’água musical. O termo fingerprinting de áudio designa o processo de identificar e extrair características acusticamente relevantes de um e- lemento sonoro que o identifique única e exclusivamente (CANO, 2006, p. 7-9). Con- ceitualmente, pode-se dizer que o fingerprinting é uma função de hash52 que incorpo- ra características semânticas da música. Enquanto funções de hash – como o MD4 e o SHA-1 – indexam os arquivos pelo uso de funções matemáticas aplicadas sobre esses arquivos, levando em conta apenas a representação estrutural (sintaxe) do ob- jeto a ser recuperado, no fingerprinting essas funções levam em consideração as ca- racterísticas psicoacústicas da música (semântica), já que a representação binária de

52

São técnicas de indexação em que os arquivos são associados a uma chave de acesso que é calculada a partir da aplicação de uma função matemática sobre os bits do arquivo, conhecida como função de hash.

áudio, tanto em formato de onda, quanto em formato comprimido, diz muito pouco sobre a música em si (DAHIA, 2007, p. 2). Além de permitir recuperar exatamente uma determinada gravação ou instância de uma obra, essa técnica tem sido usada para melhorar a confiabilidade de sistemas P2P (vistos mais adiante na seção 2.6.2) e como apoio para identificar registros musicais e resolver problemas relacionados a direitos autorais.

A comparação de áudios pode ser feita ainda pela extração direta de caracte- rísticas relevantes ou por técnicas de transcrição. A extração de características envol- ve encontrar certos parâmetros tais como significado e variância, que tipifiquem o tim- bre, a orquestração, o ritmo, a melodia, a harmonia e outras dimensões da música