• Nenhum resultado encontrado

Contribuições ao problema de extração de tempo musical

N/A
N/A
Protected

Academic year: 2021

Share "Contribuições ao problema de extração de tempo musical"

Copied!
156
0
0

Texto

(1)

i

ANTONIO CARLOS LOPES FERNANDES JUNIOR

CONTRIBUI ¸C ˜OES AO PROBLEMA DE EXTRA ¸C ˜AO DE TEMPO MUSICAL

Campinas 2015

(2)
(3)

iii

UNIVERSIDADE ESTADUAL DE CAMPINAS

FACULDADE DE ENGENHARIA EL ´ETRICA E DE COMPUTA ¸C ˜AO

ANTONIO CARLOS LOPES FERNANDES JUNIOR

Contribui¸

oes ao Problema de Extra¸

ao de Tempo Musical

Orientador: Prof. Dr. Furio Damiani Coorientador: Romis Ribeiro de Faissol Attux

Tese de Doutorado apresentada ao programa de P´ os-gradua¸c˜ao da Faculdade de Engenharia El´etrica e de Com-puta¸c˜ao da Universidade Estadual de Campinas, como parte dos requisitos exigidos para a obten¸c˜ao do t´ıtulo de Doutor em Engenharia El´etrica, na ´area de concentra¸c˜ao Eletrˆonica, Microeletrˆonica e Optoeletrˆonica.

ESTE EXEMPLAR CORRESPONDE `A VERS ˜AO FINAL DA TESE DEFENDIDA PELO ALUNO ANTONIO CAR-LOS LOPES FERNANDES JUNIOR E ORIENTADA PELO PROF. DR. FURIO DAMIANI.

Campinas 2015

(4)

iv

Ficha catalográfica

Universidade Estadual de Campinas Biblioteca da Área de Engenharia e Arquitetura

Rose Meire da Silva - CRB 8/5974

Fernandes Junior, Antonio Carlos Lopes,

F391c FerContribuições ao problema de extração de tempo musical / Antonio Carlos Lopes Fernandes Junior. – Campinas, SP : [s.n.], 2015.

FerOrientador: Furio Damiani.

FerCoorientador: Romis Ribeiro de Faissol Attux.

FerTese (doutorado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação.

Fer1. Descritores. 2. Aprendizado de máquinas. 3. Wavelets (Matemática). 4. Processamento de sinais. I. Damiani, Furio,1943-. II. Attux, Romis Ribeiro de Faissol,1978-. III. Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Contributions to the problem of musical tempo extraction Palavras-chave em inglês:

Descriptors Learning machines Wavelets (Mathematics) Signal processing

Área de concentração: Eletrônica, Microeletrônica e Optoeletrônica Titulação: Doutor em Engenharia Elétrica

Banca examinadora:

Furio Damiani [Orientador] Jugurta Rosa Montalvão Filho Marcelo Gomes de Queiroz Jônatas Manzolli

Tiago Fernandes Tavares

Data de defesa: 27-02-2015

Programa de Pós-Graduação: Engenharia Elétrica

Powered by TCPDF (www.tcpdf.org)

(5)
(6)
(7)

Resumo

A detec¸c˜ao de tempo em um sinal musical ´e uma tarefa muito importante em diversas aplica¸c˜oes. A presente tese apresenta os resultados da detec¸c˜ao de andamento usando uma nova abordagem baseada na extra¸c˜ao de atributos de um conjunto de fun¸c˜oes de detec¸c˜ao de periodicidade e aprendizado de m´aquina. Para isto a transformada wavelet foi utili-zada para separar o sinal musical em diferentes resolu¸c˜oes e o dom´ınio complexo retificado foi aplicado para a constru¸c˜ao de fun¸c˜oes de detec¸c˜ao de onsets. Em seguida, as fun¸c˜oes de detec¸c˜ao de periodicidade para cada n´ıvel wavelet foram geradas por opera¸c˜oes de au-tocorrela¸c˜ao. Descritores de ´audio cl´assicos foram adaptados e extra´ıdos de cada fun¸c˜ao de periodicidade e foram usados como entradas para a m´aquina de aprendizado que ma-peia os descritores para o tempo da m´usica. As m´aquinas utilizadas foram o perceptron de m´ultiplas camadas e a m´aquina de aprendizado extremo, com propostas diferenciadas de configura¸c˜ao. Um m´etodo para classifica¸c˜ao e avalia¸c˜ao dos descritores foi proposto. Tamb´em, neste trabalho, um novo descritor foi proposto. Um m´etodo de sele¸c˜ao forward de atributos via Gram-Schmidt foi aplicado para a escolha do melhor subconjunto para o treinamento da m´aquina. Foi ainda aplicado um m´etodo de clustering via K-means para a partilha de observa¸c˜oes entre os conjuntos de treinamento, teste e valida¸c˜ao, e foi proposto um novo m´etodo de sele¸c˜ao de observa¸c˜oes via an´alise de componentes principais denomi-nado de sele¸c˜ao esf´erica de observa¸c˜oes.

Palavras-chave: Descritores, M´aquinas de Aprendizado, Wavelets, Processamento de Sinais

(8)
(9)

Abstract

Tempo detection in a music signal is a very important task for many applications. This thesis presents results concerning this task using a new approach based on the extraction of features from a set of periodicity detection functions and on machine learning. The wavelet transform was utilized to separate the musical signal at different resolutions and the rectified complex domain was applied to the construction of onset detection functions. Then, periodicity detection functions for each resolution were generated by autocorrela-tion operaautocorrela-tions. Classic audio features were extracted from each periodicity funcautocorrela-tion and were used as inputs to a neural network that maps descriptors to music tempo. The used machines were the multilayer perceptron and an extreme learning machine, with different configuration proposals. A method for classification and evaluation of features has been proposed. Also, in this work, a new descriptor has been proposed. A method of forward selection via Gram-Schmidt was applied to choose the best subset for the machine training. A K-means clustering method was also applied for partitioning observations between the training sets and a new observation selection method via principal component analysis, called spherical selection of observations, was proposed.

(10)
(11)

Sum´

ario

Resumo vii

Abstract ix

Agradecimentos xix

Lista de Figuras xxi

Lista de Tabelas xxv

Lista de Abreviaturas xxvii

Lista de S´ımbolos xxix

Cap´ıtulo 1 Introdu¸c˜ao 1

1.1 Motiva¸c˜ao . . . 1

1.2 Objetivo . . . 2

1.3 Organiza¸c˜ao . . . 3

Cap´ıtulo 2 Bases Te´oricas 5 2.1 Ritmo e Percep¸c˜ao Auditiva . . . 5

2.1.1 Fronteiras Auditivas . . . 6

2.1.2 Sucess˜oes Regulares . . . 7

2.1.3 Onsets . . . 9

2.1.4 Representa¸c˜ao de Eventos Temporais em M´usica . . . 10

2.2 Recupera¸c˜ao de Informa¸c˜ao Musical . . . 10

2.2.1 An´alise de Conte´udo de ´Audio . . . 11

2.2.2 Descritores ou Atributos . . . 17

2.3 Bancos de Filtros, Multirresolu¸c˜ao e Wavelets . . . 20

2.3.1 Bancos de Filtros . . . 20

2.3.2 Multirresolu¸c˜ao . . . 21

2.3.3 Wavelets . . . 23

2.4 Aprendizado de M´aquina . . . 25

(12)

xii

2.4.2 Rede Neural Artificial . . . 27

2.4.3 Sele¸c˜ao de Atributos e Vari´aveis . . . 33

2.4.4 An´alise de Componentes Principais e K-Means Clustering . . . 36

2.4.5 M´aquinas de Aprendizado Extremo . . . 38

Cap´ıtulo 3 Vis˜ao Expandida do Sistema Proposto, Banco de Dados e Erro 41 3.1 Vis˜ao Expandida do Sistema Proposto . . . 41

3.1.1 Diagrama de Blocos do Sistema . . . 42

3.1.2 Configura¸c˜oes das M´aquinas de Aprendizado . . . 42

3.2 Banco de Dados . . . 44

3.2.1 Banco de Dados Autoral . . . 44

3.2.2 Banco de Dados Zapata . . . 45

3.2.3 Distribui¸c˜ao Balanceada de Tempos . . . 45

3.3 An´alise de Erro . . . 46

3.4 Conclus˜oes . . . 47

Cap´ıtulo 4 Fun¸c˜ao de Detec¸c˜ao de Onsets e Fun¸c˜ao de Detec¸c˜ao de Periodicidades 49 4.1 Fun¸c˜ao de Detec¸c˜ao de Onsets (ODF) . . . 49

4.1.1 Pr´e-Processamento . . . 50

4.1.2 Redu¸c˜ao ou Gera¸c˜ao da ODF . . . 53

4.2 Fun¸c˜ao de Detec¸c˜ao de Periodicidade (PeDF ) . . . 57

4.2.1 Pr´e-Processamento . . . 58

4.2.2 Gera¸c˜ao da PeDF . . . 59

4.3 Extra¸c˜ao de Tempo Musical . . . 61

4.4 Conclus˜oes . . . 63

Cap´ıtulo 5 Atributos: Valida¸c˜ao e Sele¸c˜ao 65 5.1 Atributos Escolhidos . . . 65

5.2 Novo Atributo Proposto . . . 66

5.3 Pr´e-processamento . . . 67

5.4 Valida¸c˜ao dos Atributos . . . 67

5.4.1 Experimento 1 . . . 68 5.4.2 Experimento 2 . . . 69 5.4.3 Experimento 3 . . . 69 5.4.4 Experimento 4 . . . 70 5.4.5 Avalia¸c˜ao . . . 73 5.5 Sele¸c˜ao de Atributos . . . 73 5.5.1 Experimento 1 . . . 74 5.5.2 Experimento 2 . . . 74 5.5.3 Experimento 3 . . . 76

(13)

xiii

5.5.4 Experimento 4 . . . 76

5.6 Avalia¸c˜ao do Espa¸co de Atributos . . . 77

5.6.1 PCA . . . 78

5.6.2 K-Means . . . 81

5.6.3 Sele¸c˜ao Esf´erica de Observa¸c˜oes . . . 84

5.7 Conclus˜oes . . . 85

Cap´ıtulo 6 Aprendizado de M´aquina: Implementa¸c˜ao e Avalia¸c˜ao 89 6.1 Rede Neural Artificial . . . 89

6.1.1 Uma ´unica m´aquina . . . 90

6.1.2 Uma m´aquina por n´ıvel de resolu¸c˜ao DWT . . . 92

6.1.3 Aplica¸c˜ao da Sele¸c˜ao Forward via GS . . . 98

6.1.4 Aplica¸c˜ao do K-means . . . 100

6.1.5 Aplica¸c˜ao da Sele¸c˜ao Esf´erica . . . 100

6.2 M´aquina de Aprendizado Extremo . . . 102

6.2.1 Uma ´unica m´aquina . . . 103

6.2.2 Uma m´aquina por n´ıvel de resolu¸c˜ao DWT . . . 105

6.3 Compara¸c˜ao com M´etodos Existentes . . . 107

6.4 Conclus˜oes . . . 108

Cap´ıtulo 7 Conclus˜oes e Perspectivas 111 7.1 Conclus˜oes . . . 111

7.2 Perspectivas . . . 115

(14)
(15)

xv

“ ´E preciso explicar por que o mundo de hoje, que ´e horr´ıvel, ´e apenas um momento do longo desenvolvimento hist´orico e que a esperan¸ca sempre foi uma das for¸cas dominantes das revolu¸c˜oes e das insurrei¸c˜oes. E eu ainda sinto a esperan¸ca como minha concep¸c˜ao de futuro.”. Jean Paul Sartre

(16)
(17)

xvii

Dedico esta tese `

(18)
(19)

Agradecimentos

As riquezas de um processo de aprendizado humano se verificam, muito mais, nas entreli-nhas deste do que no fluxo central dos conceitos aparentes. Entre as lientreli-nhas desta tese de doutorado, v´arias pessoas deixaram, em mim, marcas indel´eveis e, por isto, estar˜ao comigo por toda a minha existˆencia.

Agrade¸co `a minha querida companheira Sarinha e `a nossa amada filha Clarinha, simples-mente, por serem dois s´ois que me aquecem e inundam os meus caminhos de cor e alegrias. Aos meus pais, Antˆonio, Sandra e Dadai, e ao meu querido irm˜ao Daniel, pelos est´ımulos, confian¸ca e amor sempre presentes.

Ao meu irm˜ao amigo Felipe, e ao meu amigo irm˜ao Rog´erio por estarem ao meu lado nos momentos mais dif´ıceis desta caminhada.

`

A Nalva e a Jandira pelo apoio fundamental no cotidiano da vida.

Aos meus dois amigos Antˆonio Marcelo (Max) e Arismar por terem me apoiado de tantas maneiras distintas, importantes e sempre estimulantes.

Ao meu amigo Eduardo Allatta pelos momentos de apoio e amizade e pelos telefonemas divertidos versando sobre mecˆanica quˆantica etc.

Ao meu amigo Tito por seu apoio e sua amizade renovadora.

Ao meu amigo H´elcio Wagner pelos momentos de amizade me fazendo enxergar outras “pedras do mos´aico”.

`

A fam´ılia Nova pelo carinho e amizade.

Ao amigo Carl Holger por todo o apoio e pela amizade.

Ao meu tio Jos´e Augusto por ter me apoiado em momentos preciosos. Aos amigos Selma e Maur´ıcio, pela torcida, e pelo carinho sempre especial.

(20)

xx

Aos amigos Edson Macˆedo e Adriana pelo carinho e pela amizade.

Aos amigos da Cerca-Louren¸co pelos momentos de sons, risadas e amizade. Ao amigo Bruno Cavalcanti pelos est´ımulos, discuss˜oes e amizade.

Ao amigo Jurandir Santana que, sem saber, me abriu os caminhos da engenharia de ´audio, inclu´ındo o tema desta tese.

A todos os meus alunos por me permitirem crescer nas diversas dimens˜oes da vida. Aos alunos do Grupo de Estudos Sonoros pela companhia e amizade ao longo dos anos.

`

A Universidade Federal da Bahia pelo apoio prestado.

Ao professor Eduardo Simas (UFBA) pelas valiosas discuss˜oes e amizade. Ao DSIF, `a FEEC e `a UNICAMP pela acolhida acadˆemica.

`

A Capes pelo apoio financeiro prestado.

Agrade¸co `a Jaqueline Bisson (DSIF), Noˆemia Benatti (CPG) e Edson Sanches (CPG) por todo o importante apoio e pela sempre calorosa recep¸c˜ao.

Ao professor Jos´e Cˆandido Silveira Santos Filhos pelas excelentes aulas de Introdu¸c˜ao `as Comunica¸c˜oes Digitais e pela cuidadosa amizade.

Ao professor Jˆonatas Manzolli pelas conversas sempre prof´ıcuas e por seu apoio.

Ao professor Romis Attux por seu apoio fundamental no processo e pela amizade cuidadosa. Finalmente, agrade¸co ao meu orientador e amigo, professor Furio Damiani, que me guiou durante toda a minha caminhada no mestrado e no doutorado, dando sempre apoio fulcral para o meu processo de desenvolvimento.

(21)

Lista de Figuras

2.1 Sinal de ´audio de bateria . . . 6

2.2 Evolu¸c˜ao temporal geral do envelope de uma nota musical . . . 9

2.3 Sistema generalizado de An´alise de Conte´udo de ´Audio [1] . . . 12

2.4 Divis˜ao de sinal x(n) em blocos de LF amostras e salto LH . . . 15

2.5 Banco de filtros de an´alise . . . 21

2.6 Exemplo para fun¸c˜oes pertencentes aos subespa¸cos V0 e V1. . . 21

2.7 Exemplo de fun¸c˜ao que representa a subtra¸c˜ao entre as fun¸c˜oes associadas aos subespa¸cos V1 e V0 da figura 2.6 . . . 22

2.8 Banco de filtros discreto equivalente `a transformada wavelet com dois n´ıveis de resolu¸c˜ao . . . 24

2.9 Escala e wavelet para coiflet de ordem 3 . . . 25

2.10 Filtros FIR para coiflet de ordem 3 . . . 25

2.11 Unidade de processamento e Rede Neural . . . 28

2.12 FFN, uma ´unica camada oculta . . . 30

3.1 Diagrama de blocos geral do sistema proposto . . . 42

3.2 MA, configura¸c˜ao uma ´unica m´aquina . . . 43

3.3 MA, configura¸c˜ao uma ´unica m´aquina . . . 43

3.4 MA, configura¸c˜ao uma m´aquina por resolu¸c˜ao no front-end . . . 43

3.5 MA, configura¸c˜ao compartilhamento de camada oculta (HL) no front-end . 44 3.6 Distribui¸c˜ao de andamentos do banco total . . . 46

4.1 Decomposi¸c˜ao Wavelet em 7 n´ıveis, coiflet3: (a) Sinal, (b) Aproxima¸c˜ao (A7), (c) Detalhe 1 (D1). Os outros detalhes foram omitidos para simplifica¸c˜ao. 50 4.2 ODFE, ODFSD e ODFRCD para ´audio de bateria (sintetizado, grava¸c˜ao autoral) . . . 56

4.3 ODFE, ODFSD e ODFRCD para ´audio de viol˜ao (real, grava¸c˜ao autoral) . 57 4.4 ODFE, ODFSD e ODFRCD para ´audio de gaita (real, grava¸c˜ao autoral) . . 58

4.5 Gera¸c˜ao da fun¸c˜ao de detec¸c˜ao de onsets limitada (ODFL): (a) Sinal de ´ audio, (b) ODF, m´edia m´ovel e onsets, (c) ODFL . . . 59

4.6 Fun¸c˜oes P eDF multiresolucionais para m´usica 6, do banco de dados autoral 61 4.7 Fun¸c˜oes P eDF multiresolucionais para m´usica 3, do banco de dados autoral 62

(22)

xxii

5.1 Evolu¸c˜ao do MSE com o aumento da resolu¸c˜ao DWT . . . 75 5.2 CDF do ranking da sonda randˆomica . . . 75 5.3 Histograma dos atributos selecionados no ranking . . . 75 5.4 CDF do ranking da sonda randˆomica para as resolu¸c˜oes da DWT, modelo

de primeira ordem . . . 77 5.5 Histogramas dos atributos selecionados nos rankings para as resolu¸c˜oes da

DWT, modelo de primeira ordem . . . 78 5.6 CDF do ranking da sonda randˆomica para as resolu¸c˜oes da DWT, modelo

de segunda ordem . . . 80 5.7 PCA do banco 1 com n´umero fixo de frames. . . 81 5.8 PCA do banco 1 com n´umero de frames vari´avel. . . 81 5.9 PCA do banco 2 com n´umero fixo de frames. . . 82 5.10 PCA do banco 2 com n´umero de frames vari´avel. . . 82 5.11 PCA de todos os bancos reunidos com n´umero de frames vari´avel . . . 83 5.12 Silhueta do banco total para todos os n´ıveis DWT, K=2 . . . 83 5.13 Silhuetas do banco total para cada n´ıvel DWT, K=2 . . . 84 5.14 Silhueta do banco total para todos os n´ıveis DWT, K=4 . . . 85 5.15 Silhuetas do banco total para cada n´ıvel DWT, K=4 . . . 86 5.16 Banco de dados total utilizando sele¸c˜ao esf´erica via PCA . . . 86 6.1 Box plot para o erro dos trˆes conjuntos, x ∈ R72 . . . 90 6.2 Box plot para o erro dos trˆes conjuntos, x ∈ R18 . . . 91 6.3 Box plot para o erro dos trˆes conjuntos, x ∈ R24 . . . 92 6.4 Box plot para o erro dos trˆes conjuntos, x ∈ R42 . . . 93 6.5 Box plot para o erro dos trˆes conjuntos, x ∈ R12, redes especialistas . . . . 95 6.6 Box plot para o erro dos trˆes conjuntos, x ∈ R3, redes especialistas . . . 96 6.7 Box plot para o erro dos trˆes conjuntos, x ∈ R7, redes especialistas . . . 97 6.8 Box plot para o erro dos trˆes conjuntos, redes especialistas . . . 99 6.9 Box plot para o erro dos trˆes conjuntos, redes especialistas com aplica¸c˜ao da

sele¸c˜ao de observa¸c˜oes balanceadas por clusters . . . 101 6.10 Box plot para o erro dos trˆes conjuntos, redes especialistas com aplica¸c˜ao da

sele¸c˜ao esf´erica de observa¸c˜oes . . . 102 6.11 M´edia do MSE para o erro dos trˆes conjuntos, uma ´unica m´aquina . . . 103 6.12 Box plot, para o erro dos trˆes conjuntos, gerado pela varia¸c˜ao do λ na faixa

proposta, ELM . . . 104 6.13 Valor do MSE dos trˆes conjuntos em fun¸c˜ao de p, p = {−25, −24, ..., 24, 25},

N = 8 . . . 104 6.14 Valor do MSE dos trˆes conjuntos em fun¸c˜ao de N . . . 106

(23)

xxiii

6.15 Valor do MSE dos trˆes conjuntos em fun¸c˜ao de p, p = {−25, −24, ..., 24, 25}, N = 13 . . . 107

(24)
(25)

Lista de Tabelas

4.1 Vetores de coeficientes wavelets . . . 51 4.2 Vetores de coeficientes wavelets . . . 51 4.3 Rela¸c˜ao do n´umero de frames entre as resolu¸c˜oes wavelet . . . 53 4.4 Fun¸c˜oes de detec¸c˜ao de onsets multiresolucionais . . . 58 4.5 Candidatos a tempo, To = 100 bpm, exemplo 1 . . . 60

4.6 Candidatos a tempo, To = 71 bpm, exemplo 2 . . . 62

5.1 Resultados do mapeamento direto . . . 68 5.2 Resultados do mapeamento direto para varia¸c˜ao do limiar T h . . . 69 5.3 Resultados do ranking para modelo de primeira ordem, n´ıveis DWT versus

quantidade de atributos admiss´ıveis . . . 76 5.4 Resultados do ranking para modelo de segunda ordem, n´ıveis DWT versus

quantidade de atributos admiss´ıveis . . . 79 5.5 Resultados do clustering, n´ıveis DWT versus Silhueta m´edia, K = 2 . . . . 83 5.6 Resultados do clustering, n´ıveis DWT versus Silhueta m´edia, K = 4 . . . . 85 6.1 Resultados do treinamento para N = 10 . . . 93 6.2 N´umero de neurˆonios por resolu¸c˜ao . . . 94 6.3 Resultados para Back-end Regressor Linear . . . 94 6.4 Resultados para Back-end MLP para N = 8 . . . 94 6.5 N´umero de neurˆonios por resolu¸c˜ao . . . 95 6.6 Resultados para Back-end Regressor Linear . . . 95 6.7 Resultados para Back-end MLP para N = 10 . . . 96 6.8 N´umero de neurˆonios por resolu¸c˜ao . . . 97 6.9 Resultados para Back-end Regressor Linear . . . 97 6.10 Resultados para Back-end MLP para N = 8 . . . 98 6.11 Resultados do ranking para modelo de primeira ordem, n´ıveis DWT versus

atributos admiss´ıveis . . . 98 6.12 N´umero de neurˆonios por resolu¸c˜ao . . . 99 6.13 Resultados para Back-end MLP para N = 14, sele¸c˜ao forward via GS . . . 99 6.14 N´umero de neurˆonios por resolu¸c˜ao . . . 100 6.15 Resultados para Back-end MLP para N = 10, K-means . . . 100

(26)

xxvi

6.16 N´umero de neurˆonios por resolu¸c˜ao . . . 101 6.17 Resultados para Back-end MLP para N = 18, sele¸c˜ao esf´erica . . . 102 6.18 Resultados da ELM para N = 8, m´edia dos 10 treinamentos . . . 103 6.19 N´umero de neurˆonios por resolu¸c˜ao, front-end ELM . . . 105 6.20 Resultados da ELM para N = 65, λ = 32 . . . 106 6.21 Resultados da ELM para N = 13, λ = 32, m´edia dos 10 treinamentos . . . 107 6.22 Resultados comparativos do m´etodo proposto com a literatura . . . 108

(27)

Lista de Abreviaturas

ANN Rede Neural Artificial (Artificial Neural Network )

cdf Fun¸c˜ao de distribui¸c˜ao Cumulativa (Cumulative Distribution Function) Coiflet3 Wavelet M˜ae Coiflet de Ordem N=3

cs Soma Acumulada das Variˆancias

DFT Transformada Discreta de Fourier (Discrete Fourier Transform) DWT Transformada Wavelet Discreta (Discrete Wavelet Transform) EA Extrator de Atributos

ELM M´aquina de Aprendizado Extremo (Extreme Learning Machine) FFN Feed Forward Network

FIR Resposta ao Impulso Finita (Finite Impulse Response) GS Gram-Schmidt

HL Camada Oculta (Hidden Layer ) HPF Filtro Passa-Alta (High-Pass Filter )

IIR Resposta ao Impulso Infinita (Infinite Impulse Response) LM Levenberg-Marquardt

LPF Filtro Passa-Baixa (Low-Pass Filter ) MA M´aquina de Aprendizado

MLP Perceptron de M´ultiplas Camadas (Multilayer Perceptron) MM M´edia M´ovel

MSE Erro Quadr´atico M´edio (Mean Square Error )

ODF Fun¸c˜ao de Detec¸c˜ao de Onsets (Onset Detection Function)

PCA An´alise de Componentes Principais (Principal Component Analysis) PeDF Fun¸c˜ao de detec¸c˜ao de Periodicidades (Periodicity Detection Function) pdf Fun¸c˜ao Densidade de Probabilidade (Probability Density Function) PR Reconhecimento de Padr˜oes (Pattern Recognition)

RL Regressor Linear

SAD Sistema de Aquisi¸c˜ao de Dados

SCG Gradiente Conjugado Escalonado (Scaled Conjugated Gradient ) SLIT Sistema Linear Invariante no Tempo

STFT Transformada de Fourier de Tempo Curto (Short-Time Fourier Transform) Tactus Batida ou Beat

(28)

xxviii

(29)

Lista de S´ımbolos

a Escalar (min´uscula em it´alico)

Aj Vetor Aproxima¸c˜ao do N´ıvel j

a(j)i Ativa¸c˜ao do i-´esimo Neurˆonio da j-´esima Camada

ark Coeficiente Escala

brk Coeficiente Wavelet

B N´umero de Batidas (Beat )

D Deslocamento ou Lag para Correla¸c˜ao

Dj Vetor Detalhe do N´ıvel j

∆P Intervalo de Amostras em uma PeDF

∆t Intervalo de Tempo

∆Ω Resolu¸c˜ao em Frequˆencia da DFT

E[·] Operador do Valor Esperado

E[x2(n)] Potˆencia M´edia do Sinal x(n)

(30)

xxx

fSeq Frequˆencia de Amostragem Equivalente

f0 Frequˆencia Fundamental, 1/T

f (k) Frequˆencia do k-´esimo bin de Frequˆencia

fS Frequˆencia de Amostragem

fmax Frequˆencia M´axima de um Sinal

FX(x) Fun¸c˜ao de Distribui¸c˜ao Cumulativa

φ(t) Fun¸c˜ao Escala

γ Taxa de Performance

h(n) Resposta ao Impulso de Sistema Discreto

h(t) Resposta ao Impulso de Sistema Cont´ınuo

hθ(x) Hip´otese

J (θ) Fun¸c˜ao Custo

j √−1

(31)

xxxi

LP eDF Comprimento da P eDF

Lo Comprimento do Vetor de ´Audio

Lh Comprimento do Salto, em Amostras

Lf Comprimento do Filtro, em Amostras

LF Comprimento do Bloco ou Frame, em Amostras

λ Parˆametro de Regulariza¸c˜ao da ELM

ns(i) ´Indice de In´ıcio do i-´esimo Bloco ou Frame

ne(i) ´Indice de In´ıcio do i-´esimo Bloco ou Frame

O Ordem do Filtro da Predi¸c˜ao Linear

pX(x) Fun¸c˜ao Densidade de Probabilidade

qj Vetor Unit´ario da Dimens˜ao j

Rxy(D) Correla¸c˜ao Cruzada de x(n) e y(n)

Rxx(D) Autocorrela¸c˜ao de x(n)

R Correla¸c˜ao entre Sa´ıda e Alvo

(32)

xxxii

T Tempo ou Andamento Musical

t Tempo

TS Per´ıodo de Amostragem

T Per´ıodo

T h Limiar

Vr Subespa¸co Escala da Resolu¸c˜ao r

νηx Descritor ou Atributo: M´edia

νC Descritor ou Atributo: Centr´oide

νσ2

x Descritor ou Atributo: Variˆancia

νσx Descritor ou Atributo: Desvio Padr˜ao

νSSk Descritor ou Atributo: Spectral Skewness

νSR Descritor ou Atributo: Spectral Rolloff

νSC Descritor ou Atributo: Spectral Centroid

νSS Descritor ou Atributo: Spectral Spread

(33)

xxxiii

νSCF Descritor ou Atributo: Spectral Crest Factor

νSSk Descritor ou Atributo: Spectral Flatness

νP R Descritor ou Atributo: Predictivity Ratio

νZCR Descritor ou Atributo: Zero Crossing Rate

W r Subespa¸co Wavelet da Resolu¸c˜ao r

w(t) Wavelet M˜ae

x Vetor (min´uscula em negrito)

xT Vetor Transposto

X Matriz (mai´uscula em negrito)

x(t) Sinal em Tempo Cont´ınuo

x(n) Sinal em Tempo Discreto

xT(t) Sinal Peri´odico em Tempo Cont´ınuo

X(j∆Ω) Transformada Discreta de Fourier de x(n)

(34)
(35)

Cap´ıtulo 1

Introdu¸c˜

ao

...que a importˆancia de uma coisa n˜ao se mede com fita m´etrica nem com balan¸cas nem barˆometros etc. Que a importˆancia de uma coisa h´a que ser medida pelo encantamento que a coisa produza em n´os.

Manoel de Barros

1.1 Motiva¸c˜ao

A m´usica ´e um dos mais importantes produtos da express˜ao humana [2]. A linguagem musical remonta aos primeiros momentos da hist´oria do ser humano. Hoje em dia, com o avan¸co tecnol´ogico, h´a v´arios tipos de instrumentos musicais eletrˆonicos, como sintetiza-dores, teclados e samplers. Contudo, o uso de computadores no ambiente musical ´e cada vez mais frequente. Estas m´aquinas s˜ao utilizadas para grava¸c˜ao, edi¸c˜ao, processamento e at´e como sintetizadores de ´audio, ou seja, como instrumentos musicais, ou mais especifica-mente, meta-instrumentos [3]. Para al´em do ambiente de est´udios de grava¸c˜ao, mixagem e masteriza¸c˜ao, os computadores, em suas vers˜oes m´oveis, tamb´em come¸caram a ocupar espa¸cos nos palcos, nas performances ao vivo. Alguns conjuntos musicais fazem os seus arranjos como com instrumentos de sopro, e disparam estes pr´e-gravados em trilhas de programas ao longo de suas execu¸c˜oes musicais. Uma das pr´axis para que haja sincronia entre o que o computador executa e o som do conjunto ´e enviar um sinal de metrˆonomo (marcador de andamento) para um dos componentes do grupo, por exemplo, para o bate-rista, que cuida essencialmente do ritmo e da velocidade da execu¸c˜ao (andamento). Desta forma, este m´usico n˜ao pode perder o sincronismo com o sinal de referˆencia que ´e emitido pelo notebook. Isto gera um grande desconforto para os m´usicos e limita as possibilidades de utiliza¸c˜ao do notebook como um instrumento independente, e que, ainda por cima, ´e capaz de tocar v´arias trilhas ao mesmo tempo, ou seja, v´arios instrumentos. O trabalho de pesquisa desta tese teve sua gˆenese a partir deste cen´ario de aplica¸c˜ao dos computadores

(36)

1. Introdu¸c˜ao

m´oveis, e de outros dispositivos, para fins de acompanhamento musical autom´atico. Par-tindo desta ideia inicial, seguiu-se uma pesquisa sobre extra¸c˜ao de tempo musical e beat tracking [4–8], a¸c˜ao que descortinou a extensa ´area de recupera¸c˜ao de informa¸c˜ao musical (MIR).

1.2 Objetivo

Este trabalho teve como objetivo geral a implementa¸c˜ao de um algoritmo de reconheci-mento de padr˜ao do andamento musical, baseado na transformada Wavelet e em m´aquinas de aprendizado. Dentro desta proposta, trˆes objetivos espec´ıficos foram perseguidos. O primeiro foi o estudo, adapta¸c˜ao, implementa¸c˜ao e avalia¸c˜ao de atributos extra´ıdos de fun-¸

c˜oes de periodicidade constru´ıdas para cada resolu¸c˜ao wavelet. O segundo foi a realiza¸c˜ao de estrat´egias de sele¸c˜ao de atributos e a cria¸c˜ao de uma metodologia de sele¸c˜ao de obser-va¸c˜oes a partir de um banco de dados musical. O terceiro foi a aplica¸c˜ao de perceptrons de m´ultiplas camadas e m´aquinas de aprendizado extremo, em diferentes configura¸c˜oes, para mapear os atributos extra´ıdos das fun¸c˜oes de periodicidade de cada resolu¸c˜ao para o valor do tempo musical.

Dentre os principais estudos e contribui¸c˜oes que foram realizados, neste trabalho, destacam-se:

• Coleta de um banco de dados musical com 507 m´usicas em formato wave;

• Determina¸c˜ao manual, via programa comercial de tempo tapping, do andamento mu-sical de cada pe¸ca do banco de dados;

• Algoritmo para organiza¸c˜ao do banco de dados que realiza a leitura, indexa¸c˜ao, sele-¸c˜ao de trecho espec´ıfico dos arquivos wave e downmixing a partir de um diret´orio; • Algoritmo que realiza a transformada wavelet de todo o banco;

• Algoritmo que gera uma fun¸c˜ao de detec¸c˜ao de onsets (ODF ), usando o m´etodo do dom´ınio complexo retificado, e uma fun¸c˜ao de detec¸c˜ao de periodicidades (PeDF ), usando autocorrela¸c˜ao, para cada resolu¸c˜ao da transformada wavelet do banco; • Algoritmo que realiza pr´e-processamento das PeDF e posteriormente calcula

des-critores dessas fun¸c˜oes pr´e-processadas para cada resolu¸c˜ao e gera uma matriz para treinamento das m´aquinas de aprendizado;

• Proposi¸c˜ao e implementa¸c˜ao de um novo m´etodo de sele¸c˜ao de atributos baseado na capacidade de mapeamento direto de atributos de primeira ordem e baseado na capacidade de atributos de segunda ordem de selecionar fun¸c˜oes de periodicidade mais apropriadas ao problema proposto;

(37)

1. Introdu¸c˜ao

• Proposi¸c˜ao e implementa¸c˜ao de um novo m´etodo de sele¸c˜ao de observa¸c˜oes baseado em an´alise de componentes principais do espa¸co de atributos, denominado sele¸c˜ao esf´erica de observa¸c˜oes;

• Proposi¸c˜ao e implementa¸c˜ao de pr´e-sele¸c˜ao de observa¸c˜oes baseada em clustering via K-Means, para distribuir de forma equilibrada as observa¸c˜oes para os subconjuntos de treinamento;

• Treinamento, avalia¸c˜ao e proposi¸c˜ao de configura¸c˜oes distintas com dois tipos de m´a-quina de aprendizado: perceptrons de m´ultiplas camadas e m´aquina de aprendizado extremo.

1.3 Organiza¸c˜ao

Esta tese ´e composta por sete cap´ıtulos. O cap´ıtulo 2 trata das principais teorias e ferramentas matem´aticas utilizadas ao longo desta pesquisa e aplicadas nos cap´ıtulos subsequentes deste texto. O cap´ıtulo 3 ilustra as configura¸c˜oes do sistema proposto, em diagramas de blocos, promovendo uma vis˜ao geral a respeito do fluxo de sinal. Ainda nesse cap´ıtulo, s˜ao apresentados os bancos de dados musicais utilizados, o m´etodo de aquisi-¸c˜ao destes sinais de ´audio e um m´etodo de distribui¸c˜ao balanceada dos tempos musicais para os subconjuntos de treinamento. O cap´ıtulo se encerra com a metodologia utilizada para a an´alise dos erros nos processos de treinamento das m´aquinas de aprendizado. No cap´ıtulo 4, discute-se o processamento de sinal implementado para a gera¸c˜ao das fun¸c˜oes de detec¸c˜ao de onsets e para as fun¸c˜oes de periodicidade multiresolucionais. Tamb´em s˜ao realizadas algumas avalia¸c˜oes dos resultados destas implementa¸c˜oes. O cap´ıtulo 5 versa sobre os atributos extra´ıdos das fun¸c˜oes de periodicidade. A adapta¸c˜ao de um conjunto de descritores ´e avaliada e outro novo descritor ´e proposto. Esse cap´ıtulo tamb´em trata das implementa¸c˜oes de m´etodos de sele¸c˜ao de atributos existentes e de novas propostas de sele¸c˜ao de atributos e observa¸c˜oes. O cap´ıtulo 6 explana os resultados dos experimentos re-alizados com os perceptrons de m´ultiplas camadas e as m´aquinas de aprendizado extremo, em diferentes configura¸c˜oes, para diferentes subconjuntos de atributos `a luz dos m´etodos desenvolvidos no cap´ıtulo 5. Por fim, no cap´ıtulo 7, discutem-se as conclus˜oes a respeito da proposta implementada, especula-se sobre modelos poss´ıveis para a percep¸c˜ao r´ıtmica humana e indicam-se perspectivas para o prosseguimento da pesquisa.

(38)
(39)

Cap´ıtulo 2

Bases Te´

oricas

A leitura do mundo precede a leitura da palavra.

Paulo Freire

Neste cap´ıtulo, s˜ao discutidas as principais teorias utilizadas para os estudos e im-plementa¸c˜oes deste trabalho. Desta forma, algum entendimento a respeito da percep¸c˜ao humana relacionada ao ritmo musical e sua estrutura ´e necess´ario. Entende-se, tamb´em, que o sistema proposto para extra¸c˜ao de andamento musical, neste trabalho, deve pos-suir, em alguma medida, capacidades an´alogas ao sistema aural e neural, conjunto ouvido e c´erebro, para perceber o andamento musical. O an´alogo da discrimina¸c˜ao em frequˆ en-cia realizada pelo ouvido humano neste sistema ´e obtida por interm´edio da transformada Wavelet, aqui discutida. Uma s´erie de processamentos s˜ao utilizados para a extra¸c˜ao de atributos a partir do conjunto de cada banda de frequˆencia, logo, estrat´egias de recupera-¸c˜ao de informa¸c˜ao musical e extra¸c˜ao de atributos s˜ao estudadas. A decis˜ao a respeito do melhor candidato a andamento fica a cargo de uma m´aquina de aprendizado. Com isto, encerramos o cap´ıtulo com uma exposi¸c˜ao sobre Redes Neurais Artificiais e M´aquinas de Apredizado Extremo.

2.1 Ritmo e Percep¸c˜ao Auditiva

A palavra ritmo pode ser utilizada para representar atributos de uma s´erie de fenˆ ome-nos naturais e atividades desenvolvidas pelo ser humano. Seja no movimento de astros no espa¸co, de corpos humanos executando movimentos cotidianos ou de dan¸ca, ou at´e em cer-tos padr˜oes de constru¸c˜oes arquitetˆonicas, o ritmo desvela a no¸c˜ao de movimento inclu´ındo os conceitos de recorrˆencia, periodicidade e agrupamento. A m´usica ´e uma das ativida-des r´ıtmicas exercitadas pelo ser humano. A palavra ritmo, em m´usica, ´e utilizada para significar uma s´erie de estruturas temporais hier´arquicas. O downbeat (primeira batida do compasso), a batida (beat ou tactus) e o tatum (´atomo temporal) exibem uma estru-tura, com resolu¸c˜oes distintas, capaz de fornecer muitas informa¸c˜oes a respeito da evolu¸c˜ao

(40)

temporal de uma obra m´usical. A figura 2.1 exibe um sinal de bateria sint´etico contendo bumbo, caixa e cymbal onde est˜ao identificados os intervalos de tempo referentes `a batida, ao tatum e ao compasso.

1

2

3

4

5

x 10

5

−0.5

0

0.5

Amostras Amplitude Compasso Tatum Tactus Downbeat

Figura 2.1: Sinal de ´audio de bateria

Contudo, a percep¸c˜ao, pelo ouvinte, dessas entidades estruturais pode ou n˜ao estar relacionada com a existˆencia de eventos sonoros no instante de tempo de cada entidade. Aqui, o evento sonoro significa o fenˆomeno f´ısico, enquanto o psicoac´ustico, interpreta¸c˜ao do sistema auditivo diante de um est´ımulo sonoro, ´e denominado evento auditivo [9]. A batida, por exemplo, pode fazer parte da sensa¸c˜ao auditiva do ouvinte, mas sequer estar presente no sinal de ´audio. Deste modo, a percep¸c˜ao do ritmo, a partir das mudan¸cas e recorrˆencias do som, est´a intrisecamente ligada aos eventos auditivos, ou seja, ao ouvinte. 2.1.1 Fronteiras Auditivas

Uma fronteira auditiva (auditory boundary) ocorre em um instante de tempo t quando um est´ımulo sonoro em um intervalo [t − , t] ´e diferente perceptualmente do est´ımulo sonoro no intervalo [t, t + ]. Froteiras auditivas podem ocorrer em diversas escalas de tempo. Eventos sonoros consecutivos podem gerar sensa¸c˜ao ou n˜ao de fronteiras auditivas a depender do intervalo entre estes eventos [9].

V´arios aspectos sonoros podem demarcar uma fronteira. A mudan¸ca de amplitude, como o percutir de um tambor, ou uma varia¸c˜ao abrupta de frequˆencia, como a mudan¸ca de notas em um instrumento, s˜ao exemplos do que percebemos como fronteiras auditivas. Estas percep¸c˜oes de mudan¸cas s˜ao chamadas de eventos auditivos. ´E importante salientar que, como se trata de experiˆencia perceptual, compreender quais dos aspectos dominam o

(41)

evento em um determinado instante depende da aten¸c˜ao do ouvinte, de seu treinamento e de uma s´erie de fatores f´ısicos.

2.1.2 Sucess˜oes Regulares

Uma sucess˜ao regular [9] ´e uma sequˆencia de fronteiras auditivas ou eventos que ocorrem em intervalos de tempo aproximadamente iguais, ou seja, quasi -peri´odicos.

2.1.2.1 Percep¸c˜ao de Taxa

O tempo T ´e a taxa na qual pulsa¸c˜oes s˜ao percebidas. Esta taxa ´e denominada de tactus ou simplesmente taxa de batidas de p´es (foot tapping rate), e possui unidade de batidas por minuto (bpm). Para segmentos musicais com dura¸c˜ao em segundos ∆ts com

tempo constante ele pode ser calculado como:

T = B · 60 ∆ts

(2.1) onde B ´e o n´umero de batidas (beats) contidas no segmento. O tempo ou andamento de uma pe¸ca musical ´e usualmente escolhido por quem executa a performance, mesmo que o compositor indique um andamento preferencial.

Para sucess˜oes regulares, a exemplo de clicks efetuados por metrˆonomo com intervalo T de recorrˆencia, v´arios regimes perceptuais podem ser estabelecidos [9]:

1. Se T ≤ 50 ms, um tom ´e ouvido;

2. Se 50 ms ≤ T ≤ 100 ms, eventos parecem cont´ıguos; 3. Se 100 ms ≤ T ≤ 3 s, um ritmo ´e percebido;

4. Se T ≥ 3 s, h´a no¸c˜ao de separa¸c˜ao entre os eventos passados e os presentes.

Para sucess˜oes irregulares, n˜ao h´a percep¸c˜ao de andamento ou tom com o aumento ou a diminui¸c˜ao da taxa. O que ocorre ´e a sensa¸c˜ao de varia¸c˜ao da densidade de eventos. Assim, sucess˜oes irregulares e regulares provocam tipos diferentes de percep¸c˜ao.

O ouvido humano possui uma capacidade de agrupamento de sons diversos em objetos auditivos simples. Um exemplo interessante disto s˜ao as notas musicais que, apesar de, do ponto de vista da nota¸c˜ao musical, representarem uma ´unica frequˆencia, do ponto de vista anal´ıtico, s˜ao uma fus˜ao de uma fundamental e seus parciais. Efeitos similares ocorrem em escalas de tempo diferentes. Eventos auditivos peri´odicos r´ıtmicos podem ser fundidos em uma ´unica entidade r´ıtmica, a depender de seus padr˜oes de repeti¸c˜ao individuais e fase relativa. Outros atributos do som podem contribuir para o processo de agrupamento

(42)

perceptual, como por exemplo a evolu¸c˜ao temporal da intensidade (envelope ou envolt´oria) e o timbre [9].

2.1.2.2 Indica¸c˜oes Perceptuais para o Agrupamento de Ritmos

A forma como uma sequˆencia de pulsos se organiza perceptualmente pode ser influen-ciada por mudan¸cas em diversos aspectos. Dentre os principais pode-se destacar:

1. Intensidade - um aumento no volume de um pulso tende a definir o in´ıcio de um grupo;

2. Dura¸c˜ao do pulso - um alongamento de um pulso tende a definir o in´ıcio de um grupo; 3. Dura¸c˜ao entre pulsos - um alongamento do intervalo entre dois sons tende a definir

o final de um grupo;

4. Timbre - mudan¸cas na qualidade da tonalidade podem significar posi¸c˜oes chave na sequˆencia;

5. Tonalidade - mudan¸cas abruptas no tom tendem a ser ouvidas como ponto de in´ıcio ou fim de um grupo;

6. Densidade - o n´umero de eventos por segundo pode indicar uma fronteira. ´

E importante salientar que a percep¸c˜ao de um ritmo independe da forma como s˜ao preenchidos os intervalos de tempo entre as fronteiras auditivas. Por exemplo: se durante o intervalo de tempo entre as fronteiras h´a silˆencio ou um tom musical ainda assim as percep¸c˜oes r´ıtmicas ser˜ao idˆenticas. Isto indica a importˆancia das fronteiras auditivas para o estabelecimento de uma percep¸c˜ao r´ıtmica [9].

Baseado nas observa¸c˜oes anteriores, infere-se que o ritmo ´e um fenˆomeno psicoac´ustico que emerge da percep¸c˜ao de uma sucess˜ao regular em uma escala temporal onde as batidas s˜ao percebidas. Similarmente, um tom pode ser definido como um som que evoca a sensa¸c˜ao de altura (pitch). Observe que os conceitos s˜ao similares, j´a que a altura ´e a percep¸c˜ao de uma sucess˜ao regular em uma escala temporal reduzida e o ritmo a percep¸c˜ao do mesmo em uma escala maior.

Para executar an´alises referentes ao ritmo em sinais musicais, ´e necess´ario, ent˜ao, a extra¸c˜ao de equivalentes das fronteiras auditivas a partir de um sinal de ´audio. A escala temporal em quest˜ao varia de 100 ms a 3 s. Deve-se observar que, conforme exposto ante-riormente, a percep¸c˜ao do ritmo n˜ao ´e percep¸c˜ao de tons musicais em baixas frequˆencias. O limite inferior da audi¸c˜ao humana em rela¸c˜ao `a frequˆencia ´e 20 Hz, e o fenˆomeno r´ıtmico est´a situado em uma faixa de 0.33 Hz a 10 Hz. Como a demarca¸c˜ao de fronteiras auditivas ocorre a partir dos eventos auditivos, e os sinais de ´audio n˜ao necessariamente exibem

(43)

estas fronteiras, surge a necessidade de processamento do sinal e um modelo que simule interpreta¸c˜ao perceptual para que os eventos sejam localizados.

2.1.3 Onsets

Os aspectos temporais de um sinal musical tais como o tempo e o ritmo s˜ao propriedades musicais importantes. Um aspecto fundamental destes aspectos ´e o onset, que pode ser definido como o in´ıcio de um evento sonoro. Sabe-se que o modelo geral da evolu¸c˜ao temporal de um som passa por fases como o ataque (A), o decaimento (D), a sustenta¸c˜ao (S) e o relaxamento (R) (ADSR) como na figura 2.2. O in´ıcio de um evento sonoro ´e usualmente considerado como sendo mais importante do que a por¸c˜ao final pois, aparentemente, os ouvintes percebem novas ocorrˆencias de eventos musicais em termos de intervalos entre onsets (inter-onset-interval - IOI ) [1], j´a que a ocorrˆencia destes pode estabelecer uma fronteira auditiva. O termo onset ´e usado com frequˆencia como sinˆonimo do instante de tempo do onset, por´em ´e mais preciso definir que o seu tempo de ocorrˆencia ´e sua propriedade mais importante, apesar da existˆencia de outras, como a sua energia.

A D

S

R

t

Envelope onset

Figura 2.2: Evolu¸c˜ao temporal geral do envelope de uma nota musical

Na realidade, o in´ıcio de um som musical n˜ao ´e um ponto exato no tempo, mas sim um evento espraiado. O tempo de ataque ou de subida ´e o intervalo, em segundos, entre a primeira oscila¸c˜ao de um instrumento musical e uma amplitude m´axima. Os instrumentos musicais exibem tempos de ataque, aproximadamente, de 5 ms (alguns instrumentos de percuss˜ao) at´e 200 ms (instrumentos de sopro) [1]. O uso dos termos onset, ataque e transiente na literatura ´e, `as vezes, inconsistente. Aqui, utilizaremos as seguintes defini¸c˜oes [1]:

1. O ataque do evento sonoro ´e o intervalo de tempo no qual sua envolt´oria atinge a amplitude m´axima;

2. O transiente do evento sonoro ´e o intervalo de tempo no qual decorrem as fases de ataque e decaimento;

3. Tempo de onset da nota (NOT ): instante de tempo em que o instrumento ´e excitado para produzir o som;

(44)

4. Tempo de onset ac´ustico (AOT ): instante de tempo em que o som pode ser medido; 5. Tempo de onset perceptual (POT ): instante de tempo em que o evento ´e percebido

pelo ouvinte.

Assumindo que os m´usicos adaptam sua execu¸c˜ao musical `a sua percep¸c˜ao sonora, utilizaremos o POT como sinˆonimo de onset. A figura 2.2 ilustra uma poss´ıvel localiza¸c˜ao temporal para o POT.

2.1.3.1 M´etrica e Timing

A m´etrica ´e a alterna¸c˜ao regular de elementos musicais fortes e fracos geralmente agru-pados em compassos. O timing se refere a eventos temporais na performance musical que exibem desvios temporais sistem´aticos da estrutura r´ıtmica subjacente.

2.1.4 Representa¸c˜ao de Eventos Temporais em M´usica

O compasso ´e o equivalente, na partitura, da m´etrica perceptual. A primeira batida de um compasso geralmente possui o maior peso perceptual e ´e denominada de downbeat. A f´ormula de compasso provˆe informa¸c˜oes a respeito do mesmo, o n´umero de pulsos agrupados (numerador) e o valor da nota que constitui um beat (denominador). O valor da nota define o seu comprimento relativo com respeito ao tempo. A nota¸c˜ao convencional requer que a soma de todos os valores das notas e das pausas por compasso (exceto em casos especiais) resulte no valor do numerador da f´ormula de compasso. Assim, o tempo de onset de cada nota ´e especificado pela f´ormula de compasso e sua posi¸c˜ao na partitura.

O tempo de offset da nota ´e determinado pelo tempo de onset e por seu valor da nota na partitura. Contudo, em uma performance real ele dificilmente est´a definido, pois a diminui¸c˜ao ou aumento do tempo de offset est´a relacionado `a articula¸c˜ao que se pretende dar `a pe¸ca musical.

2.2 Recupera¸c˜ao de Informa¸c˜ao Musical

A Recupera¸c˜ao de Informa¸c˜ao Musical (MIR) ´e um campo de pesquisa amplo que se refere `a an´alise de informa¸c˜oes musicais sejam elas f´ısicas ou simb´olicas [1]. Dentre estas informa¸c˜oes podemos destacar a an´alise de formatos simb´olicos como partituras musicais, arquivos com protocolo MIDI, letras musicais, avalia¸c˜oes de usu´arios, instru¸c˜oes de per-formance das partituras, informa¸c˜oes bibliogr´aficas relacionadas a edi¸c˜ao, t´ıtulo da can¸c˜ao etc. Para al´em do conte´udo simb´olico, podemos destacar a extra¸c˜ao de informa¸c˜oes dos sinais de ´audio como grava¸c˜oes musicais em meios digitais.

A ´area de pesquisa de MIR ganhou uma relevˆancia muito grande nos ´ultimos anos com a populariza¸c˜ao dos formatos de ´audio digital. A comunidade cient´ıfica internacional tem

(45)

investido intensamente n˜ao somente na pesquisa mas tamb´em na difus˜ao dos trabalhos realizados. Um dos fatos que ratifica esta assertiva ´e a existˆencia da Sociedade Interna-cional para Recupera¸c˜ao de Informa¸c˜ao Musical (ISMIR) [10] que anualmente promove o congresso homˆonimo.

2.2.1 An´alise de Conte´udo de ´Audio

Inserida na grande ´area de pesquisa denominada MIR encontra-se a An´alise de Con-te´udo de ´Audio (ACA), que refere-se, especificamente, `a extra¸c˜ao de informa¸c˜oes dos sinais de ´audio. A informa¸c˜ao a ser extra´ıda ´e denominada metadado, pois se refere a dados a respeito de dados e pode incluir qualquer informa¸c˜ao que permita uma descri¸c˜ao ou expla-na¸c˜ao dos dados do sinal de ´audio bruto. Os metadados representam, entre outras coisas, o conte´udo musical de uma grava¸c˜ao como por exemplo andamento, tonalidade e aspectos da performance.

Isto posto, percebe-se que a ´area da ACA ´e um campo multidisciplinar, pois lida com conhecimentos da ´area de processamento digital de sinais, musicologia, teoria musical, psicologia musical, psicoac´ustica, reconhecimento de padr˜oes e aprendizado de m´aquina.

Os sistemas ACA podem ser aplicados para a realiza¸c˜ao de v´arias tarefas, dentre as quais podemos destacar:

• Organiza¸c˜ao, busca e recupera¸c˜ao autom´atica de conte´udo de ´audio em grandes ban-cos de dados

• Novas interfaces para busca e recupera¸c˜ao de ´audio como sistemas query-by-humming • Novas formas de visualiza¸c˜ao de sinais de ´audio, intera¸c˜ao do usu´ario e processamento

musical em programas de edi¸c˜ao e/ou grava¸c˜ao

• Controle dependente de conte´udo de processamento de ´audio e algoritmos de codifi-ca¸c˜ao

• Gera¸c˜ao autom´atica de playlist

Em geral, as aplica¸c˜oes pressup˜oem que o ´audio esteja dispon´ıvel em vers˜ao digitalizada. Desta forma, algumas classes podem ser identificadas para descri¸c˜ao de baixo n´ıvel de uma grava¸c˜ao musical:

• Caracter´ısticas estat´ısticas do sinal origin´arias dos dados do ´audio, tais como distri-bui¸c˜ao de amplitude etc

• Caracter´ısticas de timbre

• Caracter´ısticas relacionadas `a intensidade tais como envolt´oria e volume • Caracter´ısticas tonais como altura

(46)

• Carcter´ısticas temporais tais como atributos r´ıtmicos

As diversas informa¸c˜oes agrupadas nestas classes podem ser usadas e combinadas para obten¸c˜ao de conhecimento a respeito de uma m´usica gerando informa¸c˜oes sobre sua es-trutura musical, estilo, caracter´ısticas de performance e rela¸c˜oes subjetivas com o ouvinte como est´ımulos emocionais. Aqui cabe uma observa¸c˜ao: parˆametros a serem extra´ıdos de um arquivo de ´audio s˜ao objetivos, isto ´e, descrevem propriedades da m´usica independente do contexto perceptual do ouvinte. Logo, efeitos perceptuais e psicol´ogicos dependem da experiˆencia individual do ouvinte e de qual aparato de dispositivos ele utiliza para ouvir a m´usica.

2.2.1.1 Sistema ACA Generalizado

Para realizar as tarefas exemplificadas a maior parte dos sistemas ACA possuem dois blocos fundamentais descritos na figura 2.3.

Figura 2.3: Sistema generalizado de An´alise de Conte´udo de ´Audio [1]

O bloco de extra¸c˜ao de atributos executa pr´e-processamentos no sinal de ´audio com dois objetivos principais: redu¸c˜ao de dimensionalidade e representa¸c˜ao significativa. A redu¸c˜ao de dimens˜ao busca reduzir a quantidade de dados do sinal de ´audio em formato original. Para isto um atributo, ou um conjunto deles, ´e utilizado para representar blocos de amos-tras do sinal original, ou at´e mesmo o sinal completo, evitando informa¸c˜oes desnecess´arias. O segundo objetivo se refere ao fato de que, para a extra¸c˜ao da informa¸c˜ao implicitamente contida no ´audio original, ´e necess´aria a concentra¸c˜ao em aspectos relevantes e a transfor-ma¸c˜ao do ´audio em uma representa¸c˜ao que seja facilmente interpretada por humanos ou m´aquinas.

Um atributo n˜ao precisa ter um significado diretamente perceptual ou musical ou mesmo ser interpret´avel por seres humanos. Ele pode ser projetado para condensar informa¸c˜ao para o segundo bloco da figura 2.3 com o objetivo de gerar um resultado desejado. Em geral, os atributos s˜ao classificados como atributos de baixo n´ıvel e atributos de alto n´ıvel. Os de baixo n´ıvel se referem `aqueles que n˜ao s˜ao diretamente interpretados por seres hu-manos enquanto os de alto n´ıvel se referem diretamente a termos usados por huhu-manos para

(47)

definir certas caracter´ısticas musicais como tempo, brilho etc. Estes atributos de alto n´ıvel s˜ao extra´ıdos, geralmente, pelo segundo est´agio do sistema ACA generalizado da figura 2.3.

2.2.1.2 Fundamentos de Processamento de Sinais de ´Audio

Sinais de ´audio A palavra ´audio deriva do verbo latino audire, que significa ouvir. Tec-nicamente, de maneira geral, um sinal de ´audio se refere `as varia¸c˜oes de press˜ao ao longo do tempo com frequˆencias entre 20 Hz e 20 kHz convertidas em sinais el´etricos. Este sinal, de tempo cont´ınuo, pode ser representado por x(t).

Sinais Peri´odicos Um sinal peri´odico xT(t) ´e definido matematicamente como:

xT(t) = xT(t + T ) (2.2)

onde T ´e o per´ıodo de sua frequˆencia fundamental definida por f0 = 1/T . As frequˆencias

das outras componentes tonais, as harmˆonicas, possuem valores m´ultiplos inteiros de f0.

Sinais Aleat´orios A forma de onda de um sinal aleat´orio, estoc´astico ou randˆomico n˜ao pode ser determinada exatamente a priori de sua ocorrˆencia. Este tipo de sinal n˜ao pos-sui frequˆencia fundamental e cada materializa¸c˜ao deste ´e denominada de observa¸c˜ao ou realiza¸c˜ao. Um exemplo t´ıpico de sinal aleat´orio ´e o ru´ıdo branco, que possui espectro de frequˆencia plano. Uma propriedade, geralmente desej´avel, relacionada a sinais aleat´orios ´

e a estacionaridade. Um sinal estoc´astico estacion´ario at´e segunda ordem exibe m´edia e autocorrela¸c˜ao n˜ao variantes com o tempo.

Amostragem, Quantiza¸c˜ao e Codifica¸c˜ao Um sinal de ´audio x(t) de tempo cont´ınuo imp˜oe limita¸c˜oes no que se refere a armazenamento e processamentos. Desta forma, o advento do ´audio digital ampliou as possibilidades de registro, processamento, armazenamento e audi¸c˜ao da m´usica. Para o processo de digitaliza¸c˜ao, trˆes etapas s˜ao fundamentais [11]:

• Amostragem (discretiza¸c˜ao do tempo) - processo de tomada de amostras a intervalos regulares de tempo Ts, denominado per´ıodo de amostragem. Para que as amostras

sejam representativas do sinal original, este per´ıodo deve ser caculado a partir do Teorema de Nyquist fs ≥ 2 · fmax [11] que indica que a taxa de amostragem fs deve

ser pelo menos duas vezes o valor da maior frequˆencia (fmax) existente em um sinal.

Finalmente, Ts= 1/fs permite o c´alculo do per´ıodo.

• Quantiza¸c˜ao (discretiza¸c˜ao de amplitudes) - as amplitudes das amostras originais pre-cisam ser discretizadas para serem representadas por um alfabeto finito de s´ımbolos. Com isto, estas amplitudes s˜ao aproximadas para um dos valores de um conjunto

(48)

finito de amplitudes dispon´ıvel. Esta etapa, em contraste com a amostragem, gera um erro de aproxima¸c˜ao denominado erro de quantiza¸c˜ao [11].

• Codifica¸c˜ao - etapa que consiste em atribuir palavras-c´odigo para cada amostra quan-tizada

Descri¸c˜ao Estat´ıstica de Sinais Em contraste com os sinais puramente tonais, sinais randˆ o-micos n˜ao podem ser descritos no dom´ınio do tempo por fun¸c˜oes anal´ıticas por n˜ao serem determin´ısticos. A teoria estat´ıstica pode descrever algumas propriedades destes sinais. Dentre as fun¸c˜oes mais utilizadas figuram a fun¸c˜ao densidade de probabilidade (pdf ) e a fun¸c˜ao de distribui¸c˜ao cumulativa (cdf ).

A pdf de um sinal X(t) normalmente ´e representada por pX(x) e possui as seguintes

propriedades:

pX(x) ≥ 0 (2.3)

Z ∞

−∞

pX(τ )dτ = 1 (2.4)

J´a a cdf, representada por FX(x), ´e definida como:

FX(x) =

Z x

−∞

pX(τ )dτ (2.5)

Convolu¸c˜ao Todo sistema linear invariante no tempo (SLIT ) pode ser completamente representado por sua resposta ao impulso h(t) (tempo cont´ınuo) ou h(n) (tempo discreto). A sa´ıda y(n) de tal sistema, considerando um sistema de tempo discreto, em resposta a uma excita¸c˜ao x(n) ´e gerada pela opera¸c˜ao de convolu¸c˜ao:

y(n) = x(n) ∗ h(n) =

+∞

X

k=−∞

h(k) · x(n − k) (2.6)

onde Lh ´e o comprimento da restosta ao impulso. Todo SLIT pode ser interpretado como

um filtro promovendo processamentos em um sinal de entrada gerando uma resposta. Fil-tros podem possuir respostas ao impulso finitas (filFil-tros FIR) ou infinita (filFil-tros IIR). Um dos exemplares mais utilizados como filtro passa-baixas ´e o filtro FIR de m´edia m´ovel MA representado pela equa¸c˜ao a seguir:

y(n) =

Lf−1

X

k=0

(49)

onde b(k) e Lf s˜ao, respectivamente, os coeficientes e o comprimento do filtro. Estes

coeficientes para um MA t´ıpico possuem duas propriedades principais:

b(0) = b(k), para 0 ≤ k ≤ Lf − 1 (2.8)

e a soma de todos os coeficientes ´e normalizada para 1:

Lf−1

X

k=0

b(k) = 1 (2.9)

o que resulta em todos os coeficientes b(k) indˆenticos e normalizados para b(k) = 1/Lf.

Alternativamente, os coeficientes podem ser ponderados por uma janela.

Processamento Baseado em Blocos Geralmente, os algoritmos de processamentos de si-nais executam opera¸c˜oes por blocos de amostras (frames). Isto significa que um sinal ´e dividido em blocos consecutivos de comprimento LF amostras. Em geral, h´a um grau

de superposi¸c˜ao de LO amostras entre os blocos que resulta em um salto de amostras

LH = (1 − Or)LF, sendo Or= LO/LF, entre dois blocos consecutivos como na figura 2.5.

Figura 2.4: Divis˜ao de sinal x(n) em blocos de LF amostras e salto LH

(50)

ns(i) = ns(i − 1) + LH (2.10)

ne(i) = ns(i) + LF − 1 (2.11)

onde ns e ne s˜ao respectivamente os ´ındices inicial e final de um bloco.

Dentre as vantagens do processamento baseado em blocos est˜ao o seu uso por algoritmos cl´assicos como da Transformada Discreta de Fourier, por dispositivos de ´audio, a redu¸c˜ao da aloca¸c˜ao de mem´oria e a eficiˆencia computacional quando comparada ao processamento amostra por amostra.

Transformada de Fourier A transformada discreta de Fourier (DFT ) de um sinal x(n) ´e definida por: X(k) = F {x(n)} = LF−1 X n=0 x(n)e−j( 2π LF)kn (2.12)

onde k ´e o ´ındice do bin de frequˆencia.

Geralmente, a DFT ´e aplicada utilizando-se janelas wLF(n) de comprimento LF

amos-tras para evitar distor¸c˜oes espectrais e ´e denominada como Transformada de Fourier de Tempo Curto (STFT ).

Fun¸c˜oes de Correla¸c˜ao e Autocorrela¸c˜ao As fun¸c˜oes de correla¸c˜ao podem ser utilizadas para o c´alculo do grau de similaridades entre dois sinais para valores de atraso D. Dado dois sinais x(n) e y(n) a fun¸c˜ao de correla¸c˜ao cruzada (CCF ) ´e dada por

Rxy(D) = +∞ X n=−∞ x(n)y(n + D). (2.13) ´

E de especial interesse, tamb´em, a fun¸c˜ao de autocorrela¸c˜ao (ACF ):

Rxx(D) = +∞

X

n=−∞

x(n)x(n + D). (2.14)

Predi¸c˜ao Linear O objetivo da predi¸c˜ao linear ´e o uso de valores passados de amostras de um sinal para estimar valores futuros. Geralmente, o valor estimado ˆx(n) ´e dado por

ˆ x(n) = O X j=1 bj · x(n − j). (2.15)

(51)

A ordem O do filtro pode variar entre poucos coeficientes ou milhares. Para estimar os coeficientes bj a partir do sinal de ´audio geralmente utiliza-se a abordagem de minimiza¸c˜ao

da potˆencia m´edia do erro de predi¸c˜ao eP(n):

min E[e2P(n)] = min E[(x(n) − ˆx(n))2] (2.16) = min E    x(n) − O X j=1 bj · x(n − j)   2  (2.17)

onde E[·] ´e o operador esperan¸ca. 2.2.2 Descritores ou Atributos

Os termos atributos ou descritores, na ´area de ACA, se referem a medidas que geram um valor por bloco de amostras para um sinal de ´audio [1]. Por isto, s˜ao tamb´em denomina-dos atributos instantˆaneos ou atributos de termo-curto. Um atributo n˜ao necessariamente possui um significado direto musical, perceptual ou musicol´ogico e, por isto, pode ser clas-sificado como um atributo de baixo n´ıvel. Um descritor desta classe pode servir como base para o c´alculo de outros descritores de n´ıvel mais alto que possuam significado direto a respeito do sinal musical (como andamento, tonalidade, propriedades mel´odicas e etc).

Existe um grande n´umero de descritores, e de categorias destes, propostos na literatura [1, 9]. Utilizaremos neste trabalho uma categoriza¸c˜ao geral da seguinte forma [1]:

• descritores de propriedades estat´ısticas: usualmente utilizados em an´alise estat´ıstica de sinais;

• descritores de formato espectral: descrevem o formato do espectro da STFT ; • descritores de propriedades do sinal: descrevem propriedades t´ecnicas do sinal n˜ao

abarcadas nas categorias anteriores;

• descritores de propriedades de intensidade: descrevem comportamentos relacionados `

a amplitude ou intensidade.

Dentre o universo de descritores existentes apresentaremos aqueles aqui utilizados. 2.2.2.1 Descritores de Propriedades Estat´ısticas

As medidas estat´ısticas cl´assicas podem ser aplicadas tanto ao sinal no dom´ınio do tempo quanto no dom´ınio da frequˆencia.

(52)

M´edia Aritm´etica νηx(i) = 1 LF ne(i) X n=ns(i) x(n) (2.18) Centr´oide νC(i) = Pne(i) n=ns(i)(n − ns(i)) · x(n) Pne(i) n=ns(i)x(n) (2.19)

Variˆancia e Desvio Padr˜ao A estimativa polarizada para a variˆancia ´e

νσx2 (i) = 1 LF ne(i) X n=ns(i) (x(n) − νηx(i))2 (2.20) e a n˜ao polarizada ´e νσ2 x,b(i) = 1 LF − 1 ne(i) X n=ns(i) (x(n) − νηx(i))2 (2.21)

Desta forma calcula-se o desvio padr˜ao:

νσx,b(i) =

q νσ2

x,b(i) (2.22)

Skewness O skewness ´e uma medida de assimetria da pdf dado por:

νSk(i) = 1 σ3 x· LF ne(i) X n=ns(i) (x(n) − νηx(i))3. (2.23)

Esta medida pode, alternativamente, ser realizada a partir da distribui¸c˜ao do espectro de magnitude sendo denominada de spectral skewness:

νSSk(i) = 2PLf/2−1 k=0  |X(k, i)| − νη|X| 3 νσ3 |X| · LF . (2.24)

2.2.2.2 Descritores de Formato Espectral

Spectral Rolloff O Spectral Rolloff νSR(i) ´e uma medida da largura de banda do bloco

analisado i. ´E definido como o bin de frequˆencia abaixo do qual o ac´umulo das magnitudes da STFT atingiu uma porcentagem κ da soma de todas as magnitudes:

(53)

νSR(i) = n|Pn

k=0|X(k,i)|=κ·

P(LF /2)−1

k=0 |X(k,i)|

(2.25) onde κ assume valores t´ıpicos de 0, 85 (85%) ou 0, 95 (95%).

Spectral Centroid O spectral centroid representa o centro de gravidade (COG) da energia espectral: νSC(i) = P(LF/2)−1 k=0 k · |X(k, i)| 2 P(LF/2)−1 k=0 |X(k, i)|2 . (2.26)

Spectral Spread O spectral spread descreve a concentra¸c˜ao de energia em torno do COG e pode ser interpretado como o desvio padr˜ao do espectro de potˆencia na vizinhan¸ca do centr´oide: νSS(i) = v u u t P(LF/2)−1 k=0 (k − νSC(i))2· |X(k, i)|2 P(LF/2)−1 k=0 |X(k, i)|2 . (2.27)

Spectral Decrease O spectral decrease estima a declividade do decrescimento do envelope espectral ao longo da frequˆencia:

νSD(i) = P(LF/2)−1 k=1 1 k · (|X(k, i)| − |X(0, i)|) P(LF/2)−1 k=1 |X(k, i)| . (2.28)

2.2.2.3 Descritores de Propriedades do Sinal

Spectral Crest Factor O spectral crest factor ´e uma medida do grau de periodicidade que toma por base sen´oides. Com isto permite comparar o qu˜ao tonal ou ruidoso ´e um deter-minado bloco de amostras de um sinal:

νSCF(i) =

maxk|X(k, i)|

PLF/2−1

k=0 |X(k, i)|

(2.29) com 0 ≤ k ≤ LF/2 − 1, para o c´alculo de m´aximo da STFT em fun¸c˜ao de k, maxk|X(k, i)|.

Spectral Flatness O spectral flatness ´e definido como a raz˜ao da m´edia geom´etrica e m´edia aritm´etica do espectro de magnitude:

νSF = LF /2qQ(Lf/2)−1 k=0 |X(k, i)| 2/LF ·P(LFk=0/2)−1|X(k, i)| = exp2/LF ·P(LFk=0/2)−1ln(|X(k, i)|)  2/LF ·P(LFk=0/2)−1|X(k, i)| (2.30)

(54)

onde a f´ormula `a direita usa a m´edia aritm´etica do logar´ıtmo do espectro de magnitude no numerador.

Predictivity Ratio O predictivity ratio ´e uma medida de qu˜ao bem um sinal de ´audio pode ser predito por uma predi¸c˜ao linear de ordem O. Cada amostra n ´e predita usando os valores das amostras precedentes:

ˆ x(n) = O X j=1 bj· x(n − j) (2.31)

Quanto menos ruidoso um sinal, menor o erro eP entre o sinal original e a predi¸c˜ao.

Assim, defini-se, a partir da potˆencia do erro, uma medida de periodicidade tonal:

νP R(i) = v u u u t Pne(i) n=ns(i)(x(n) − ˆx(n))2 Pne(i) n=ns(i)x2(n) (2.32)

onde bj s˜ao os coeficientes de predi¸c˜ao.

Zero Crossing Rate A taxa de cruzamento por zero νZCR indica o n´umero de mudan¸cas

de sinal em blocos de amostras consecutivos em um sinal:

νZCR= 1 2 · LF ne(i) X n=ns(i) |sign[x(n)] − sign[x(n − 1)]| (2.33)

onde a fun¸c˜ao sign ´e definida por

sign[x(n)] =      1, x(n) > 0 0, x(n) = 0 −1, x(n) < 0 (2.34)

2.3 Bancos de Filtros, Multirresolu¸c˜ao e Wavelets

2.3.1 Bancos de Filtros

Um banco de filtros ´e um conjunto de filtros associados. Em processamento de sinais, estes bancos promovem opera¸c˜oes de an´alise e/ou s´ıntese. Em geral o banco de an´alise possui dois filtros, passa-baixa (LPF ) e passa-alta (HPF ). Eles separam o sinal de entrada do banco em bandas de frequˆencia. Estes subsinais podem, por exemplo, ser comprimidos com uma maior eficiˆencia que o sinal original. A qualquer momento os sinais podem ser recombinados por um banco de s´ıntese.

N˜ao ´e necess´ario preservar todas as amostras dos sinais de sa´ıda dos filtros de an´alise, j´a que as sa´ıdas do LPF e do HPF possuem o mesmo n´umero de amostras que a entrada, ou

(55)

seja, no total, o dobro de amostras foram geradas. Normalmente, as sa´ıdas s˜ao subamos-tradas, isto ´e, somente as componentes pares das sa´ıdas s˜ao preservadas. Neste trabalho, estamos interessados na an´alise dos sinais, na recupera¸c˜ao de informa¸c˜ao. Por isto, o banco de s´ıntese n˜ao ´e explorado.

Sejam h0= h0(n) e h1= h1(n) as respostas ao impulso do LPF e HPF, respectivamente,

e (↓ 2) o processo de decima¸c˜ao (remo¸c˜ao de componentes ´ımpares), um banco de an´alise pode ser representado por:

h

0

h

1

2

2

x(n)

y

0

(n)

y

1

(n)

Figura 2.5: Banco de filtros de an´alise

onde y0(n) e y1(n), que s˜ao as sa´ıdas dos ramos passa baixa e alta respectivamente, possuem

metade do n´umero de amostras originais. 2.3.2 Multirresolu¸c˜ao

O conceito da multirresolu¸c˜ao refere-se `a divis˜ao de um sinal em diferentes escalas de resolu¸c˜ao em contraste `a divis˜ao em diferentes frequˆencias. Podemos observar um sinal em v´arias resolu¸c˜oes (r) a partir de um espa¸co completo ∪Vr:

· · · ⊂ V−1 ⊂ V0⊂ V1 ⊂ · · · ⊂ Vr⊂ Vr+1⊂ · · · (2.35)

Graficamente podemos representar, por exemplo, para um caso simples e espec´ıfico, duas fun¸c˜oes associadas ao subespa¸cos V0 e V1:

0 1 t 0 1/2 t

V0 V1

Figura 2.6: Exemplo para fun¸c˜oes pertencentes aos subespa¸cos V0 e V1

´

E poss´ıvel associarmos ao subespa¸co V0um conjunto de fun¸c˜oes {φ(t−k)} e ao subespa¸co

V1 um conjunto {φ(2t − k)}, ou seja, uma vers˜ao escalonada em rela¸c˜ao `a outra, conforme

se pode observar na figura 2.6 anterior. Nota-se que, ainda pela referida figura,

φ(t) = φ(2t) + φ(2t − 1), (2.36)

(56)

φ(t) = 2X

k

f (k)φ(2t − k), (2.37)

onde f (k) s˜ao coeficientes de pondera¸c˜ao e a express˜ao ´e conhecida como equa¸c˜ao de refina-mento (ou eq. de dilata¸c˜ao). A fun¸c˜ao φ(t) ´e denominada fun¸c˜ao escala. Deve-se ressaltar que quando h´a aumento da escala r o intervalo de tempo de suporte ∆t diminui.

Podemos agora utilizar informa¸c˜oes que resultam da subtra¸c˜ao entre duas escalas re-presentada pela fun¸c˜ao w(t) pertencente a um subespa¸co W0:

0

1

t

W

0

Figura 2.7: Exemplo de fun¸c˜ao que representa a subtra¸c˜ao entre as fun¸c˜oes associadas aos subespa¸cos V1 e V0 da figura 2.6

´

E poss´ıvel observar que a fun¸c˜ao w(t), exemplo associado ao subespa¸co W0 na figura

2.7, conjuntamente com V0 pode gerar V1, avaliando a figura 2.6, da seguinte forma:

2φ(2t) − φ(t) = w(t), (2.38)

ou seja,

V1 = V0+ W0. (2.39)

Analogamente, se aumentarmos a resolu¸c˜ao, ´e poss´ıvel escrever V2 = V1+ W1 e,

subs-tituindo nesta express˜ao a equa¸c˜ao (2.39), observar que:

V2 = V0+ W0+ W1, (2.40)

onde podemos concluir que V0 refere-se a uma estrutura aproximada do sinal enquanto W0

e W1 s˜ao detalhes. Generalizando os resultados acima, tem-se:

VR+1= V0+ R

X

r=0

Wr. (2.41)

O subespa¸co Wr´e de natureza oscilat´oria pois expressa diferen¸cas, e na teoria de

trans-formadas os sinais pertencentes a este subespa¸co s˜ao denominados wavelets. Logo, ´e poss´ıvel obter, substitu´ındo a equa¸c˜ao (2.36) na equa¸c˜ao (2.38),

(57)

w(t) = φ(2t) − φ(2t − 1), (2.42) e generalizar para a seguinte express˜ao:

w(t) = 2X

k

g(k)φ(2t − k), (2.43)

que ´e denominada equa¸c˜ao wavelet [12]. 2.3.3 Wavelets

Para sinais de ´audio, as escalas musicais s˜ao essencialmente oitavas. A transformada wavelet opera fun¸c˜oes f (t) no tempo cont´ınuo e vetores x(n) no tempo discreto. Por isto, para entender os seus fundamentos ´e essencial utilizar as duas abordagens anteriores: a teoria da multirresolu¸c˜ao (em tempo cont´ınuo) e a teoria de bancos de filtros (em tempo discreto) [12]. Esta transformada baseia-se no produto interno de um sinal x(t) por uma base de fun¸c˜oes oscilantes wrk(t) localizadas em um determinado intervalo de tempo que

s˜ao escalonadas e deslocadas ao longo do eixo temporal:

ark = < x(t), φrk(t) > (2.44)

brk = < x(t), wrk(t) > (2.45)

onde r representa a escala, k representa o deslocamento, φrk(t) = φ(2rt − k), wrk =

w(2rt − k) s˜ao as vers˜oes escalonadas e deslocadas da fun¸c˜ao escala e de uma wavelet m˜ae w(t). Estas s˜ao equa¸c˜oes de an´alise que geram os coeficientes ark e brk. A principal

diferen¸ca entre a base de fun¸c˜oes da Transformada Wavelet e da Transformada de Fourier est´a no fato de que as wavelets s˜ao, na maioria das aplica¸c˜oes, de suporte compacto, isto ´e, restritas a um intervalo de tempo finito, enquanto a base de Fourier oscila infinitamente. Isto permite que a a transformada wavelet tenha boa capacidade de localizar eventos no tempo. Uma outra diferen¸ca vem do processo de representa¸c˜ao de um sinal em diversas escalas. Atrav´es do escalonamento das wavelets, o mesmo sinal pode ser visto com mais ou menos detalhes.

A partir da base de fun¸c˜oes de tempo cont´ınuo wrk(t), ´e poss´ıvel produzir:

x(t) =X

r,k

(58)

onde x(t) encontra-se expandido na base wavelet. Esta base de fun¸c˜oes ´e toda constru´ıda a partir de uma wavelet m˜ae. Esta, por sua vez, ´e um pequeno pulso que, em geral, se inicia no tempo t = 0 e finda no instante t = L.

Esta abordagem de projetar um sinal de interesse em uma determinada base de fun¸c˜oes em nada difere das transformadas de Fourier ou Laplace, por exemplo. Contudo, utilizando-se os resultados da an´alise de multirresolu¸c˜ao das equa¸c˜oes (2.37) e (2.43), percebe-se que uma wavelet m˜ae pode ser escrita em fun¸c˜ao de φ(t) (escala) desde que se conhe¸cam os coeficientes g(k). Por sua vez, definir a fun¸c˜ao escala significa conhecer os coeficientes f (k), sendo f (k) e g(k) coeficientes de filtros LPF e HPF, respectivamente. Desta forma, observando novamente a equa¸c˜ao (2.41), que indica que uma determinada escala pode ser expandida por outra escala adicionada de wavelets, ´e poss´ıvel comprovar que, em tempo discreto, realizar esta expans˜ao ´e inserir o sinal em um banco de filtros com a topologia indicada na figura 2.8, onde b0 e b1 s˜ao os vetores que representam os coeficientes wavelet

ou detalhes e o vetor a0 coeficientes escala ou aproxima¸c˜ao.

2 2 x(n) b1 b0 a0 V1 V0 V2 h0 h1 h0 h1 2 2

Figura 2.8: Banco de filtros discreto equivalente `a transformada wavelet com dois n´ıveis de resolu¸c˜ao

Finalmente, percebe-se que, para an´alise de sinais discretos, n˜ao h´a necessidade de de-finir as fun¸c˜oes φ(t) e w(t), e t˜ao somente de definir os coeficientes dos filtros adequados. V´arios tipos de filtros s˜ao poss´ıveis, mas, dentre estes, os mais interessantes s˜ao aqueles relacionados `a wavelets ortogonais e biortogonais que possuem suporte compacto (limitadas no tempo), ou seja, est˜ao associadas a um filtro FIR. Existem v´arias fam´ılias que atendem a estes crit´erios, como as Daubechies, Coiflets, Morlet e Haar (esta representada na figura 2.7) [13]. Contudo a Haar ´e a ´unica ortogonal que possui fase linear, uma propriedade de filtros FIR sim´etricos [11]. Apesar disto as coiflets s˜ao quase sim´etricas, e por isto, foram escolhidas como base para a an´alise do ´audio neste trabalho. Esta escolha foi corrobo-rada pelo desempenho apresentado por esta classe de wavelets em estudos de preserva¸c˜ao da energia para compress˜ao de ´audio [14] e pelo fato de que futuras implementa¸c˜oes em

Referências

Documentos relacionados

35 mercado de consumo tem o dever de responder pelos eventuais vícios ou defeitos dos bens e serviços fornecidos, independentemente de culpa” (FILHO, 2014, p. Essa teoria parte

Segundo Éric Laurent, a psicose ordinária se caracteriza pela não resposta aos significantes-mestres tradicionais, manifestando o fim do poder do Nome-do-Pai como

Seja P a função que ao número de anos decorridos desde 2014, n, faz correspon- der o preço a pagar pelo bilhete de época do F.. Em que ano um bilhete de época no Estádio de

F REQUÊNCIAS PRÓPRIAS E MODOS DE VIBRAÇÃO ( MÉTODO ANALÍTICO ) ... O RIENTAÇÃO PELAS EQUAÇÕES DE PROPAGAÇÃO DE VIBRAÇÕES ... P REVISÃO DOS VALORES MÁXIMOS DE PPV ...

Tal como em Cirurgia Geral, a duração do estágio de Medicina Interna é também ajustada, na medida em que me permitiu adquirir gradualmente mais confiança no

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

grandiflora por estaquia, foram avaliados dois ambientes (viveiro e ambiente / condições de ocorrência natural), assim como o efeito do hormônio de enraizamento, o ácido