da Fala Humana
Rumiko OishiStol
Trabalho Final de
Universidade Estadual de Campinas
Síntese e Re onhe imento
da Fala Humana
Rumiko Oishi Stol
Defendida em 31de outubro de 2006
Ban aExaminadora:
•
Prof. Dr. Fábio Violaro (Orientador)Fa uldade de Engenharia Elétri a e de Computação- UNICAMP
•
Prof. Dr. Carlos Alberto Ynoguti Instituto Na ionalde Tele omuni ações•
Prof. Dr. Neu imar Jernimo Leite Instituto de Computação- UNICAMPFICHA CATALOGRÁFICA ELABORADA PELA
BIBLIOTECA DO IMECC-UNICAMP
Bibliote ária: Miriam Cristina Alves CRB8a / 5094
Stol, RumikoOishi
St68s Síntese e re onhe imento dafala humana /RumikoOishi Stol
Campinas, [S.P.:s.n℄, 2006.
Orientadores: Fábio Violaro, AnamariaGomide.
Trabalho nal (mestrado prossional) Universidade Estadual de
Cam-pinas, Institutode Computação.
1. Sistemas de pro essamento da fala. 2. Pro essamento de sinais. 3.
Re onhe imento automáti o da voz. 4. Síntese da voz. I. Violato, Fábio.
II. Gomide, Anamaria. III. Universidade Estadual de Campinas, Instituto de
Computação. IV. Título.
Título em inglês: Synthesis and re ognition of human spee h
Palavras- haveem inglês(keywords): 1. Spee h pro essingsystems. 2. Signal pro essing. 3.
Automati spee h re ognition. 4. Voi e synthesis.
Áreade on entração: Engenharia de Computação
Titulação: Mestre emCiên ia daComputação
Ban aexaminadora: Prof. Dr. FábioViolaro(FEEC-UNICAMP)
Prof. Dr. CarlosAlberto Ynoguti (INATEL)
Prof. Dr. Neu imarJernimoLeite (IC-UNICAMP)
Prof. Dr. Alexandre XavierFal ão(IC-UNICAMP)
Este exemplar orreponde àredação naldo
Trabalho Final, devidamente orrigidoe
de-fendido por Rumiko Oishi Stol e
apro-vado pela Ban aExaminadora.
Campinas, SP,31 de outubro de 2006
Prof. Dr. Fábio Violaro
Orientador
Profa. Dra. AnamariaGomide
Co-orientadora
TrabalhoFinalapresentadoaoCursode
Pós-Graduação em Ciên ia da Computação da
Universidade Estadual de Campinas omo
requisitopar ialparaaobtençãodotítulode
Mestre em Ciên ia da Computação, na área
Rumiko Oishi Stol
Trabalho FinalEs rito defendido eaprovado em 31de outubro de 2006,pelaBan a
Exami-nadora omposta por:
Prof. Dr. Fábio Violaro (Orientador)
Fa uldade de Engenharia Elétri a e de Computação - UNICAMP
Prof. Dr. Carlos Alberto Ynoguti
Instituto Na ional de Tele omuni ações
Prof. Dr. Neu imar Jernimo Leite
TERMO DE APROVAÇÃO
Trabalho Final Escrito defendido e aprovado em 28 de Agosto de 2006, pela
Banca Examinadora composta pelos Professores Doutores:
PUC - Campinas
Prof. Dr. Rodolfo Jardim de Azevedo
IC- UNICAMP
Meus agrade imentos:
àminha mãe, pela pa iên ia, apoioe ompanhia;
ao meu esposo Jorge, pelo in entivo persistente, pelos valiosos es lare imentos
sobrepro essamentode sinais, epeloin omensurável apoioduranteaelaboração
desse trabalho: na onfe ção da maioria dos grá os, na disponibilização das
bibliote as de leiturae es ritade arquivosde áudio enaformataçãodotexto em
LaTeX;
ao Prof. Fábio, meu orientador, que in ansávelmente sempre esteve disposto a
eder oseu tempo, auxiliando-me om valiosassugestões;
aos oordenadores do MP, em espe ial ao Prof. Alexandre, pela sua pa iên ia e
ompreensão, e pela on essão de bolsa par ial;
à Profa.AnamariaGomide, porestar sempre disposta a meso orrer;
aos analistas do IC CarlosFroldi e Éri Ostroski, por instalarem ossoftwares de
Resumo
O objetivo deste trabalho é apresentar uma revisão dos prin ipais on eitos e métodos
en-volvidosnasíntese, pro essamento ere onhe imentodafalahumanapor omputador. Estas
te nologiastêm inúmerasapli ações,que têmaumentado substan ialmentenosúltimos anos
omapopularizaçãodeequipamentosde omuni açãoportáteis( elulares,laptops,palmtops)
e auniversalização da Internet.
A primeira parte deste trabalho é uma revisão dos on eitos bási os de pro essamento
de sinais, in luindo transformada de Fourier, espe tro de potên ia e espe trograma, ltros,
digitalizaçãode sinais, eo teoremade Nyquist.
A segunda parte des reve as prin ipais ara terísti as da fala humana, os me anismos
envolvidos em sua produção e per epção, e o on eito de fone(unidade lingüísti ade som).
Nessapartetambémdes revemosbrevementeasprin ipaisté ni asparaa onversão
ortográ a-fonéti a,paraasíntese defalaapartirdades rição fonéti a,eparaore onhe imentodafala
natural.
Ater eirapartedes reveumprojetopráti oquedesenvolvemos para onsolidaros
onhe- imentos adquiridos neste mestrado: um programa que gera anções populares japonesas a
partirde umades riçãotextual daletra emúsi a,usandoométodode síntese on atenativa.
The goal of this dissertation is to review the main on epts relating to the synthesis,
pro- essing, and re ognition of human spee h by omputer. These te hnologies have many
ap-pli ations, whi h have in reased substantially in re ent years after the spread of portable
ommuni ation equipment (mobile phones, laptops, palmtops) and the universal a ess to
the Internet.
The rst part of this work is arevision of fundamental on epts of signal pro essing,
in- ludingtheFouriertransform,powerspe trumandspe trogram,lters, signaldigitalization,
and Nyquist's theorem.
The se ond part des ribes the main hara teristi s of human spee h, the me hanisms
involvedinitsprodu tionandper eption,andthe on eptofphone(linguisti unitofsound).
In this part we also briey des ribe the main te hniques used for orthographi -phoneti
trans ription, for spee h synthesis from a phoneti des ription, and for the re ognition of
naturalspee h.
The third part des ribes a pra ti al proje t we developed to onsolidate the knowledge
a quired in our Masters studies: a program that generates Japanese popular songs from a
textual des ription of the lyri sand musi , using the on atenative synthesis method.
At the end of this dissertation, we list some available software produ ts (free and
Resumo xiii
Abstra t xiv
1 Introdução 1
1.1 Estrutura damonograa . . . 2
I Elementos de Pro essamento de Sinais 5 2 Análise de sinais 7 2.1 Sinais analógi os . . . 7
2.2 Operações om sinais . . . 8
2.2.1 Ampli ação ouatenuação . . . 8 2.2.2 Deslo amento . . . 9 2.2.3 Expansão ou ontração . . . 9 2.2.4 Convolução . . . 9 2.3 Sinais periódi os . . . 10 2.3.1 Senóides . . . 10 3 A transformada de Fourier 13 3.1 De omposição em senóides . . . 13
3.2 Análise de Fourier omplexa . . . 14
3.3 Transformada de Fourier . . . 15
3.4 Propriedadesda transformada de Fourier . . . 15
Linearidade . . . 15
Expansão/Contração . . . 16
Deslo amento . . . 16
Teoremada energia(de Rayleigh) . . . 16
Produto/Convolução . . . 16
3.5 Espe tro de potên ia . . . 16
3.6 Espe trograma . . . 17
3.7 Funções de janelamento . . . 19
4 Filtros 21 4.1 Filtroslineares einvariantes om otempo . . . 21
4.2 Filtrospara sinais omplexos. . . 22
4.3 Funçãode transferên ia. . . 22 4.4 Filtrosimportantes . . . 23 Passa-baixas . . . 23 Passa-altas . . . 24 Passa-banda . . . 25 Ressonador. . . 25
Anti-ressonador (not hlter) . . . 26
5 Pro essamento digital de sinais 27 5.1 Introdução . . . 27
5.2 Digitalização. . . 28
5.3.2 Pré-Filtragem . . . 30
5.4 Condiçõespara boaquantização . . . 31
5.4.1 Espaçamento dos valores . . . 31
5.4.2 Al an e dos valores . . . 31
5.4.3 Número de bits . . . 32
5.4.4 Es olha dos valores . . . 32
5.4.5 Digitalização omo ltragem . . . 34
5.4.6 Digitalizaçãonapráti a . . . 35
5.5 Re onstrução . . . 37
5.5.1 Re onstrução omo ltragem. . . 37
5.5.2 Re onstruçãona práti a . . . 39
5.6 Análise de Fourier dis reta . . . 40
5.6.1 Série de Fourier . . . 40
5.6.2 Série de Fourier omplexa . . . 41
5.7 Transformada dis retade Fourier . . . 42
5.7.1 Transformada rápida de Fourier . . . 45
5.8 Transformada Z . . . 45
5.8.1 Propriedades datransformada Z . . . 46
5.9 Filtrosdigitais. . . 46
5.9.1 Filtrode predição linear . . . 47
II A Fala Humana 49 6 Som, Audição e Fala 51 6.1 Naturezado som . . . 51
6.2 Pro essamentode som . . . 52
6.3 Sistemaauditivohumano. . . 53
6.3.1 Per epção dosom . . . 53
6.4 Produçãoda vozhumana. . . 55
6.4.1 Otrato vo al . . . 56
6.4.2 As pregas vo ais . . . 56
6.4.3 Arti ulação . . . 57
6.4.4 Fonemase Fones . . . 57
6.5 Osfones dalíngua portuguesa . . . 59
6.6 Cara terísti as per eptuais davoz humana . . . 60
Volume . . . 61
Altura . . . 61
Timbre . . . 62
Duração . . . 63
7 O espe tro da fala humana 65 7.1 Sons primordiais . . . 66 7.1.1 Vozlaringeal . . . 66 7.1.2 Sons fri ativos . . . 67 7.1.3 Plosivos . . . 67 7.1.4 Vibrantes . . . 68 7.2 Formantes . . . 68
III Pro essamento de Fala 73
Mensagens por telefone . . . 75
Leitura durantetrabalho . . . 75
De ientes visuais . . . 76 Edu ação. . . 76 8.2 Estrutura . . . 76 8.2.1 Pré-pro essador . . . 77 8.2.2 Conversor ortográ o-fonéti o . . . 77 8.2.3 Pro essador prosódi o . . . 78
8.3 O onversor Natural Voi es . . . 79
8.4 O onversor Aiuruetê . . . 80
8.4.1 O onversor ortográ o-fonéti o Ortofon . . . 81
8.5 Históri o . . . 81
9 Síntese de Fala 83 9.1 Apli ações . . . 84
Tele omuni ações . . . 84
De ientes vo ais e auditivos . . . 84
Serviços portelefone . . . 84
Apli açõesautomotivas . . . 84 9.2 Síntese Con atenativa . . . 85 9.2.1 Con atenação suave. . . 87 9.2.2 Ajuste de duração. . . 88 9.2.3 OmétodoPSOLA . . . 89 9.2.4 Ajuste de altura . . . 91
9.3 Síntese porltragem . . . 92
9.3.3 Síntese por predição linear . . . 96
9.3.4 Determinação dos parâmetros . . . 96
9.3.5 Odi ionáriofalado Speak-n-Spell . . . 98
9.4 Síntese arti ulatória. . . 98
9.5 Síntese baseada em adeias de Markov . . . 99
9.5.1 Cadeiasde Markov gerais . . . .100
9.5.2 Modelos de Markov parapalavras isoladas . . . .101
9.6 Con lusões. . . .102
10 Re onhe imento de fala 103 10.1 Apli ações . . . .103
Ditado . . . .104
Telefonia . . . .104
Pro essamento de do umentos falados . . . .104
Comando eControle . . . .104
Edu ação . . . .104
Apoioa de ientes físi os . . . .105
10.2 Tiposde Re onhe edores . . . .105 10.2.1 Tamanhodo vo abulário . . . .105 10.2.2 Pre isão . . . .105 10.2.3 Natureza daelo ução . . . .106 10.2.4 Dependên ia de lo utor. . . .106 10.2.5 Assunto . . . .106
10.3 Té ni as para re onhe imentoda Fala . . . .107
10.3.1 Redes neurais naturais . . . .108
10.3.4 SistemasHíbridos . . . .112
10.4 Históri o . . . .112
IV Projeto práti o 115 11 O Projeto kara at 117 11.1 Introdução . . . .117
11.2 Estrutura doprograma . . . .118
11.3 Resumoda fonéti a doidiomajaponês . . . .119
11.3.1 Fones dalíngua japonesa . . . .119
11.3.2 Sílabas dalíngua japonesa . . . .120
11.3.3 Ortograa japonesa . . . .121
11.3.4 Fni adas ançõespopularesjaponesas . . . .121
11.3.5 Criaçãodo di ionáriode sons . . . .122
11.3.6 Leitura esegmentação do di ionário. . . .123
11.3.7 Formatodo arquivo da anção . . . .125
11.4 Ajustede duração . . . .125
11.4.1 Es olha domiolo . . . .126
11.4.2 Sin ronizaçãodos ortes . . . .127
11.4.3 Con atenação om ajustede volume . . . .128
11.4.4 Ajuste dovolumena on atenação . . . .129
11.5 Resultados . . . .130
11.6 Con lusõese trabalhos futuros . . . .130
A Produtos de síntese de fala 133 A.0.1 Produtos Livres . . . .133
Cybertalk . . . .134 Festival . . . .134 Flite (Festival-lite) . . . .134 Epos . . . .134 Gnuspee h . . . .134 Free TTS. . . .134
HMM-BasedSpee h Synthesis System (HTS) . . . .134
Klatt-styleSystem . . . .135
A.0.2 Produtos Comer iais . . . .135
NaturalVoi es . . . .135 Elan Sayso . . . .135 De Talk . . . .135 A ulab Prosody TTS . . . .135 Laureate . . . .135 CNET PSOLA . . . .135 RealSpeak. . . .136 Voi eTex . . . .136 FlexVoi e . . . .136 SoftVoi e . . . .136 ORATOR . . . .136 FAAST . . . .136 FonixDe Talk . . . .136 Lernout&Hauspie . . . .136
HADIFIX (HAlbsilben,DIphone, sufFIXe) . . . .137
SPRUCE(Spee h Response fromUnConstrained English). . . .137
rVoi e . . . .137
Bestspee h . . . .137
Vo aloid . . . .137
A apela . . . .138
B Produtos de re onhe imento de fala 139 B.0.3 Produtos Livres . . . .139
XVoi e . . . .139
Voi e Control/kVoi e Control . . . .139
gVoi e . . . .139
Kit ISIP . . . .140
Sphinx . . . .140
NICO ANN toolkit . . . .140
Myers' Hidden Markov ModelSoftware . . . .140
Hidden Markov ToolKit (HTK) . . . .140
B.0.4 Produtos Comer ializados . . . .140
ViaVoi e . . . .140
Vo alis Spee hware . . . .141
Spee hWorks . . . .141
Dragon Naturally Speaking . . . .141
Spee hMagi . . . .141
1.1 Comuni ação homem-máquina por interfa e de voz, na visão de Carl Barks
(1958). . . 1
2.1 Propagação das ondas sonoraspeloar. . . 7
2.2 Uma senóide de freqüên ia
f = 4
Hz, deslo amento de faseθ = π/6
, e ampli-tudeM = 3
. . . 103.1 Umasenóide omplexa omfreqüên ia
f = 4
Hzeamplitude omplexaC = 2+3i
. 14 3.2 Transformada de Fourier e espe tro de potên ia. . . 173.3 Espe trograma. . . 18
3.4 Funçãode janelamentoretangular para o intervalo
[−3, +3]
. . . 193.5 Funçãode janelamentode Hann para o intervalo
[−a, +a] = [−3, +3]
. . . 194.1 Funçãode transferên ia típi ade um ltro passa-baixas om
f
max
= 300
Hz. . 244.2 Funçãode transferên ia típi ade um ltro passa-altas om
f
min
= 300
Hz. . . 244.3 Função de transferên ia típi a de um ltro passa-banda om
f
min
= 200
Hz,f
max
= 400
Hz. . . 254.4 Funçãode transferên ia típi ade um ressonador om
f
med
= 300
Hz. . . 254.5 Funçãode transferên ia típi ade um anti-ressonador om
f
med
= 300
Hz. . . . 265.1 Digitalizaçãode um sinal analógi o. . . 29
5.2 A orrespondên ia entre o ódigo numéri o
i
e o respe tivo valor do sinalv
i
noesquema de odi ação leiµ
para 8bits (µ = 255
). . . 335.3 Esquema on eitual dadigitalizaçãovista omo ltragem.. . . 34
5.4 Esquema de blo os de um onversor analógi o-digitaltípi o. . . 35
5.5 Um sinal analógi o (linha tra ejada) e a saída do ir uito sample-and-hold
(linha heia). . . 36
5.6 Esquema dare onstrução de um sinal digital vista omo ltragem. . . 37
5.7 A função
sinc(t)
. . . 38 5.8 Umsinal dis reto (pontos) e sua re onstrução retangular(linhas). . . 395.9 Série de Fourier.. . . 41
5.10 Série dis retade Fourier. . . 42
5.11 TDF de um sinal não periódi o om janelamento retangular. . . 43
5.12 TDF de um sinal não periódi o om janelamento de Hann. . . 44
6.1 Osistema auditivohumano. . . 53
6.2 Variação da pressão em função do tempo, para vários sons produzidos pelo
homem. . . 55
6.3 Visãose ionada da abeça mostrando o trato vo al. . . 56
6.4 Formadeondadosom`rr'(Ralveolarvibrado)doportuguês,pronun iadode
maneira ontínua. . . 58
6.5 Forma de onda dapalavra tia. . . 59
6.6 Forma de onda davogal/a/ pronun iada om volumes diferentes. . . 61
6.7 Forma de onda davogal/a/ pronun iada emduas alturas diferentes. . . 61
6.8 Forma de onda davogal /a/ pronun iada namesma altura por duas pessoas
diferentes. . . 62
6.9 Formadeondadevogaisdiferentespronun iadaspelamesmapessoanamesma
altura. . . 63
6.10 Forma de onda das palavras doidiomajaponês obasan e ob asan. . . 63
7.1 Osom primordial produzido pelas pregas vo ais. . . 66
7.4 Espe trogramasdas vogais, sons nasaise sons laterais doportuguês. . . 69
7.5 Espe trogramasdos sons fri ativos doportuguês. . . 70
8.1 Esquema simpli adode um sistema de onversão texto-fala. . . 76
8.2 Osistema Natural Voi es daLu ent Te hnologies. . . 79
8.3 Esquema do onversor texto-fala Aiuruetê. . . 80
8.4 Exemplo datrans rição fonéti a dosistema Aiuruetê. . . 81
9.1 Esquema dométodode síntese on atenativa. . . 85
9.2 Con atenação de duas unidades de fala porsimples justaposição. . . 87
9.3 Con atenação suave de duas unidades de fala. . . 88
9.4 De omposição de um sinal de voz em sinais elementares, pelo método
TD-PSOLA. . . 89
9.5 Aumento daduração de um sinal de voz por dupli açãode sinais elementares. 90
9.6 Reduçãoda duração de um sinal de voz por omissãode sinais elementares. . . 90
9.7 Reduçãoda freqüên iafundamental de um sinal. . . 91
9.8 Aumento dafreqüên ia fundamentalde um sinal. . . 91
9.9 Modelo simpli ado de síntese da falaporltragem. . . 92
9.10 Osressonadores de Kratzenstein (1779). . . 93
9.11 Osintetizador de fala Voder de Dudley (1939).. . . 94
9.12 Esquema de um sistema de síntese utilizandoltrode predição linear. . . 96
9.13 Exemplo de uma adeia de Markov. . . .100
9.14 Exemplo de uma adeia de Markov usada para modelar uma palavrafalada. .101
10.1 Estruturatípi asimpli adade umsistemade re onhe imentodefala[51,53,
76℄. . . .107
10.4 Ilustração de um sistema de re onhe imento de fala baseado em adeias de
Markov. . . .111
11.1 Esquema de blo os do programa kara at. . . .118
11.2 Umverso da ançãopopular Bash ofu.. . . .122
11.3 Outroverso da ançãoBash ofu. . . .122
11.4 Grá odapressãopara asílabama, antada em11alturasdistintas(deG3a
C5). . . .123
11.5 Exemplo de arquivo de segmentação
h
sílabai
.pi . . . .124 11.6 Exemplo de arquivo de ançãoh
títuloi
.kar. . . .125 11.7 En olhendo uma sílaba. . . .12611.8 Alongandouma sílaba. . . .127
6.1 Osfones dalíngua portuguesa, na lassi ação doLAFAPE/IEL/UNICAMP. . 60
11.1 Osfones dalíngua japonesa. . . .119
Introdução
Nosso objetivo neste trabalhoé apresentar uma revisão dos prin ipaisprin ípios envolvidos
na síntese, pro essamento e re onhe imento da fala humana por omputador. Des revemos
também o projeto experimental um sintetizador de anções populares japonesas que
desenvolvemos node orrer de nossos estudos.
A ne essidade da interação do homem om a máquina através da fala já era evidente
desdeoiní iodaera da omputação[20℄. A gura1.1dáuma idéiadas expe tativasnonal
dadé ada de 1950 [6, 7℄.
Em1968,nolme2001 UmaOdisséianoEspaço,ArthurC. ClarkeeStanleyKubri k[13,
14℄ idealizaram o omputador HAL 9000 omo sendo apaz de onversar. Esse lme fez
a reditar que omuni ação verbal entre o homem e o omputador não só era possível, mas
seria realidade muito em breve.
Entretanto,essasprevisõessemostraramotimistas. Éverdadequeate nologiadesíntese
de falaavançou onsideravelmente,atalpontoqueafalaarti ialhojeéquaseindistinguível
da fala natural. Contudo o re onhe imentoda fala humana ainda tem um longo aminhoà
frente, devido à omplexidade dalinguagem natural.
As pesquisas mal omeçam a unir síntese om re onhe imento de fala, objetivando
apli- ações omo tradução em tempo real e interfa es amigáveis homem- omputador. A
po-pularização de equipamentos de omuni ação portáteis ( elulares, laptops, palmtops) e a
universalização da Internet aumentaram onsideravelmente o poten ial de apli ação destas
te nologias.
1.1 Estrutura da monograa
Orestantedestetrabalhoestá divididoemtrêspartes. AparteIéumarevisãodos prin ipais
on eitos de pro essamento de sinais:
•
Capítulo 2: Apresentaosprin ipaiselementosdateoriade sinais ontínuos, in luindoos on eitos de expansão, deslo amento, onvolução, e sinais periódi os
•
Capítulo 3: Revê os on eitos de transformada de Fourier, espe tro de potên ia eespe trograma para sinais analógi os,e o on eito de função de janelamento.
•
Capítulo 5: Trata do pro essamento digital de sinais, introduzindo os on eitos deamostragem, quantização, e re onstrução. Des reve as prin ipais ondições para
digi-talização de qualidade, in luindo o teorema da amostragem de Nyquist. Introduz os
on eitos de transformadadis reta de Fourier e transformadaZ.
AparteII apresentaas ara terísti asdafalahumana,edes reve osprin ipaismétodos para
onversão texto-fala ere onhe imento dafala natural:
•
Capítulo6: Dis orresobreanaturezadosomemgeraledafalahumanaemparti ular,des revendo os órgãos responsáveis pela produção da fala (trato vo al), sua aptação
(sistemaauditivo),e os me anismosfísi os orrespondentes.
•
Capítulo 7: Introduz o on eito de fone (unidade elementar da fala) e suasara te-rísti as analíti as, in luindo espe tro dos sons primordiais prin ipais e dos prin ipais
tipos de fones. Introduz o on eito de formantes (pi os no espe tro de potên ia que
ara terizam ertos fones).
•
Capítulo 8: Des reve as prin ipais ara terísti as e apli ações de sistemas deon-versão texto-fala, in luindosua estrutura geral e as prin ipaisdi uldades e soluções.
Apresenta uma relaçãodos diferentes fonesda línguaportuguesa.
•
Capítulo 9: Apresenta as prin ipais apli ações e te nologias para síntese da falahu-mana: síntese on atenativa,sínteseporformantes,esimulaçãoarti ulatória. Des reve
emparti ularomodelofonte-ltrobaseadoemformantes(ban osderessonadores)eem
ltrosdeprediçãolinear(LPC).Des revetambématé ni aPSOLA para on atenação
suave de segmentosde falae sua variaçãode duração efreqüên ia de pit h.
•
Capítulo 10: Enumera as prin ipais apli ações para sistemas de re onhe imento dafala humana, e lassi a as mesmassegundo vários atributos. Des reve brevemente as
A parte III des reve um projeto práti o desenvolvido para onsolidar os onhe imentos
ad-quiridos neste mestrado:
•
Capítulo11: Des reveosistemaqueimplementamos,batizadokara at,quesintetizaanções popularesjaponesas,usando o modelo de síntese on atenativa.
Finalmente,nos Apêndi es, listamosalgunssoftwares disponíveis(livrese omer iais) para
Análise de sinais
2.1 Sinais analógi os
O som é uma deformação de um meio elásti o (por exemplo, uma variação da densidade e
pressão do ar,ou da tensão e deformação de um sólido) que se propaga na formade ondas.
Uma grandeza físi a que varia om o tempo, omo a pressão do ar em um determinado
ponto de uma onda sonora, pode ser des rita por um sinal analógi o: uma função real
s
(pressão, orrente, tensão, deslo amento, et .) de uma variável realt
(tempo) om asseguintes ara terísti as: (1) é uma função ontínua, e (2) em qualquer intervalo de tempo,
a integraldo quadradodessa função énita.
Estas propriedades valem naturalmente para o som, pois: (1) a pressão varia de forma
ontínua, uma vez que as partes móveis da fonte sonora não podem se mover a velo idade
innita; e (2) a integral do quadrado da pressão é propor ional à energia emitida na forma
de som, que é ne essariamentenita.
2.2 Operações om sinais
Sinais podem ser matemati amente ombinados om as operações de soma, subtração,
pro-duto, et . Nesses asos entende-se que a operação é apli ada a valores tomados no mesmo
instante. Por exemplo, a soma de um sinal
f
e um sinalg
é um sinalh = f + g
tal queh(t) = f (t) + g(t)
para todoinstantet
.Outrasoperações omsinais,importantesparapro essamentodesom,sãoaampli ação,
o deslo amento,a expansão, ea onvolução.
2.2.1 Ampli ação ou atenuação
A ampli ação ou atenuação de um sinal
f
por um fator realα
produz um sinalg
tal queg(t) = αf (t)
para todot
. Obviamente, quandoα = 1
o resultado é o próprio sinalf
, equando
α = 0
o resultado é o sinal nulo(que valezero para todo instantet
).Esta operaçãomultipli aaamplitudedosinalpor
|α|
. Onomeampli ação égeralmente usado quandoα > 1
,e atenuação quando|α| < 1
.2.2.2 Deslo amento
Odeslo amento de umsinal
f
porum tempoxoτ
produz umsinalg
talqueg(t + τ ) = f (t)
para todo instantet
. Isso equivale a dizer queg(t) = f (t − τ)
para todo instantet
. Ou seja, o resultadog
éigual aosinalf
, ex eto que atrasadopelotempoτ
(ou adiantado, seτ
é negativo).2.2.3 Expansão ou ontração
A expansão ou ontração de um sinal
f
por um fator realα 6= 0
produz um sinalg
tal queg(αt) = f (t)
para todoinstantet
. Isso equivaleadizer queg(t) = f (t/α)
para todoinstantet
. O nomeexpansão é mais apropriado quandoα > 1
, e ontração quandoα < 1
.2.2.4 Convolução
A onvolução de duas funções
f
eg
, es ritaf ∗ g
, édenida pelafórmula(f ∗ g)(t) =
Z
∞
−∞
f (τ )g(t − τ) dτ
(2.1)
ou seja, o valor da função
f ∗ g
num instantet
é uma ombinação linear dos valores def
em todos os instantesτ
, ponderados pelos valoresg(t − τ)
. Mostra-se que a onvolução é omutativa (f ∗ g = g ∗ f
) e asso iativa (f ∗ (g ∗ h) = (f ∗ g) ∗ h
).O elemento-identidade da onvolução é a função impulso unitário ou função de Dira ,
denotada por
δ
. Por denição,δ ∗ f = f
para qualquer sinalf
. De orre desta denição queδ(t)
é zero para todot 6= 0
, mas tem integral unitária em qualquer intervalo que ontenhat = 0
. Portantoδ
nãoépropriamenteumafunçãoreal,maspodeser entendida omoolimitedeumaseqüên iadefunçõesreais ontínuas
f
1
, f
2
, . . . , f
n
,onde adaf
i
temintegralunitária, e énulaforade um intervaloJ
i
, que ontém 0 e ujalargura tendea zero.2.3 Sinais periódi os
Dizemosqueumsinalanalógi o
s
éperiódi o seeleserepeteindenidamente:s(t+T ) = s(t)
, para algumT > 0
epara todot
.O menor valor positivo
T
que satisfaz esta ondição é hamado de período fundamental dosinal, equalquer tre hodosinal om duraçãoT
é um i lo. A freqüên ia fundamental de um sinal periódi oéo númerof = 1/T
de períodos fundamentais(ou i los)porunidade de tempo. Aunidade SIdefreqüên ia,1
i lo porsegundo, édenominadahertz eabreviadaHz.2.3.1 Senóides
Os exemplos lássi os de sinais periódi os são as funções seno e osseno (
sen t
ecos t
), que tem período2π
. Elas são asos parti ulares de senóides, funçõesda formas(t) = M sen(2πf t − θ)
(2.2)onde
M
,θ
,ef
são númerosreaisarbitrários. OparâmetroM
éaamplitude(ovalormáximo) dasenóide, ef
ésua freqüên ia. Oparâmetroθ
éo deslo amento de fase dasenóide. Veja a gura 2.2.-3
-2
-1
0
1
2
3
0
0.2
0.4
0.6
0.8
1
t (segundos)
Figura 2.2: Uma senóide de freqüên ia
f = 4
Hz, deslo amento de faseθ = π/6
, e amplitudeM = 3
.Emparti ular,afunção osseno
cos(2πf t) = sen(2πf t+π/2)
éumasenóide omfreqüên iaf, amplitude1,edeslo amentodefaseπ/2
. Maisgeneri amente, afunção (2.2)podeser es ritatambém omo uma ombinaçãolinear de
sen(t)
ecos(t)
, ontraídos pelo fator1/(2πf )
:M sen(2πf t − θ) = A cos 2πft + B sen 2πft
(2.3)onde
A = −M sen θ
eB = M cos θ
(eportantoM =
√
A
2
+ B
2
).
Se
f
é zero, a função (2.2) tem valor onstanteA = −M sen θ
; aso ontrário ela é uma função periódi a, om freqüên ia fundamentalf
e período fundamentalT = 1/f
. Deve-se observar que uma senóide de amplitudeM
, freqüên iaf
e deslo amento de faseθ
também pode ser vista omo tendoamplitude−M
, freqüên ia−f
e deslo amentode fase−θ
.A transformada de Fourier
Uma ferramenta essen ial para o estudo de sinais analógi os é a teoria de Fourier, ujos
on eitos prin ipaisdes revemos aseguir. Omitiremosdetalhes edemonstrações, quepodem
ser en ontradas em qualquer livrotexto sobre oassunto [10℄.
3.1 De omposição em senóides
A teoria de Fourier diz que todo sinal analógi o, não ne essariamente periódi o, pode ser
analisado omouma ombinaçãolinearde innitassenóidesdetodasasfreqüên iaspossíveis,
positivas ou nulas [10℄. Usando a fórmula (2.3), esta armação equivale a dizer que, para
todo sinal
s(t)
, existemfunçõesA(f )
eB(f )
taisques(t) =
Z
∞
0
(A(f ) cos 2πf t + B(f ) sen 2πf t) df
(3.1)Osfatores
A(f )
eB(f )
representam asamplitudes dossinaiscos 2πf t
esen 2πf t
,respe tiv a-mente, que, na análisede Fourier, ontribuempara o sinals
. Cada senóideA(f ) cos 2πf t +
3.2 Análise de Fourier omplexa
As fórmulas da análise de Fourier am muito mais simples se trabalharmos om números
omplexos.
Denimos uma senóide omplexa omo sendo qualquer função daforma
Ce
i2πf t
, onde
C
é algum número omplexo,f
algum número real (a freqüên ia), ei
a unidade imaginária,i
=
√
−1
. Veja a gura3.1. Osigni ado desta fórmulaé dado pelaidentidade de Euler:e
iθ
= cos θ + i sen θ
(3.2)
-4
-3
-2
-1
0
1
2
3
4
0
0.2
0.4
0.6
0.8
1
Figura 3.1: Uma senóide omplexa om freqüên ia
f = 4
Hz e amplitude omplexaC = 2 + 3i
. A parte real da função é a linha heia, a parte imaginária é a linha tra ejada.Esta identidade permite es rever qualquer senóide de freqüên ia
f
omo a soma de duas senóides omplexas:A(f ) cos 2πf t + B(f ) sen 2πf t = S(f )e
i2πf t
+ S(−f)e
i2π(−f )t
(3.3) onde
S(f ) =
1
2
(A(f ) − iB(f))
sef > 0,
1
2
(A(−f) + iB(−f))
sef < 0.
(3.4)Portanto, podemos re-es rever aequação (3.1) omo
s(t) =
Z
∞
−∞
Ou seja, todosinal pode ser analisado omo uma ombinação linear de senóides omplexas
e
i2πf t
, de todas as freqüên ias possíveis (positivase negativas), ada qual om determinado
oe iente
S(f )
.3.3 Transformada de Fourier
Veri a-se que afunção
S
dafórmula (3.5) pode ser al ulada pelafórmulaS(f ) =
Z
∞
−∞
s(t)e
−i2πft
dt
(3.6)Afunção
S
é hamadadetransformadadeFourierdosinals
. Afórmula(3.5),quere uperaa funçãooriginals
apartirdatransformadaS
,é hamadadetransformadainversa deFourier.A teoria de Fourier nos permite representar o mesmo sinal físi o de duas maneiras, no
domínio do tempo (afunção
s
)e nodomínio da freqüên ia (afunçãoS
). A transformadade Fourier esua inversa realizama passagem de um domínio para ooutro.Cada operação om sinais realizável num domínio possui uma operação equivalente no
outrodomínio. Porém, ertasoperaçõessãovisualizadasoumesmoefetuadasmaisfa ilmente
num domínio doque nooutro.
3.4 Propriedades da transformada de Fourier
Seguem-sealgumaspropriedadesimportantesdatransformadadeFourier. Sejam
s, u, v
sinais analógi os om transformadasS, U, V
, e sejamα, β
onstantes reais.vi e-Expansão/Contração: Se
s(t) = u(αt)
, entãoS(f ) = U(f /α)/ |α|
. Ou seja, se osinal é en olhido notempo,sua transformada expandeem freqüên iae diminuiemamplitude.Deslo amento: Se
s(t) = u(t − α)
, entãoS(f ) = e
−i2παf
U(f )
. Ou seja, o deslo amento
de um sinal notemponão altera o módulo
|S(f)|
de sua transformada, mas apenas altera o deslo amentode fasede ada omponente, propor ionalmenteà sua freqüên ia.Teorema da energia (de Rayleigh): Para todosinal
s
, tem-seZ
+∞
−∞
|s(t)|
2
dt =
Z
+∞
−∞
|S(f)|
2
df
(3.7)Ouseja,aenergiatotaldosinalpodeser al uladapelamesmafórmula(integraldoquadrado
dafunção), tantono domíniodo tempo, quanto nodomínio dafreqüên ia.
Produto/Convolução: Se
s(t) = u(t)v(t)
para todot
, entãoS = U ∗ V
. Ses = u ∗ v
, entãoS(f ) = U(f )V (f )
, para todof
. Ou seja, a onvoluçãode duas funções nodomíniodo tempoequivaleao produto pontoa ponto nodomínioda freqüên ia,e vi e-versa.3.5 Espe tro de potên ia
Oespe tro de densidade de potên ia de um sinal
s
é afunçãoˆ
S(f ) = |S(f)|
2
+ |S(−f)|
2
(3.8)denidapara
f ≥ 0
,ondeS
éatransformadadeFourierdes
. Informalmente,ovalordeS(f )
ˆ
é aenergia das omponentes do sinals
que possuem freqüên ia±f
. Veja a gura 3.2(d).Valeobservarquemuitos autorespreferemtrabalhar om oespe trobilateralde potên ia,
˜
S(f ) = |S(f)|
2
, denido para todof
real, positivo e negativo. Veja a gura 3.2( ).Entre-tanto,oespe trobilateraldeumsinalanalógi orealésempresimétri o(
|S(−f)|
2
= |S(f)|
2
),(a)
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
-5
-4
-3
-2
-1
0
1
2
3
4
5
t (segundos)
(b)-0.4
-0.2
0.0
0.2
0.4
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
f (hertz)
( )0.0
0.1
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
f (hertz)
(d)0.0
0.1
0.2
0.3
0
1
2
3
4
5
6
7
8
f (hertz)
Figura 3.2: Transformada de Fourier e espe tro de potên ia. (a) o sinal
analó-gi o
s(t) = 2 cos(10π(t − 1)) exp(−(t − 1)
2
/4)
; (b) sua transformada de Fourier
S(f ) = (
√
π/5)(e
−2π
2
(f +5)
2
+ e
−2π
2
(f −5)
2
)(e
−i2πf
)
; ( ) seu espe tro bilateral de
po-tên ia
S(f ) = (π/25)(e
˜
−2π
2
(f +5)
2
+ e
−2π
2
(f −5)
2
)
2
; (d) seu espe tro (unilateral) de
potên ia
S(f ) = (2π/25)(e
ˆ
−2π
2
(f +5)
2
+ e
−2π
2
(f −5)
2
)
2
. 3.6 Espe trogramaOespe trograma éumarepresentaçãodeumsinalanalógi ointermediáriaentreodomíniodo
tempo e o domínioda freqüên ia. Para onstruir o espe trograma de um sinal
s
, es olhe-se uma função de janelamentoh
. Esta função deve ser um sinal analógi o ujo valorh(t)
é positivo quandot
está dentro de determinado intervalo(−a, +a)
, e zero para todot
foradesse intervalo. Comesta es olha,o espe trograma de
s
éa funçãoS
ˆ
de duas variáveist, f
, denida porˆ
S(t, f ) = |S(t, f)|
2
+ |S(t, −f)|
2
(3.9) ondeS(t, f ) =
Z
∞
−∞
s(t + u)h(u)e
−i2πfu
du
(3.10)Ou seja, para ada instante
t
, onstrói-se um sinal que é um extrato des
, restrito ao intervalo de tempo[t − a, t + a]
e deslo ado de modo a olo ar o entro desse intervalo no instante 0. Isto é, onstrói-se afunçãor
talquer(u) = s(t + u)h(u)
paratodou
. SejaentãoR
a transformada de Fourier do sinalr
, eR
ˆ
seu espe tro de potên ia. Temos então queS(t, f ) = R(f )
eS(t, f ) = ˆ
ˆ
R(f )
para ada freqüên iaf
.O valorde
S(τ, f )
ˆ
mede portanto aenergiadas omponentes de freqüên ia±f
que estão presentes notre ho dosinals
restritoaointervalode tempo[τ − a, τ + a]
. Veja agura 3.3.-1
-0.5
0
0.5
1
-4
-2
0
2
4
t (segundos)
160Hz−
0Hz−
Figura 3.3: Espe trograma. Grá o de um sinal analógi o
s
(no alto) e seu es-pe trogramaS(t, f )
ˆ
, representado omo uma imagem bidimensional, onde o eixo horizontal é otempot
, eo eixo verti al é a freqüên iaf
. Tons mais es uros repre-sentam valores maioresdeS(t, f )
ˆ
.Oespe trograma éuma ferramenta muito útilnaanálise de sinais ujoespe tro de potên ia
3.7 Funções de janelamento
A função de janelamento
h(t)
mais simples é a janela retangular, que vale1
se−a < t < a
, e 0 aso ontrário. Veja a gura 3.4.-0.2
0
0.2
0.4
0.6
0.8
1
1.2
-5
-4
-3
-2
-1
0
1
2
3
4
5
Figura 3.4: Funçãode janelamentoretangular para o intervalo
[−3, +3]
.Esta função é pou o usada na onstrução de espe trogramas, pois o produto
s(t)h(t − τ)
geralmente tem des ontinuidades quandot = τ − a
et = τ + a
, que introduzem detalhes espúrios no espe trograma. Várias outras funções de janelamento podem ser en ontradasna literatura: Gauss, Hamming, Hann, Bartlett, Bartlett-Hann, Nuttall, Kaiser, Bla kman,
Bla kman-Nuttall,Bla kman-Harris,Wel h,e Parzen [72℄.
A função de Hann (popularmente, mas in orretamente, hamada Hanning) é denida
pela fórmula
h(t) = (1 + cos(πt/a))/2
. Ela é muito usada, pois é fá il de implementar e produz espe trogramas de boa qualidade. Vejaa gura 3.5.-0.2
0
0.2
0.4
0.6
0.8
1
1.2
-5
-4
-3
-2
-1
0
1
2
3
4
5
Filtros
Umltro,nadeniçãomais geraldotermo,éum dispositivoquere ebeum sinal
s
edevolve uma versão modi adas
′
do mesmo.
Na verdade, qualquer meio físi o de transmissão ( omo uma parede de on reto ou
ma-deira,um oelétri o,oumesmo oar) sempreintroduz algumamudançanão trivialnosinal,
e portanto pode ser onsiderado um ltro.
Os ltros de interesse em áudio e tele omuni ações são normalmente empregados para
ressaltar, atenuar ousuprimir ertas omponentes do sinal, dependendo da freqüên ia. Eles
são geralmente ir uitos eletrni os, mas há muitos exemplos importantes de ltros
me â-ni os, omo por exemplo os ressonadores e avidades de instrumentos musi ais. Um ltro
me âni o muito importante para este trabalho éo trato vo al (seção6.4.1), que modi a os
sons produzidos nalaringe.
4.1 Filtros lineares e invariantes om o tempo
Dizemos que um ltro é linear se o sinal de saída depende de maneira linear do sinal de
entrada. Istoé,paraqualquer
α
eβ
onstantes, seaentradas
produzasaídas
′
r
produz a saídar
′
, a entrada
αs + βr
deve produzir asaídaαs
′
+ βr
′
.
Dizemos que um ltroé invariante om o tempo (ou apenasinvariante)seo úni oefeito
de um atraso arbitráriodosinal de entrada éum atraso igualna saída,ouseja, sea entrada
s
produz asaídas
′
,eo sinal
r
étal quer(t) = s(t − τ)
, para algumτ
e para todot
, então a entradar
deve produzir osinalr
′
talque
r
′
(t) = s
′
(t − τ)
.
4.2 Filtros para sinais omplexos
Para estudar o efeito de ltros à luz da teoria de Fourier, é ne essário denir seu efeito
quando aentradaéum sinal omplexo
s(t) + ir(t)
(umafunção omplexadavariávelrealt
), possivelmenteproduzindonasaídaoutrosinal omplexo,s
′
(t) + ir
′
(t)
. Paratanto,bastausar
a seguinteregra: se osinal real de entrada
s
produz a saída reals
′
, então o sinal imaginário
i
s
produz,pordenição, asaídaimagináriai
s
′
. Veri a-se que, om estaregra,um ltroque
é lineare invariantepara sinais reais tambémoé para sinais omplexos.
4.3 Função de transferên ia
Demonstra-se que um ltro real, linear e invariante notempo,quando alimentado om uma
senóide
A sen(2πf t − θ)
, produz sempre outrasenóideA
′
sen(2πf t − θ
′
)
; quepode diferirda
entrada em amplitude e deslo amentode fase, mas tem sempre a mesma freqüên ia.
A mesma propriedadevalequando trabalhamos om exponen iais omplexas. Mais
pre- isamente, se a entrada de um ltro linear e invariante for a senóide omplexa
e
i2πf t
, de
amplitude1,asaídaserá outrasenóide omplexa
H(f )e
i2πf t
, omamesmafreqüên ia
f
. Ou seja, o ltro pode apenas multipli ar osinal por um número omplexo arbitrárioH(f )
o que pode afetar seu módulo e seu deslo amentode fase,mas não sua freqüên ia.uma senóide omplexa geral
Ae
i2πf t
, a saída será
H(f )Ae
i2πf t
. Portanto, se onhe ermos o
valorde
H(f )
para todafreqüên iaf
,podemosdeterminar asaídas
′
para qualquersinal de
entrada
s
. Basta de ompors
em suas omponentes senoidais omplexas, apli ar o ltro a ada uma delas, e ombinar as senóides omplexas resultantes. Ou seja, a transformada deFourier
S
′
dasaída
s
′
está rela ionada à transformada
S
des
pelafórmulaS
′
(f ) = H(f )S(f )
(4.1)Con luímos portantoque a função
H
, hamadafunção de transferên ia, des reve ompleta-mente o efeito de um ltro linear e invariante no tempo, por mais ompli ado que ele seja,para qualquer sinal de entrada.
A função
H(f )
é a transformada de Fourier daresposta impulsivah(t)
do ltro, que é o sinal observado nasaída doltro quando a entrada éa função impulsoδ(t)
de Dira .Veri a-se quea grande maioriados ltros, naturaise arti iais,é linear e invarianteno
tempo,pelomenosaproximadamente, desdequeaamplitudedosinalnãosejaex essiva. Por
outro lado, todoltro físi o deixade ser linearquando o sinal ex ede um erto limite.
Deste ponto em diante, vamos supor impli itamente que todos os ltros são lineares e
invariantes no tempo.
4.4 Filtros importantes
Entre os ltros mais importantes em a ústi a, estão os ltros passa-baixas, passa-altas e
passa-banda,e osressonadores.
Passa-baixas: é um ltro que permite a passagem sem alteração das omponentes
senoi-dais de baixa freqüên ia, mas elimina (ou reduz signi ativamente) as omponentes om
No ltro passa-baixas ideal, a função de transferên ia
H
é tal que|H(f)| = 1
quandof < f
max
, e|H(f)| = 0
quandof > f
max
. Porém, este tipo de ltro não pode ser realizadosi amente; portanto os ltros passa-baixas usados na práti a satisfazem estas ondições
apenas de maneiraaproximada. Veja agura 4.1.
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
0
100
200
300
400
500
600
700
Figura4.1: Funçãodetransferên iatípi adeumltropassa-baixas om
f
max
= 300
Hz.Comoveremosnaseção5.3.1,umaapli açãoimportantedeltrospassa-baixaséaeliminação
das omponentes om freqüên iasaltasantes dadigitalizaçãodeum sinal. Outra apli açãoé
separarossonsgravesde umsinal deáudiopara alimentá-losaum alto-falanteespe ializado
(woofer). Naverdade, porlimitaçõesfísi as,todotransdutorou ir uitoeletrni oéin apaz
de a ompanharsenóides om freqüên ias a ima de um erto valor. Portanto, pode-se supor
que todosistema físi oin lui um ltro passa-baixas.
Passa-altas: Este ltro fun iona de maneira omplementar a um ltro passa-baixas, ou
seja,eleeliminaas omponentes omfreqüên ias menores queuma ertafreqüên ia de orte
f
min
,deixandopassarinalteradasaquelas omfreqüên iasmaioresquef
min
. Vejaagura4.2.-0.2
0
0.2
0.4
0.6
0.8
1
1.2
0
100
200
300
400
500
600
700
Uma apli ação de ltros passa-altas em a ústi a é eliminar omponentes om freqüên ias
menores que
20
Hz (inaudíveis) antes da digitalização. Outra apli ação é separar os sons agudos para alimentá-los aum alto-falanteespe ializado(tweeter).Passa-banda: Um ltro passa-banda permite a passagem apenas de freqüên ias
f
dentro de uma determinada faixa,f
min
< f < f
max
. Ele ombina os efeitos de um ltro passa-altas om ortef
min
e um ltro passa-baixas om ortef
max
. Vejaa gura 4.3.-0.2
0
0.2
0.4
0.6
0.8
1
1.2
0
100
200
300
400
500
600
700
Figura4.3: Funçãode transferên iatípi ade umltropassa-banda om
f
min
= 200
Hz,f
max
= 400
Hz.Como veremos na seção 6.3.1, o sistema auditivo humano in lui impli itamente um ltro
passa-banda, ujasfreqüên ias de orte são aproximadamente
f
min
= 20
Hz ef
max
= 20.000
Hz.Ressonador: é um aso espe ial de ltro passa-banda que possui
f
max
próximo af
min
, de modoquepreservaapenasas omponentes omfreqüên iapróximaaf
med
= (f
min
+ f
max
)/2
. Vejaa gura 4.4.-0.2
0
0.2
0.4
0.6
0.8
1
1.2
0
100
200
300
400
500
600
700
Ressonadores são omponentes importantes de instrumentos musi ais. Por exemplo, ada
tubo de um órgão é onstruído para ressonar nafreqüên ia de uma determinadanota
musi- al. No ser humano, a laringe fun iona omo um ressonador que, pelo seu alongamento ou
ontração,ajuda a ontrolar afreqüên ia de vibraçãodas pregasvo ais.
Anti-ressonador(not h lter): éumltroquetemefeito omplementaraode um
resso-nador,ouseja, eliminaas omponentes de um sinal dentrode umaestreita faixade
freqüên- ias, deixando passar todas as outrassem alteração. Veja a gura4.5.
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
0
100
200
300
400
500
600
700
Figura 4.5: Função de transferên ia típi a de um anti-ressonador om
f
med
= 300
Hz.Anti-ressonadores são usados em sistemas de som, por exemplo, para eliminar mi rofonia
Pro essamento digital de sinais
5.1 Introdução
Teori amente, um sinal analógi oexiste desde
t = −∞
atét = +∞
,assumeinnitos valores de amplitude em qualquer intervalo de tempo, e esses valores podem ser innitamentepró-ximos uns dos outros. Uma vez que omputadores não onseguem armazenar ou manipular
quantidades innitasde dados, osinal, para ser pro essado, pre isa ser digitalizado
apro-ximado por uma oleção dis retade valores que possa ser odi ada om um número nito
de bits (zeros euns).
Aseqüên iadevalores
s
0
, s
1
, . . . , s
n−1
resultantedessepro essoé hamadadesinaldigital, e ada valors
i
é uma amostra digital dosinals(t)
.O pro esso inverso à digitalização é a re onstrução do sinal analógi o
s(t)
a partir do sinal digitals
0
, s
1
, . . . , s
n−1
. Esta re onstrução é ne essária prin ipalmente para que sons armazenadosoupro essados emformadigitalpossamser to adosnumalto-falanteeouvidos.éumsinal
s
′
(t)
diferentedosinal
s(t)
originalmas, espera-se,su ientementesimilarpara a apli ação onsiderada.5.2 Digitalização
Opro esso de digitalizaçãoenvolve três on eitos: re orte, amostrageme quantização.
O re orte de um sinal de áudio onsiste simplesmenteemlimitar otempoaum intervalo
nito. Istodeve ser feito de preferên ia eminstantes onde o sinal énulo, pois aso ontrário
o salto repentino no valor é per ebido om um estalo. Quando isso não é possível, pode-se
usar uma função de janelamento, similar às des rita na seção 3.7, para ligar e desligar
suavemente o sinal. Veja a gura 5.1(a ). Um sinal de longa duração é freqüentemente
re ortado emuma série de segmentosde duração xa, quesão pro essados separadamente.
Aamostragem onsisteemsubstituirumafunçãodevariávelreal
s(t)
porumaseqüên ia -nitadeamostras valoress(t
0
), s(t
1
), . . . , s(t
n−1
)
medidoseminstantesdis retost
0
, t
1
, . . . , t
n−1
dentro do intervalo de re orte. Quase sempre os instantes são igualmente espaçados, porexemplo a ada
10
−4
segundos. Veja a gura 5.1(d). O número de amostras por segundo é
hamado freqüên ia de amostragem.
A quantização onsiste em reduzir ada número real
s(t
i
)
a um valors
i
es olhido dentre um onjuntonitodevalorespossíveisporexemplo,{−1, 5 , −1, 2 , −0, 9 . . . , +1, 2, +1, 5}
. Veja a gura 5.1(e). Um dispositivo que implementa este passo é hamado de onversoranalógi o-digital ou onversor A-D.
5.3 Condições para boa amostragem
Nopro essodedigitalizaçãoere onstrução,deve-se tomar uidadopara queoresultado
s
′
(t)
prin ipais onsiderações sobre a amostragemrelevantes para esse objetivo. (a)
-2
-1
0
1
2
0
1
2
3
4
5
t (segundos)
(b)-2
-1
0
1
2
0
1
2
3
4
5
t (segundos)
( )-2
-1
0
1
2
0
1
2
3
4
5
t (segundos)
(d)-2
-1
0
1
2
0
1
2
3
4
5
t (segundos)
(e)-2
-1
0
1
2
0
1
2
3
4
5
t (segundos)
Figura 5.1: Digitalização de um sinal analógi o. (a) Grá o do sinal ontínuo e
entrada. (b) Umafunção de janelamentopara re ortesuave. ( ) Osinalre ortado.
(d)Osinalamostradoa ada50ms. (e)Osinalquantizadopara11níveisigualmente
5.3.1 Teorema da amostragem de Nyquist
Oresultado mais importante parauma boaamostragem éo Teoremade Nyquist:
O sinal original
s
pode ser re onstruído exatamente a partir das amostrass(t
i
)
se a freqüên ia de amostragem for maior que o dobro da maior freqüên ia dasomponentes presentes em
s
.Ou seja, se afreqüên ia de amostragem é
f
∗
, a re onstrução perfeita é possível seS(f ) = 0
para todof
om|f| ≥ f
∗
/2
.Poroutrolado, se asfreqüên iasdas omponentes presentes em
S
obriremum intervalo[−f
max
, +f
max
]
ondef
max
≥ f
∗
/2
, a re onstrução perfeita é impossível. Isto porque o sinalpode onter omponentes
c(t) = e
i2πf t
, de freqüên ia
f
, ed(t) = e
i2π(f −f
∗
)t
, de freqüên ia
f −f
∗
,queproduzemamesmaseqüên iadeamostras. Essa onfusão(aliasing)entreasduasomponentes impli a que as amostras não ontém informação su iente para re onstruir o
sinal original.
5.3.2 Pré-Filtragem
Emvistadoteoremade Nyquist, on lui-se que,para garantir are onstrução orretade um
sinal arbitrário,éne essário removerassuas omponentes om freqüên iasmaioresouiguais
a
f
∗
/2
antes da amostragem. Ou seja, o sinal deve passar por um ltro passa-baixas antes de ser alimentado ao onversor A-D.Umavezqueoouvidohumanoésensívelafreqüên iasentre20Hze20kHz,aamostragem
omfreqüên ia
f
∗
pou omaiorque40kHzéadequadamesmoparaosouvidosmaisexigentes. Por essa razão,emCDs de áudio omer iais osom é amostrado a44.100 Hz. Veri a-se quesu ientes para ompreensão de qualquer língua. Portanto, uma amostragem
f
∗
de 8kHz é onsiderada su ientepara telefonia xa etelefones elulares.5.4 Condições para boa quantização
Na onversão de amostras reais
s(t
i
)
para valores dis retoss
i
, ada amostras(t
i
)
deve ser substituída porum valors
i
, dentrode um onjunto nitoV
de valores permissíveis. Geral-menteV
é simétri o: istoé, se ovalorv
perten e aV
, então−v
tambémperten e.Nesse pro esso o orre um erro de quantização
e
i
= s(t
i
) − s
i
. O sinal re onstruídos
′
ontém portanto um sinal indesejado
e(t)
, o ruído de quantização, que é o resultado da re onstrução da seqüên iae
0
, e
1
, . . . , e
n−1
. Em sistemas de som, este ruído geralmente é per ebido omoum hiado sobreposto aosom original.Os seguintes aspe tos são importantes na quantização: o espaçamento dos valores, seu
al an e e onúmero de bits.
5.4.1 Espaçamento dos valores
A grossomodo, ovolume doruído
e(t)
épropor ionalaoespaçamento entre oselementosdeV
. Porexemplo,seum valorv
′
de
V
e seuvizinho mais próximov
′′
diferem em1mV,o erro
de quantização,para amostrasentre esses dois valores, será nomáximo
±
0,5mV.Portanto, para reduzir oerroe(t)
, deve-se reduziro espaçamento entre os valores deV
.5.4.2 Al an e dos valores
Oselementosde
V
tambémdevem obrir o intervalode todos osvaloresque podem o orrer no sinals
. Ou seja, o valor de|s(t)|
não deve ex eder o valorv
max
= max { |v| : v ∈ V }
, oal an e (range, em inglês) do quantizador. Caso ontrário, a diferença
|s(t
i
)| − v
max
, om sinal apropriado, irápara o erroe
i
.Em sinais de som, o resultado desta ondição de sobre arga (overload ou overow) é
bastante desagradável. Para evitar que esta ondição o orra, é desejável que o valor de
v
max
sejaomaiorpossível. Felizmente, umavez quetantoavozhumanaquantotransdutores(mi rofonesealto-falantes)têmpotên ialimitada,ossinaisdevozgeralmenteestãolimitados
a um intervalo
[−s
max
, +s
max
]
onhe ido.5.4.3 Número de bits
Para odi ar ada amostra digital, pre isamos usar pelo menos
log
2
|V |
bits, arredondado para ima, onde|V |
é o número de valores distintos emV
. Dito de outra forma, se ada amostraé odi adaemb
bits,o onjuntoV
teránomáximo2
b
valoresdistintos. Assim, por
exemplo, se
V
é o onjunto dos inteiros entre−127
e127
, ada amostra ne essita de8
bits.Junto om afreqüên ia deamostragem,este parâmetrodeterminaaquantidadede dados
que podem ser armazenados em qualquer meio digital (memória, dis o rígido, CD, DVD,
et .), transmitidos (via abo, Internet, telefone, et .), e pro essados (por omputadores ou
dispositivos digitais espe ializados). Portanto, é desejável que este parâmetro seja o menor
possível. Poroutro lado, para ompatibilidade om omputadores esistemas de transmissão
de dados digitais, é omum xar onúmero de bits por amostraemalguma potên iade 2.
5.4.4 Es olha dos valores
A es olha mais natural para o onjunto
V
são os múltiplos inteiros de um valor xod
; ou seja,V = { id : −κ ≤ i ≤ +κ }
, sendoκ
ei
inteiros. Este esquemaé hamado de odi ação linear, e éo mais simples de pro essar eanalisar.egravadoresportáteis), utiliza-senapráti aum onjuntode valores
V
ujoespaçamentonão é uniforme. A justi ativa para esta odi ação não linear é que, quanto mais intenso osinal sonoro, mais tolerante é o ouvido humano ao ruído gerado pelos erros de quantização.
Portanto, para se obter um determinado padrão de qualidade subjetiva, os valores de
V
próximosa zero pre isam ter espaçamentomenor que osvaloresmais afastados de zero.Assim,porexemplo,opadrãodequantização onhe ido omolei
µ
(mu-law),desenvolvido pelos LaboratóriosBell [18℄, usa osvaloresV = {v
i
: −κ ≤ i ≤ κ}
,denidos pelafórmulav
i
= sgn(i)
(1 + µ)
|i/κ|
− 1
1 + µ
s
max
(5.1)ondeointeiro
κ
éumparâmetrodomodelo,eµ = 2κ + 1
. Estepadrãoéusadoparatelefonia nos EUA e Japão, om 8 bits poramostra,κ = 127
, eµ = 255
. Veja agura 5.2.-1
-0.5
0
0.5
1
127
0
-127
valor
codigo
Figura 5.2: A orrespondên ia entre o ódigo numéri o
i
e o respe tivo valor do sinalv
i
noesquema de odi ação leiµ
para 8bits (µ = 255
).Ospadrõesde telefonia daEuropa edo Brasil espe i am um sistema bastantesemelhante,
onhe ido por lei
A
(A
-law) [17℄. Com qualquer dos dois sistemas, 8 bits por amostra são adequadospara ompreensãodaspalavras,desdequeovolumegeraldavozsejadevidamentePara apli açõesmais exigentes ( omogravaçãoe transmissão de músi as,trilhas sonoras
de lmes e televisão, et .), 8 bits por amostra não são su ientes, mesmo om odi ação
não-linear. O padrão atual de odi ação para CDs de áudio usa 16 bits por amostra, om
odi ação linear.
5.4.5 Digitalização omo ltragem
Como veremos naseção 5.4.6, a estrutura on reta de um sistemaeletrni o para onversão
analógi o-digital é determinada por limitações da físi a dos dispositivos usados.
Matema-ti amente, porém, o pro esso de digitalização pode ser des rito omo um ltro não-linear,
omposto de três módulos. O primeiro módulo é o ltro passa-baixas, que elimina
ompo-nentes indesejadas. O segundo módulo, que representa a amostragem do sinal, multipli a o
sinal ltradoporum tremde impulsos de Dira , uma função
⊔⊔
denida por⊔⊔(t) =
+∞
X
i=−∞
δ(t − t
i
)
(5.2)onde
t
i
sãoosinstantes deamostragem. Oter eiromódulorepresentaoserrosdequantizaçãoe
i
introduzidospelo onversor A/D,e ujoefeitoésomara adaimpulsos(t
i
)δ(t−t
i
)
otermoadi ional
e
i
δ(t − t
i
)
. Vejaa gura 5.3.Trem de Dira Sinal analóg. Filtro P.-B.
×
+
A-D ideal Sinal digital Erro de Quant.⊔⊔(t)
s(t)
⊔⊔(t) × s(t)
s
∗
(t)
s
i
⊔⊔(t) × e(t)
Con eitualmente, a saída deste ltro de digitalização é otrem de impulsos
s
∗
(t) =
+∞
X
i=−∞
s
i
δ(t − t
i
)
(5.3)ujas amplitudes são as amostras digitalizadas
s
0
, s
1
, . . .
. Estes valores estão no onjuntoV
, e portanto o sinals
∗
(t)
pode ser pre isamente odi ado em formato digital (bits) semnenhuma perda oualteração.
Estemodelotemopropósitodeexpli itarastrêsalteraçõesefetivamentesofridaspelosinal
nadigitalização,esepará-las da onversão de formato(analógi o parabinário)propriamente
dita, que não afetao sinal. Em parti ular, este modelo mostra quetransformada de Fourier
dosinal digitalizado
s
∗
éS
∗
(f ) = (S(f )B(f ) + E(f )) ∗
F
F(f )
(5.4)onde
S(f )
é a transformada do sinal originals
,B(f )
é a função de transferên ia do ltro passa-baixas,F
F(f )
é a transformada dotrem de impulsos⊔⊔(t)
, eE(f )
é é a transformadade um sinal
e
talquee(t
i
) = e
i
.5.4.6 Digitalização na práti a
Na práti a, um dispositivo para digitalização de sinais geralmente onsiste de um ir uito
analógi ode amostragem e estabilização(sample-and-hold) seguido do onversor
analógi o-digital propriamentedito, omo ilustradona gura 5.4.
Sinal analóg. Filtro P.-B. Sample-and-hold A-D Sinal digital
s(t)
s
⊓
(t)
s
i
Figura 5.4: Esquemade blo os de um onversor analógi o-digitaltípi o.
O ir uito sample-and-hold amostra o sinal de entrada
s
a ada instantet
i
, e reproduz esse valornosinaldesaídas
⊓
atéopróximoinstantedeamostragem;ouseja,s
⊓
(t) = s(t
i
)
duranteada intervalo de
t
i
at
i+1
. O grá o do sinal de saídas
⊓
(t)
é portanto uma seqüên ia de degrausque a ompanhamaproximadamenteo sinal de entrada. Veja agura 5.5.-2
-1
0
1
2
-1
0
1
2
3
4
5
6
t (segundos)
Figura 5.5: Um sinal analógi o (linha tra ejada)e a saída do ir uito
sample-and-hold (linha heia).
O papel do ir uito sample-and-hold é manter o sinal analógi o estável até que o onversor
A-D onsiga determinar a representação binária do valor
s(t
i
)
. Nesse momento, os sinais elétri os binários que representam os bits desse valor são lidos pelo omputador ou outrosistema digital,e opro esso todoserepete om apróximaamostra.
Na práti a,éimpossível onstruir um dispositivosample-and-hold apazde medir
exata-menteo sinalde entrada
s
noinstantet
i
apenas. Um ir uitosi amenterealizável onsegue apenas obter uma média aproximada dos valores des
nas vizinhanças det
i
.A saída
s
′
do ir uitosample-and-hold pode ser es rita omo
s
′
(t) = (s × ⊔⊔) ∗ ⊓(t/p)
(5.5)5.5 Re onstrução
É óbvio que a re onstrução somente pode ser feita dentro do intervalo de re orte
[a, b]
. O primeiro passo da re onstrução é onverter ada número digitals
i
para uma representação analógi as(t
i
)
. Esta onversão é efetuada por um onversor digital-analógi o ou onversor D-A. Feito isso, é ne essário interpolar esses valores, ou seja, denirs(t)
para os demais instantest
.5.5.1 Re onstrução omo ltragem
Matemati amente, o pro esso de re onstrução pode ser on ebido omo uma seqüên ia de
duas etapas separadas. Na primeira etapa, a seqüên ia de números
s
0
, s
1
, . . .
é onvertida num sinals
∗
que onsiste de uma seqüên ia de pulsos de Dira , onde o i-ésimopulso o orre noinstantet
i
etem intensidades
i
:s
∗
(t) =
X
i
s
i
δ(t − t
i
)
(5.6)Na segunda etapa, o sinal
s
∗
passa por algum ltro suavizador (o ltro de re onstrução) que onverte os impulsosnum sinal ontínuoVeja agura 5.6.Sinal digital D-A Filtro Sinal analógi o
s
i
s
∗
(t)
s(t)
Figura5.6: Esquema da re onstrução de um sinal digital vista omo ltragem.
Esta interpretação é vantajosa sempre que o pro esso de re onstrução é linear e invariante
omotempo,poispermitedes reverpre isaesu intamenteoefeitodomesmopelafunçãode
transferên ia