• Nenhum resultado encontrado

Sintese e reconhecimento da fala humana

N/A
N/A
Protected

Academic year: 2021

Share "Sintese e reconhecimento da fala humana"

Copied!
166
0
0

Texto

(1)

da Fala Humana

Rumiko OishiStol

Trabalho Final de

(2)

Universidade Estadual de Campinas

Síntese e Re onhe imento

da Fala Humana

Rumiko Oishi Stol

Defendida em 31de outubro de 2006

Ban aExaminadora:

Prof. Dr. Fábio Violaro (Orientador)

Fa uldade de Engenharia Elétri a e de Computação- UNICAMP

Prof. Dr. Carlos Alberto Ynoguti Instituto Na ionalde Tele omuni ações

Prof. Dr. Neu imar Jernimo Leite Instituto de Computação- UNICAMP

(3)

FICHA CATALOGRÁFICA ELABORADA PELA

BIBLIOTECA DO IMECC-UNICAMP

Bibliote ária: Miriam Cristina Alves  CRB8a / 5094

Stol, RumikoOishi

St68s Síntese e re onhe imento dafala humana /RumikoOishi Stol 

Campinas, [S.P.:s.n℄, 2006.

Orientadores: Fábio Violaro, AnamariaGomide.

Trabalho nal (mestrado prossional)  Universidade Estadual de

Cam-pinas, Institutode Computação.

1. Sistemas de pro essamento da fala. 2. Pro essamento de sinais. 3.

Re onhe imento automáti o da voz. 4. Síntese da voz. I. Violato, Fábio.

II. Gomide, Anamaria. III. Universidade Estadual de Campinas, Instituto de

Computação. IV. Título.

Título em inglês: Synthesis and re ognition of human spee h

Palavras- haveem inglês(keywords): 1. Spee h pro essingsystems. 2. Signal pro essing. 3.

Automati spee h re ognition. 4. Voi e synthesis.

Áreade on entração: Engenharia de Computação

Titulação: Mestre emCiên ia daComputação

Ban aexaminadora: Prof. Dr. FábioViolaro(FEEC-UNICAMP)

Prof. Dr. CarlosAlberto Ynoguti (INATEL)

Prof. Dr. Neu imarJernimoLeite (IC-UNICAMP)

Prof. Dr. Alexandre XavierFal ão(IC-UNICAMP)

(4)

Este exemplar orreponde àredação naldo

Trabalho Final, devidamente orrigidoe

de-fendido por Rumiko Oishi Stol e

apro-vado pela Ban aExaminadora.

Campinas, SP,31 de outubro de 2006

Prof. Dr. Fábio Violaro

Orientador

Profa. Dra. AnamariaGomide

Co-orientadora

TrabalhoFinalapresentadoaoCursode

Pós-Graduação em Ciên ia da Computação da

Universidade Estadual de Campinas omo

requisitopar ialparaaobtençãodotítulode

Mestre em Ciên ia da Computação, na área

(5)

Rumiko Oishi Stol

Trabalho FinalEs rito defendido eaprovado em 31de outubro de 2006,pelaBan a

Exami-nadora omposta por:

Prof. Dr. Fábio Violaro (Orientador)

Fa uldade de Engenharia Elétri a e de Computação - UNICAMP

Prof. Dr. Carlos Alberto Ynoguti

Instituto Na ional de Tele omuni ações

Prof. Dr. Neu imar Jernimo Leite

(6)

TERMO DE APROVAÇÃO

Trabalho Final Escrito defendido e aprovado em 28 de Agosto de 2006, pela

Banca Examinadora composta pelos Professores Doutores:

PUC - Campinas

Prof. Dr. Rodolfo Jardim de Azevedo

IC- UNICAMP

(7)

(8)
(9)

Meus agrade imentos:

àminha mãe, pela pa iên ia, apoioe ompanhia;

ao meu esposo Jorge, pelo in entivo persistente, pelos valiosos es lare imentos

sobrepro essamentode sinais, epeloin omensurável apoioduranteaelaboração

desse trabalho: na onfe ção da maioria dos grá os, na disponibilização das

bibliote as de leiturae es ritade arquivosde áudio enaformataçãodotexto em

LaTeX;

ao Prof. Fábio, meu orientador, que in ansávelmente sempre esteve disposto a

eder oseu tempo, auxiliando-me om valiosassugestões;

aos oordenadores do MP, em espe ial ao Prof. Alexandre, pela sua pa iên ia e

ompreensão, e pela on essão de bolsa par ial;

à Profa.AnamariaGomide, porestar sempre disposta a meso orrer;

aos analistas do IC CarlosFroldi e Éri Ostroski, por instalarem ossoftwares de

(10)

Resumo

O objetivo deste trabalho é apresentar uma revisão dos prin ipais on eitos e métodos

en-volvidosnasíntese, pro essamento ere onhe imentodafalahumanapor omputador. Estas

te nologiastêm inúmerasapli ações,que têmaumentado substan ialmentenosúltimos anos

omapopularizaçãodeequipamentosde omuni açãoportáteis( elulares,laptops,palmtops)

e auniversalização da Internet.

A primeira parte deste trabalho é uma revisão dos on eitos bási os de pro essamento

de sinais, in luindo transformada de Fourier, espe tro de potên ia e espe trograma, ltros,

digitalizaçãode sinais, eo teoremade Nyquist.

A segunda parte des reve as prin ipais ara terísti as da fala humana, os me anismos

envolvidos em sua produção e per epção, e o on eito de fone(unidade lingüísti ade som).

Nessapartetambémdes revemosbrevementeasprin ipaisté ni asparaa onversão

ortográ a-fonéti a,paraasíntese defalaapartirdades rição fonéti a,eparaore onhe imentodafala

natural.

Ater eirapartedes reveumprojetopráti oquedesenvolvemos para onsolidaros

onhe- imentos adquiridos neste mestrado: um programa que gera anções populares japonesas a

partirde umades riçãotextual daletra emúsi a,usandoométodode síntese on atenativa.

(11)

The goal of this dissertation is to review the main on epts relating to the synthesis,

pro- essing, and re ognition of human spee h by omputer. These te hnologies have many

ap-pli ations, whi h have in reased substantially in re ent years after the spread of portable

ommuni ation equipment (mobile phones, laptops, palmtops) and the universal a ess to

the Internet.

The rst part of this work is arevision of fundamental on epts of signal pro essing,

in- ludingtheFouriertransform,powerspe trumandspe trogram,lters, signaldigitalization,

and Nyquist's theorem.

The se ond part des ribes the main hara teristi s of human spee h, the me hanisms

involvedinitsprodu tionandper eption,andthe on eptofphone(linguisti unitofsound).

In this part we also briey des ribe the main te hniques used for orthographi -phoneti

trans ription, for spee h synthesis from a phoneti des ription, and for the re ognition of

naturalspee h.

The third part des ribes a pra ti al proje t we developed to onsolidate the knowledge

a quired in our Masters studies: a program that generates Japanese popular songs from a

textual des ription of the lyri sand musi , using the on atenative synthesis method.

At the end of this dissertation, we list some available software produ ts (free and

(12)

Resumo xiii

Abstra t xiv

1 Introdução 1

1.1 Estrutura damonograa . . . 2

I Elementos de Pro essamento de Sinais 5 2 Análise de sinais 7 2.1 Sinais analógi os . . . 7

2.2 Operações om sinais . . . 8

2.2.1 Ampli ação ouatenuação . . . 8 2.2.2 Deslo amento . . . 9 2.2.3 Expansão ou ontração . . . 9 2.2.4 Convolução . . . 9 2.3 Sinais periódi os . . . 10 2.3.1 Senóides . . . 10 3 A transformada de Fourier 13 3.1 De omposição em senóides . . . 13

(13)

3.2 Análise de Fourier omplexa . . . 14

3.3 Transformada de Fourier . . . 15

3.4 Propriedadesda transformada de Fourier . . . 15

Linearidade . . . 15

Expansão/Contração . . . 16

Deslo amento . . . 16

Teoremada energia(de Rayleigh) . . . 16

Produto/Convolução . . . 16

3.5 Espe tro de potên ia . . . 16

3.6 Espe trograma . . . 17

3.7 Funções de janelamento . . . 19

4 Filtros 21 4.1 Filtroslineares einvariantes om otempo . . . 21

4.2 Filtrospara sinais omplexos. . . 22

4.3 Funçãode transferên ia. . . 22 4.4 Filtrosimportantes . . . 23 Passa-baixas . . . 23 Passa-altas . . . 24 Passa-banda . . . 25 Ressonador. . . 25

Anti-ressonador (not hlter) . . . 26

5 Pro essamento digital de sinais 27 5.1 Introdução . . . 27

5.2 Digitalização. . . 28

(14)

5.3.2 Pré-Filtragem . . . 30

5.4 Condiçõespara boaquantização . . . 31

5.4.1 Espaçamento dos valores . . . 31

5.4.2 Al an e dos valores . . . 31

5.4.3 Número de bits . . . 32

5.4.4 Es olha dos valores . . . 32

5.4.5 Digitalização omo ltragem . . . 34

5.4.6 Digitalizaçãonapráti a . . . 35

5.5 Re onstrução . . . 37

5.5.1 Re onstrução omo ltragem. . . 37

5.5.2 Re onstruçãona práti a . . . 39

5.6 Análise de Fourier dis reta . . . 40

5.6.1 Série de Fourier . . . 40

5.6.2 Série de Fourier omplexa . . . 41

5.7 Transformada dis retade Fourier . . . 42

5.7.1 Transformada rápida de Fourier . . . 45

5.8 Transformada Z . . . 45

5.8.1 Propriedades datransformada Z . . . 46

5.9 Filtrosdigitais. . . 46

5.9.1 Filtrode predição linear . . . 47

II A Fala Humana 49 6 Som, Audição e Fala 51 6.1 Naturezado som . . . 51

(15)

6.2 Pro essamentode som . . . 52

6.3 Sistemaauditivohumano. . . 53

6.3.1 Per epção dosom . . . 53

6.4 Produçãoda vozhumana. . . 55

6.4.1 Otrato vo al . . . 56

6.4.2 As pregas vo ais . . . 56

6.4.3 Arti ulação . . . 57

6.4.4 Fonemase Fones . . . 57

6.5 Osfones dalíngua portuguesa . . . 59

6.6 Cara terísti as per eptuais davoz humana . . . 60

Volume . . . 61

Altura . . . 61

Timbre . . . 62

Duração . . . 63

7 O espe tro da fala humana 65 7.1 Sons primordiais . . . 66 7.1.1 Vozlaringeal . . . 66 7.1.2 Sons fri ativos . . . 67 7.1.3 Plosivos . . . 67 7.1.4 Vibrantes . . . 68 7.2 Formantes . . . 68

III Pro essamento de Fala 73

(16)

Mensagens por telefone . . . 75

Leitura durantetrabalho . . . 75

De ientes visuais . . . 76 Edu ação. . . 76 8.2 Estrutura . . . 76 8.2.1 Pré-pro essador . . . 77 8.2.2 Conversor ortográ o-fonéti o . . . 77 8.2.3 Pro essador prosódi o . . . 78

8.3 O onversor Natural Voi es . . . 79

8.4 O onversor Aiuruetê . . . 80

8.4.1 O onversor ortográ o-fonéti o Ortofon . . . 81

8.5 Históri o . . . 81

9 Síntese de Fala 83 9.1 Apli ações . . . 84

Tele omuni ações . . . 84

De ientes vo ais e auditivos . . . 84

Serviços portelefone . . . 84

Apli açõesautomotivas . . . 84 9.2 Síntese Con atenativa . . . 85 9.2.1 Con atenação suave. . . 87 9.2.2 Ajuste de duração. . . 88 9.2.3 OmétodoPSOLA . . . 89 9.2.4 Ajuste de altura . . . 91

9.3 Síntese porltragem . . . 92

(17)

9.3.3 Síntese por predição linear . . . 96

9.3.4 Determinação dos parâmetros . . . 96

9.3.5 Odi ionáriofalado Speak-n-Spell . . . 98

9.4 Síntese arti ulatória. . . 98

9.5 Síntese baseada em adeias de Markov . . . 99

9.5.1 Cadeiasde Markov gerais . . . .100

9.5.2 Modelos de Markov parapalavras isoladas . . . .101

9.6 Con lusões. . . .102

10 Re onhe imento de fala 103 10.1 Apli ações . . . .103

Ditado . . . .104

Telefonia . . . .104

Pro essamento de do umentos falados . . . .104

Comando eControle . . . .104

Edu ação . . . .104

Apoioa de ientes físi os . . . .105

10.2 Tiposde Re onhe edores . . . .105 10.2.1 Tamanhodo vo abulário . . . .105 10.2.2 Pre isão . . . .105 10.2.3 Natureza daelo ução . . . .106 10.2.4 Dependên ia de lo utor. . . .106 10.2.5 Assunto . . . .106

10.3 Té ni as para re onhe imentoda Fala . . . .107

10.3.1 Redes neurais naturais . . . .108

(18)

10.3.4 SistemasHíbridos . . . .112

10.4 Históri o . . . .112

IV Projeto práti o 115 11 O Projeto kara at 117 11.1 Introdução . . . .117

11.2 Estrutura doprograma . . . .118

11.3 Resumoda fonéti a doidiomajaponês . . . .119

11.3.1 Fones dalíngua japonesa . . . .119

11.3.2 Sílabas dalíngua japonesa . . . .120

11.3.3 Ortograa japonesa . . . .121

11.3.4 Fni adas ançõespopularesjaponesas . . . .121

11.3.5 Criaçãodo di ionáriode sons . . . .122

11.3.6 Leitura esegmentação do di ionário. . . .123

11.3.7 Formatodo arquivo da anção . . . .125

11.4 Ajustede duração . . . .125

11.4.1 Es olha domiolo . . . .126

11.4.2 Sin ronizaçãodos ortes . . . .127

11.4.3 Con atenação om ajustede volume . . . .128

11.4.4 Ajuste dovolumena on atenação . . . .129

11.5 Resultados . . . .130

11.6 Con lusõese trabalhos futuros . . . .130

A Produtos de síntese de fala 133 A.0.1 Produtos Livres . . . .133

(19)

Cybertalk . . . .134 Festival . . . .134 Flite (Festival-lite) . . . .134 Epos . . . .134 Gnuspee h . . . .134 Free TTS. . . .134

HMM-BasedSpee h Synthesis System (HTS) . . . .134

Klatt-styleSystem . . . .135

A.0.2 Produtos Comer iais . . . .135

NaturalVoi es . . . .135 Elan Sayso . . . .135 De Talk . . . .135 A ulab Prosody TTS . . . .135 Laureate . . . .135 CNET PSOLA . . . .135 RealSpeak. . . .136 Voi eTex . . . .136 FlexVoi e . . . .136 SoftVoi e . . . .136 ORATOR . . . .136 FAAST . . . .136 FonixDe Talk . . . .136 Lernout&Hauspie . . . .136

HADIFIX (HAlbsilben,DIphone, sufFIXe) . . . .137

SPRUCE(Spee h Response fromUnConstrained English). . . .137

(20)

rVoi e . . . .137

Bestspee h . . . .137

Vo aloid . . . .137

A apela . . . .138

B Produtos de re onhe imento de fala 139 B.0.3 Produtos Livres . . . .139

XVoi e . . . .139

Voi e Control/kVoi e Control . . . .139

gVoi e . . . .139

Kit ISIP . . . .140

Sphinx . . . .140

NICO ANN toolkit . . . .140

Myers' Hidden Markov ModelSoftware . . . .140

Hidden Markov ToolKit (HTK) . . . .140

B.0.4 Produtos Comer ializados . . . .140

ViaVoi e . . . .140

Vo alis Spee hware . . . .141

Spee hWorks . . . .141

Dragon Naturally Speaking . . . .141

Spee hMagi . . . .141

(21)

1.1 Comuni ação homem-máquina por interfa e de voz, na visão de Carl Barks

(1958). . . 1

2.1 Propagação das ondas sonoraspeloar. . . 7

2.2 Uma senóide de freqüên ia

f = 4

Hz, deslo amento de fase

θ = π/6

, e ampli-tude

M = 3

. . . 10

3.1 Umasenóide omplexa omfreqüên ia

f = 4

Hzeamplitude omplexa

C = 2+3i

. 14 3.2 Transformada de Fourier e espe tro de potên ia. . . 17

3.3 Espe trograma. . . 18

3.4 Funçãode janelamentoretangular para o intervalo

[−3, +3]

. . . 19

3.5 Funçãode janelamentode Hann para o intervalo

[−a, +a] = [−3, +3]

. . . 19

4.1 Funçãode transferên ia típi ade um ltro passa-baixas om

f

max

= 300

Hz. . 24

4.2 Funçãode transferên ia típi ade um ltro passa-altas om

f

min

= 300

Hz. . . 24

4.3 Função de transferên ia típi a de um ltro passa-banda om

f

min

= 200

Hz,

f

max

= 400

Hz. . . 25

4.4 Funçãode transferên ia típi ade um ressonador om

f

med

= 300

Hz. . . 25

4.5 Funçãode transferên ia típi ade um anti-ressonador om

f

med

= 300

Hz. . . . 26

5.1 Digitalizaçãode um sinal analógi o. . . 29

5.2 A orrespondên ia entre o ódigo numéri o

i

e o respe tivo valor do sinal

v

i

noesquema de odi ação lei

µ

 para 8bits (

µ = 255

). . . 33

(22)

5.3 Esquema on eitual dadigitalizaçãovista omo ltragem.. . . 34

5.4 Esquema de blo os de um onversor analógi o-digitaltípi o. . . 35

5.5 Um sinal analógi o (linha tra ejada) e a saída do ir uito sample-and-hold

(linha heia). . . 36

5.6 Esquema dare onstrução de um sinal digital vista omo ltragem. . . 37

5.7 A função

sinc(t)

. . . 38 5.8 Umsinal dis reto (pontos) e sua re onstrução retangular(linhas). . . 39

5.9 Série de Fourier.. . . 41

5.10 Série dis retade Fourier. . . 42

5.11 TDF de um sinal não periódi o om janelamento retangular. . . 43

5.12 TDF de um sinal não periódi o om janelamento de Hann. . . 44

6.1 Osistema auditivohumano. . . 53

6.2 Variação da pressão em função do tempo, para vários sons produzidos pelo

homem. . . 55

6.3 Visãose ionada da abeça mostrando o trato vo al. . . 56

6.4 Formadeondadosom`rr'(Ralveolarvibrado)doportuguês,pronun iadode

maneira ontínua. . . 58

6.5 Forma de onda dapalavra tia. . . 59

6.6 Forma de onda davogal/a/ pronun iada om volumes diferentes. . . 61

6.7 Forma de onda davogal/a/ pronun iada emduas alturas diferentes. . . 61

6.8 Forma de onda davogal /a/ pronun iada namesma altura por duas pessoas

diferentes. . . 62

6.9 Formadeondadevogaisdiferentespronun iadaspelamesmapessoanamesma

altura. . . 63

6.10 Forma de onda das palavras doidiomajaponês obasan e ob asan. . . 63

7.1 Osom primordial produzido pelas pregas vo ais. . . 66

(23)

7.4 Espe trogramasdas vogais, sons nasaise sons laterais doportuguês. . . 69

7.5 Espe trogramasdos sons fri ativos doportuguês. . . 70

8.1 Esquema simpli adode um sistema de onversão texto-fala. . . 76

8.2 Osistema Natural Voi es daLu ent Te hnologies. . . 79

8.3 Esquema do onversor texto-fala Aiuruetê. . . 80

8.4 Exemplo datrans rição fonéti a dosistema Aiuruetê. . . 81

9.1 Esquema dométodode síntese on atenativa. . . 85

9.2 Con atenação de duas unidades de fala porsimples justaposição. . . 87

9.3 Con atenação suave de duas unidades de fala. . . 88

9.4 De omposição de um sinal de voz em sinais elementares, pelo método

TD-PSOLA. . . 89

9.5 Aumento daduração de um sinal de voz por dupli açãode sinais elementares. 90

9.6 Reduçãoda duração de um sinal de voz por omissãode sinais elementares. . . 90

9.7 Reduçãoda freqüên iafundamental de um sinal. . . 91

9.8 Aumento dafreqüên ia fundamentalde um sinal. . . 91

9.9 Modelo simpli ado de síntese da falaporltragem. . . 92

9.10 Osressonadores de Kratzenstein (1779). . . 93

9.11 Osintetizador de fala Voder de Dudley (1939).. . . 94

9.12 Esquema de um sistema de síntese utilizandoltrode predição linear. . . 96

9.13 Exemplo de uma adeia de Markov. . . .100

9.14 Exemplo de uma adeia de Markov usada para modelar uma palavrafalada. .101

10.1 Estruturatípi asimpli adade umsistemade re onhe imentodefala[51,53,

76℄. . . .107

(24)

10.4 Ilustração de um sistema de re onhe imento de fala baseado em adeias de

Markov. . . .111

11.1 Esquema de blo os do programa kara at. . . .118

11.2 Umverso da ançãopopular Bash ofu.. . . .122

11.3 Outroverso da ançãoBash ofu. . . .122

11.4 Grá odapressãopara asílabama, antada em11alturasdistintas(deG3a

C5). . . .123

11.5 Exemplo de arquivo de segmentação

h

sílaba

i

.pi . . . .124 11.6 Exemplo de arquivo de anção

h

título

i

.kar. . . .125 11.7 En olhendo uma sílaba. . . .126

11.8 Alongandouma sílaba. . . .127

(25)

6.1 Osfones dalíngua portuguesa, na lassi ação doLAFAPE/IEL/UNICAMP. . 60

11.1 Osfones dalíngua japonesa. . . .119

(26)

Introdução

Nosso objetivo neste trabalhoé apresentar uma revisão dos prin ipaisprin ípios envolvidos

na síntese, pro essamento e re onhe imento da fala humana por omputador. Des revemos

também o projeto experimental  um sintetizador de anções populares japonesas  que

desenvolvemos node orrer de nossos estudos.

A ne essidade da interação do homem om a máquina através da fala já era evidente

desdeoiní iodaera da omputação[20℄. A gura1.1dáuma idéiadas expe tativasnonal

dadé ada de 1950 [6, 7℄.

(27)

Em1968,nolme2001 UmaOdisséianoEspaço,ArthurC. ClarkeeStanleyKubri k[13,

14℄ idealizaram o omputador HAL 9000 omo sendo apaz de onversar. Esse lme fez

a reditar que omuni ação verbal entre o homem e o omputador não só era possível, mas

seria realidade muito em breve.

Entretanto,essasprevisõessemostraramotimistas. Éverdadequeate nologiadesíntese

de falaavançou onsideravelmente,atalpontoqueafalaarti ialhojeéquaseindistinguível

da fala natural. Contudo o re onhe imentoda fala humana ainda tem um longo aminhoà

frente, devido à omplexidade dalinguagem natural.

As pesquisas mal omeçam a unir síntese om re onhe imento de fala, objetivando

apli- ações omo tradução em tempo real e interfa es amigáveis homem- omputador. A

po-pularização de equipamentos de omuni ação portáteis ( elulares, laptops, palmtops) e a

universalização da Internet aumentaram onsideravelmente o poten ial de apli ação destas

te nologias.

1.1 Estrutura da monograa

Orestantedestetrabalhoestá divididoemtrêspartes. AparteIéumarevisãodos prin ipais

on eitos de pro essamento de sinais:

Capítulo 2: Apresentaosprin ipaiselementosdateoriade sinais ontínuos, in luindo

os on eitos de expansão, deslo amento, onvolução, e sinais periódi os

Capítulo 3: Revê os on eitos de transformada de Fourier, espe tro de potên ia e

espe trograma para sinais analógi os,e o on eito de função de janelamento.

(28)

Capítulo 5: Trata do pro essamento digital de sinais, introduzindo os on eitos de

amostragem, quantização, e re onstrução. Des reve as prin ipais ondições para

digi-talização de qualidade, in luindo o teorema da amostragem de Nyquist. Introduz os

on eitos de transformadadis reta de Fourier e transformadaZ.

AparteII apresentaas ara terísti asdafalahumana,edes reve osprin ipaismétodos para

onversão texto-fala ere onhe imento dafala natural:

Capítulo6: Dis orresobreanaturezadosomemgeraledafalahumanaemparti ular,

des revendo os órgãos responsáveis pela produção da fala (trato vo al), sua aptação

(sistemaauditivo),e os me anismosfísi os orrespondentes.

Capítulo 7: Introduz o on eito de fone (unidade elementar da fala) e suas

ara te-rísti as analíti as, in luindo espe tro dos sons primordiais prin ipais e dos prin ipais

tipos de fones. Introduz o on eito de formantes (pi os no espe tro de potên ia que

ara terizam ertos fones).

Capítulo 8: Des reve as prin ipais ara terísti as e apli ações de sistemas de

on-versão texto-fala, in luindosua estrutura geral e as prin ipaisdi uldades e soluções.

Apresenta uma relaçãodos diferentes fonesda línguaportuguesa.

Capítulo 9: Apresenta as prin ipais apli ações e te nologias para síntese da fala

hu-mana: síntese on atenativa,sínteseporformantes,esimulaçãoarti ulatória. Des reve

emparti ularomodelofonte-ltrobaseadoemformantes(ban osderessonadores)eem

ltrosdeprediçãolinear(LPC).Des revetambématé ni aPSOLA para on atenação

suave de segmentosde falae sua variaçãode duração efreqüên ia de pit h.

Capítulo 10: Enumera as prin ipais apli ações para sistemas de re onhe imento da

fala humana, e lassi a as mesmassegundo vários atributos. Des reve brevemente as

(29)

A parte III des reve um projeto práti o desenvolvido para onsolidar os onhe imentos

ad-quiridos neste mestrado:

Capítulo11: Des reveosistemaqueimplementamos,batizadokara at,quesintetiza

anções popularesjaponesas,usando o modelo de síntese on atenativa.

Finalmente,nos Apêndi es, listamosalgunssoftwares disponíveis(livrese omer iais) para

(30)
(31)

Análise de sinais

2.1 Sinais analógi os

O som é uma deformação de um meio elásti o (por exemplo, uma variação da densidade e

pressão do ar,ou da tensão e deformação de um sólido) que se propaga na formade ondas.

(32)

Uma grandeza físi a que varia om o tempo, omo a pressão do ar em um determinado

ponto de uma onda sonora, pode ser des rita por um sinal analógi o: uma função real

s

(pressão, orrente, tensão, deslo amento, et .) de uma variável real

t

(tempo) om as

seguintes ara terísti as: (1) é uma função ontínua, e (2) em qualquer intervalo de tempo,

a integraldo quadradodessa função énita.

Estas propriedades valem naturalmente para o som, pois: (1) a pressão varia de forma

ontínua, uma vez que as partes móveis da fonte sonora não podem se mover a velo idade

innita; e (2) a integral do quadrado da pressão é propor ional à energia emitida na forma

de som, que é ne essariamentenita.

2.2 Operações om sinais

Sinais podem ser matemati amente ombinados om as operações de soma, subtração,

pro-duto, et . Nesses asos entende-se que a operação é apli ada a valores tomados no mesmo

instante. Por exemplo, a soma de um sinal

f

e um sinal

g

é um sinal

h = f + g

tal que

h(t) = f (t) + g(t)

para todoinstante

t

.

Outrasoperações omsinais,importantesparapro essamentodesom,sãoaampli ação,

o deslo amento,a expansão, ea onvolução.

2.2.1 Ampli ação ou atenuação

A ampli ação ou atenuação de um sinal

f

por um fator real

α

produz um sinal

g

tal que

g(t) = αf (t)

para todo

t

. Obviamente, quando

α = 1

o resultado é o próprio sinal

f

, e

quando

α = 0

o resultado é o sinal nulo(que valezero para todo instante

t

).

Esta operaçãomultipli aaamplitudedosinalpor

|α|

. Onomeampli ação égeralmente usado quando

α > 1

,e atenuação quando

|α| < 1

.

(33)

2.2.2 Deslo amento

Odeslo amento de umsinal

f

porum tempoxo

τ

produz umsinal

g

talque

g(t + τ ) = f (t)

para todo instante

t

. Isso equivale a dizer que

g(t) = f (t − τ)

para todo instante

t

. Ou seja, o resultado

g

éigual aosinal

f

, ex eto que atrasadopelotempo

τ

(ou adiantado, se

τ

é negativo).

2.2.3 Expansão ou ontração

A expansão ou ontração de um sinal

f

por um fator real

α 6= 0

produz um sinal

g

tal que

g(αt) = f (t)

para todoinstante

t

. Isso equivaleadizer que

g(t) = f (t/α)

para todoinstante

t

. O nomeexpansão é mais apropriado quando

α > 1

, e ontração quando

α < 1

.

2.2.4 Convolução

A onvolução de duas funções

f

e

g

, es rita

f ∗ g

, édenida pelafórmula

(f ∗ g)(t) =

Z

−∞

f (τ )g(t − τ) dτ

(2.1)

ou seja, o valor da função

f ∗ g

num instante

t

é uma ombinação linear dos valores de

f

em todos os instantes

τ

, ponderados pelos valores

g(t − τ)

. Mostra-se que a onvolução é omutativa (

f ∗ g = g ∗ f

) e asso iativa (

f ∗ (g ∗ h) = (f ∗ g) ∗ h

).

O elemento-identidade da onvolução é a função impulso unitário ou função de Dira ,

denotada por

δ

. Por denição,

δ ∗ f = f

para qualquer sinal

f

. De orre desta denição que

δ(t)

é zero para todo

t 6= 0

, mas tem integral unitária em qualquer intervalo que ontenha

t = 0

. Portanto

δ

nãoépropriamenteumafunçãoreal,maspodeser entendida omoolimite

deumaseqüên iadefunçõesreais ontínuas

f

1

, f

2

, . . . , f

n

,onde ada

f

i

temintegralunitária, e énulaforade um intervalo

J

i

, que ontém 0 e ujalargura tendea zero.

(34)

2.3 Sinais periódi os

Dizemosqueumsinalanalógi o

s

éperiódi o seeleserepeteindenidamente:

s(t+T ) = s(t)

, para algum

T > 0

epara todo

t

.

O menor valor positivo

T

que satisfaz esta ondição é hamado de período fundamental dosinal, equalquer tre hodosinal om duração

T

é um i lo. A freqüên ia fundamental de um sinal periódi oéo número

f = 1/T

de períodos fundamentais(ou i los)porunidade de tempo. Aunidade SIdefreqüên ia,

1

i lo porsegundo, édenominadahertz eabreviadaHz.

2.3.1 Senóides

Os exemplos lássi os de sinais periódi os são as funções seno e osseno (

sen t

e

cos t

), que tem período

. Elas são asos parti ulares de senóides, funçõesda forma

s(t) = M sen(2πf t − θ)

(2.2)

onde

M

,

θ

,e

f

são númerosreaisarbitrários. Oparâmetro

M

éaamplitude(ovalormáximo) dasenóide, e

f

ésua freqüên ia. Oparâmetro

θ

éo deslo amento de fase dasenóide. Veja a gura 2.2.

-3

-2

-1

0

1

2

3

0

0.2

0.4

0.6

0.8

1

t (segundos)

Figura 2.2: Uma senóide de freqüên ia

f = 4

Hz, deslo amento de fase

θ = π/6

, e amplitude

M = 3

.

Emparti ular,afunção osseno

cos(2πf t) = sen(2πf t+π/2)

éumasenóide omfreqüên iaf, amplitude1,edeslo amentodefase

π/2

. Maisgeneri amente, afunção (2.2)podeser es rita

(35)

também omo uma ombinaçãolinear de

sen(t)

e

cos(t)

, ontraídos pelo fator

1/(2πf )

:

M sen(2πf t − θ) = A cos 2πft + B sen 2πft

(2.3)

onde

A = −M sen θ

e

B = M cos θ

(eportanto

M =

A

2

+ B

2

).

Se

f

é zero, a função (2.2) tem valor onstante

A = −M sen θ

; aso ontrário ela é uma função periódi a, om freqüên ia fundamental

f

e período fundamental

T = 1/f

. Deve-se observar que uma senóide de amplitude

M

, freqüên ia

f

e deslo amento de fase

θ

também pode ser vista omo tendoamplitude

−M

, freqüên ia

−f

e deslo amentode fase

−θ

.

(36)

A transformada de Fourier

Uma ferramenta essen ial para o estudo de sinais analógi os é a teoria de Fourier, ujos

on eitos prin ipaisdes revemos aseguir. Omitiremosdetalhes edemonstrações, quepodem

ser en ontradas em qualquer livrotexto sobre oassunto [10℄.

3.1 De omposição em senóides

A teoria de Fourier diz que todo sinal analógi o, não ne essariamente periódi o, pode ser

analisado omouma ombinaçãolinearde innitassenóidesdetodasasfreqüên iaspossíveis,

positivas ou nulas [10℄. Usando a fórmula (2.3), esta armação equivale a dizer que, para

todo sinal

s(t)

, existemfunções

A(f )

e

B(f )

taisque

s(t) =

Z

0

(A(f ) cos 2πf t + B(f ) sen 2πf t) df

(3.1)

Osfatores

A(f )

e

B(f )

representam asamplitudes dossinais

cos 2πf t

e

sen 2πf t

,respe tiv a-mente, que, na análisede Fourier, ontribuempara o sinal

s

. Cada senóide

A(f ) cos 2πf t +

(37)

3.2 Análise de Fourier omplexa

As fórmulas da análise de Fourier  am muito mais simples se trabalharmos om números

omplexos.

Denimos uma senóide omplexa omo sendo qualquer função daforma

Ce

i2πf t

, onde

C

é algum número omplexo,

f

algum número real (a freqüên ia), e

i

a unidade imaginária,

i

=

−1

. Veja a gura3.1. Osigni ado desta fórmulaé dado pelaidentidade de Euler:

e

= cos θ + i sen θ

(3.2)

-4

-3

-2

-1

0

1

2

3

4

0

0.2

0.4

0.6

0.8

1

Figura 3.1: Uma senóide omplexa om freqüên ia

f = 4

Hz e amplitude omplexa

C = 2 + 3i

. A parte real da função é a linha heia, a parte imaginária é a linha tra ejada.

Esta identidade permite es rever qualquer senóide de freqüên ia

f

omo a soma de duas senóides omplexas:

A(f ) cos 2πf t + B(f ) sen 2πf t = S(f )e

i2πf t

+ S(−f)e

i2π(−f )t

(3.3) onde

S(f ) =

1

2

(A(f ) − iB(f))

se

f > 0,

1

2

(A(−f) + iB(−f))

se

f < 0.

(3.4)

Portanto, podemos re-es rever aequação (3.1) omo

s(t) =

Z

−∞

(38)

Ou seja, todosinal pode ser analisado omo uma ombinação linear de senóides omplexas

e

i2πf t

, de todas as freqüên ias possíveis (positivase negativas), ada qual om determinado

oe iente

S(f )

.

3.3 Transformada de Fourier

Veri a-se que afunção

S

dafórmula (3.5) pode ser al ulada pelafórmula

S(f ) =

Z

−∞

s(t)e

−i2πft

dt

(3.6)

Afunção

S

é hamadadetransformadadeFourierdosinal

s

. Afórmula(3.5),quere uperaa funçãooriginal

s

apartirdatransformada

S

,é hamadadetransformadainversa deFourier.

A teoria de Fourier nos permite representar o mesmo sinal físi o de duas maneiras, no

domínio do tempo (afunção

s

)e nodomínio da freqüên ia (afunção

S

). A transformadade Fourier esua inversa realizama passagem de um domínio para ooutro.

Cada operação om sinais realizável num domínio possui uma operação equivalente no

outrodomínio. Porém, ertasoperaçõessãovisualizadasoumesmoefetuadasmaisfa ilmente

num domínio doque nooutro.

3.4 Propriedades da transformada de Fourier

Seguem-sealgumaspropriedadesimportantesdatransformadadeFourier. Sejam

s, u, v

sinais analógi os om transformadas

S, U, V

, e sejam

α, β

onstantes reais.

(39)

vi e-Expansão/Contração: Se

s(t) = u(αt)

, então

S(f ) = U(f /α)/ |α|

. Ou seja, se osinal é en olhido notempo,sua transformada expandeem freqüên iae diminuiemamplitude.

Deslo amento: Se

s(t) = u(t − α)

, então

S(f ) = e

−i2παf

U(f )

. Ou seja, o deslo amento

de um sinal notemponão altera o módulo

|S(f)|

de sua transformada, mas apenas altera o deslo amentode fasede ada omponente, propor ionalmenteà sua freqüên ia.

Teorema da energia (de Rayleigh): Para todosinal

s

, tem-se

Z

+∞

−∞

|s(t)|

2

dt =

Z

+∞

−∞

|S(f)|

2

df

(3.7)

Ouseja,aenergiatotaldosinalpodeser al uladapelamesmafórmula(integraldoquadrado

dafunção), tantono domíniodo tempo, quanto nodomínio dafreqüên ia.

Produto/Convolução: Se

s(t) = u(t)v(t)

para todo

t

, então

S = U ∗ V

. Se

s = u ∗ v

, então

S(f ) = U(f )V (f )

, para todo

f

. Ou seja, a onvoluçãode duas funções nodomíniodo tempoequivaleao produto pontoa ponto nodomínioda freqüên ia,e vi e-versa.

3.5 Espe tro de potên ia

Oespe tro de densidade de potên ia de um sinal

s

é afunção

ˆ

S(f ) = |S(f)|

2

+ |S(−f)|

2

(3.8)

denidapara

f ≥ 0

,onde

S

éatransformadadeFourierde

s

. Informalmente,ovalorde

S(f )

ˆ

é aenergia das omponentes do sinal

s

que possuem freqüên ia

±f

. Veja a gura 3.2(d).

Valeobservarquemuitos autorespreferemtrabalhar om oespe trobilateralde potên ia,

˜

S(f ) = |S(f)|

2

, denido para todo

f

real, positivo e negativo. Veja a gura 3.2( ).

Entre-tanto,oespe trobilateraldeumsinalanalógi orealésempresimétri o(

|S(−f)|

2

= |S(f)|

2

),

(40)

(a)

-3.0

-2.0

-1.0

0.0

1.0

2.0

3.0

-5

-4

-3

-2

-1

0

1

2

3

4

5

t (segundos)

(b)

-0.4

-0.2

0.0

0.2

0.4

-8

-7

-6

-5

-4

-3

-2

-1

0

1

2

3

4

5

6

7

8

f (hertz)

( )

0.0

0.1

-8

-7

-6

-5

-4

-3

-2

-1

0

1

2

3

4

5

6

7

8

f (hertz)

(d)

0.0

0.1

0.2

0.3

0

1

2

3

4

5

6

7

8

f (hertz)

Figura 3.2: Transformada de Fourier e espe tro de potên ia. (a) o sinal

analó-gi o

s(t) = 2 cos(10π(t − 1)) exp(−(t − 1)

2

/4)

; (b) sua transformada de Fourier

S(f ) = (

π/5)(e

−2π

2

(f +5)

2

+ e

−2π

2

(f −5)

2

)(e

−i2πf

)

; ( ) seu espe tro bilateral de

po-tên ia

S(f ) = (π/25)(e

˜

−2π

2

(f +5)

2

+ e

−2π

2

(f −5)

2

)

2

; (d) seu espe tro (unilateral) de

potên ia

S(f ) = (2π/25)(e

ˆ

−2π

2

(f +5)

2

+ e

−2π

2

(f −5)

2

)

2

. 3.6 Espe trograma

Oespe trograma éumarepresentaçãodeumsinalanalógi ointermediáriaentreodomíniodo

tempo e o domínioda freqüên ia. Para onstruir o espe trograma de um sinal

s

, es olhe-se uma função de janelamento

h

. Esta função deve ser um sinal analógi o ujo valor

h(t)

é positivo quando

t

está dentro de determinado intervalo

(−a, +a)

, e zero para todo

t

fora

(41)

desse intervalo. Comesta es olha,o espe trograma de

s

éa função

S

ˆ

de duas variáveis

t, f

, denida por

ˆ

S(t, f ) = |S(t, f)|

2

+ |S(t, −f)|

2

(3.9) onde

S(t, f ) =

Z

−∞

s(t + u)h(u)e

−i2πfu

du

(3.10)

Ou seja, para ada instante

t

, onstrói-se um sinal que é um extrato de

s

, restrito ao intervalo de tempo

[t − a, t + a]

e deslo ado de modo a olo ar o entro desse intervalo no instante 0. Isto é, onstrói-se afunção

r

talque

r(u) = s(t + u)h(u)

paratodo

u

. Sejaentão

R

a transformada de Fourier do sinal

r

, e

R

ˆ

seu espe tro de potên ia. Temos então que

S(t, f ) = R(f )

e

S(t, f ) = ˆ

ˆ

R(f )

para ada freqüên ia

f

.

O valorde

S(τ, f )

ˆ

mede portanto aenergiadas omponentes de freqüên ia

±f

que estão presentes notre ho dosinal

s

restritoaointervalode tempo

[τ − a, τ + a]

. Veja agura 3.3.

-1

-0.5

0

0.5

1

-4

-2

0

2

4

t (segundos)

160Hz

0Hz

Figura 3.3: Espe trograma. Grá o de um sinal analógi o

s

(no alto) e seu es-pe trograma

S(t, f )

ˆ

, representado omo uma imagem bidimensional, onde o eixo horizontal é otempo

t

, eo eixo verti al é a freqüên ia

f

. Tons mais es uros repre-sentam valores maioresde

S(t, f )

ˆ

.

Oespe trograma éuma ferramenta muito útilnaanálise de sinais ujoespe tro de potên ia

(42)

3.7 Funções de janelamento

A função de janelamento

h(t)

mais simples é a janela retangular, que vale

1

se

−a < t < a

, e 0 aso ontrário. Veja a gura 3.4.

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

-5

-4

-3

-2

-1

0

1

2

3

4

5

Figura 3.4: Funçãode janelamentoretangular para o intervalo

[−3, +3]

.

Esta função é pou o usada na onstrução de espe trogramas, pois o produto

s(t)h(t − τ)

geralmente tem des ontinuidades quando

t = τ − a

e

t = τ + a

, que introduzem detalhes espúrios no espe trograma. Várias outras funções de janelamento podem ser en ontradas

na literatura: Gauss, Hamming, Hann, Bartlett, Bartlett-Hann, Nuttall, Kaiser, Bla kman,

Bla kman-Nuttall,Bla kman-Harris,Wel h,e Parzen [72℄.

A função de Hann (popularmente, mas in orretamente, hamada Hanning) é denida

pela fórmula

h(t) = (1 + cos(πt/a))/2

. Ela é muito usada, pois é fá il de implementar e produz espe trogramas de boa qualidade. Vejaa gura 3.5.

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

-5

-4

-3

-2

-1

0

1

2

3

4

5

(43)

Filtros

Umltro,nadeniçãomais geraldotermo,éum dispositivoquere ebeum sinal

s

edevolve uma versão modi ada

s

do mesmo.

Na verdade, qualquer meio físi o de transmissão ( omo uma parede de on reto ou

ma-deira,um oelétri o,oumesmo oar) sempreintroduz algumamudançanão trivialnosinal,

e portanto pode ser onsiderado um ltro.

Os ltros de interesse em áudio e tele omuni ações são normalmente empregados para

ressaltar, atenuar ousuprimir ertas omponentes do sinal, dependendo da freqüên ia. Eles

são geralmente ir uitos eletrni os, mas há muitos exemplos importantes de ltros

me â-ni os, omo por exemplo os ressonadores e avidades de instrumentos musi ais. Um ltro

me âni o muito importante para este trabalho éo trato vo al (seção6.4.1), que modi a os

sons produzidos nalaringe.

4.1 Filtros lineares e invariantes om o tempo

Dizemos que um ltro é linear se o sinal de saída depende de maneira linear do sinal de

entrada. Istoé,paraqualquer

α

e

β

onstantes, seaentrada

s

produzasaída

s

(44)

r

produz a saída

r

, a entrada

αs + βr

deve produzir asaída

αs

+ βr

.

Dizemos que um ltroé invariante om o tempo (ou apenasinvariante)seo úni oefeito

de um atraso arbitráriodosinal de entrada éum atraso igualna saída,ouseja, sea entrada

s

produz asaída

s

,eo sinal

r

étal que

r(t) = s(t − τ)

, para algum

τ

e para todo

t

, então a entrada

r

deve produzir osinal

r

talque

r

(t) = s

(t − τ)

.

4.2 Filtros para sinais omplexos

Para estudar o efeito de ltros à luz da teoria de Fourier, é ne essário denir seu efeito

quando aentradaéum sinal omplexo

s(t) + ir(t)

(umafunção omplexadavariávelreal

t

), possivelmenteproduzindonasaídaoutrosinal omplexo,

s

(t) + ir

(t)

. Paratanto,bastausar

a seguinteregra: se osinal real de entrada

s

produz a saída real

s

, então o sinal imaginário

i

s

produz,pordenição, asaídaimaginária

i

s

. Veri a-se que, om estaregra,um ltroque

é lineare invariantepara sinais reais tambémoé para sinais omplexos.

4.3 Função de transferên ia

Demonstra-se que um ltro real, linear e invariante notempo,quando alimentado om uma

senóide

A sen(2πf t − θ)

, produz sempre outrasenóide

A

sen(2πf t − θ

)

; quepode diferirda

entrada em amplitude e deslo amentode fase, mas tem sempre a mesma freqüên ia.

A mesma propriedadevalequando trabalhamos om exponen iais omplexas. Mais

pre- isamente, se a entrada de um ltro linear e invariante for a senóide omplexa

e

i2πf t

, de

amplitude1,asaídaserá outrasenóide omplexa

H(f )e

i2πf t

, omamesmafreqüên ia

f

. Ou seja, o ltro pode apenas multipli ar osinal por um número omplexo arbitrário

H(f )

 o que pode afetar seu módulo e seu deslo amentode fase,mas não sua freqüên ia.

(45)

uma senóide omplexa geral

Ae

i2πf t

, a saída será

H(f )Ae

i2πf t

. Portanto, se onhe ermos o

valorde

H(f )

para todafreqüên ia

f

,podemosdeterminar asaída

s

para qualquersinal de

entrada

s

. Basta de ompor

s

em suas omponentes senoidais omplexas, apli ar o ltro a ada uma delas, e ombinar as senóides omplexas resultantes. Ou seja, a transformada de

Fourier

S

dasaída

s

está rela ionada à transformada

S

de

s

pelafórmula

S

(f ) = H(f )S(f )

(4.1)

Con luímos portantoque a função

H

, hamadafunção de transferên ia, des reve ompleta-mente o efeito de um ltro linear e invariante no tempo, por mais ompli ado que ele seja,

para qualquer sinal de entrada.

A função

H(f )

é a transformada de Fourier daresposta impulsiva

h(t)

do ltro, que é o sinal observado nasaída doltro quando a entrada éa função impulso

δ(t)

de Dira .

Veri a-se quea grande maioriados ltros, naturaise arti iais,é linear e invarianteno

tempo,pelomenosaproximadamente, desdequeaamplitudedosinalnãosejaex essiva. Por

outro lado, todoltro físi o deixade ser linearquando o sinal ex ede um erto limite.

Deste ponto em diante, vamos supor impli itamente que todos os ltros são lineares e

invariantes no tempo.

4.4 Filtros importantes

Entre os ltros mais importantes em a ústi a, estão os ltros passa-baixas, passa-altas e

passa-banda,e osressonadores.

Passa-baixas: é um ltro que permite a passagem sem alteração das omponentes

senoi-dais de baixa freqüên ia, mas elimina (ou reduz signi ativamente) as omponentes om

(46)

No ltro passa-baixas ideal, a função de transferên ia

H

é tal que

|H(f)| = 1

quando

f < f

max

, e

|H(f)| = 0

quando

f > f

max

. Porém, este tipo de ltro não pode ser realizado

si amente; portanto os ltros passa-baixas usados na práti a satisfazem estas ondições

apenas de maneiraaproximada. Veja agura 4.1.

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

0

100

200

300

400

500

600

700

Figura4.1: Funçãodetransferên iatípi adeumltropassa-baixas om

f

max

= 300

Hz.

Comoveremosnaseção5.3.1,umaapli açãoimportantedeltrospassa-baixaséaeliminação

das omponentes om freqüên iasaltasantes dadigitalizaçãodeum sinal. Outra apli açãoé

separarossonsgravesde umsinal deáudiopara alimentá-losaum alto-falanteespe ializado

(woofer). Naverdade, porlimitaçõesfísi as,todotransdutorou ir uitoeletrni oéin apaz

de a ompanharsenóides om freqüên ias a ima de um erto valor. Portanto, pode-se supor

que todosistema físi oin lui um ltro passa-baixas.

Passa-altas: Este ltro fun iona de maneira omplementar a um ltro passa-baixas, ou

seja,eleeliminaas omponentes omfreqüên ias menores queuma ertafreqüên ia de orte

f

min

,deixandopassarinalteradasaquelas omfreqüên iasmaioresque

f

min

. Vejaagura4.2.

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

0

100

200

300

400

500

600

700

(47)

Uma apli ação de ltros passa-altas em a ústi a é eliminar omponentes om freqüên ias

menores que

20

Hz (inaudíveis) antes da digitalização. Outra apli ação é separar os sons agudos para alimentá-los aum alto-falanteespe ializado(tweeter).

Passa-banda: Um ltro passa-banda permite a passagem apenas de freqüên ias

f

dentro de uma determinada faixa,

f

min

< f < f

max

. Ele ombina os efeitos de um ltro passa-altas om orte

f

min

e um ltro passa-baixas om orte

f

max

. Vejaa gura 4.3.

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

0

100

200

300

400

500

600

700

Figura4.3: Funçãode transferên iatípi ade umltropassa-banda om

f

min

= 200

Hz,

f

max

= 400

Hz.

Como veremos na seção 6.3.1, o sistema auditivo humano in lui impli itamente um ltro

passa-banda, ujasfreqüên ias de orte são aproximadamente

f

min

= 20

Hz e

f

max

= 20.000

Hz.

Ressonador: é um aso espe ial de ltro passa-banda que possui

f

max

próximo a

f

min

, de modoquepreservaapenasas omponentes omfreqüên iapróximaa

f

med

= (f

min

+ f

max

)/2

. Vejaa gura 4.4.

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

0

100

200

300

400

500

600

700

(48)

Ressonadores são omponentes importantes de instrumentos musi ais. Por exemplo, ada

tubo de um órgão é onstruído para ressonar nafreqüên ia de uma determinadanota

musi- al. No ser humano, a laringe fun iona omo um ressonador que, pelo seu alongamento ou

ontração,ajuda a ontrolar afreqüên ia de vibraçãodas pregasvo ais.

Anti-ressonador(not h lter): éumltroquetemefeito omplementaraode um

resso-nador,ouseja, eliminaas omponentes de um sinal dentrode umaestreita faixade

freqüên- ias, deixando passar todas as outrassem alteração. Veja a gura4.5.

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

0

100

200

300

400

500

600

700

Figura 4.5: Função de transferên ia típi a de um anti-ressonador om

f

med

= 300

Hz.

Anti-ressonadores são usados em sistemas de som, por exemplo, para eliminar mi rofonia

(49)

Pro essamento digital de sinais

5.1 Introdução

Teori amente, um sinal analógi oexiste desde

t = −∞

até

t = +∞

,assumeinnitos valores de amplitude em qualquer intervalo de tempo, e esses valores podem ser innitamente

pró-ximos uns dos outros. Uma vez que omputadores não onseguem armazenar ou manipular

quantidades innitasde dados, osinal, para ser pro essado, pre isa ser digitalizado 

apro-ximado por uma oleção dis retade valores que possa ser odi ada om um número nito

de bits (zeros euns).

Aseqüên iadevalores

s

0

, s

1

, . . . , s

n−1

resultantedessepro essoé hamadadesinaldigital, e ada valor

s

i

é uma amostra digital dosinal

s(t)

.

O pro esso inverso à digitalização é a re onstrução do sinal analógi o

s(t)

a partir do sinal digital

s

0

, s

1

, . . . , s

n−1

. Esta re onstrução é ne essária prin ipalmente para que sons armazenadosoupro essados emformadigitalpossamser to adosnumalto-falanteeouvidos.

(50)

éumsinal

s

(t)

diferentedosinal

s(t)

originalmas, espera-se,su ientementesimilarpara a apli ação onsiderada.

5.2 Digitalização

Opro esso de digitalizaçãoenvolve três on eitos: re orte, amostrageme quantização.

O re orte de um sinal de áudio onsiste simplesmenteemlimitar otempoaum intervalo

nito. Istodeve ser feito de preferên ia eminstantes onde o sinal énulo, pois aso ontrário

o salto repentino no valor é per ebido om um estalo. Quando isso não é possível, pode-se

usar uma função de janelamento, similar às des rita na seção 3.7, para ligar e desligar

suavemente o sinal. Veja a gura 5.1(a ). Um sinal de longa duração é freqüentemente

re ortado emuma série de segmentosde duração xa, quesão pro essados separadamente.

Aamostragem onsisteemsubstituirumafunçãodevariávelreal

s(t)

porumaseqüên ia -nitadeamostras valores

s(t

0

), s(t

1

), . . . , s(t

n−1

)

medidoseminstantesdis retos

t

0

, t

1

, . . . , t

n−1

dentro do intervalo de re orte. Quase sempre os instantes são igualmente espaçados, por

exemplo a ada

10

−4

segundos. Veja a gura 5.1(d). O número de amostras por segundo é

hamado freqüên ia de amostragem.

A quantização onsiste em reduzir ada número real

s(t

i

)

a um valor

s

i

es olhido dentre um onjuntonitodevalorespossíveisporexemplo,

{−1, 5 , −1, 2 , −0, 9 . . . , +1, 2, +1, 5}

. Veja a gura 5.1(e). Um dispositivo que implementa este passo é hamado de onversor

analógi o-digital ou onversor A-D.

5.3 Condições para boa amostragem

Nopro essodedigitalizaçãoere onstrução,deve-se tomar uidadopara queoresultado

s

(t)

(51)

prin ipais onsiderações sobre a amostragemrelevantes para esse objetivo. (a)

-2

-1

0

1

2

0

1

2

3

4

5

t (segundos)

(b)

-2

-1

0

1

2

0

1

2

3

4

5

t (segundos)

( )

-2

-1

0

1

2

0

1

2

3

4

5

t (segundos)

(d)

-2

-1

0

1

2

0

1

2

3

4

5

t (segundos)

(e)

-2

-1

0

1

2

0

1

2

3

4

5

t (segundos)

Figura 5.1: Digitalização de um sinal analógi o. (a) Grá o do sinal ontínuo e

entrada. (b) Umafunção de janelamentopara re ortesuave. ( ) Osinalre ortado.

(d)Osinalamostradoa ada50ms. (e)Osinalquantizadopara11níveisigualmente

(52)

5.3.1 Teorema da amostragem de Nyquist

Oresultado mais importante parauma boaamostragem éo Teoremade Nyquist:

O sinal original

s

pode ser re onstruído exatamente a partir das amostras

s(t

i

)

se a freqüên ia de amostragem for maior que o dobro da maior freqüên ia das

omponentes presentes em

s

.

Ou seja, se afreqüên ia de amostragem é

f

, a re onstrução perfeita é possível se

S(f ) = 0

para todo

f

om

|f| ≥ f

/2

.

Poroutrolado, se asfreqüên iasdas omponentes presentes em

S

obriremum intervalo

[−f

max

, +f

max

]

onde

f

max

≥ f

/2

, a re onstrução perfeita é impossível. Isto porque o sinal

pode onter omponentes

c(t) = e

i2πf t

, de freqüên ia

f

, e

d(t) = e

i2π(f −f

)t

, de freqüên ia

f −f

,queproduzemamesmaseqüên iadeamostras. Essa onfusão(aliasing)entreasduas

omponentes impli a que as amostras não ontém informação su iente para re onstruir o

sinal original.

5.3.2 Pré-Filtragem

Emvistadoteoremade Nyquist, on lui-se que,para garantir are onstrução orretade um

sinal arbitrário,éne essário removerassuas omponentes om freqüên iasmaioresouiguais

a

f

/2

antes da amostragem. Ou seja, o sinal deve passar por um ltro passa-baixas antes de ser alimentado ao onversor A-D.

Umavezqueoouvidohumanoésensívelafreqüên iasentre20Hze20kHz,aamostragem

omfreqüên ia

f

pou omaiorque40kHzéadequadamesmoparaosouvidosmaisexigentes. Por essa razão,emCDs de áudio omer iais osom é amostrado a44.100 Hz. Veri a-se que

(53)

su ientes para ompreensão de qualquer língua. Portanto, uma amostragem

f

de 8kHz é onsiderada su ientepara telefonia xa etelefones elulares.

5.4 Condições para boa quantização

Na onversão de amostras reais

s(t

i

)

para valores dis retos

s

i

, ada amostra

s(t

i

)

deve ser substituída porum valor

s

i

, dentrode um onjunto nito

V

de valores permissíveis. Geral-mente

V

é simétri o: istoé, se ovalor

v

perten e a

V

, então

−v

tambémperten e.

Nesse pro esso o orre um erro de quantização

e

i

= s(t

i

) − s

i

. O sinal re onstruído

s

ontém portanto um sinal indesejado

e(t)

, o ruído de quantização, que é o resultado da re onstrução da seqüên ia

e

0

, e

1

, . . . , e

n−1

. Em sistemas de som, este ruído geralmente é per ebido omoum hiado sobreposto aosom original.

Os seguintes aspe tos são importantes na quantização: o espaçamento dos valores, seu

al an e e onúmero de bits.

5.4.1 Espaçamento dos valores

A grossomodo, ovolume doruído

e(t)

épropor ionalaoespaçamento entre oselementosde

V

. Porexemplo,seum valor

v

de

V

e seuvizinho mais próximo

v

′′

diferem em1mV,o erro

de quantização,para amostrasentre esses dois valores, será nomáximo

±

0,5mV.Portanto, para reduzir oerro

e(t)

, deve-se reduziro espaçamento entre os valores de

V

.

5.4.2 Al an e dos valores

Oselementosde

V

tambémdevem obrir o intervalode todos osvaloresque podem o orrer no sinal

s

. Ou seja, o valor de

|s(t)|

não deve ex eder o valor

v

max

= max { |v| : v ∈ V }

, o

(54)

al an e (range, em inglês) do quantizador. Caso ontrário, a diferença

|s(t

i

)| − v

max

, om sinal apropriado, irápara o erro

e

i

.

Em sinais de som, o resultado desta ondição de sobre arga (overload ou overow) é

bastante desagradável. Para evitar que esta ondição o orra, é desejável que o valor de

v

max

sejaomaiorpossível. Felizmente, umavez quetantoavozhumanaquantotransdutores

(mi rofonesealto-falantes)têmpotên ialimitada,ossinaisdevozgeralmenteestãolimitados

a um intervalo

[−s

max

, +s

max

]

onhe ido.

5.4.3 Número de bits

Para odi ar ada amostra digital, pre isamos usar pelo menos

log

2

|V |

bits, arredondado para ima, onde

|V |

é o número de valores distintos em

V

. Dito de outra forma, se ada amostraé odi adaem

b

bits,o onjunto

V

teránomáximo

2

b

valoresdistintos. Assim, por

exemplo, se

V

é o onjunto dos inteiros entre

−127

e

127

, ada amostra ne essita de

8

bits.

Junto om afreqüên ia deamostragem,este parâmetrodeterminaaquantidadede dados

que podem ser armazenados em qualquer meio digital (memória, dis o rígido, CD, DVD,

et .), transmitidos (via abo, Internet, telefone, et .), e pro essados (por omputadores ou

dispositivos digitais espe ializados). Portanto, é desejável que este parâmetro seja o menor

possível. Poroutro lado, para ompatibilidade om omputadores esistemas de transmissão

de dados digitais, é omum xar onúmero de bits por amostraemalguma potên iade 2.

5.4.4 Es olha dos valores

A es olha mais natural para o onjunto

V

são os múltiplos inteiros de um valor xo

d

; ou seja,

V = { id : −κ ≤ i ≤ +κ }

, sendo

κ

e

i

inteiros. Este esquemaé hamado de odi ação linear, e éo mais simples de pro essar eanalisar.

(55)

egravadoresportáteis), utiliza-senapráti aum onjuntode valores

V

ujoespaçamentonão é uniforme. A justi ativa para esta odi ação não linear é que, quanto mais intenso o

sinal sonoro, mais tolerante é o ouvido humano ao ruído gerado pelos erros de quantização.

Portanto, para se obter um determinado padrão de qualidade subjetiva, os valores de

V

próximosa zero pre isam ter espaçamentomenor que osvaloresmais afastados de zero.

Assim,porexemplo,opadrãodequantização onhe ido omolei

µ

(mu-law),desenvolvido pelos LaboratóriosBell [18℄, usa osvalores

V = {v

i

: −κ ≤ i ≤ κ}

,denidos pelafórmula

v

i

= sgn(i)

(1 + µ)

|i/κ|

− 1

1 + µ

s

max

(5.1)

ondeointeiro

κ

éumparâmetrodomodelo,e

µ = 2κ + 1

. Estepadrãoéusadoparatelefonia nos EUA e Japão, om 8 bits poramostra,

κ = 127

, e

µ = 255

. Veja agura 5.2.

-1

-0.5

0

0.5

1

127

0

-127

valor

codigo

Figura 5.2: A orrespondên ia entre o ódigo numéri o

i

e o respe tivo valor do sinal

v

i

noesquema de odi ação lei

µ

 para 8bits (

µ = 255

).

Ospadrõesde telefonia daEuropa edo Brasil espe i am um sistema bastantesemelhante,

onhe ido por lei

A

(

A

-law) [17℄. Com qualquer dos dois sistemas, 8 bits por amostra são adequadospara ompreensãodaspalavras,desdequeovolumegeraldavozsejadevidamente

(56)

Para apli açõesmais exigentes ( omogravaçãoe transmissão de músi as,trilhas sonoras

de lmes e televisão, et .), 8 bits por amostra não são su ientes, mesmo om odi ação

não-linear. O padrão atual de odi ação para CDs de áudio usa 16 bits por amostra, om

odi ação linear.

5.4.5 Digitalização omo ltragem

Como veremos naseção 5.4.6, a estrutura on reta de um sistemaeletrni o para onversão

analógi o-digital é determinada por limitações da físi a dos dispositivos usados.

Matema-ti amente, porém, o pro esso de digitalização pode ser des rito omo um ltro não-linear,

omposto de três módulos. O primeiro módulo é o ltro passa-baixas, que elimina

ompo-nentes indesejadas. O segundo módulo, que representa a amostragem do sinal, multipli a o

sinal ltradoporum tremde impulsos de Dira , uma função

⊔⊔

denida por

⊔⊔(t) =

+∞

X

i=−∞

δ(t − t

i

)

(5.2)

onde

t

i

sãoosinstantes deamostragem. Oter eiromódulorepresentaoserrosdequantização

e

i

introduzidospelo onversor A/D,e ujoefeitoésomara adaimpulso

s(t

i

)δ(t−t

i

)

otermo

adi ional

e

i

δ(t − t

i

)

. Vejaa gura 5.3.

Trem de Dira Sinal analóg. Filtro P.-B.

×

+

A-D ideal Sinal digital Erro de Quant.

⊔⊔(t)

s(t)

⊔⊔(t) × s(t)

s

(t)

s

i

⊔⊔(t) × e(t)

(57)

Con eitualmente, a saída deste ltro de digitalização é otrem de impulsos

s

(t) =

+∞

X

i=−∞

s

i

δ(t − t

i

)

(5.3)

ujas amplitudes são as amostras digitalizadas

s

0

, s

1

, . . .

. Estes valores estão no onjunto

V

, e portanto o sinal

s

(t)

pode ser pre isamente odi ado em formato digital (bits) sem

nenhuma perda oualteração.

Estemodelotemopropósitodeexpli itarastrêsalteraçõesefetivamentesofridaspelosinal

nadigitalização,esepará-las da onversão de formato(analógi o parabinário)propriamente

dita, que não afetao sinal. Em parti ular, este modelo mostra quetransformada de Fourier

dosinal digitalizado

s

é

S

(f ) = (S(f )B(f ) + E(f )) ∗

F

F(f )

(5.4)

onde

S(f )

é a transformada do sinal original

s

,

B(f )

é a função de transferên ia do ltro passa-baixas,

F

F(f )

é a transformada dotrem de impulsos

⊔⊔(t)

, e

E(f )

é é a transformada

de um sinal

e

talque

e(t

i

) = e

i

.

5.4.6 Digitalização na práti a

Na práti a, um dispositivo para digitalização de sinais geralmente onsiste de um ir uito

analógi ode amostragem e estabilização(sample-and-hold) seguido do onversor

analógi o-digital propriamentedito, omo ilustradona gura 5.4.

Sinal analóg. Filtro P.-B. Sample-and-hold A-D Sinal digital

s(t)

s

(t)

s

i

Figura 5.4: Esquemade blo os de um onversor analógi o-digitaltípi o.

O ir uito sample-and-hold amostra o sinal de entrada

s

a ada instante

t

i

, e reproduz esse valornosinaldesaída

s

atéopróximoinstantedeamostragem;ouseja,

s

(t) = s(t

i

)

durante

(58)

ada intervalo de

t

i

a

t

i+1

. O grá o do sinal de saída

s

(t)

é portanto uma seqüên ia de degrausque a ompanhamaproximadamenteo sinal de entrada. Veja agura 5.5.

-2

-1

0

1

2

-1

0

1

2

3

4

5

6

t (segundos)

Figura 5.5: Um sinal analógi o (linha tra ejada)e a saída do ir uito

sample-and-hold (linha heia).

O papel do ir uito sample-and-hold é manter o sinal analógi o estável até que o onversor

A-D onsiga determinar a representação binária do valor

s(t

i

)

. Nesse momento, os sinais elétri os binários que representam os bits desse valor são lidos pelo omputador ou outro

sistema digital,e opro esso todoserepete om apróximaamostra.

Na práti a,éimpossível onstruir um dispositivosample-and-hold apazde medir

exata-menteo sinalde entrada

s

noinstante

t

i

apenas. Um ir uitosi amenterealizável onsegue apenas obter uma média aproximada dos valores de

s

nas vizinhanças de

t

i

.

A saída

s

do ir uitosample-and-hold pode ser es rita omo

s

(t) = (s × ⊔⊔) ∗ ⊓(t/p)

(5.5)

(59)

5.5 Re onstrução

É óbvio que a re onstrução somente pode ser feita dentro do intervalo de re orte

[a, b]

. O primeiro passo da re onstrução é onverter ada número digital

s

i

para uma representação analógi a

s(t

i

)

. Esta onversão é efetuada por um onversor digital-analógi o ou onversor D-A. Feito isso, é ne essário interpolar esses valores, ou seja, denir

s(t)

para os demais instantes

t

.

5.5.1 Re onstrução omo ltragem

Matemati amente, o pro esso de re onstrução pode ser on ebido omo uma seqüên ia de

duas etapas separadas. Na primeira etapa, a seqüên ia de números

s

0

, s

1

, . . .

é onvertida num sinal

s

que onsiste de uma seqüên ia de pulsos de Dira , onde o i-ésimopulso o orre noinstante

t

i

etem intensidade

s

i

:

s

(t) =

X

i

s

i

δ(t − t

i

)

(5.6)

Na segunda etapa, o sinal

s

passa por algum ltro suavizador (o ltro de re onstrução) que onverte os impulsosnum sinal ontínuoVeja agura 5.6.

Sinal digital D-A Filtro Sinal analógi o

s

i

s

(t)

s(t)

Figura5.6: Esquema da re onstrução de um sinal digital vista omo ltragem.

Esta interpretação é vantajosa sempre que o pro esso de re onstrução é linear e invariante

omotempo,poispermitedes reverpre isaesu intamenteoefeitodomesmopelafunçãode

transferên ia

R(f )

doltrousadonasegundaetapa. Elaéimportantetambémparaoprojeto do ltro suavizador. Idealmente, o sistema de re onstrução (gura 5.6) deveria desfazer o

Referências

Documentos relacionados

(geralmente a oferta de bens e servicos), se deparam na talvez falsa necessidade de despejar perante a sociedade uma serie de contratos homogeneos, mais conhecidos por contratos

História Protótipo Casos de Teste Refinamento Planning Build Geração de Massa Testes Homologação Responsável: time de QA Entradas: • Histórias; • Protótipos; • Casos

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Capítulo 7 – Novas contribuições para o conhecimento da composição química e atividade biológica de infusões, extratos e quassinóides obtidos de Picrolemma sprucei

Estrategicamente, a principal meta de um sistema de custos ambientais é facilitar os esforços de melhoria da gestão ambiental, através do gerenciamento por atividades que terão

Ao concluir esta pesquisa, remete-se novamente ao seu objetivo que foi analisar a transição de carreira de atletas, considerando-se a finalização de sua atuação como

(3) Direcionamento dos fluxos: são as linhas que expressam a capacidade de atração da demanda e/ou da oferta, baseadas na localização dos pontos de origem e

Para se estabelecer o que seria variação, deve-se primeiramente considerar uma transcrição de referência sobre a qual serão introduzidas as variantes. Neste estudo, estabelecemos,