• Nenhum resultado encontrado

Ajuste de duração

No documento Sintese e reconhecimento da fala humana (páginas 142-147)

O módulo de ajuste de duração pre isa esti ar ou en olher um elemento do di ionário, de

duração

d

programa es olheum tre hoadequadodoelemento(omiolo),denido pordois instantes

a

e

b

, que éretirado ourepetido onforme ne essário.

11.4.1 Es olha do miolo

O miolo é sempre es olhido dentro vogal nal da sílaba, pois essa é a parte uja duração é

normalmenteajustada por um antor humano. O iní io do miolo é indi adopor um ampo

dodi ionário(originalmentelidodoarquivo

h

sílaba

i

.pi ). Esteparâmetrodevesersu iente parapular as onsoantes ini iaiseasemi-vogalini ialdos ditongos, mesmonassílabas omo

/t ho/ e /ryo/.

Paraen olheroelemento,oinstantenal

b

domioloées olhido demodoquesuaduração

b − a

seja maior ouigual à diferença

∆ = d

i

− d

i

. Veja a gura11.7.

Figura 11.7: En olhendo uma sílaba. Sílaba original(no alto) dividida em abeça,

miolo e auda,e a sílabaen olhida (em baixo).

Para esti aro elemento,o instante nal

b

do miolo ées olhido de modoque

b − a

seja igual aoperíodofundamental

T

= 1/f

. Veja agura 11.8.

Figura 11.8: Alongando uma sílaba. Sílaba original (no alto) dividida em abeça,

miolo e auda,e a sílabaalongada (em baixo).

Nosdois asos,o valorexato de

b

ées olhido de modoasin ronizar o orte om afreqüên ia fundamental

f

davogal, omonométodoTD-PSOLA, onformedetalhadona seção11.4.2.

Este métodosimples deajusteseria bastanteinadequado seoselementosfossemfonesou

polifones arbitrários. Com erteza, ele produziriaresultados muito inferiores aos do método

TD-PSOLA  que, em vez de um úni o miolo, dupli aou remove vários sinais elementares

distribuídos ao longo de todo o segmento. No nosso aso, entretanto, sabemos que a vogal

naldasílabaéum sinalquase-periódi o, omfreqüên iafundamentalbem onhe idae uja

forma de onda é prati amente a mesma em ada i lo (ex eto por variações graduais de

volume).

11.4.2 Sin ronização dos ortes

Para sin ronizar asposiçõesdos ortes

a

e

b

,usamos ofatode quea freqüên iafundamental

f

davogaléaproximadamenteiguala

f

i

,afreqüên ianominal omqueasílabafoi antada.

Portanto, al ulamos uma estimativa superior

T = 1, 2/f

para o período fundamental

T

, e es olhemos o valor de

b

de tal formaque o tre hodo sinal nointervalo

[a − T/2, a + T/2]

seja o mais pare ido possível om o tre ho em

[b − T/2, b + T/2]

, a menos de um ajuste de volume.

Mais pre isamente, seja

n = ⌊T f

/2⌋

o número de amostras ontidos em um tre ho de duração

T /2

dosinal, onde

f

éa freqüên ia de amostragem. Sejam

i

e

j

os índi esde duas amostras. A similaridade

V (i, j)

dosinal na vizinhançadesses dois instantes é denida pela fórmula

V (i, j) =

n

X

k=−n

r

i+k

r

j+k

v

u

u

t

n

X

k=−n

r

2

i+k

!

n

X

k=−n

r

2

j+k

!

(11.2)

Esta fórmula é o oe iente de orrelação entre as amostras dos dois tre hos do sinal de

duração

T

entrados em

r

i

e

r

j

. Ela pode ser interpretada omo o osseno do ângulo entre osdois tre hos, onsiderados omo vetores de

R

2n+1

. Portanto,ovalorde

V (i, j)

é 1quando os dois tre hos diferem apenas por um fator de es ala (ganho), e menor que 1 em todos os

outros asos.

No programa kara at, o índi e

i

a

da amostra ini ial do miolo é xado em

⌊af

, onde

a

é o tempo doiní io do elemento ao iní io do miolo, espe i ado no di ionário. O programa

al ula

V (i

a

, j)

variandooíndi e

j

entre

j

min

= ⌊b

min

f

e

j

max

= j

min

+ n

,onde

b

min

éovalor mínimoparaom domiolo(que depende doobjetivo, esti arouen olher). Ovalorde

j

que forne e o maior valor de

V (i

a

, j)

dene o índi e

i

b

da amostra nal do miolo, e portanto o instante orrespondente

b = i

b

/f

.

11.4.3 Con atenação om ajuste de volume

No ajusteda duração de um elemento, ada tre ho sele ionadodo mesmo é on atenadoao

sinal de saída pelopro edimento

Oparâmetro

s

é aseqüên ia de amostrasdo sinal queestá sendo sintetizado, e

m

éo índi e nominaldaúltimaamostranomesmo. Oparâmetro

r

éaseqüên iadeamostrasdoelemento do di ionário. Os parâmetros

i

a

e

i

b

são índi es de amostrasem

r

. O pro edimentore orta um tre ho do som

r

que vai da amostra

r[i

a

]

(in lusive) até

r[i

b

]

(ex lusive), e soma esse tre hoao som

s

, alinhando a amostra

r[i

a

]

om a amostra

s[m]

. Os parâmetros

γ

a

,

w

a

,

γ

b

e

w

b

espe i amdetalhes dore orte nesses dois pontos, omo expli ado mais adiante.

O re orte é feito usando uma função de janelamento que omeça om uma meia-janela

de Hann res ente, om largura

w

a

, tem valor 1entre

r[i

a

]

e

r[i

b

]

, e termina om uma meia- janelade Hann des res entede largura

w

b

. Portanto,o tre ho re ortado naverdade omeça na amostra

r[i

a

− w

a

]

e terminana amostra

r[i

b

+ w

b

− 1]

, sendo que as primeiras

w

a

+ 1

e as últimas

w

b

+ 1

amostrassão multipli adaspela função de janelamento.

O sinal re ortado e ajustado é somado ao sinal

s

, alinhado de tal forma que a amostra

r[i

a

]

ésomadaa

s[m]

. Portanto,osinal

s

éalteradoapartirdaamostra

s[m − w

a

]

. A função

também soma aoparâmetro

m

o omprimentonominal

i

b

− i

a

dotre ho opiado. Note que este omprimentonãoin luiasabasdotre hore ortado riadaspelafunçãodejanelamento.

Portanto,ao m dopro edimento,o sinal

s

naverdade se estende até a amostra

s[m + w

b

]

.

11.4.4 Ajuste do volume na on atenação

A função on atena_suave também ajusta o ganho do tre ho opiado do som

r

, de modo a evitar mudança brus a de volume na junção. Isto é ne essário prin ipalmente quando o

elemento é en olhido, pois nesse aso o miolo removido geralmente se estende por muitos

períodos fundamentais, epode haverdiferença substan ial de volume.

A amostra

r[i

a

]

é multipli ada por

γ

a

, a amostra

r[i

b

]

é multipli adapor

γ

b

, e amostras intermediárias são multipli adas por valores intermediários entre

γ

a

e

γ

b

, em progressão

No documento Sintese e reconhecimento da fala humana (páginas 142-147)

Documentos relacionados