• Nenhum resultado encontrado

Lista de abreviaturas e siglas

Capítulo 2 – Enquadramento estrutural

2.3 Identificação do orador

2.3.1 Parâmetros percetivos e parâmetros acústicos

É importante, quando nos referimos a análise acústica forense, selecionar os parâmetros que consideramos serem os mais adequados para a extração de características de voz que possam discriminar o orador de forma eficaz. Assim, nesta subseção, ilustramos os parâmetros que consideramos mais pertinentes e estudados na literatura, além de serem aqueles com que trabalhámos, na investigação.

Mendes [15] refere-se à informação de alto nível e à informação de baixo-nível, sendo que a primeira está ligada ao estilo de fala e hábitos de dicção e de pronúncia, como o dialeto, e a segunda relaciona-se com as características que resultam da forma do trato vocal, como a frequência fundamental ou a frequência das formantes.

Qualquer ouvinte humano possui a capacidade de reconhecer, implícita e inconscientemente, características de voz através de marcas individuais. Esta tarefa é auxiliada pelo facto de existirem informações que são veiculadas no sinal acústico e que se revelam de âmbito linguístico e sociocultural (contexto) e de índole extralinguístico (características anatómicas do trato vocal) [57].

A caracterização do orador faz-se, portanto, através das marcas dialetais e sociodialetais relacionadas com o género, a formação académica e a localização geográfica, a título de exemplo. Contudo, não se deve perder de vista que as marcas dialetais, por si só, não permitem a imediata identificação do orador, na medida em que são partilhadas por inúmeros falantes. O idioleto é, aqui, um fator fulcral, na medida em que corresponde, num sentido lato, à configuração individual de produção de discurso de cada indivíduo. Todas estas condições colaboram na descrição do perfil de voz – ou assinatura sonora – de um orador.

A qualidade de voz é, também, passível de uma avaliação percetiva. Laver [59] refere-se à componente orgânica e à componente de ajuste articulatório no que diz respeito a este critério. A componente orgânica não pode ser controlada pelo indivíduo, ao contrário da componente de ajuste articulatório, que é possível dominar deliberadamente. Além disso, a primeira está relacionada com a anatomia do trato vocal de cada orador, que condiciona a qualidade de voz através do volume, massa e fisionomia dos órgãos. O ajuste articulatório diz ainda respeito às configurações articulatórias habituais de cada indivíduo, quando produz discurso, e está relacionado com os ajustes supralaríngeo e o fonatório, como o comportamento da laringe e os cinco estilos de vibração: falsete, sussurro, basal, áspero e soproso [59].

No que diz respeito aos parâmetros acústicos, a frequência fundamental é, talvez, um dos mais utilizados na análise acústica. Sucintamente, e como referido na Secção 2.2.1, corresponde à taxa da vibração das pregas vocais, ou seja, o número de vezes que as pregas vocais abrem e fecham, por segundo. De acordo com Kreiman e Sidtis [55], o pitch é o correlato percetivo da frequência fundamental. Além disso, esta frequência está intrinsecamente ligada às características físicas do aparelho fonador do indivíduo e é o atributo que mais realce tem, percetivamente, para os ouvintes. Este parâmetro possui elevada robustez acústica, mesmo em ambientes poluídos com elevados níveis de ruído de fundo, o que o torna muito fiável quando se fala de identificação e de reconhecimento de orador. Não obstante, é importante ressalvar que a frequência fundamental sofre de variações ao longo do dia. A título de exemplo, deve ter-se em consideração as alterações de humor do indivíduo, alguma doença ou a presença de stress, como se verifica num estudo levado a cabo por Ghiurcau et al. [56]. Aliados à frequência fundamental, existem dois parâmetros que também foram utilizados no estudo, a saber, a média e o desvio padrão [56].

As frequências das formantes, também designadas de padrão acústico das formantes, constituem outro parâmetro acústico relevante para o reconhecimento de orador. As formantes têm especial relevância, aqui, na medida em que representam os resultados dos diferentes volumes das cavidades de ressonância do trato vocal. Segundo Gillier [57], o número das frequências formantes é infinito, mas os dois primeiros, F1 e

F2, são aquelas mais utilizadas, na medida em que se relacionam quer com a abertura do maxilar inferior, quer com os movimentos da língua (avanço e recuo e elevação e abaixamento). São, portanto, formantes responsáveis pela qualidade das vogais e fornecem informação relevante para a identificação do orador, denotando as tendências articulatórias e exprimindo as diferenças de tamanho do trato vocal de cada indivíduo. As duas formantes seguintes de maior frequência, F3 e F4, são, similarmente, fulcrais, uma vez que também estão relacionadas com a anatomia individual do aparelho fonador. Segundo Rose [11], elas refletem o resultado da ressonância das cavidades como a laringe. Frühholz et al. [66] referem, ainda, que as formantes F3 e F4 parecem transportar bastante informação sobre o nível de excitação da vocalização afetiva, discriminado várias categorias emocionais. Contudo, beneficiam de pouca informação sobre a distinção das emoções, sendo elas positivas ou negativas.

Na nossa investigação, utilizámos, ainda, três outros parâmetros também relacionados com a perturbação e com a qualidade de voz, concretamente, i) o jitter, ii) o shimmer e iii) o HNR.

O jitter exprime uma “medida de curto-termo (i.e. ciclo-a-ciclo) de

variabilidade involuntária do período fundamental” [58], e é frequentemente aferida

através do quociente de perturbação do período glótico (Period Perturbation Quocient – PPQ) envolvendo, por exemplo, 3, 5, 11 ou 55 períodos; apresenta-se em percentagem e, no caso de três períodos, calcula-se através da Equação (1). Nesta equação, 𝑇0médio representa a média dos períodos considerados.

𝑃𝑃𝑄! =

!

!!! !!!!!! !!!!!!!!!!!!! !!!

!!médio (1)

O shimmer exprime uma “medida de curto-termo (i.e. ciclo-a-ciclo) de

variabilidade involuntária da amplitude dos ciclos glotais” [58], também se apresenta

em percentagem e usualmente é também aferida através do quociente de perturbação da amplitude do ciclo glótico (Amplitude Perturbation Quocient – APQ) cujo cálculo é muito similar ao do jitter, por exemplo, no caso de se considerarem 3 períodos o cálculo é descrito pela Equação (2) em que 𝐴média representa a amplitude média dos períodos

considerados. 𝐴𝑃𝑄! = ! !!! !!!!!!!!!!!!! !!! !!! !!! !média (2)

O HNR (Harmonics-to-Noise Ratio) é um parâmetro que exprime a relação entre harmónicos e ruído, em concreto, “(...) relaciona a energia da componente

harmónica em relação à energia da componente de ruído do sinal de voz, numa voz saudável (...)”[58]. É calculado através do logaritmo da relação entre a potência média

da componente periódica do sinal, representada por 𝑃!, e da potência média da componente ruidosa do sinal, representada por 𝑃! [58], tal como se indica na Equação (3). A unidade é o deciBel (dB).

𝐻𝑁𝑅 = 10 log!" !!!

! (3)

As vozes sem patologia, usualmente, possuem um valor jitter PPQ5 máximo de 1,5%. Por seu turno, o valor máximo para o shimmer APQ5 de vozes saudáveis é de 3,0%. No que diz respeito ao parâmetro HNR, 12dB é o valor mínimo indicativo para uma voz normal, sendo que se o resultado for inferior, pode indicar uma voz soprosa ou disfónica [18]. Normalmente, estes parâmetros avaliam amostras de vogais sustentadas, uma vez que correspondem a um regime fonatório controlado [18]. O comportamento das vogais sustentadas pode ser transposto para o que acontece na voz normal, como as hesitações de discurso [77]. Podemos verificar, então, que o jitter e o shimmer, enquanto parâmetros de avaliação de perturbação de voz, calculam o comportamento de particularidades temporais do sinal de voz e o HNR avalia os atributos espetrais, sendo um parâmetro de qualidade. Com estes parâmetros, é possível detetar desvios de caráter involuntário face aos valores representativos das vozes normais.

Lindh e Morrison [60] levaram a cabo um estudo em que um software e indivíduos voluntários comparavam a performance de análise de voz, através de amostras ouvidas em tempo invertido e na ordem temporal normal. Concluíram que o

ouvido humano consegue distinguir melhor as vozes quando a gravação segue a ordem cronológica natural, uma vez que conseguem extrair informação linguística e fonética, ao contrário do que acontece nas gravações que passaram de trás para a frente, uma vez que essa informação estava mascarada. Por seu turno, o sucesso dos resultados do

software superou os resultados dos ouvintes, em ambos os tipos das amostras. Neste

estudo particular, apresenta-se um processo de conversão das avaliações subjetivas por humanos nas pontuações da razão de verosimilhança, mostrando que o desempenho na comparação de vozes por computadores é melhor do que a comparação de vozes realizada por humanos.