Uso de técnicas acústicas para verificação de locutor em simulação experimental

(1)

i

ALINE DE PAULA MACHADO

USO DE TÉCNICAS ACÚSTICAS PARA VERIFICAÇÃO DE

LOCUTOR EM SIMULAÇÃO EXPERIMENTAL

CAMPINAS,

2014

(2)

(3)

iii

UNIVERSIDADE ESTADUAL DE CAMPINAS

INSTITUTO DE ESTUDOS DA LINGUAGEM

ALINE DE PAULA MACHADO

USO DE TÉCNICAS ACÚSTICAS PARA VERIFICAÇÃO DE

LOCUTOR EM SIMULAÇÃO EXPERIMENTAL

Dissertação de mestrado apresentada ao Instituto de Estudos da Linguagem da Universidade Estadual de Campinas para obtenção do título de Mestra em Linguística.

Orientador: Prof. Dr. Plínio Almeida Barbosa

CAMPINAS,

2014

(4)

(5)

(6)

(7)

vii

RESUMO

Esta pesquisa investiga a eficácia de um conjunto de medidas acústicas para o reconhecimento da fala de um indivíduo em um grupo de dez falantes do português brasileiro. Um sujeito desse grupo foi sorteado e nomeado o “criminoso”. Entre as medidas usadas na pesquisa estão: frequências dos dois primeiros formantes das vogais, frequência fundamental média, duração de unidades do tamanho da sílaba e da vogal, dinamicidade dos formantes e desvio-padrão de durações de intervalos consonânticos (∆C).

Todos os trechos escolhidos são de entrevistados divididos em dois grupos: (i) entrevistas ao ar livre e (ii) gravações telefônicas (de celular para celular). Os indivíduos consistem em falantes do português brasileiro das regiões dos estados de São Paulo, Rio Grande do Sul, Pará e Bahia.

Nesta pesquisa, fazemos um apanhado histórico da Fonética Forense, dos métodos de análise utilizados ao longo história e também de quais parâmetros acústicos são mais usados para diferentes contextos de gravação – direta e por celular – e quais deles foram mais significativos na pesquisa. Em nossos resultados, os parâmetros que menos sofreram variação com a mudança de canal de transmissão foram os de ritmo e tempo, como duração, taxa de elocução, ∆C; e um parâmetro que mede a dinamicidade do formante, que foi a taxa de movimento do segundo formante. As medidas temporais da pesquisa, por serem as mais variáveis inter-sujeito, tiveram grande poder discriminador. Os testes estatísticos apontaram que três dos indivíduos estudados apresentavam semelhanças com o “criminoso”.

(8)

(9)

ix

ABSTRACT

The aim of this research is to use some acoustic techniques for recognizing a subject in a group of ten speakers of the Brazilian Portuguese variety and pointing out what are the most relevant acoustic parameters for speaker recognition in that group. The analysis of the first two formants for the oral vowels, fundamental frequency, speech rate, formant movement rate, syllable-sized duration, intensity and ∆C (standard deviation of consonantal interval durations of the collected samples) will help identifying an individual from within the group.

All the samples are from interviews made in a poorly treated acoustic environment and into a mobile phone. Moreover, the samples of one of the speakers (the "criminal"), which were collected in an acoustically-treated room, will simulate the questioned pattern of the forensic situation. Our subjects are from four states of Brazil, São Paulo, Rio Grande do Sul, Pará and Bahia.

A historical background of forensic phonetics is presented, which also allowed us to point out the most commonly used acoustic parameters extracted from direct and telephone recordings for the goals of our research. The acoustic parameters that did not change across different transmission recording channels were speech rhythm and temporal parameters such as vowel duration, speech rate and ∆C as well as second formant movement rate. The results revealed a large inter-speaker variability across all parameters, which signals a discriminant power.

Our statiscal tests pointed out three subjects more likely to be the criminal.

(10)

(11)

xi

SUMÁRIO

Introdução ... 1

1 Motivação para o estudo ... 3

1.1 Uso de técnicas acústicas para verificação de locutor em simulação experimental ... 5

2 Reconhecimento de locutor e Fonética Forense ... 155

2.1 Apanhado histórico ... 155

2.1.1 Voiceprints ... 177

2.1.2 Duas abordagens históricas ... 21

2.2 Por que as vozes são difíceis de discriminar? ... 222

2.3 Reconhecimento de locutor... 244

2.4 Métodos de análise forense ... 288

3 Pesquisa desenvolvida ... 355

3.1 Efeito do celular ... 366

4 Metodologia... 41

4.1 Procedimento ... 41

4.2 Parâmetros acústicos ... 455

4.3 Métodos de análise estatística e resultados ... 51

5 Discussão ... 755

(12)

(13)

xiii

(14)

(15)

xv

MEUS AGRADECIMENTOS

Ao professor Plínio, por aceitar ser o meu orientador, por sua compreensão e paciência. Muito obrigada por seus ensinamentos, não só em sala de aula, mas também por mostrar quão importante é respeitar o colega.

Aos professores do IEL, por contribuírem com minha formação desde a minha graduação.

Aos meus colegas do Grupo de Estudos de Prosódia da Fala: Ana Carolina, Cristiane, Pablo, Renata e Wellington, pelo apoio em minha pesquisa.

To Anders Eriksson, for sharing your knowledge and kindness with me.

A minha mãe, pelo apoio incondicional que sempre me deu. Por sempre acreditar em mim até quando estou em dúvida sobre minha capacidade.

Ao meu pai, Antonio, por, mesmo longe, ser um grande conforto para mim.

Ao meu irmão, Lucas, por ser um dos meus maiores exemplos de força de vontade e determinação.

Aos meus avós, que sempre me recebem de braços abertos, por suas histórias e atenção.

À CAPES, por financiar meus estudos.

(16)

(17)

xvii

LISTA DE FIGURAS

Figura 1. Espectrograma gerado no software PRAAT do sujeito 1. ... 188

Figura 2. Aumento da imagem espectrográfica gerada no software PRAAT do sujeito 1. 188 Figura 3. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8. 399 Figura 4. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8. 399 Figura 5. Esquema da gravação por escuta telefônica usado nesta pesquisa. ... 42

Figura 6. Boxplot para ∆C para gravação em celular (cel) e gravação direta (ncel). ... 544

Figura 7. Boxplot para média de duração das vogais para gravação em celular (cel) e gravação direta (ncel). ... 555

Figura 8. Boxplot para a taxa de movimento do segundo formante para gravação em celular (cel) e gravação direta (ncel). ... 555

Figura 9. Boxplot para taxa de elocução para gravação em celular (cel) e gravação direta (ncel). ... 566

Figura 10. Boxplot para frequência fundamental para gravação em celular (cel) e gravação direta (ncel). ... 577

Figura 11. Boxplot para a ênfase espectral para gravação em celular (cel) e gravação direta (ncel). ... 588

Figura 12. Boxplot para média de duração das vogais para a variação inter-falantes. ... 60

Figura 13. Boxplot para taxa de elocução para a variação inter-falantes. ... 61

Figura 14. Boxplot para ∆C para a variação inter-falantes. ... 62

Figura 15. Boxplot para frequência baseline para a variação inter-falantes. ... 633

Figura 16. Boxplot para ênfase espectral para a variação inter-falantes. ... 644

Figura 17. Boxplot para a frequência fundamental para a variação inter-falantes. ... 655

Figura 18. Boxplot da taxa de transição do segundo formante para a variação inter-falantes.. 666

(18)

(19)

xix

LISTA DE TABELAS

Tabela 1. Valores médios dos parâmetros acústicos das vogais orais do sujeito 1. ... 7

Tabela 2. Valores dos parâmetros acústicos das vogais orais do criminoso 6. ... 8

Tabela 3. Média dos parâmetros acústicos para o sujeito 1. ... 9

Tabela 4. Média dos parâmetros acústicos para o “criminoso”. ... 9

Tabela 5. Medida do desvio-padrão para os parâmetros acústicos do sujeito 1. ... 10

Tabela 6. Medida do desvio-padrão para os parâmetros acústicos do “criminoso”. ... 10

Tabela 7. Teste t para todos os parâmetros acústicos entre o sujeito 1 e “criminoso” para α= 0,05. ... 11

Tabela 8. Lista com informações sobre os sujeitos participantes da pesquisa. ... 444

Tabela 9. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta. ... 533

Tabela 10. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta. ... 533

Tabela 11. Kruskal-Wallis, para α = 0,05, para a variação inter-falante. ... 599

Tabela 12. Kruskal-Wallis, para α = 0,05, para a variação inter-falante. ... 599

Tabela 13. Resultado do teste de Duncan para a frequência fundamental. ... 688

Tabela 14. Resultado do teste de Duncan para a frequência do segundo formante. ... 699

Tabela 15. Resultado do teste de Duncan para a taxa de movimento do segundo formante. ... 699

Tabela 16. Resultado do teste de Duncan para a taxa de transição do segundo formante. .. 70

Tabela 17. Resultado do teste de Duncan para a frequência baseline. ... 70

Tabela 18. Resultado do teste de Duncan para a ênfase espectral. ... 71

Tabela 19. Resultado do teste de Duncan para a média das vogais... 71

Tabela 20. Resultado do teste de Duncan para a taxa de elocução. ... 72

(20)

(21)

xxi

“While there’s life there’s hope.” (J. R. R. Tolkien)

(22)

1

Introdução

Este trabalho tem como objetivo reconhecer um indivíduo a partir de sua fala dentre um grupo de dez falantes do português brasileiro, assinalando, para isso, quais parâmetros acústicos são relevantes para a análise desse reconhecimento.

A pesquisa está dividida em seis capítulos. O primeiro, Motivação para o estudo, conta a minha trajetória na pesquisa da Fonética Forense, desde a Iniciação Científica, apresentando resultados significativos para a área, até a pesquisa atual. O segundo capítulo é chamado Reconhecimento de locutor e Fonética Forense e consiste em uma análise do background histórico dessa subárea da Linguística, desde o antigo método de comparação de vozes por espectrograma, voiceprint, até o método de análise acústico-auditivo usado nesta pesquisa. No capítulo três, Pesquisa desenvolvida, é apresentada a justificativa para este trabalho de Mestrado e o uso de telefone celular. Em Metodologia, são mostrados os modelos estatísticos usados para a pesquisa e os resultados dos testes. No capítulo 5,

Discussão, discutem-se todos os resultados obtidos no trabalho e quais suas implicações

para a Fonética Forense. Por último, em Referências bibliográficas, apresenta-se toda a literatura usada na pesquisa.

(23)

(24)

3

1 Motivação para o estudo

O sinal da fala carrega informações de sua fonte sonora. Notamos isso pela experiência diária de reconhecer quem está falando sem ver o falante, reconhecer alguém pelo telefone sem que tenha se identificado primeiro. Por esse fato, cientistas são motivados a estudar mais especificamente as características dessa identificação de voz e do sinal da fala.

Tal questão é utilizada no ambiente policial, seja quando a testemunha de um crime apenas ouve a voz do criminoso (por este estar de máscara ou porque fala pelo telefone, entre outros motivos), seja quando é necessário comparar a voz de um número de gravações telefônicas com aquela de um suspeito.

Para tanto, entra em jogo a Fonética Forense, que é a aplicação de técnicas de análise fonética a contextos policiais jurídicos. É uma área que vem crescendo desde a década de 1960 no Reino Unido e tem sua importância disseminada para todo o globo desde então (FRENCH, 1994).

No Brasil, essa subárea da fonética não é demasiadamente promovida nas faculdades, e suas técnicas de análise pela polícia não são, de modo geral, semelhantes às usadas em demais países, cujo sistema judicial demanda esse tipo de análise. A grande diferença entre os métodos usados no Brasil e em demais países, como a Suécia, é uma série de vários

(25)

4

fatores, que passo a numerar. Em primeiro lugar, normalmente, no exterior, o especialista que faz as análises das amostras de fala trazidas pela polícia é um foneticista ou um profissional com extenso background fonético-linguístico. A relação estreita que existe no exterior entre departamento policial e universidade facilita também essa troca de serviços. No Brasil, por sua vez, a análise é feita prioritariamente usando sistemas automáticos de identificação de locutor (como, por exemplo, o software Batvox). Em países da Europa, como Inglaterra, Suécia, Alemanha, entre outros, o uso de sistemas automáticos é acompanhado de insights de um profissional com conhecimentos em fonética e até linguística, por exemplo, na Universidade de Gotemburgo, o software utilizado é o ALIZE SpkDet, e os resultados obtidos pelo programa são combinados com análise acústico-auditiva tradicional (ERIKSSON, 2012).

Esses foram os motivos que impulsionaram o meu interesse, desde a graduação, em Linguística, em pesquisar essa área, beneficiando-me do conhecimento acadêmico fornecido pela universidade. Desejo que, futuramente, as análises utilizadas nessa pesquisa possam contribuir para a Fonética Forense no país. Como resultado de meu percurso, passo a fazer um panorama das pesquisas feitas desde minha Iniciação Científica e a justificativa para o projeto atual de Mestrado.

(26)

5

1.1 Uso de técnicas acústicas para verificação de locutor em simulação

experimental

1

Nesta seção, falaremos sobre o trabalho realizado na graduação, uma Iniciação Científica (IC) com bolsa FAPESP, que foi meu primeiro contato com a pesquisa forense, impulsionando o interesse pela área e o aprimoramento para a pesquisa atual. Utilizamos os parâmetros acústicos e métodos de análise da IC como base para o Mestrado, expandido o corpus de pesquisa, usando mais de um teste de análise estatística e também inserindo a análise de gravações telefônicas, o que aproxima ainda mais a pesquisa da realidade forense.

Este projeto propôs, através de algumas técnicas de análise acústica, o reconhecimento de um indivíduo dentro de um grupo de cinco falantes do português paulista e, a partir daí, a identificação de quais parâmetros acústicos são relevantes para o reconhecimento naquele grupo.

As análises dos quatro primeiros formantes das vogais orais, da frequência fundamental média das mesmas vogais, da duração de unidades do tamanho da sílaba e da vogal, além da intensidade relativa das vogais orais em trechos escolhidos desses falantes serviram para identificar, em princípio, um indivíduo dentro daquele grupo. Usamos de um script do PRAAT desenvolvido por Barbosa (2010) para a extração automática desses

(27)

6

parâmetros acústicos, enquanto a segmentação e etiquetação do material em vogais orais foram feitas manualmente.

Todos os trechos escolhidos foram de entrevistados em ambiente não tratado acusticamente (ao ar livre). Além disso, trechos escolhidos em sala com tratamento acústico de um indivíduo (o “criminoso”) simularam o padrão questionado da situação forense. Nenhum dos participantes da pesquisa era conhecido da mestranda, e a escolha do “criminoso” foi feita pelo seu orientador, que seria por meio de sorteio. Porém, foi revelado para ela, após o final da análise dos dados, que o “criminoso” não estava presente no grupo de sujeitos da pesquisa, ele foi um sexto participante escolhido pelo orientador do projeto.

Os dados desta pesquisa foram analisados estatisticamente com o programa R2, tendo sido

empregado um Teste T de variáveis independentes com nível de significância igual a 5% para cada parâmetro, comparando os dados de cada suspeito com o “criminoso”. Este teste permite avaliar a probabilidade de erro na rejeição da hipótese nula, caso essa seja verdadeira (“o suspeito x é o criminoso”). Seguem abaixo dois excertos com os valores dos parâmetros acústicos das vogais orais do sujeito 1 e do “criminoso”, para se ter uma ideia do grau de variabilidade dos dados. O sujeito 1 foi o escolhido para exemplo, pois acreditou-se, no começo da pesquisa, ser o indivíduo, cujos parâmetros acústicos mais se assemelhavam aos do “criminoso”.

(28)

7

SUJEITO 1

Vogais Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz)

Ênfase espectral (dB) a 63 130 593 1352 2214 3859 111 16 i 83 137 393 2177 2855 3678 111 4 ɐ ₆₅ ₁₁₁ ₆₄₄ ₁₄₁₁ ₂₂₈₀ ₃₅₅₃ ₁₁₁ ₆ e ɪ 442 132 419 1691 2459 3658 104 12 ɛ ₂₀₂ ₁₂₁ ₆₀₂ ₁₇₇₉ ₂₈₁₇ ₃₉₄₅ ₁₀₄ ₁₇ a 165 116 769 1579 3213 4162 104 15 ɛ ₁₈₅ ₁₂₂ ₅₁₁ ₁₆₉₆ ₃₀₀₄ ₄₈₇₄ ₁₂₁ ₁₅ u 29 134 1159 2182 121 3 ʊ ₇₆ ₁₃₁ ₆₂₇ ₁₂₀₈ ₂₆₄₈ ₄₅₃₁ ₁₂₁ ₆ e ʊ 89 145 515 1759 3272 3882 107 7 ɛ ₁₂₀ ₁₄₁ ₆₀₇ ₁₉₆₂ ₃₃₉₈ ₄₄₄₄ ₁₀₇ ₁₇ ɛ ₁₂₉ ₁₁₅ ₇₃₄ ₁₈₇₉ ₃₅₁₄ ₄₆₇₆ ₁₀₇ ₇ ʊ ₄₄ ₁₄₀ ₆₃₉ ₁₆₇₄ ₁₀₈ ₇ ɛ ₁₃₃ ₁₁₉ ₅₉₆ ₁₉₂₃ ₃₀₉₇ ₄₃₇₈ ₁₀₈ ₁₄ i 134 127 327 2184 2918 4078 120 2 u 49 127 1417 1417 124 10 a 77 129 647 1813 3072 4304 124 18 e 67 146 506 1677 2994 4161 124 23 ɔ ₈₁ ₁₃₉ ₆₄₉ ₁₈₃₄ ₃₀₂₆ ₄₄₃₃ ₁₂₆ ₁₈ ɐ ₄₆ ₁₂₉ ₄₉₁ ₁₇₂₁ ₂₈₀₉ ₄₂₅₄ ₁₂₆ ₁₁ ɛ ₈₃ ₁₉₀ ₆₀₅ ₁₈₅₅ ₃₁₂₁ ₄₂₁₄ ₁₂₆ ₂₃ a 75 166 701 1987 3092 4355 126 22 e ʊ 104 175 554 1651 3150 4190 126 9 a 128 154 635 1891 3090 4224 126 28 i 42 179 422 2208 3228 4001 126 7 e ʊ 102 124 517 1537 2700 4371 123 16 u 66 141 494 1847 2792 4017 123 7 e 288 172 470 2322 3246 4192 123 6 ɛ ₉₉ ₁₈₁ ₇₅₂ ₁₈₂₆ ₂₉₉₉ ₄₅₉₂ ₁₆₇ ₂₄ e 80 213 652 1799 3026 4503 167 21 ɔ ₁₂₁ ₂₁₃ ₇₉₄ ₂₂₂₁ ₂₅₇₂ ₄₂₂₄ ₁₆₇ ₂₀ ɪ_a ₆₁ ₂₁₉ ₅₇₀ ₁₇₂₅ ₂₉₉₅ ₄₂₂₁ ₁₆₇ ₁₇ e ʊ 67 209 506 1594 3031 4229 167 13 o 58 202 525 1667 2939 4538 167 16 ʊ ₆₇ ₂₂₇ ₆₀₇ ₁₂₀₂ ₂₄₆₉ ₄₀₈₇ ₁₆₇ ₁₂ e ʊ 150 127 495 2177 2926 3882 88 10

Tabela 1. Valores médios dos parâmetros acústicos das vogais orais do sujeito 1.3

(29)

8 CRIMINOSO Vogais Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz) Ênfase espectral (dB) ɛ ₅₁₆ ₁₂₅ ₅₅₁ ₁₅₃₉ ₂₂₇₂ ₃₄₀₆ ₁₁₃ ₇ a 101 134 493 1647 2506 3647 113 9 i 48 138 284 1861 2815 3523 113 1 e ɪ 184 141 355 1858 2832 3567 113 3 a 63 149 607 1564 2888 3481 127 5 e 27 144 475 1650 2100 3292 127 5 a 62 149 468 1577 2387 3682 127 10 a 49 149 595 1303 2299 3337 127 12 a 55 148 599 1415 2440 3593 127 12 e ɪ 199 149 414 1980 2802 3597 127 5 u 69 151 530 1154 2213 3297 127 3 e 40 148 441 1667 2528 3522 127 5 u 98 146 385 1117 2023 3060 127 3 ʊ ₁₀₈ ₁₄₆ ₅₀₅ ₁₃₄₉ ₂₃₈₇ ₃₂₅₅ ₁₂₇ ₃ a 188 141 681 1434 2361 3378 127 7 ɛ ₁₇₁ ₁₃₄ ₅₆₃ ₁₆₁₈ ₂₄₃₀ ₃₅₂₁ ₁₂₇ ₁₅ ɛ ₂₉₈ ₁₂₆ ₅₄₄ ₁₅₁₃ ₂₃₉₃ ₃₅₅₅ ₁₁₂ ₆ a 56 125 529 1525 2129 3195 112 8 ʊ_a ₆₂ ₁₂₉ ₅₀₈ ₁₇₂₀ ₂₄₅₅ ₃₄₇₃ ₁₁₂ ₇ i 55 128 1639 2163 3155 3585 112 1 u 88 137 702 2024 3369 3698 112 1 a 73 173 786 1370 2125 3439 112 8 a 50 133 371 1549 2522 3418 116 3 i 25 134 1231 2038 2933 3683 116 1 a 63 129 484 1475 2294 3255 116 5 i 112 134 211 1875 2634 3300 116 1 a 271 118 603 1565 2447 3359 114 8 a 94 119 598 1500 2353 3519 114 6 ɛ ₁₂₁ ₁₂₇ ₆₁₈ ₁₅₇₀ ₂₃₃₅ ₃₄₆₁ ₁₁₄ ₁₂ a 72 133 754 1354 2214 3306 127 12 ɪɐ ₆₃ ₁₂₇ ₁₀ o 147 136 442 1389 2567 3329 127 8 i 97 148 289 1952 2870 3342 127 2 ɐ ₈₂ ₂₁₆ ₄₄₃ ₁₅₁₀ ₁₂₇ ₁₀

Tabela 2. Valores dos parâmetros acústicos das vogais orais do criminoso 6.4

(30)

9

Esses excertos demonstram como foi tabelado, no programa Excel, cada dado extraído e

segmentado do software PRAAT.5 Logo em seguida, os dados foram organizados em

arquivo formato TXT para assim poderem ser lidos no programa R. Neste programa, podemos aplicar o Teste T para cada parâmetro dos sujeitos com o do criminoso (duração média global das vogais, duração média por natureza de vogal; frequências dos quatro primeiros formantes independentemente de vogal e também especificamente para cada

vogal; baseline6 - Traunmüller & Eriksson, 2000- e ênfase espectral globais e de cada

vogal). Em seguida, apresentamos respectivamente os valores das médias de cada parâmetro para os sujeitos mostrados acima e, a partir desse cálculo, o desvio-padrão das medidas. Média – sujeito 1 Duração (ms) F0 (ms) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz) Ênfase Espectral (dB) 107,5 152,3056 615,1111 1789,639 2938,364 4203,333 126,25 13,30556

Tabela 3. Média dos parâmetros acústicos para o sujeito 1.

Média – criminoso Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz) Ênfase Espectral (dB) 111,9706 140,5152 566,6061 1600,758 2502,438 3439,844 120,2647 6,294118

Tabela 4. Média dos parâmetros acústicos para o “criminoso”.

5 Disponível em: http://www.fon.hum.uva.nl/praat/

6 É um nível mínimo de valor da curva melódica ao qual tende o locutor após a realização de um pico melódico. É estimada pelo valor médio e desvio-padrão de f0 no trecho segundo a fórmula Baseline = F0médio - 1,43F0DesvPad.

(31)

10 Desvio-padrão – sujeito 1 Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz) Ênfase Espectral (dB) 77,44473 34,2143 198,8063 280,9611 298,8457 297,7616 22,17898 6,632472

Tabela 5. Medida do desvio-padrão para os parâmetros acústicos do sujeito 1.

Desvio-padrão – criminoso Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz) Ênfase Espectral (dB) 96,5246 17,6602 263,6842 253,194 314,519 155,7968 6,925179 3,849671

Tabela 6. Medida do desvio-padrão para os parâmetros acústicos do “criminoso”.

Segundo as médias de cada parâmetro acústico dos dois sujeitos, eles se diferem entre si com uma variação menor para a “duração”. Pela comparação dos desvios-padrão, o sujeito 1 apresenta uma grande diferença para o criminoso em relação a todos os parâmetros acústicos analisados, com menor margem de variação para o terceiro formante. Sendo assim, a partir desses cálculos, há grande probabilidade de não serem a mesma pessoa.

Em seguida, calculamos um Teste T de Student, para verificar o grau de variância entre cada parâmetro acústico, tendo como hipótese nula ter mesmos valores para as populações subjacentes de parâmetros acústicos de mesma natureza. Assim, encontramos os seguintes valores:

(32)

11 Teste T Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz) Ênfase Espectral (dB) 0,830941 0,08059 6 0,38888 6 0,00471 3 3,04169E-07 2,51154E-19 0,13689 1,04042E-06

Tabela 7. Teste t para todos os parâmetros acústicos entre o sujeito 1 e “criminoso” para α= 0,05.

O objetivo deste teste é o de verificar se existe diferença entre a média de duas amostras, no caso os parâmetros acústicos do sujeito 1 e do “criminoso”. Como podemos verificar, para os valores de duração das vogais orais, frequência fundamental, frequência do primeiro formante e frequência baseline, aceita-se a hipótese nula, ou seja, não há diferença significativa entre os sujeitos de valores subjacentes desses parâmetros. Já para os demais parâmetros, como frequências dos segundo, terceiro e quarto formantes e ênfase espectral, rejeitou-se a hipótese nula, ou seja, há diferença entre eles, o que apontaria para possível diferença entre o sujeitos 1 e o “criminoso”. Só com esses dados, conseguimos notar a dificuldade para determinar a identidade de um sujeito (afirmar se ele é o “criminoso” ou não). Para a Iniciação Científica, foram comparados cinco indivíduos com o “criminoso”.

Assim, a partir da análise estatística por Teste T, podemos assumir que, a partir de todos os parâmetros acústicos escolhidos (frequência dos quatro primeiros formantes das vogais orais, frequência fundamental, duração de unidades do tamanho da sílaba e da vogal, ênfase

espectral, frequência baseline, taxa de movimentos de formantes7 e taxa de elocução8), não

(33)

12

conseguimos comprovar que o “criminoso” não estava dentro do grupo de suspeitos das gravações ao ar livre. Ficamos, no princípio, em dúvida entre 2 sujeitos. Sabendo, então, que a H0 (hipótese nula) deveria ser rejeitada, concluímos, então, que:

• O parâmetro que mais rejeitou a hipótese nula foi: taxa de movimento de formantes

na transição CV (consoante-vogal)

• As vogais, independentemente dos parâmetros acústicos, que mais rejeitaram a

hipótese nula foram: [ɐ], [o] e [ʊ].

• A frequência de formante que mais rejeitou a hipótese nula foi: F2 (segundo

formante).

Os resultados obtidos foram os esperados pela literatura e pudemos ter um roteiro inicial de quais parâmetros acústicos e quais vogais poderiam ser usados e seriam mais robustos à variabilidade acústica intra e inter-falante, pelo menos se nos basearmos nessa pequena amostra de sujeitos. Todos os parâmetros acústicos escolhidos foram revistos e explicados na pesquisa atual de Mestrado, no capítulo 4 deste texto, assim como a justificativa para

(34)

13

este projeto, como a escolha de um novo corpus e de um novo canal de transmissão para análise de fala.

(35)

(36)

15

2 Reconhecimento de locutor e Fonética Forense

2.1 Apanhado histórico

A identificação de um sujeito pela voz em situações de crime é uma técnica usada há milhares de anos. Desde quando a fala passou a ser um exercício rotineiro do ser humano, começou-se a identificar sujeitos a partir dela. Essa atividade foi documentada em várias civilizações por seus respectivos estudiosos, como no caso do filósofo grego Heráclito: “Olhos e orelhas são péssimas testemunhas para homens pois falta conhecimento em suas almas” (SASLOVE & YARMEY, 1980 apud Hollien, 2002, p. 18), ou seja, somente a análise de oitiva (orelhas serem testemunhas) não é suficiente para a verificação de locutor, é necessário a análise acústica.

Desde o momento em que documentar o comportamento e a capacidade humanas foi possível, tem-se achado registros da identificação de locutor pelo mundo. Com o passar do tempo, a utilização dessa “técnica” de identificação como evidência em cortes começou a ser algo corriqueiro. Em 1660, William Hulet foi acusado de ter matado o rei Charles I, da Inglaterra. Uma testemunha foi chamada ao tribunal, alegando que reconheceu a voz de uma pessoa, sem que a visse, conversando com o rei até executá-lo. Essa pessoa acusada

(37)

16

era Hulet. Com esse depoimento, o réu foi considerado culpado e sentenciado à morte. Posteriormente, antes da execução do acusado, descobriu-se o verdadeiro assassino e Hulet foi, consequentemente, absolvido (ERIKSSON, 2005). Esse é um exemplo muito comum de falsa identificação. Testemunhas auditivas, como a desse caso, tendem a apontar o autor do crime como alguém conhecido por eles.

Outro caso mais recente e que ganhou notoriedade nos Estados Unidos foi o “Caso Lindbergh”, em 1º de março de 1932. O filho do aviador Charles Lindbergh foi sequestrado e um pedido de resgate foi deixado no quarto do garoto. As negociações foram feitas e a família da vítima pagou o valor de $50.000 exigido. No momento da entrega do dinheiro, Lindbergh – que estava aguardando de seu carro a negociação ocorrer – escutou a voz do sequestrador. Algumas semanas depois, o garoto foi encontrado morto. A polícia finalmente rastreou um suspeito e Charles, 29 meses depois, reconheceu a voz do suspeito apreendido como a mesma que ouviu no local do pagamento de resgate, testemunhando o fato em corte três anos após o crime (ERIKSSON, 2005).

(38)

17

2.1.1 Voiceprints

Com a invenção do telefone (e de equipamentos de gravação, tempos antes) no final da década de 1930, a identificação de locutor foi se desenvolvendo. A análise acústica da fala foi sendo estudada pelo Bell Telephone Laboratories (ou Bell Labs) e, entre várias descobertas que fizeram ao longo do tempo, uma delas foi a criação da máquina de “fala visível”, ou sonógrafo. Esse aparato traçava espectrogramas, gráfico com a representação da frequência no eixo da ordenada, o tempo na abscissa e a intensidade de uma amostra de som em diferentes tons de cinza. Eram utilizados em análises de comparação de vozes a partir dos padrões gráficos das medidas que apresentam (HOLLIEN, 2002). A seguir, um exemplo atual de espectrograma gerado no software PRAAT. Trata-se de um trecho de fala de um dos participantes desta pesquisa.

(39)

18

Figura 1. Espectrograma gerado no software PRAAT do sujeito 1.9

Analisando a figura anterior mais de perto, aumentamos o seu trecho inicial:

Figura 2. Aumento da imagem espectrográfica gerada no software PRAAT do sujeito 1.10

9_{O espectrograma mostra a produção do sujeito 1 dizendo: “Sou, sou daqui mesmo. É. Inclusive moro de}

carro há vinte minutos daqui.” Apresenta traçado da forma da onda (janela superior) e espectrograma de banda larga (janela do meio).

(40)

19

A imagem assinala as faixas de frequências dos formantes de um sujeito, representadas pelas bandas escuras. No eixo y, é determinada a frequência em Hertz, e, no eixo x, o tempo em segundos.

Após um período sem publicações e pesquisas a partir de tal descoberta – aparentemente, o sonógrafo foi usado na Segunda Guerra Mundial pelos EUA como tentativa de interceptação e tradução simultânea de mensagens inimigas –, os pesquisadores Gray e

Kopp publicaram um artigo intitulado “Voiceprint Identification” 11 a respeito do

funcionamento do sonógrafo e seu uso.

Gray e Kopp passaram a chamar os espectrogramas de voiceprints. Eles acreditavam que era possível usar os espectrogramas para identificar falantes assim como as impressões digitais (fingerprints) eram usadas para identificar indivíduos. Logo depois, os voiceprints foram usados em aplicações forenses pelo pesquisador Lawrence Kersta, comparando visualmente padrões espectrográficos das palavras e obtendo “sucesso de 99% ou melhor” (KERSTA, 1962, apud Hollien, 2002, p. 121) na identificação de falantes. O método trazia as hipóteses que (1) diferentes representações das mesmas palavras ou sons de um indivíduo seriam captadas em padrões espectrográficos que preservariam importantes características do indivíduo, e (2) a fala de diferentes indivíduos produziria padrões divergentes significativos (ERIKSSON, 2005).

11_{GRAY, G & KOPP, G. (1944) Voiceprint Identification, Bell Telephone Laboratories Report, Murray Hill,}

(41)

20

No meio forense, a análise da fala por espectrogramas consistia em identificar falantes desconhecidos, combinando seus padrões de fala com os de falantes conhecidos (suspeitos). “Basicamente, sílabas, palavras, frases e/ou sentenças proferidas por ambos os lados [espectrogramas de fala do sujeito desconhecido e conhecido] eram processadas ao traçar os padrões vistos na figura” (HOLLIEN, 2002, p. 121). Mesmo tendo seus métodos de análise variando de especialista para outro (NASH, 1973; SMRKOVSKI, 1976 apud Hollien, 2002, p. 212), a identificação de locutor por voiceprint atingiu extrema popularidade nos EUA na década de 1960. Com a demanda da polícia para a identificação de criminosos a partir da voz sendo exponencialmente crescente, essa análise foi aceita nas cortes quase sem oposição. Com o passar do tempo e das pesquisas (i.e. YOUNG & CAMPBELL, 1967; STEVENS et al. 1968; HOLLIEN, 1990), o meio científico foi apresentando resultados negativos para a identificação por voiceprints.

A utilização apenas de espectrogramas foi, então, mostrada inconclusiva e muito controversa para análises de verificação de voz, como publicado pelo Comitê de avaliação de espectrogramas sonoros e ratificada por Bolt, Cooper & Green (1979); Doddington (1985); Hollien (1974); Koenig, Ritenour, Kohus & Kelly (1987) e Shipp, Doherty & Hollien (1987). Uma das razões para isso é que as variações intrafalantes nos espectrogramas de voz são, em sua grande maioria, mais drásticas do que interfalantes.

(42)

21

2.1.2 Duas abordagens históricas

A partir da década de 1960 – quando os tribunais começaram a compreender a necessidade da identificação de falantes em gravações de voz v, duas abordagens analíticas surgiram. Uma baseada nos Estados Unidos e outra no Reino Unido (FRENCH, 1994).

A primeira forma de identificação de locutor foi conhecida como “tradição do voiceprint”, em que espectrogramas eram gerados a partir das gravações de criminosos para comparação com vozes de suspeitos. Essa era uma forma de análise puramente acústica.

No Reino Unido, a identificação de um falante era baseada puramente em análises fonético-auditivas. Ou seja, as amostras de fala de um criminoso (desconhecido) eram analisadas de oitiva, por foneticistas treinados, e comparadas com as de suspeitos (conhecidos).

Essas duas técnicas de análise fizeram com que foneticistas forenses procurassem (até os dias de hoje) métodos de análise mais apropriados e objetivos para uma identificação mais precisa de falante.

(43)

22

2.2 Por que as vozes são difíceis de discriminar?

A fala humana é produto da interação de restrições impostas pelas propriedades físicas do trato vocal e das escolhas feitas pelo falante em seu discurso. A fala não é constante, ou seja, está sempre em variação. Para a pesquisa em fonética forense, o objetivo é encontrar diferenças e semelhanças nas falas dos sujeitos. Segundo Nolan (1997), as diferenças inter-falantes são divididas em diferença orgânica e aprendida.

Diferenças orgânicas

O aparato vocal de cada ser humano varia em tamanho e forma assim como a forma física de cada indivíduo (ser alto, magro etc). As propriedades fonéticas – como frequências ressonantes, taxa de vibração das pregas vocais – correspondem às dimensões do trato e laringe. Por exemplo, o valor da frequência do primeiro formante (F1) corresponde diretamente à posição da mandíbula (quanto mais alto o subsistema línguo-mandibular para uma vogal, menor o valor de F1; quanto mais baixo o subsistema línguo-madibular para uma vogal, maior o valor de F1); já a frequência do segundo formante (F2) corresponde à posição da língua – quanto mais anterior for a constrição para uma vogal, maior o valor de F2; quanto mais posterior for a constrição para uma vogal, menor o valor de F2 (BARBOSA & MADUREIRA, 2013).

(44)

23

Diferenças aprendidas

Quando crianças, aprendemos mais do que nossa língua nativa e seu sistema linguístico. Adquirimos também variedades regionais e sociais de pronúncia. Nelas, encontram-se as variações sociolinguísticas a partir das quais o sujeito articula sua fala de maneira diferente, por exemplo, de forma mais clara e polida ao ministrar uma palestra do que ao falar casualmente com amigos.

A dicotomia “orgânico vs aprendido” não é um fator determinantemente distintivo do indivíduo. Não há um traço (orgânico) que mostre a diferença das vozes, ou seja, não há uma impressão digital para a voz – não podemos fazer um modelo do trato vocal de dois indivíduos, produzindo uma determinada palavra e compará-los.

As diferenças orgânicas da voz são imbricadas com aquilo que o falante aprendeu em termos do seu sistema linguístico e de escolhas que foram feitas em um determinado momento.

Como falado anteriormente, o aparelho fonador de um indivíduo define os limites das frequências dos formantes, sua frequência fundamental etc. Mas, dentro desses limites, os falantes têm à sua disposição escopos para a variação. Por exemplo: uma frequência de 170Hz produzida por um falante masculino, que já é um valor incomum, é possível de acontecer, pois (1) pode ser produzida por um homem com pregas vocais muito curtas (2) ou por um homem de frequência fundamental normal, mas demonstrando grande excitação da voz, (3) ou por outro homem imitando alguém (NOLAN, 1997).

(45)

24

Tendo essas diferenças em conta, compreende-se porque o trabalho de reconhecimento de locutor é complexo. Passaremos a elencar as técnicas disponíveis para tal.

2.3 Reconhecimento de locutor

Definições

A terminologia que usaremos nessa pesquisa é a sugerida por Hollien (2002). Os termos mais importantes são universalmente conhecidos e usados, como speaker recognition (SR, reconhecimento de locutor), speaker verification (SV, verificação de locutor) e speaker identification (SPID, identificação de locutor). Há também os termos paralelos a esses, igualmente aceitos pela comunidade forense, nos quais a palavra “voz” foi substituída por ”locutor”, “reconhecimento de voz” e ”autenticação” por “verificação”, como em “autenticação de locutor”. O termo “reconhecimento de locutor” (ou reconhecimento de voz) é um conceito geral que agrupa os outros dois.

O reconhecimento de locutor é “qualquer atividade pela qual uma amostra de fala é atribuída a uma pessoa com base em suas propriedades fonético-acústicas ou perceptuais” (JESSEN, 2008, p. 671).

(46)

25

Há duas definições de reconhecimento de locutor: reconhecimento leigo e profissional. O primeiro é o caso de reconhecer um sujeito, pela voz, em situações corriqueiras, ao identificar alguém ao telefone sem que ele tenha se apresentado primeiro, por exemplo, e até em um crime, como em uma fila de reconhecimento (testemunha auditiva). A segunda definição divide-se em duas tarefas: identificação de locutor e verificação de locutor.

A identificação de locutor apresenta uma descrição quase antagônica com a segunda. Nela, está a situação forense padrão. Não há cooperação do sujeito, pois ele é um suspeito que não quer ser identificado. Caso haja tal cooperação, o cenário de avaliação da voz do suspeito com a do criminoso muda. As gravações analisadas são obtidas por investigação policial, as amostras de fala tendem a ser provenientes de ambientes ruidosos e com distorção, no caso de gravação por telefone. Nessa tarefa, há a comparação da gravação questionada, ou seja, a gravação do criminoso, geralmente feita em canal telefônico – seja por uma interceptação de telefone celular ou fixo – e a gravação de referência, a do suspeito feita em estúdio, na Polícia Criminalística, por exemplo. Em uma gravação questionada, encontramos o indivíduo geralmente usando de fala espontânea, com um discurso livre, já na gravação de referência, o indivíduo se encontra em uma situação distinta, está sofrendo de um nível de estresse diferente, já que está em uma entrevista policial, podendo provocar uma tensão na laringe, tornando sua voz irregular. Além disso, o suspeito a ser avaliado também pode se utilizar de artefatos como disfarce vocálico. Nessa abordagem, o sujeito não quer ser identificado, o que faz dessa tarefa ainda mais desafiadora. Resumindo, a identificação do indivíduo encontra-se no que chamamos de “sistema aberto”, pois não se

(47)

26

sabe se a voz desconhecida pertence a um dos falantes conhecidos no banco de referência da polícia ou não, então a população “suspeita” é ampla.

A identificação de locutor é subdividida em comparação de voz (ou comparação de locutor), perfil de voz (ou perfil de locutor) e análise de identificação por vítimas e testemunhas.

Comparação de locutor

A comparação de locutor envolve a identificação de um falante desconhecido em uma situação de crime (pedido de resgate por telefone, trote etc) por meio de uma gravação. Assim que essa gravação, dita questionada, está em posse da polícia, é feita uma comparação de voz com a gravação de referência de um suspeito. A análise das gravações é feita por meio de comparações de diversas características da fala dos sujeitos, a partir de

método de análise escolhido pelos peritos,12 e os resultados são apresentados em tribunal.

Perfil de voz

Quando o que só existe nas mãos dos peritos é a gravação questionada, o próximo passo a ser feito é a criação de um perfil desse falante. Esse perfil é feito pelos peritos responsáveis

(48)

27

e contém informações relevantes do criminoso, como sexo, idade, nível de escolaridade e social, língua nativa (em caso de a amostra apresentar fala com sotaque estrangeiro) e patologias da fala (JESSEN, 2008). Assim, como são diversos os métodos de análise usados de país para país, a Associação Internacional de Fonética Forense e Acústica (IAFPA) recomenda um código de prática, sugerindo o que os membros podem ou não

colocar nos perfis.13

Na verificação de locutor, é a identidade da pessoa que está em questão, ou seja, nesse caso, a voz é utilizada para acessar uma conta de banco por telefone ou alguma informação privilegiada. Essa análise é controlada por analistas e feita por computadores que comparam a voz questionada com uma voz já armazenada, cuja verossimilhança é verificada. O falante a ser avaliado, portanto, é cooperativo, ele produz várias amostras de sua fala para a comparação de voz, sem, provavelmente, adotar algum tipo de disfarce ou variações em sua voz.

Para esta pesquisa, escolhemos usar o termo “verificação de locutor”, por esta não preencher todos os requisitos de uma “identificação”. Embora a Fonética Forense seja associada à tarefa de identificação de locutor, ou seja, à identificação de uma única pessoa (desconhecida) em uma população (reconhecimento indireto de um sujeito), na prática, ela acaba sendo verificação, pois o trabalho forense, na maioria das vezes, toma um número finito de suspeitos para sugerir um criminoso a partir da comparação entre gravações questionada e de referência.

(49)

28

O reconhecimento de locutor tem suas limitações. No caso particularmente da aplicação forense, amostras de fala podem ser muito curtas para uma representação suficiente do falante, a qualidade das gravações pode ser pobre (ruído de fundo, distorções impostas na transmissão telefônica ou fita de gravação) e os sujeitos podem usar de disfarces vocais. Em suma, o foneticista forense encontra-se em um difícil conundrum: a fala de um indivíduo não é constante, como, então, identificar precisamente um sujeito?

2.4 Métodos de análise forense

Há várias técnicas de reconhecimento de locutor. As mais conhecidas e ainda usadas são: verificação automática de locutor, método auditivo de análise, método acústico de análise e método acústico-auditivo de análise.

Verificação automática de locutor

Esse método de análise tem como objetivo processar automaticamente a fala de um sujeito para aceitar ou rejeitar reivindicações de identidade, por isso o termo ”verificação automática de locutor” (automatic speaker verification, ASV). A pesquisa em ASV se serve

(50)

29

de técnicas de processamento do sinal da fala, não necessariamente com conhecimento fonético. As aplicações potenciais para essa técnica envolvem interações telefônicas com checagem de identidade, em cofres e caixas eletrônicos. Ela funciona tomando a amostra de fala de um indivíduo que reivindica ser X, comparando-a por computador com uma referência (que é construída na base de um número de repetições por X) armazenada do

sujeito. Se a distância acústica14 entre a elocução do requerente com a referência

armazenada é pequena, a reivindicação é aceita.

O problema que temos com essa técnica de análise no ambiente forense é a incompatibilidade das gravações, ou seja, diferenças na qualidade do som entre amostras de fala devido a transmissões de canais diferentes. Se as amostras de fala questionadas são gravadas em um telefone e a de referência em uma gravação direta, são criados grandes problemas para a análise por computador justamente pela degradação acústica causada pelo filtro do telefone.

Na Universidade de Gotemburgo, por exemplo, usa-se um sistema automático para comparação de voz, o software francês ALIZE SpkDet (ERIKSSON, 2012). Os resultados obtidos são, então, combinados com as análises acústico-auditivas tradicionais, conforme apresentamos adiante. Outro sistema automático popular é o Batvox, usado em vários países, incluindo o Brasil. O problema desse software em particular é o uso que se faz dele, ou seja, a dependência de usar apenas um sistema de análise, sem o insight de um pesquisador para a análise dos resultados.

(51)

30

A tarefa de um foneticista forense é a de decidir quão provável é duas gravações pertencerem à mesma pessoa. Isso inclui uma gravação de um falante desconhecido durante a feitura do crime (e.g., pedido de resgate) e a gravação de um suspeito a partir de uma entrevista com o perito. Somente se uma gravação é feita especificamente para

comparação15 o seu conteúdo linguístico pode ser controlado a ponto de ser o mesmo que

na gravação desconhecida. Mesmo neste último caso, a impossibilidade de replicar o contexto de uma gravação desconhecida torna a equivalência linguística impossível. Em uma análise forense comum, geralmente, a comparação das vozes tende a ser feita com materiais obtidos em diferentes condições, e.g., gravação telefônica em comparação com gravação direta, por gravador. Essa é uma das razões por que a identificação automática de locutor plena deve ser implementada por métodos que envolvam o conhecimento humano. Para isso, dois métodos de análise são usados: método auditivo e método acústico.

Método auditivo

Os profissionais mais recomendados para manipularem essa técnica de análise são foneticistas e dialetologistas. Esses são especialistas na análise auditiva da fala e se servem do Alfabeto Fonético Internacional (IPA, na sigla em inglês) para fazer a transcrição de vogais e consoantes. O profissional analisa as diferenças entre a pronúncia das amostras de fala, perguntando-se: “cada um dos falantes comparados é foneticamente

(52)

31

único ou compartilham de características que aumentem a probabilidade de serem do mesmo sujeito?”

Hollien (1990) conduz um experimento perceptual de discriminação que é um bom exemplo de uso do método auditivo. Os juízes do experimento deparam-se com uma sequência de pares de gravações, cujas amostras de fala podem conter a voz do “criminoso” – a amostra da fala questionada – e a de distratores que também são desconhecidos. A proposta do autor é que, se os ouvintes são consistentemente capazes de discriminar qual é a amostra questionada, o indivíduo é o “criminoso”. Em seu experimento, os juízes foram bem-sucedidos na escolha. Esse é um exemplo interessante para mostrar a habilidade de oitiva de um ser humano.

O método auditivo de análise comporta uma base de estudos favoráveis para sua aceitação (BALDWIN, 1977, 1979; BALDWIN & FRENCH, 1990) e, em 1991, o Tribunal de Recurso Penal (English Court of Criminal Appeal, Robb, 1991) decretou que evidência de identificação de locutor baseada somente em análise auditiva é admissível em tribunal. Mas, mesmo assim, o método auditivo sozinho não é o ideal no contexto geral forense, restando, segundo French (1994) somente dois dos seus praticantes em todo o Reino Unido.

(53)

32

Método acústico

O método de análise acústico permite a quantificação da fala de um indivíduo por meio de parâmetros acústicos. Não é só outro método de análise da fala, ele revela informações que o sistema auditivo não percebe, extraindo informação passível de análise linguística do sinal de fala. Podemos ouvir o mesmo som de duas pessoas falando uma mesma vogal, o que pensaríamos não apresentar nenhuma diferença acústica, mas os padrões formânticos, por exemplo, de cada uma são diferentes. O critério de escolha para um parâmetro acústico ser usado em análise forense é baseado nesta regra: os parâmetros devem apresentar uma variabilidade intra-falante menor que sua variação inter-falante (HOLLIEN, 1990 apud FRENCH, 1994).

Nolan (1990 apud FRENCH, 1994) analisou a vogal /æ/ no contexto das palavras “that” e “back” de um “criminoso” de um delito em particular e comparou com gravações incriminadoras de outro indivíduo, ou seja, amostras de fala de um sujeito em diferentes contextos de gravação e que não cometeu o crime em questão, mas que estava no banco de dados da polícia por comportamento suspeito. As amostras do “suspeito” apresentavam um valor constante de 2,5 kHz para o terceiro formante de suas vogais. No entanto, o “criminoso” apresentava valores bem menores para os terceiro e quarto formantes das vogais. Ou seja, esse método de comparação mostrou-se eficaz para ser usado como prova em tribunal, podendo concluir quantitativamente que as gravações pertenciam a diferentes pessoas.

(54)

33

Apesar de seu potencial, mesmo assim o uso desse método sozinho em uma análise forense não é o ideal. Tanto o método acústico quanto o auditivo têm suas forças e, combinadas, favoreceriam potencialmente a análise forense (KÜNZEL, 1994 apud FRENCH, 1994). A partir disso, foi desenvolvido o método acústico-auditivo de análise.

Para satisfazer o critério de análise para a pesquisa forense, como explicado anteriormente, que é assegurar uma menor taxa de variação intra-falante em comparação com a variação inter-falante, o ideal é não usar apenas um parâmetro acústico, mas vários. Hollien (1990 apud NOLAN, 1997) sugere como abordagem o uso de extração múltipla de parâmetros e a comparação por um método de reconhecimento de locutor conhecido como semi-automático. A partir disso, é feita uma comparação dos vetores de diferentes parâmetros acústicos e calculada a distância entre as amostras dos falantes.

Nesta pesquisa, utilizamos o método acústico semi-automático de análise. O método auditivo não é aplicado a esta pesquisa, pois (1) os sujeitos, fora o criminoso, não são desconhecidos da mestranda e (2) não apresentam grandes diferenças de sotaque e/ou outras características importantes para a discriminação nesta análise (i.e. patologia na fala).

(55)

(56)

35

3 Pesquisa desenvolvida

A Fonética Forense é uma aplicação de conhecimento, teorias e métodos da fonética geral para tarefas práticas que surgem de um contexto de trabalho policial ou da apresentação de uma evidência em tribunal, assim como o desenvolvimento de novos métodos, teorias e conhecimentos para a Fonética Forense (JESSEN, 2008). Baseamo-nos nisso para a idealização e realização de nossa pesquisa, usando técnicas de análise forense para desenvolver um trabalho acadêmico, beneficiando as áreas da fonética acústica e forense.

Esta pesquisa teve como objetivo identificar um indivíduo pela voz em um grupo de dez falantes do português brasileiro divididos em quatro estados, São Paulo, Rio Grande do Sul, Bahia e Pará. Para realizar esta tarefa, analisaremos os seguintes parâmetros acústicos das vogais de cada falante: frequência dos dois primeiros formantes, frequência fundamental média, taxa de elocução, frequência baseline, ênfase espectral, dinamicidade dos formantes e desvio-padrão de durações de intervalos consonânticos (∆C).

Todos os indivíduos foram gravados em dois canais de gravação, gravação direta e gravação por telefone celular. Esta última simula a dificuldade encontrada pelos peritos ao analisar gravações de baixa qualidade, com ruído e deterioração que uma escuta telefônica, por exemplo, apresenta. Além disso, o indivíduo escolhido para lidarmos como “criminoso” teve sua fala gravada em ambiente acusticamente tratado para uma

(57)

36

análise comparativa mais robusta. Simularemos um caso forense habitual, de crime, tendo como objetivo principal o reconhecimento do “criminoso” dentro do grupo de falantes, além de mostrar qual método de análise estatística e quais parâmetros acústicos são mais eficazes para essa tarefa.

3.1 Efeito do celular

Em muitas situações forenses, cientistas têm em mãos, como material de avaliação, escutas telefônicas que, em sua grande maioria, são de péssima qualidade, e, sendo a única fonte sonora para a extração de parâmetros acústicos, devem apresentar algum resultado substancial para o júri. Trazemos essa situação para a pesquisa, simulando casos de escuta telefônica.

Primeiramente, escolhemos o celular e não o telefone fixo, pois é de grande uso dos

criminosos – sendo que, no Brasil, há mais de 271 milhões16 de linhas de telefone celular.

Além disso, foi evidenciado que a gravação por telefone fixo apresenta resultados mais robustos, principalmente para o primeiro formante (KÜNZEL, 2001; BYRNE & FOULKES, 2004) em comparação com telefone celular. Byrne & Foulkes (2004) partiram

(58)

37

do artigo de Künzel (2001) sobre os efeitos do telefone fixo para calcular quais as consequências que a diferença de canal de transmissão (no caso, telefone celular) causa nas frequências dos formantes nas gravações. Um dos fatores de dificuldade na análise de dados a partir de gravação telefônica é a perda do sinal, além de ruído que há no ambiente – no caso do celular, a distorção do próprio aparelho é o mais crítico para análise fonética. Mesmo perdendo qualidade (devido a filtragem e a ruídos), a gravação telefônica torna a análise mais difícil e meticulosa. É bem comum a análise de propriedades acústicas como a de características de filtro de banda, porém pouco se estuda sobre o efeito dele para os parâmetros de fala.

Alguns efeitos causados pelo telefone celular foram evidenciados por Byrne & Foulkes (2004) e serão mostrados a seguir. Esperamos encontrar nesta pesquisa uma degradação do sinal de fala das gravações coletadas advinda da combinação desses efeitos.

I) Efeitos do ambiente: um dos efeitos mais comuns de telefones no sinal da fala é o físico, por exemplo, ligações telefônicas podem acontecer em ambiente de alto nível de ruído de fundo, como no trânsito. Assim, esse efeito gerará problemas para a análise forense, pois os ruídos podem afetar informações cruciais no sinal da fala.

II) Efeito dos falantes: os próprios falantes influenciam na conversação telefônica, eles tendem a modificar o seu comportamento ao falar por telefone, por exemplo, tornando-se mais formais (no caso do inglês britânico, segundo os autores). O registro telefônico da voz

(59)

38

muda consciente ou inconscientemente, influenciando na taxa de elocução, na qualidade da voz e, como dito anteriormente, na pronúncia. Um dos efeitos mais “comuns” é a pessoa aumentar o volume da voz ao falar no telefone, afetando diretamente a frequência fundamental do falante (F0).

III) Efeitos técnicos: ou “distorção espectral” é o aumento das frequências que se encontram acima do filtro passa-baixa (300Hz) e a diminuição das frequências que se encontram ligeiramente abaixo do filtro passa-alta (3.500Hz). Ou seja, as frequências que estão abaixo de 300Hz e acima de 3.500Hz são “apagadas” pelo filtro do telefone celular. Outro exemplo de efeito técnico (KÜNZEL, 2001; BYRNE & FOULKES, 2004) é o fenômeno conhecido como “deslocamento de frequências”: quanto menor a frequência (por exemplo, o primeiro formante), mais atenuada ela fica pelo canal telefônico em comparação a uma gravação direta. O contrário também acontece, e a perda dos componentes de alta frequência é destrutiva para a identificação forense de falante, pois um grande número de informações (qualidade de voz, por exemplo) é codificado em faixa de frequências mais altas das vogais.

A seguir, duas imagens de espectrograma que mostram os efeitos do filtro telefônico em uma gravação analisada:

(60)

39

Figura 3. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8.17

Figura 4. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8.18

17_{As camadas para a segmentação são divididas em quatro, a segmentação das vogais, centro das vogais,}

unidades V-V e intervalos vocálicos e consonantais.

18_{As camadas para a segmentação são divididas em quatro, a segmentação das vogais, centro das vogais,}

(61)

40

As duas figuras representam o mesmo trecho de fala do sujeito. Elas mostram o corte de frequência produzido pelo filtro do telefone celular. Na Figura 3, uma linha pontilhada vermelha mostra a faixa de frequência “apagada” pelo filtro na frequência acima de 3.732Hz. Já a outra Figura mostra a faixa de frequência que é perdida devido ao filtro abaixo de 238Hz.

(62)

41

4 Metodologia

4.1 Procedimento

Diferentemente da pesquisa de Iniciação Científica, não nos retemos a uma análise comparativa de gravações diretas e gravação em laboratório.

Em uma situação forense, há geralmente o seguinte cenário: a gravação de um crime para ser comparada à gravação de referência. A primeira, ou gravação questionada, geralmente é feita por escuta telefônica, em que o indivíduo tende a falar o mais espontaneamente possível, sem saber que está sendo gravado. A segunda gravação geralmente é realizada em ambiente acusticamente tratado e os peritos pedem para o suspeito ler um texto de forma clara para um microfone posicionado em sua frente. Esse tipo de técnica de análise acaba se tornando mais um ponto que dificultará o trabalho do pesquisador, pois são gravações feitas em contextos diferentes: (1) uma situação de fala espontânea, com o discurso fluente e (2) em laboratório, com material lido. Com isso, palavras que se encontraram na primeira gravação podem não estar presentes na segunda. O nível de estresse e a naturalidade da fala também afetam a produção de palavras, e a precisão na comparação das análises de

(63)

42

cada indivíduo é prejudicada, além é claro, dos efeitos que o telefone celular podem causar

na gravação.19

Nesta pesquisa de Mestrado, a gravação em estúdio pelo indivíduo não foi feita a partir da leitura de um texto, coube à pesquisadora conduzi-la como uma entrevista, a fim de inserir os mesmos assuntos discutidos na primeira gravação e deixar o entrevistado o mais à vontade possível para que sua fala fosse fluente e espontânea.

Figura 5. Esquema da gravação por escuta telefônica usado nesta pesquisa.

(64)

43

As gravações telefônicas foram feitas por um celular Samsung Galaxy Young pela rede da operada TIM. O experimentador fazia a ligação em um ambiente com nível mínimo de ruído de fundo, na sala do Grupo de Estudos da Prosódia da Fala, para o sujeito que se encontrava em sua respectiva cidade natal. Foi feita uma gravação de cada locutor, simulando uma conversa corriqueira, em que tratavam de assuntos do cotidiano, trabalho, plano para férias etc., tentando atingir um grau mais próximo de fala espontânea. O

aparelho de interceptação foi uma placa de áudio, U-Control UCA22220 conectado ao

celular do experimentador que, por sua vez, também se conectava ao desktop; e a conversa

foi gravada pelo software Audacity.21

O corpus da pesquisa consiste em gravações em dois canais de transmissão diferentes – gravação direta e por celular – de um grupo de dez falantes do português brasileiro de quatro estados diferentes – São Paulo, Bahia, Pará e Rio Grande do Sul. Foram feitas vinte e uma gravações, dez usando o Mini Gravador Digital Coby Cx-r190 ao ar livre, dez por telefone celular e uma gravação direta em ambiente acusticamente tratado.

Todas as gravações foram segmentadas manualmente via software PRAAT e extraídas automaticamente pelo script ForensicDataTracking, desenvolvido por Barbosa (2013). A seguir, a lista dos sujeitos participantes da pesquisa:

20

As especificações da placa estão disponíveis em: http://www.behringer.com/EN/Products/UCA222.aspx

(65)

44

Sujeito Naturalidade Duração (min) Número de segmentos (vogais)

1 Bahia 2:15 229 1 – cel 3:26 461 2 São Paulo 3:40 515 2 – cel 2:21 279 3 São Paulo 1:50 152 3 – cel 1:50 193 4 São Paulo 1:05 102 4 – cel 2:07 185 5 São Paulo 01:40 180 5 - cel 00:56 50 6 São Paulo 03:10 405 6 - cel 01:36 245 7 Bahia 01:27 148 7 - cel 02:38 207 8 Pará 02:53 297 8 - cel 02:57 296 9 Bahia 01:55 217 9 - cel 01:40 174

10 Rio Grande do Sul 02:10 250

10 - cel 02:24 245

Criminoso ? 9:40 2181

Tabela 8. Lista com informações sobre os sujeitos participantes da pesquisa.22

O script automaticamente extraiu as medidas de frequência do segundo formante (F2) das vogais, taxa de movimento de formante para o segundo formante, frequência baseline, média da frequência fundamental, duração das vogais, inverso da taxa de elocução (média da duração de unidade do tamanho da sílaba), ênfase espectral e ∆C. A seguir, uma apresentação breve dos parâmetros acústicos escolhidos.

22_{As informações tabeladas são: contexto de gravação (celular ou não) cidade natal, duração de cada}