• Nenhum resultado encontrado

FFTranscriber: uma ferramenta para transcrição de áudio em fonética forense.

N/A
N/A
Protected

Academic year: 2021

Share "FFTranscriber: uma ferramenta para transcrição de áudio em fonética forense."

Copied!
8
0
0

Texto

(1)

FFTranscriber: uma ferramenta para transcrição de áudio em fonética forense.

Joarley Moraes, Aldebaro Klautau, Nelson Neto, Eduardo Medeiros, Adalbery Castro.

Laboratório de Processamento de Sinais (LaPS) – Universidade Federal do Pará (UFPA) Rua Augusto Correa, 1 – 660750-110 – Belém, PA – Brasil

{joarley, aldebaro, nelsonsampaio, eduardom, adalbery}@ufpa.br VII SEMINÁRIO NACIONAL DE FONÉTICA FORENSE

Resumo: O presente trabalho apresenta o projeto de uma ferramenta (FFTranscriber) integrada para a

transcrição de áudio para fins de fonética forense. O software fornecerá ao usuário uma interface simples e intuitiva, com todos os elementos necessários a um processo de transcrição. A ferramenta apresenta diversas vantagens em relação aos softwares atualmente utilizados para o mesmo propósito. A principal é a possibilidade de transcrição de áudio usando reconhecimento automático da voz do perito durante a transcrição.

Palavras Chaves: Transcrição de áudio, Fonética Forense, Reconhecimento de voz.

1. Introdução

A transcrição textual de áudio gravado em uma mídia (digital ou analógica) é de extrema

importância para inúmeras atividades. O presente trabalho focaliza a transcrição de gravações sigilosas em perícias e investigações criminais, feita pelas seções de fonética forenses dos inúmeros institutos de criminalistas presentes no país. Nota-se que, apesar dessa área facilitar a delimitação do escopo e permitir que o software seja bem focalizado, a área forense não é a única área de aplicação de métodos de transcrição. Tais técnicas também são usadas para documentar o áudio de palestras, reuniões, seminários, pareceres jurídicos, sentenças judiciais, programas de televisão, auxílio a portadores de necessidades especiais, etc.

Atualmente a maioria das transcrições de áudio realizadas no estado do Pará, por exemplo, é feita por um transcritor que, com o auxílio de softwares de edição de áudio de propósito geral, como o Adobe Audition e o Sony Sound Forge, ouve o registro gravado e escreve em um editor de texto comum (exemplo: Microsoft Word) o que ouviu. Como tais softwares não são integrados ou sequer especializados na tarefa de transcrição de áudio, eles não possuem uma interface que otimize o processo da transcrição. Isso implica, dentre outras conseqüências, em um gasto de tempo de vários minutos (normalmente mais que dez) de trabalho de transcrição para cada minuto de registro gravado a ser transcrito. Esse tempo deve ser multiplicado pelo crescente número de solicitações para transcrições

(2)

(aumento decorrente da maior facilidade de telecomunicações e digitalização de sinais) e acarreta nos mais variados prejuízos para a sociedade brasileira, tais como os decorrentes dos atrasos dos processos judiciais.

Nesse contexto, a ferramenta busca utilizar técnicas de reconhecimento e realce de voz, focalizando no desenvolvimento de uma ferramenta para uma transcrição forense eficaz baseada nessas tecnologias. Essa nova ferramenta e metodologia têm o propósito de agilizar principalmente os casos de transcrição de registros de áudio sigilosos como as realizadas pelo núcleo de Fonética Forense do Centro de Perícias Científicas Renato Chaves (CPC), podendo posteriormente ser disseminada a departamentos similares.

2. Requisitos do Software

O software que se chamará FFTranscriber – Fast Forensic Transcriber – deverá possuir as seguintes funcionalidades:

 Projetar e desenvolver uma interface gráfica intuitiva e de alta usabilidade;

 Permitir reprodução continuada de arquivos de áudio nos formatos WAV, MP3 e RAW;

 Possibilitar a seleção de trechos do arquivo de áudio para reprodução em “loop” a fim de que se

possa examinar com mais atenção um determinado segmento do áudio;

 Integração de um editor de texto à interface de edição de áudio, que permita a formatação

adequada do texto nele transcrito, possibilitando, entre outras funcionalidades, a troca do tamanho e do estilo da fonte do texto, alinhamento de parágrafos, funções desfazer e refazer, etc.;

 Permitir ao usuário abrir, visualizar, editar, e salvar arquivos de texto no formato RTF (Rich

Text Format);

 Permitir além da transcrição em si, a anotação e segmentação, de forma similar ao software

open source em Tcl/Tk Transcriber [2];

 Permitir a adição posterior de novas funcionalidades a partir do desenvolvimento de “plugins” à

ferramenta;

 Possibilitar opção de transcrição textual automática da voz do transcritor, utilizando

(3)

3. O software LaPSound

Em um trabalho anterior [1] desenvolvido pelo LaPS (Laboratório de Processamento de Sinais), foi iniciada a implementação da ferramenta que culminou com o software LaPSound. Nele, muitos dos requisitos anteriormente descritos foram desenvolvidos. A figura abaixo mostra a interface do software com as ferramentas integradas.

Figura 1 – Execução do LaPSound

A proposta, portanto, do FFTranscriber é aperfeiçoar o trabalho até agora desenvolvido, adicionando a principal funcionalidade descrita na introdução: transcrição através de reconhecimento automático da voz do perito transcritor.

(4)

4. Metodologia

A metodologia a ser utilizada para o desenvolvimento da ferramenta é descrita a seguir. Essa metodologia baseia-se no uso do reconhecimento automático de voz dependente de locutor e de técnicas de refinamento de voz para se obter os melhores resultados nesse processo de reconhecimento.

4.1. O uso do reconhecimento de voz

Um aspecto muito importante da metodologia é que atualmente a tecnologia de reconhecimento de voz não permite que se atinja alta eficiência com sistemas independentes do locutor. Assim, o software concentra-se no uso de técnicas para reconhecimento dependente do locutor, onde o sistema é adaptado (sintonizado) para melhor reconhecer a fala de seu usuário, sendo, para tanto, necessário um treinamento prévio do perfil acústico do perito.

A proposta é que o transcritor escute o áudio a ser transcrito e use um microfone para, ao invés de digitar o texto correspondente, enuncie o mesmo através de sua própria voz, diminuindo significativamente o tempo requerido no processo de transcrição. Obviamente esse é um estágio intermediário entre o desejado reconhecimento diretamente do áudio a ser transcrito.

A dependência do locutor possibilitará ainda, aplicando algumas conhecidas técnicas, que a taxa de erro no reconhecimento vá reduzindo à medida que o transcritor utilize o sistema.

4.2. Realce de voz

Uma grande funcionalidade que o software propõe é a capacidade de lidar com ruídos, dada a pouca robustez dos atuais sistemas de reconhecimento de voz ao ruído. Uma das metas, portanto, do software é oferecer ferramentas para o processamento digital de sinais de áudio, mais especificamente para o refinamento ou realce ("enhancement") de voz. O realce é útil para aumentar a inteligibilidade da voz, que muitas vezes é obtida em ambientes ruidosos. Assim, pouco antes de se reproduzir o áudio ao transcritor, será feito um pré-processamento da voz a ser transcrita.

Além disso, será possível lidar com distorções encontradas em canais típicos de telecomunicações, tais como o de sistema de telefonia ou mesmo gravações analógica em fita de áudio, a fim de facilitar a inteligibilidade do áudio a ser transcrito.

4.3. Uso de máscaras de silêncio

Um outro fator metodológico importante é que para várias pessoas trabalharem em um mesmo ambiente, tal como uma sala pequena, é necessário que a voz de uma não interfira na transcrição das outras. A solução sugerida na ferramenta é o uso de "máscaras" ("verbatim masks") como a da Figura 2,

(5)

as quais são hoje em dia bastante usadas nos EUA para transcrição de julgamentos, por exemplo.

Figura 2 – Exemplo de Máscara a ser usada nas transcrições

Desse modo, as máscaras serão mais um mecanismo para melhorar o desempenho da ferramenta. Para prover isso, o software possuirá uma interface com o dispositivo de entrada de áudio do computador, a fim de capturar a fala a ser reconhecida.

5. Considerações Finais

Como dito, o software ainda encontra-se em estagio de desenvolvimento, embora muitas de suas funcionalidades já tenham sido implementadas com o projeto LaPSound. No decorrer do desenvolvimento do suporte à transcrição via reconhecimento de voz, pretende-se fazer testes de usabilidade. Mais precisamente planeja-se instalar o software no Instituto de Perícia Científica Renato Chaves e fazer avaliação prática da usabilidade do mesmo, incluindo a adoção de máscaras para ditado, avaliação de desempenho em decorrência de uso de diferentes gravadores, microfones e "arrays" de microfones, adoção de pedais para controle do software e uso de técnicas para redução de ruído embutidas em microfones.

(6)

6. Referências

[1] – Medeiros E., Klautau A., Castro A., LaPSound – Uma Ferramenta para Transcrição e Edição de Áudio em Fonética Forense, XIII SEMANA DE INFORMÁTICA DA UFPA­SEMINF, 2006.

[2] – http://trans.sourceforge.net/en/presentation.php, acessado em maio de 2008.

[3] ­ Singh, L. Sridharan, Speech enhancement for forensic applications using dynamic timewarping  and wavelet packet analysis. In S. TENCON '97. IEEE Region 10 Annual Conference. Speech and  Image Technologies for Computing and Telecommunications'., Proceedings of IEEE, Volume: 2, On  page(s): 475­478 vol.2.Dec 1997.

[4]  ­   Bruce   E.   Koenig,   Enhancement   of   tape   recorded   voices   to   facilitate   transcription   &   aural  identification:Selected   Topics   in   Forensic   Voice   Identification,   Federal   Bureau   of   Investigation,  October 1993, http://www.legallanguage.com/forensic/Spectrographic.htm, Agosto [5] ­ Singh, L. Sridharan, Speech enhancement for forensic applications using dynamic timewarping  and wavelet packet analysis. In S. TENCON '97. IEEE Region 10 Annual Conference. Speech and  Image Technologies for Computing and Telecommunications', Proceedings of IEEE, Volume: 2, On  page(s): 475­478 vol.2.Dec 1997. [6] ­ M Viswanathan, HSM Beigi, A Tritschler, F Maali , TranSegId: A System for Concurrent Speech  Transcription, Speaker Segmentation and Speaker Identification Proc. of the World Automation  Congress,   WAC2000,   2000   ­  http://citeseer.ist.psu.edu/cache/papers/cs/10210/http:zSzzSzwww.internetserver.comzSz~beigizSzho mayoonzSz..zSzpszSzwac99.pdf/transegid­a­system­for.pdf, Agosto.

(7)

7. Currículo dos Autores Joarley Moraes

Atualmente é graduando de Engenharia da Computação na Univerisdade Federal do Pará (UFPa ) e  bolsista do CNPq na área de   processamento e reconhecimento   de voz e programação orientada a  objetos, atuando no Laboratório de Processamento de Sinais (LaPS) da UFPa.

Aldebaro Klautau

Possui graduação em Engenharia Elétrica pela Universidade Federal do Pará (UFPA, 1990), mestrado  em Engenharia Elétrica pela Universidade Federal de Santa Catarina (UFSC, 1993) e doutorado em  Electrical   and   Computer   Engineering   pela   University   of   California   at   San   Diego   (UCSD,   2003).  Atualmente é professor adjunto da Universidade Federal do Pará. Tem experiência em processamento  digital   de   sinais,   inteligência   computacional   e   telecomunicações,   atuando   principalmente   em:  processamento de voz, DSL, SDR e mineração de dados de séries temporais.

Nelson Neto

Possui graduação em Tecnologia em Processamento de Dados pelo Centro de Ensino Superior do Pará  (1997), graduação em Engenharia Eletrica pela Universidade Federal do Pará (2000) e mestrado em  Engenharia   Elétrica   pela   Universidade   Federal   do   Pará   (2006).   Atividades   como   Engenheiro   de  Telecomunicações em operadora móvel celular. Atualmente bolsista de doutorado pela Universidade  Federal do Pará. Eduardo Medeiros Possui graduação em Engenharia da computação pela Universidade Federal do Pará (2008), atualmente  é bolsista do Laboratório de Processamento de Sinais (LaPS) atuando na área de reconhecimento de  voz e tecnologia DSL. Adalbery Castro

Possui   graduação   e   mestrado   em   Engenharia   Elétrica   pela   Universidade   Federal   do   Pará   (2002).  Atualmente   é   aluno   regular   do   curso   de   Doutorado   do   Departamento   de   Engenharia   Elétrica   e  Computação da Universidade Federal do Pará e Perito Criminal do Instituto de Criminalística no Estado  do Pará. Tem experiência na área de Engenharia Elétrica, com ênfase em Processamento Digital de  Sinais. Possui interesse em processamento de sinais, sistemas embarcados e fonética forense.

(8)

Referências

Documentos relacionados

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

A partir das análises realizadas no que tange às articulações entre processo formativo que enfatizou a ressignificação e aplicação, inferimos que a aplicação da SEA replanejada no

Os ativos não circulantes classificados como disponível para venda são mensurados pelo menor montante entre o seu custo contábil e o seu valor justo, líquido das despesas com a

A assistência da equipe de enfermagem para a pessoa portadora de Diabetes Mellitus deve ser desenvolvida para um processo de educação em saúde que contribua para que a

servidores, software, equipamento de rede, etc, clientes da IaaS essencialmente alugam estes recursos como um serviço terceirizado completo...

1- Indica com P, se a frase estiver na voz passiva e com A se estiver na ativa. Depois, passa-as para a outra forma. a) Vimos um cisne moribundo.. Assinala com um X o

(a) uma das formas para compatibilizar direitos consagrados na Constituição Federal de 1988 diretamente relacionados com a dignidade da pessoa humana – como o respeito à vida privada

ensino superior como um todo e para o curso específico; desenho do projeto: a identidade da educação a distância; equipe profissional multidisciplinar;comunicação/interatividade