FFTranscriber: Software para Transcrição Otimizado para Aplicações Forenses

(1)

FFTranscriber: Software para Transcric¸ ˜ao Otimizado para

Aplicac¸ ˜oes Forenses

Renan Moura, Nelson Neto, Carlos Patrick, Pedro Batista e Aldebaro Klautau

Laborat ´orio de Processamento de Sinais

Universidade Federal do Par ´a

e-mail: {renanmoura,nelsonneto,patrickalves,pedro,aldebaro}@ufpa.br

1 Introduc¸ ˜ao

A transcriç ão textual de áudio se faz muito comum nos dias de hoje em v árias atividades e verifica-se, com facilidade, como a agilizaç ão desse processo ajudaria no cotidiano das pessoas nas mais diversas áreas. Este trabalho foca o desenvolvimento de um aplicativo para transcriç ão de áudio forense, impactando de forma direta no melhor atendimento à populaç ão no que diz respeito ao combate à criminalidade. Apesar do enfoque do trabalho, percebe-se que suas aplicaç ões podem ir desde o uso pessoal dom éstico no de-senvolvimento de tarefas simples, at é o uso corporativo na documentaç ão de áudio de palestras, reuni ões, pareceres jur´ıdicos entre outras atividades que usem o áudio e sua respectiva transcriç ão.

A maioria das transcriç ões de áudio forense feitas no estado do Par á especificamente - apesar de que esta constataç ão se estende para praticamente todo o Brasil - s ão feitas de um modo extremamente simples em que um transcritor (perito) atrav és do aux´ılio de um software de ediç ão de áudio de prop ósito geral e um outro de ediç ão de texto, ouve um determinado segmento de áudio e ent ão o transcreve. Essa é uma forma bastante ineficaz de realizar esse trabalho, pois os softwares n ão s ão integrados para otimizar a produtividade, tornando o processo enfadonho, o que por sua vez aumenta a suscetibilidade a erros do respons ável pela transcriç ão.

Com o intuito de otimizar o processo de transcriç ão textual de áudio, a presente proposta apresenta o aplicativo FFTranscriber, que integra em uma única interface todas as ferramentas necess árias para desempenhar tal atividade. O FFTranscriber consiste de duas interfaces de trabalho integradas, uma para tratamento de áudio e um editor de texto. Outra facilidade é o m ódulo de reconhecimento de voz, onde o perito respons ável pela transcriç ão pode prover o arquivo de áudio, ou mesmo falar o conte údo do áudio, para recuperar de forma autom ática a transcriç ão correspondente, que pode ser posteriormente editada.

O reconhecimento de voz permite que o áudio seja transcrito automaticamente com uma determinada taxa de acerto o que faz com que o trabalho de transcriç ão manual diminua significativamente. Geralmente, o áudio a ser transcrito é gravado em um ambiente ruidoso o que diminui o desempenho do reconhecedor. Uma forma de melhorar o desempenho dos sistemas de reconhecimento é realçar o sinal de voz (e remover ru´ıdo) antes do reconhecimento. É sabido que os algoritmos de realce de voz apresentam dificuldades e, algumas vezes, n ão é poss´ıvel melhorar tanto a inteligibilidade quanto a qualidade simultaneamente. O mais importante é tornar o sinal mais intelig´ıvel tanto para seres humanos quanto para computadores.

(2)

Softwares para reconhecimento de voz com significativa efici ência j á existem para l´ınguas como a in-glesa, por exemplo o Dragon NaturallySpeaking Speech Recognition Software da empresa Nuance, mas n ão h á equivalente no mercado para o Portugu ês Brasileiro. Assim, o m ódulo para reconhecimento de voz usado no FFTranscriber foi desenvolvido com recursos pr óprios [1].

Al ém do mais, esta ferramenta ser á distribu´ıda como c ódigo-livre, aspecto muito interessante, j á que as soluç ões encontradas atualmente s ão em sua maioria baseadas em softwares com licenças comerciais.

O restante do artigo est á organizado da seguinte forma. A Seç ão 2 descreve o aplicativo FFTranscriber, juntamente com os seus m ódulos de reconhecimento e realce de voz. Os resultados obtidos em testes realizados em ambiente real ser ão apresentados na Seç ão 3. Finalmente, a Seç ão 4 resume nossas conclus ões e direciona trabalhos futuros.

2 O FFTranscriber

O aplicativo FFTranscriber, ilustrado na Figura 1, foi implementado usando a linguagem de programaç ão C++ e consiste de duas interfaces otimizadas para transcriç ão textual de áudio forense.

Edição de Texto Edição de Áudio

Controle de Áudio Velocidade do Áudio

Barra de Seleção

Figura 1 - Tela inicial do aplicativo FFTranscriber. Os principais m ódulos est ão identificados por legendas. Percebe-se que o FFTranscriber integra em uma mesma interface os editores de áudio e texto. Essa caracter´ıstica favorece a usabilidade do aplicativo, ou seja, ela fornece a praticidade de se ter as principais ferramentas necess árias ao processo de transcriç ão integradas em um único ambiente de trabalho.

No menu superior encontram-se as opç ões para controlar a execuç ão do áudio: iniciar, parar, pau-sar, gravar, avançar e retroceder. Existe tamb ém uma barra de controle que permite ao perito ajustar a velocidade de execuç ão do áudio da forma que lhe for mais conveniente.

A ediç ão do arquivo de áudio conta com a visualizaç ão da forma do áudio em forma de espectro e de energia do sinal. Esse m ódulo trata os principais formatos de áudio (p.e. wav, mp3) e disponibiliza v árias funcionalidades, dentre as principais podemos citar a possibilidade de execuç ão apenas de um dos canais, em caso de arquivos stereo, e a mudança na taxa de amostragem para a gravaç ão de arquivos.

(3)

O editor de texto permite a formataç ão adequada de arquivos TXT, possibilitando, entre outras funciona-lidades, a alteraç ão da fonte, alinhamento de par ágrafos, salvar e abrir um arquivo, funç ões como desfazer e recortar, etc.

No menu inferior visualiza-se a barra de seleç ão que fornece informaç ões sobre o posicionamento do áudio, al ém de mostrar a taxa de amostragem do arquivo.

A seguir ser ão detalhados os m ódulos para reconhecimento e realce de voz tamb ém dispon´ıveis no aplicativo FFTranscriber.

2.1 Realce de Voz

Uma importante funcionalidade que o aplicativo FFTranscriber prop õe é a capacidade de lidar com ru´ıdos, dada a pouca robustez dos atuais sistemas de reconhecimento de voz ao ambientes ruidosos. Uma das metas, portanto, deste trabalho é oferecer ferramentas para o processamento digital de sinais de áudio, mais especificamente para o refinamento ou realce (“enhancement”) de voz.

O realce é útil para aumentar a inteligibilidade da voz, ou seja, a capacidade de entender o que foi dito. O FFTranscriber possui um m ódulo respons ável pelo pr é-processamento da voz para eliminaç ão de ru´ıdos. Al ém disso, ser á poss´ıvel lidar com distorç ões encontradas em canais t´ıpicos de telecomunicaç ões, tais como sistemas de telefonia ou mesmo gravaç ões anal ógicas em fitas de áudio, a fim de facilitar a inteligibilidade do áudio a ser transcrito.

A t écnica de realce de voz empregada é baseada no conceito de subtraç ão espectral [2], onde é feita a filtragem do sinal original com base em uma amostra do ru´ıdo ambiente.

2.2 O uso do reconhecimento de voz

O reconhecimento autom ático de voz é um relevante desafio enfrentado pela computaç ão moderna (e áreas afins): a construç ão de m áquinas capazes de interagir de forma natural com seres humanos [3]. Um aspecto muito importante da metodologia é que atualmente a tecnologia de reconhecimento de voz n ão permite que se atinja satisfat ória efici ência com sistemas independentes de locutor, o que faz a transcriç ão feita diretamente do arquivo ser de qualidade bem inferior quando comparada com a feita a partir da voz de um locutor ao qual o sistema j á est á adaptado [4].

Assim, o aplicativo FFTranscriber faz uso de t écnicas para reconhecimento dependente de locutor, onde o sistema é sintonizado para melhor reconhecer a fala de seu usu ário, sendo, para tanto, necess ário um treinamento pr évio do perfil ac ústico do perito. A proposta é que o perito escute o áudio a ser transcrito e use um microfone para, ao inv és de digitar o texto correspondente, enuncie o mesmo atrav és de sua pr ópria voz, diminuindo significativamente o tempo requerido no processo de transcriç ão.

O processo de reconhecimento de voz é feito atrav és da ferramenta c ódigo-livre Julius Decoder [5]. A comunicaç ão entre o FFTranscriber e o decodificador Julius é realizada por uma interface de programaç ão (API) pr ópria [1] criada no Laborat ório de Processamento Digital de Sinais da Universidade Federal do Par á (LAPS). Assim como a API, todos os demais recursos necess ários para a construç ão de um sistema de reconhecimento de voz, como modelos ac ústico e de linguagem, tamb ém foram desenvolvidos dentro do LAPS atrav és do Projeto FalaBrasil, e encontram-se gratuitamente dispon´ıveis na p ágina do projeto [6].

Atualmente, o sistema de reconhecimento de voz do LAPS possui taxa de acerto igual a 71% no reco-nhecimento de palavras no modelo independente de locutor, utilizando uma base de teste com 54 minutos

(4)

de áudio. J á no modelo dependente de locutor foram usados dois usu ários para adaptaç ão, cada um com 10 minutos de fala, atingindo 86,7% de acerto no reconhecimento de palavras com a mesma base de teste.

3 Resultados

Uma vers ˜ao funcional do aplicativo FFTranscriber foi testada em atividades forenses reais dentro do Instituto de Per´ıcias Cient´ıficas Renato Chaves, Bel ´em, Brasil.

Os primeiros testes, realizados sem o emprego do reconhecimento de voz, mostraram que o perito deve passar, necessariamente, por um treinamento pr évio, para que ele possa se livrar dos v´ıcios adquiridos com a longa e sistem ática utilizaç ão do m étodo tradicional, como por exemplo, a utilizaç ão equivocada de atalhos para realizar certos procedimentos (seleç ão de trechos de áudio, comandos para controle do áudio, etc.). Tal afirmativa pode ser visualizada nos n úmeros mostrados na Tabela 1. Com o decorrer dos testes, o tempo de transcriç ão entre os m étodos tende a se igualar. Outro detalhe importante, os arquivos foram trabalhados de forma intercalada, ou seja, o primeiro arquivo foi transcrito primeiramente usando o m étodo tradicional e depois o FFTranscriber, com os arquivos seguintes adotando o mesmo esquema. Com isso, n ão houve uma sequ ência na utilizaç ão dos m étodos.

Tabela 1: Primeira bateria de testes.

Audio(seg) Transcric¸ ˜ao (min) Inteligibilidade FFTranscriber Tradicional 30.562 3:18:12 2:57:40 100% 28.142 2:31:00 3:08:00 100% 30.876 3:38:47 2:41:02 100% 15.325 1:18:40 1:12:80 100% 26.240 2:24:63 2:21:96 100% 15.046 1:27:53 1:25:15 100%

O par âmetro inteligibilidade quantifica o n úmero de palavras pronunciadas que foram corretamente iden-tificadas. Ap ós uma semana de uso do FFTranscriber, o perito fez outra bateria de testes. Agora as transcriç ões n ão foram feitas de forma intercalada e o processo de avaliaç ão foi feito em dois est ágios: usando e n ão usando o reconhecimento de voz. Note-se que para serem feitos os teste com reconhe-cimento de voz, a voz de um perito foi usada para adaptar um modelo ac ústico o que corresponde a 10 minutos de áudio. Os resultados est ão na Tabela 2.

Tabela 2: Segunda bateria de testes.

Audio(seg) Transcric¸ ˜ao (min) Inteligibilidade FFT Tradicional 29.727 2:41:72 2:54:76 100% 30.876 2:30:19 2:43:86 100% 15.386 1:16:23 1:23:78 100% 15.098 1:21:73 1:24:00 100% 15.046 1:01:61 1:13:19 100% 15.673 1:16:59 1:22:16 100%

O FFTranscriber mostrou-se capaz de realizar procedimentos compat´ıveis com softwares pagos (“n ão houve queda no desempenho e at é se ganha um pouco”), no que diz respeito a fatores como efic ácia,

(5)

tempo de resposta, facilidade de uso, enfim, tudo aquilo que pode ajudar o perito a realizar seu trabalho de forma eficiente e em menor tempo poss´ıvel.

J á nos testes com reconhecimento de voz, o tempo de transcriç ão foi em m édia o dobro. As principais dificuldades encontradas foram: o tempo de reconhecimento (cerca de 1 segundo por palavra) e o tempo que o perito perde formatando o texto resultante, isto é, corrigindo erros de reconhecimento, adicionando pontuaç ão, etc. Como vantagem podemos citar a maior comodidade, j á que o tempo destinado a digitaç ão é reduzido. Isso pode ser comprovado calculando a taxa de erro de palavras para os arquivos testados. Por exemplo, em um dos arquivos verificou-se que de 40 palavras o sistema erra apenas 4, ou seja, taxa de erro igual a 10%.

4 Conclus ˜ao

Este trabalho apresentou o FFTranscriber, um software otimizado para transcriç ão de áudio. O FFTranscri-ber mostrou-se capaz de resolver o problema proposto quando submetido a um ambiente real de atividade forense. Visando melhorar os resultados apresentados, h á alguns aprimoramentos em vista, tais como:

• Melhorar a taxa de reconhecimento utilizando bases de treino dentro do dom´ınio da per´ıcia cient´ıfica, visto que a base usada para treinar os modelos de linguagem e ac ´ustico ´e independente de dom´ınio; • Adicionar mais funcionalidades ao editor de texto; e

• Disponibilizar a opç ão de reconhecimento diretamente de arquivos de áudio;

Por fim, est ´a sendo elaborada uma vers ˜ao do FFTranscriber para o sistema operacional Linux.

Refer ˆencias

[1] P. Silva, P. Batista, N. Neto, and A. Klautau, “An open-source speech recognizer for brazilian portuguese with a windows programming interface,” The International Conference on Computational Processing of Portuguese (PROPOR), 2010.

[2] S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-27, NO. 2, 1979.

[3] L. Rabiner and B. Juang, Fundamentals of speech recognition. Englewood Cliffs, N.J.: PTR Prentice Hall, 1993.

[4] P. Silva, N. Neto, and A. Klautau, “Novos recursos e utilizaç ão de adaptaç ão de locutor no desenvol-vimento de um sistema de reconhecimento de voz para o Portugu ês Brasileiro,” In XXVII Simp ósio Brasileiro de Telecomunicaç ões, 2009.

[5] A. Lee, T. Kawahara, and K. Shikano, “Julius - an open source real-time large vocabulary recognition engine,” Proc. European Conference on Speech Communication and Technology, pp. 1691–1694, 2001. [6] “http://www.laps.ufpa.br/falabrasil,” Visitado em Junho, 2010.