• Nenhum resultado encontrado

FFTranscriber: Software para Transcrição Otimizado para Aplicações Forenses

N/A
N/A
Protected

Academic year: 2021

Share "FFTranscriber: Software para Transcrição Otimizado para Aplicações Forenses"

Copied!
5
0
0

Texto

(1)

FFTranscriber: Software para Transcric¸ ˜ao Otimizado para

Aplicac¸ ˜oes Forenses

Renan Moura, Nelson Neto, Carlos Patrick, Pedro Batista e Aldebaro Klautau

Laborat ´orio de Processamento de Sinais

Universidade Federal do Par ´a

e-mail: {renanmoura,nelsonneto,patrickalves,pedro,aldebaro}@ufpa.br

1

Introduc¸ ˜ao

A transcric¸ ˜ao textual de ´audio se faz muito comum nos dias de hoje em v ´arias atividades e verifica-se, com facilidade, como a agilizac¸ ˜ao desse processo ajudaria no cotidiano das pessoas nas mais diversas ´areas. Este trabalho foca o desenvolvimento de um aplicativo para transcric¸ ˜ao de ´audio forense, impactando de forma direta no melhor atendimento `a populac¸ ˜ao no que diz respeito ao combate `a criminalidade. Apesar do enfoque do trabalho, percebe-se que suas aplicac¸ ˜oes podem ir desde o uso pessoal dom ´estico no de-senvolvimento de tarefas simples, at ´e o uso corporativo na documentac¸ ˜ao de ´audio de palestras, reuni ˜oes, pareceres jur´ıdicos entre outras atividades que usem o ´audio e sua respectiva transcric¸ ˜ao.

A maioria das transcric¸ ˜oes de ´audio forense feitas no estado do Par ´a especificamente - apesar de que esta constatac¸ ˜ao se estende para praticamente todo o Brasil - s ˜ao feitas de um modo extremamente simples em que um transcritor (perito) atrav ´es do aux´ılio de um software de edic¸ ˜ao de ´audio de prop ´osito geral e um outro de edic¸ ˜ao de texto, ouve um determinado segmento de ´audio e ent ˜ao o transcreve. Essa ´e uma forma bastante ineficaz de realizar esse trabalho, pois os softwares n ˜ao s ˜ao integrados para otimizar a produtividade, tornando o processo enfadonho, o que por sua vez aumenta a suscetibilidade a erros do respons ´avel pela transcric¸ ˜ao.

Com o intuito de otimizar o processo de transcric¸ ˜ao textual de ´audio, a presente proposta apresenta o aplicativo FFTranscriber, que integra em uma ´unica interface todas as ferramentas necess ´arias para desempenhar tal atividade. O FFTranscriber consiste de duas interfaces de trabalho integradas, uma para tratamento de ´audio e um editor de texto. Outra facilidade ´e o m ´odulo de reconhecimento de voz, onde o perito respons ´avel pela transcric¸ ˜ao pode prover o arquivo de ´audio, ou mesmo falar o conte ´udo do ´audio, para recuperar de forma autom ´atica a transcric¸ ˜ao correspondente, que pode ser posteriormente editada.

O reconhecimento de voz permite que o ´audio seja transcrito automaticamente com uma determinada taxa de acerto o que faz com que o trabalho de transcric¸ ˜ao manual diminua significativamente. Geralmente, o ´audio a ser transcrito ´e gravado em um ambiente ruidoso o que diminui o desempenho do reconhecedor. Uma forma de melhorar o desempenho dos sistemas de reconhecimento ´e realc¸ar o sinal de voz (e remover ru´ıdo) antes do reconhecimento. ´E sabido que os algoritmos de realce de voz apresentam dificuldades e, algumas vezes, n ˜ao ´e poss´ıvel melhorar tanto a inteligibilidade quanto a qualidade simultaneamente. O mais importante ´e tornar o sinal mais intelig´ıvel tanto para seres humanos quanto para computadores.

(2)

Softwares para reconhecimento de voz com significativa efici ˆencia j ´a existem para l´ınguas como a in-glesa, por exemplo o Dragon NaturallySpeaking Speech Recognition Software da empresa Nuance, mas n ˜ao h ´a equivalente no mercado para o Portugu ˆes Brasileiro. Assim, o m ´odulo para reconhecimento de voz usado no FFTranscriber foi desenvolvido com recursos pr ´oprios [1].

Al ´em do mais, esta ferramenta ser ´a distribu´ıda como c ´odigo-livre, aspecto muito interessante, j ´a que as soluc¸ ˜oes encontradas atualmente s ˜ao em sua maioria baseadas em softwares com licenc¸as comerciais.

O restante do artigo est ´a organizado da seguinte forma. A Sec¸ ˜ao 2 descreve o aplicativo FFTranscriber, juntamente com os seus m ´odulos de reconhecimento e realce de voz. Os resultados obtidos em testes realizados em ambiente real ser ˜ao apresentados na Sec¸ ˜ao 3. Finalmente, a Sec¸ ˜ao 4 resume nossas conclus ˜oes e direciona trabalhos futuros.

2

O FFTranscriber

O aplicativo FFTranscriber, ilustrado na Figura 1, foi implementado usando a linguagem de programac¸ ˜ao C++ e consiste de duas interfaces otimizadas para transcric¸ ˜ao textual de ´audio forense.

Edição de Texto Edição de Áudio

Controle de Áudio Velocidade do Áudio

Barra de Seleção

Figura 1 - Tela inicial do aplicativo FFTranscriber. Os principais m ´odulos est ˜ao identificados por legendas. Percebe-se que o FFTranscriber integra em uma mesma interface os editores de ´audio e texto. Essa caracter´ıstica favorece a usabilidade do aplicativo, ou seja, ela fornece a praticidade de se ter as principais ferramentas necess ´arias ao processo de transcric¸ ˜ao integradas em um ´unico ambiente de trabalho.

No menu superior encontram-se as opc¸ ˜oes para controlar a execuc¸ ˜ao do ´audio: iniciar, parar, pau-sar, gravar, avanc¸ar e retroceder. Existe tamb ´em uma barra de controle que permite ao perito ajustar a velocidade de execuc¸ ˜ao do ´audio da forma que lhe for mais conveniente.

A edic¸ ˜ao do arquivo de ´audio conta com a visualizac¸ ˜ao da forma do ´audio em forma de espectro e de energia do sinal. Esse m ´odulo trata os principais formatos de ´audio (p.e. wav, mp3) e disponibiliza v ´arias funcionalidades, dentre as principais podemos citar a possibilidade de execuc¸ ˜ao apenas de um dos canais, em caso de arquivos stereo, e a mudanc¸a na taxa de amostragem para a gravac¸ ˜ao de arquivos.

(3)

O editor de texto permite a formatac¸ ˜ao adequada de arquivos TXT, possibilitando, entre outras funciona-lidades, a alterac¸ ˜ao da fonte, alinhamento de par ´agrafos, salvar e abrir um arquivo, func¸ ˜oes como desfazer e recortar, etc.

No menu inferior visualiza-se a barra de selec¸ ˜ao que fornece informac¸ ˜oes sobre o posicionamento do ´audio, al ´em de mostrar a taxa de amostragem do arquivo.

A seguir ser ˜ao detalhados os m ´odulos para reconhecimento e realce de voz tamb ´em dispon´ıveis no aplicativo FFTranscriber.

2.1

Realce de Voz

Uma importante funcionalidade que o aplicativo FFTranscriber prop ˜oe ´e a capacidade de lidar com ru´ıdos, dada a pouca robustez dos atuais sistemas de reconhecimento de voz ao ambientes ruidosos. Uma das metas, portanto, deste trabalho ´e oferecer ferramentas para o processamento digital de sinais de ´audio, mais especificamente para o refinamento ou realce (“enhancement”) de voz.

O realce ´e ´util para aumentar a inteligibilidade da voz, ou seja, a capacidade de entender o que foi dito. O FFTranscriber possui um m ´odulo respons ´avel pelo pr ´e-processamento da voz para eliminac¸ ˜ao de ru´ıdos. Al ´em disso, ser ´a poss´ıvel lidar com distorc¸ ˜oes encontradas em canais t´ıpicos de telecomunicac¸ ˜oes, tais como sistemas de telefonia ou mesmo gravac¸ ˜oes anal ´ogicas em fitas de ´audio, a fim de facilitar a inteligibilidade do ´audio a ser transcrito.

A t ´ecnica de realce de voz empregada ´e baseada no conceito de subtrac¸ ˜ao espectral [2], onde ´e feita a filtragem do sinal original com base em uma amostra do ru´ıdo ambiente.

2.2

O uso do reconhecimento de voz

O reconhecimento autom ´atico de voz ´e um relevante desafio enfrentado pela computac¸ ˜ao moderna (e ´areas afins): a construc¸ ˜ao de m ´aquinas capazes de interagir de forma natural com seres humanos [3]. Um aspecto muito importante da metodologia ´e que atualmente a tecnologia de reconhecimento de voz n ˜ao permite que se atinja satisfat ´oria efici ˆencia com sistemas independentes de locutor, o que faz a transcric¸ ˜ao feita diretamente do arquivo ser de qualidade bem inferior quando comparada com a feita a partir da voz de um locutor ao qual o sistema j ´a est ´a adaptado [4].

Assim, o aplicativo FFTranscriber faz uso de t ´ecnicas para reconhecimento dependente de locutor, onde o sistema ´e sintonizado para melhor reconhecer a fala de seu usu ´ario, sendo, para tanto, necess ´ario um treinamento pr ´evio do perfil ac ´ustico do perito. A proposta ´e que o perito escute o ´audio a ser transcrito e use um microfone para, ao inv ´es de digitar o texto correspondente, enuncie o mesmo atrav ´es de sua pr ´opria voz, diminuindo significativamente o tempo requerido no processo de transcric¸ ˜ao.

O processo de reconhecimento de voz ´e feito atrav ´es da ferramenta c ´odigo-livre Julius Decoder [5]. A comunicac¸ ˜ao entre o FFTranscriber e o decodificador Julius ´e realizada por uma interface de programac¸ ˜ao (API) pr ´opria [1] criada no Laborat ´orio de Processamento Digital de Sinais da Universidade Federal do Par ´a (LAPS). Assim como a API, todos os demais recursos necess ´arios para a construc¸ ˜ao de um sistema de reconhecimento de voz, como modelos ac ´ustico e de linguagem, tamb ´em foram desenvolvidos dentro do LAPS atrav ´es do Projeto FalaBrasil, e encontram-se gratuitamente dispon´ıveis na p ´agina do projeto [6].

Atualmente, o sistema de reconhecimento de voz do LAPS possui taxa de acerto igual a 71% no reco-nhecimento de palavras no modelo independente de locutor, utilizando uma base de teste com 54 minutos

(4)

de ´audio. J ´a no modelo dependente de locutor foram usados dois usu ´arios para adaptac¸ ˜ao, cada um com 10 minutos de fala, atingindo 86,7% de acerto no reconhecimento de palavras com a mesma base de teste.

3

Resultados

Uma vers ˜ao funcional do aplicativo FFTranscriber foi testada em atividades forenses reais dentro do Instituto de Per´ıcias Cient´ıficas Renato Chaves, Bel ´em, Brasil.

Os primeiros testes, realizados sem o emprego do reconhecimento de voz, mostraram que o perito deve passar, necessariamente, por um treinamento pr ´evio, para que ele possa se livrar dos v´ıcios adquiridos com a longa e sistem ´atica utilizac¸ ˜ao do m ´etodo tradicional, como por exemplo, a utilizac¸ ˜ao equivocada de atalhos para realizar certos procedimentos (selec¸ ˜ao de trechos de ´audio, comandos para controle do ´audio, etc.). Tal afirmativa pode ser visualizada nos n ´umeros mostrados na Tabela 1. Com o decorrer dos testes, o tempo de transcric¸ ˜ao entre os m ´etodos tende a se igualar. Outro detalhe importante, os arquivos foram trabalhados de forma intercalada, ou seja, o primeiro arquivo foi transcrito primeiramente usando o m ´etodo tradicional e depois o FFTranscriber, com os arquivos seguintes adotando o mesmo esquema. Com isso, n ˜ao houve uma sequ ˆencia na utilizac¸ ˜ao dos m ´etodos.

Tabela 1: Primeira bateria de testes.

Audio(seg) Transcric¸ ˜ao (min) Inteligibilidade FFTranscriber Tradicional 30.562 3:18:12 2:57:40 100% 28.142 2:31:00 3:08:00 100% 30.876 3:38:47 2:41:02 100% 15.325 1:18:40 1:12:80 100% 26.240 2:24:63 2:21:96 100% 15.046 1:27:53 1:25:15 100%

O par ˆametro inteligibilidade quantifica o n ´umero de palavras pronunciadas que foram corretamente iden-tificadas. Ap ´os uma semana de uso do FFTranscriber, o perito fez outra bateria de testes. Agora as transcric¸ ˜oes n ˜ao foram feitas de forma intercalada e o processo de avaliac¸ ˜ao foi feito em dois est ´agios: usando e n ˜ao usando o reconhecimento de voz. Note-se que para serem feitos os teste com reconhe-cimento de voz, a voz de um perito foi usada para adaptar um modelo ac ´ustico o que corresponde a 10 minutos de ´audio. Os resultados est ˜ao na Tabela 2.

Tabela 2: Segunda bateria de testes.

Audio(seg) Transcric¸ ˜ao (min) Inteligibilidade FFT Tradicional 29.727 2:41:72 2:54:76 100% 30.876 2:30:19 2:43:86 100% 15.386 1:16:23 1:23:78 100% 15.098 1:21:73 1:24:00 100% 15.046 1:01:61 1:13:19 100% 15.673 1:16:59 1:22:16 100%

O FFTranscriber mostrou-se capaz de realizar procedimentos compat´ıveis com softwares pagos (“n ˜ao houve queda no desempenho e at ´e se ganha um pouco”), no que diz respeito a fatores como efic ´acia,

(5)

tempo de resposta, facilidade de uso, enfim, tudo aquilo que pode ajudar o perito a realizar seu trabalho de forma eficiente e em menor tempo poss´ıvel.

J ´a nos testes com reconhecimento de voz, o tempo de transcric¸ ˜ao foi em m ´edia o dobro. As principais dificuldades encontradas foram: o tempo de reconhecimento (cerca de 1 segundo por palavra) e o tempo que o perito perde formatando o texto resultante, isto ´e, corrigindo erros de reconhecimento, adicionando pontuac¸ ˜ao, etc. Como vantagem podemos citar a maior comodidade, j ´a que o tempo destinado a digitac¸ ˜ao ´e reduzido. Isso pode ser comprovado calculando a taxa de erro de palavras para os arquivos testados. Por exemplo, em um dos arquivos verificou-se que de 40 palavras o sistema erra apenas 4, ou seja, taxa de erro igual a 10%.

4

Conclus ˜ao

Este trabalho apresentou o FFTranscriber, um software otimizado para transcric¸ ˜ao de ´audio. O FFTranscri-ber mostrou-se capaz de resolver o problema proposto quando submetido a um ambiente real de atividade forense. Visando melhorar os resultados apresentados, h ´a alguns aprimoramentos em vista, tais como:

• Melhorar a taxa de reconhecimento utilizando bases de treino dentro do dom´ınio da per´ıcia cient´ıfica, visto que a base usada para treinar os modelos de linguagem e ac ´ustico ´e independente de dom´ınio; • Adicionar mais funcionalidades ao editor de texto; e

• Disponibilizar a opc¸ ˜ao de reconhecimento diretamente de arquivos de ´audio;

Por fim, est ´a sendo elaborada uma vers ˜ao do FFTranscriber para o sistema operacional Linux.

Refer ˆencias

[1] P. Silva, P. Batista, N. Neto, and A. Klautau, “An open-source speech recognizer for brazilian portuguese with a windows programming interface,” The International Conference on Computational Processing of Portuguese (PROPOR), 2010.

[2] S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-27, NO. 2, 1979.

[3] L. Rabiner and B. Juang, Fundamentals of speech recognition. Englewood Cliffs, N.J.: PTR Prentice Hall, 1993.

[4] P. Silva, N. Neto, and A. Klautau, “Novos recursos e utilizac¸ ˜ao de adaptac¸ ˜ao de locutor no desenvol-vimento de um sistema de reconhecimento de voz para o Portugu ˆes Brasileiro,” In XXVII Simp ´osio Brasileiro de Telecomunicac¸ ˜oes, 2009.

[5] A. Lee, T. Kawahara, and K. Shikano, “Julius - an open source real-time large vocabulary recognition engine,” Proc. European Conference on Speech Communication and Technology, pp. 1691–1694, 2001. [6] “http://www.laps.ufpa.br/falabrasil,” Visitado em Junho, 2010.

Referências

Documentos relacionados

esta espécie foi encontrada em borda de mata ciliar, savana graminosa, savana parque e área de transição mata ciliar e savana.. Observações: Esta espécie ocorre

Os profissionais da medicina do trabalho que preenchem a ficha de aptidão do trabalhador, ao assinalarem se o trabalhador se encontra apto, apto condicionalmente

O CES é constituído por 54 itens, destinados a avaliar: (a) cinco tipos de crenças, a saber: (a1) Estatuto de Emprego - avalia até que ponto são favoráveis, as

Narrativamente consensual, o sexo anal, assim como nas cenas de Sasha Grey, parece destravar a boca como caixa de ressonância.. Olham fixamente

Apesar do Decreto de Lei nº118/2013 ter sido lançado em 2013, fazia falta o lançamento de um despacho que definiria a forma de calculo de Qusable e SPF. Apenas em dezembro de 2015

The present study evaluated the potential effects on nutrient intake, when non- complying food products were replaced by Choices-compliant ones, in typical Daily Menus, based on

ed è una delle cause della permanente ostilità contro il potere da parte dell’opinione pubblica. 2) Oggi non basta più il semplice decentramento amministrativo.

- Qual a média da renda mensal: utilizando os rendimentos dos últimos quatro meses para encontrar a média. b) Recibo e Declaração Completa do Imposto de Renda, referente