M´
arcio Geovani Jasinski
Compara¸
c˜
ao entre metodologias de an´
alise
de sinal aplicadas ao reconhecimento de
voz utilizando um vocabul´
ario restrito
Florian´oplis - SC Julho / 2006
Sum´
ario
1 Introdu¸c˜ao p. 2 1.1 Projeto Cyclops . . . p. 2 1.2 Objetivos Espec´ıficos . . . p. 3 1.3 Justificativa . . . p. 3 2 Formato de ´audio MP3 p. 5 2.1 Vis˜ao geral . . . p. 5 2.2 Qualidade do audio . . . p. 7 2.2.1 Bitrate . . . p. 8 2.3 Tags ID3v2 . . . p. 8 Referˆencias p. 102
1
Introdu¸
c˜
ao
1.1
Projeto Cyclops
Projetado em 1993, o Projeto Cyclops ´e uma coopera¸c˜ao bilateral entre o Brasil e a Alemanha com o intuito em desenvolver m´etodos, t´ecnicas e ferramentas na ´area m´edica. Os principais campos de pesquisa na ´area computacional s˜ao inteligˆencia artificial, reconhecimento de padr˜oes, computa¸c˜ao gr´afica e redes wireless. A organiza¸c˜ao atual do projeto ´e composta de 4 grupos:
• DICOM Compliant PACS
• Medical Image and Signal Analysis • Medical Workflow Management
• Telemedicine and Wireless Technologies
O sistema proposto neste trabalho pertence a telemedicina. Esta ´area procura adap-tar trabalho e recursos m´edicos em sistemas computacionais e de telecomunica¸c˜oes no diagn´ostico e tratamento m´edico. Telemedicina ´e utilizar tecnologias para interagir pro-fissionais da sa´ude e pacientes, visando realizar a¸c˜oes m´edicas `a distˆancia.
O principal objetivo da telemedicina ´e oferecer aos pacientes e m´edicos ganho em tempo e precis˜ao de dados, permitindo decis˜oes seguras quanto aos cuidados m´edicos necess´arios. A telemedicina cumpre um importante papel na evolu¸c˜ao da medicina onde os pacientes n˜ao necessitam ser deslocados afim de realizar consultas m´edicas.(CYCLOPS, 1993).
1.2 Objetivos Espec´ıficos 3
1.2
Objetivos Espec´ıficos
• Implementar um sistema de grava¸c˜ao e reprodu¸c˜ao de ´audio para laudos m´edicos para sistemas distintos como PC e Palms.
• Desenvolver TAGS para identifica¸c˜ao do ´audio, seguindo padr˜oes DICOM, utili-zando formatos de tamanho reduzido atrav´es de compacta¸c˜ao e codifica¸c˜ao.
• Implementar uma base de laudos em ´audio para armazenar de forma segura e confi´avel os laudos. Desenvolver um sistema para consulta e obten¸c˜ao dos laudos gravados por funcion´arios digitadores.
• Desenvolver um prot´otipo de reconhecimento de voz para gera¸c˜ao autom´atica de laudos em texto.
• Desenvolver procedimentos para avalia¸c˜ao, testes de usabilidade e valida¸c˜ao dos prot´otipos.
1.3
Justificativa
Em exames de tomografia computadorizada o m´edico fica em frente a um computador analisando as imagens que o mesmo fornece e dita o laudo m´edico. Este ´e gravado em uma fita que ´e enviada aos digitadores, ap´os algumas horas ou dias os laudos fiquem prontos. Este procedimento demora devido ao transporte da fita e a datilografia do laudo. Uma vez completo, as informa¸c˜oes do laudo s˜ao enviadas ao m´edico que confere se este est´a correto(??).
Outra situa¸c˜ao comum, ´e o preechimento de diagn´ostico em formul´arios. Estes nem sempre s˜ao preenchidos com letra leg´ıvel. Ap´os ser enviado aos digitadores estes dados facilmente geram erros de interpreta¸c˜ao em um processo dif´ıcil e demorado.
O Projeto Cyclops(CYCLOPS, 1993) elabora programas na ´area m´edica e encontra resistˆencia dos m´edicos na adapta¸c˜ao do software, uma vez que estes n˜ao desejam digitar os laudos no computador. O presente trabalho almeja suprir este problema, ou seja, permitir que os sistemas de laudo m´edico elaborados pelo Cyclops Project tenham suporte ao diagn´ostico ditado. Para isso deve-se elaborar um sistema de captura de ´audio que armazene o laudo em um banco de dados seguindo padr˜oes espec´ıficos(DICOM, 1985). Este laudo pode ser repassado ao digitadores ou gerar o diagn´ostico automaticamente via reconhecimento de voz.
1.3 Justificativa 4
Este trabalho visa agilizar o atual sistema de formul´arios em papel e reduzir o tempo entre a grava¸c˜ao, digita¸c˜ao e confirma¸c˜ao dos laudos, bem como, evitar os problemas com fitas cassete:
• Danificas e perdidas; • Qualidade de som ruim;
Al´em disso, o Projeto Cyclops poder´a ter seus programas melhor aceitos por m´edicos pouco familiarizados com computadores e sistemas computacionais.
5
2
Formato de ´
audio MP3
Formato de ´audio digital de alta compress˜ao desenvolvido e padronizado em 1991 por uma equipe de pesquisadores na Universidade de Hannover(INSTITUT TNT, 2005) mem-bros do Comitˆe de Audio ISO/IEC MPEG coordenado pelo Professor Hans Musmann.
Desenvolvido representar audio em arquivos de tamanho reduzido sem perder de forma significativa a qualidade original. O formato MP3 fornece uma redu¸c˜ao no tamanho dos arquivos de aproximadamente 12 vezes em rela¸c˜ao ao formato WAV. Popularmente MP3 est´a relacionado a arquivos de som ou m´usica gravado e armazenados em computadores no formato MP3.
O padr˜ao ISO/IEC 11172-3 Layer 3, ´e tamb´em conhecido como ”MPEG-1 Audio Layer 3”, define que arquivos gravados neste formato devem ser salvos com a extens˜ao .mp3. O mesmo vale para o o padr˜ao ”MPEG-2 Audio Layer 3”, evolu¸c˜ao do formato. A inven¸c˜ao do nome MP3 est´a associoada ao Instituto FhG(FGH, 2005).
2.1
Vis˜
ao geral
Arquivos MP3 fornecem uma representa¸c˜ao de dados de ´audio atrav´es de convers˜oes de pulsos em c´odigos por modula¸c˜ao-codifica¸c˜ao (PCM). O tamanho reduzido ´e obtido por serem descartadas partes impercept´ıveis ao ouvido humano.
Um audio em mp3 pode ser comprimido em diferentes taxas de codifica¸c˜ao (bitrate), com rela¸c˜ao direta entre quantidade de dados e qualidade. Quanto maior o arquivo resultante, melhor a qualidade de audio deste. A desvantagem do formato ´e que precisa-se decodificar os dados antes de toc´a-lo. Por isso somente computadores e aparelhos com suporte a mp3 podem process´a-lo.
Para transformar sinais de tempo em frequˆencia, ´e utilizada The MP3 format uses, at its heart, a hybrid transform to transform a time domain signal into a frequency domain signal:
2.1 Vis˜ao geral 6
• Filtro de quadratura multifase com 32 faixas;
• Fluxo de 32 ou 12 MDCT (Modified Discrete Cosine Transform); • Redu¸c˜ao de alising1;
Em dezembro de 2004 foi lan¸cado a vers˜ao sorround do formato mp3 com suporte aos 5.1 canais t´ıpicos do ´audio sorround. Os arquivos s˜ao similares e o novo formato ´e compat´ıvel com o padr˜ao stereo.
Outros formatos foram desenvolvidos devido ao sucesso do mp3. O fato do formato ser patenteado pela Thomson Consumer Electronics(THOMSON CONSUMER ELECTRO-NICS, 2005), impulsionou o deseonvolvimento de outros formatos:
• OGG Vorbis - Formato de encapsulamento de dados livre desenvolvido como alter-nativa a formatos multim´edia propriet´arios;
• VQF - Formato de ´audio compactado criado pela Yamaha. Possui melhor qualidade e compacta¸c˜ao que o MP3 embora demore mais para ser codificado;
• WMA - Criado pela Microsoft para disputar mercado com o MP3. A qualidade do audio em WMA, quando utilizando taxas altas de BitRate ´e inferior ao MP3. • RA, RAM, RM - Arquivos do Real Audio, tecnologia usada para streaming (r´adio
e/ou v´ıdeo on-line) na Internet. Conseguem uma boa taxa de compacta¸c˜ao, mas a qualidade ´e depreciada.
Na especifica¸c˜ao MPEG, o sucessor do formato mp3 ´e o AAC (Codifica¸c˜ao avan¸cada de ´audio) do padr˜ao ”MPEG-4”. No entanto, nem o sucessor do mp3 e as alternativas acima citadas devem modificar o quadro atual, devido a popularidade que o formato mp3 conquistou. Aparelhos de som de para casa e carro, DVD Players, celulares e canetas USB j´a s˜ao produzidos com suporte a mp3.
Embora a grande vantagem do MP3 seja a popularidade e difus˜ao ampla em soft-ware e hardsoft-ware, este formato possui uma patente, obrigando a qualquer coisa que use codifica¸c˜ao em mp3 pagar royalties `a Thomson Consumer Electronics(THOMSON CON-SUMER ELECTRONICS, 2005). Foi contra essa patente que surgiu o formato OGG Vorbis, que pode ser utilizado sem pagamento de royalties.
2.2 Qualidade do audio 7
2.2
Qualidade do audio
A redu¸c˜ao em informa¸c˜ao caracter´ıstica do formato mp3 fornece op¸c˜oes diferentes na qualidade e tamanho do arquivo. Isto ´e definido pela taxa de bits (bit rate), quantidade de bits armazenado para representar cada segundo do ´audio. Normalmente usa-se taxas entre 128 a 256 kbit/s (kilobits por segundo). Em um CD de ´audio sem compress˜ao as taxas ficam entre 1378 kbit/s a 1411 kbit/s.
Os algorimtos de codifica¸c˜ao, reduzem a informa¸c˜ao explorando o fato do ouvido humano ser capaz de captar sons entre 20 Hz at´e 20 KHz. Assim as frequˆencias fora desse intervalo s˜ao ignoradas pelo algoritmo que gera um ´audio mp3. Arquivos de m´usica normalmente s˜ao codificados em 128 kbits stereo 44khz, o ´audio nessa configura¸c˜ao ´e at´e onze vezes menor que o original(WIKIPEDIA, 2005).
A taxa de bits por segundo influi diretamente na qualidade do ´audio comprimido. Taxas baixas geram arquivos de m´a qualidade, e podem gerar sons n˜ao existentes original-mente. Esses erros s˜ao denominados artefatos de compress˜ao. Outro fator que influencia a qualidade do mp3 ´e a dificuldade do sinal ser codificado. Testes mostram que usu´arios exigentes percebem a diferen¸ca entre arquivos mp3 codificados a 128kbits/s e os originais do CD(WIKIPEDIA, 2005).
Abaixo ´e apresentada uma compara¸c˜ao entre os formatos MPEG-1 Layer 1, 2 e 3 feita pelo Instituto Fraunhofer Gesellschaft(FGH, 2005).
Camada Bit Rate Compress˜ao
Layer 1 384 kb/s At´e 4 vezes
Layer 2 192 a 256 kb/s De 6 a 8 vezes
Layer 3 112 a 128 kb/s De 10 a 12 vezes
Tabela 1: Compara¸c˜ao entre formatos MPEG-1
Quanto a compara¸c˜ao entre as diferentes camadas, ´e importante ressaltar que devem ser utilizados codificadores equivalentes em qualidade do ´audio. Os diferentes algoritmos de codifica¸c˜ao buscam eliminar as partes que n˜ao podem ser detectadas por humanos. A ´unica forma de comparar os resultados ´e ouvir os resultdos obtidos,dada a redu¸c˜ao de informa¸c˜ao inerente ao processo. Existem muitos codecs2 para MP3 j´a desenvolvidos, os
mais famosos s˜ao:
• LAME - ferramenta usada para o ensino de codifica¸c˜ao MP3 e ´e usado na maioria
2.3 Tags ID3v2 8
do software de c´odigo aberto (LAME, 2005).
• Xing - famoso codificador Windows, de excelente velocidade por´em ´e o c´odigo pro-priet´ario (XING, 2005).
• Bladeenc - codificador gratuito dentros da Licensa GPL (BLADEENC, 2005). N˜ao ´e necess´ario recodificar um arquivo em MP3 ap´os edit´a-lo, cortando se¸c˜oes e adicionando outros trechos de m´usicas de um mp3. O software Audacity, ´e uma excelente op¸c˜ao para editar ´audio, pois ´e c´odio aberto e possui vers˜oes para Mac OS X, Microsoft Windows, GNU/Linux(AUDACITY, 2005).
2.2.1
Bitrate
O bitrate ´e a quantidade de bits usados para armazenar cada segundo de ´audio em arquivo. A taxa ´e medida em kb/s, ou seja 1024 bits por segundo. Dessa forma um arquivo armzenado a 128 kb/s, utiliza 128*1024 bits por segundo de informa¸c˜ao, total 131072 b/s. Em geral, quanto mais informa¸c˜ao necessita ser mantida, maior deve ser o bitrate. ´E poss´ıvel tamb´em variar o bitrate durante a codifica¸c˜ao de um ´audio, dividindo-o em partes de diferentes taxas para codifica¸c˜ao.(WIKIPEDIA, 2005)
Em um CD de ´audio n˜ao existe existe bitrate, uma vez que o som ´e gravado direta-mente de um est´udio. No entanto ao converter m´usicas de CD para o formato MP3, ´e necess´ario especificar uma taxa que dentre: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 kbit/s. Tamb´em ´e necess´ario definir a frequˆencia: 32, 44.1 ou 48 kHz.
Com a possibilidade de variar o bitrate (VBR) os melhores codificadores baixam a taxa de amostragem nos trechos menor complexidade de sinal e aumentam o bitrate a medida que a complexidade aumenta.
2.3
Tags ID3v2
Os sons codificados em formato digital podem conter informa¸c˜oes extras que identifi-cam o arquivo. Essas informa¸c˜oes s˜ao chamadas de TAGs e podem incluir desde o nome do artista e da m´usica at´e imagens. Os aplicativos e dispositivos que tocam as m´usicas podem usar essas TAGs para mostrar alguns dados identificando a m´usica para o us´ario. Para adicionar as informa¸c˜oes foi desenvolvido em 1996 por Eric Kemp, um padr˜ao que determina como as TAGs devem descrever um arquivo de ´audio. Denomidado ID3 ´e
2.3 Tags ID3v2 9
a abrevia¸c˜ao de ”Identify an MP3”. Ap´os a primeira vers˜ao do ID3, duas revis˜oes foram feitas, sendo a ´ultima denominada de ID3v2(ID3, 1998).
10
Referˆ
encias
AMARAL, M. A.; BARRIVIERA, R.; TEIXEIRA, E. C. Reconhecimento de voz para automa¸c˜ao residencial baseado em agentes inteligentes. Revista Eletrˆonica de Sistemas de Informa¸c˜ao, n. 04, Novembro 2004.
AUDACITY. The Free, Cross-Platform Sound Editor. Dominic Mazzoni, 2005. Dispon´ıvel em: <http://audacity.sourceforge.net>. Acesso em: 10 novembro 2005. BLADEENC. Tord’s Home - Bladeenc. Tord Jansson, 2005. Dispon´ıvel em: <http://bladeenc.mp3.no>. Acesso em: 10 novembro 2005.
CYCLOPS. The Cyclops Project. Florian´opilis: Laborat´orio de Telemedicina - UFSC, 1993. Dispon´ıvel em: <http://cyclops.telemedicina.ufsc.br>. Acesso em: 30 junho 2005. DICOM. Digital Imagining and Communications in Medicine. NEMA, Suite 1847 -1300 North 17th Street - Rosslyn, VA - USA: American College of Radiology (ACR) and National Electrical Manufacturers Association (NEMA), 1985. Dispon´ıvel em: <http://medical.nema.org>. Acesso em: 1 julho 2005.
FGH. Fraunhofer Gessellschaft Instituten. Dispon´ıvel em: <http://www.tnt.uni-hannover.de>. Acesso em: 10 outubro 2005.
ID3. ID3v2. Dispon´ıvel em: <http://www.id3.org/>. Acesso em: 16 novembro 2005. INSTITUT TNT. Institut f¨ur Theoretische Nachrichtentechnik und Informationsverarbei-tung. Hanover: UNI Hannover, 2005. Dispon´ıvel em: <http://www.tnt.uni-hannover.de>. Acesso em: 10 outubro 2005.
LAME. LAME Ain’t an Mp3 Encoder. Gnu Public License, 2005. Dispon´ıvel em: <http://lame.sourceforge.net>. Acesso em: 10 novembro 2005.
MACSYS. Medical Systems. MACSYS Tecnologia M´edica, 1985. Dispon´ıvel em: <http://www.macsym.com.br>. Acesso em: 18 novembro 2005.
THOMSON CONSUMER ELECTRONICS. Thomson Worldwide portal. Dispon´ıvel em: <http://www.thomson.net>. Acesso em: 11 outubro 2005.
WIKIPEDIA. Wikipedia, the free encyclopedia. Dispon´ıvel em: <http://en.wikipedia.org/wiki/Mp3>. Acesso em: 10 outubro 2005.
XING. Xing Software. Xingtech, 2005. Dispon´ıvel em: <http://www.xingtech.com>. Acesso em: 10 novembro 2005.