• Nenhum resultado encontrado

Márcio Geovani Jasinski. Comparação entre metodologias de análise de sinal aplicadas ao reconhecimento de voz utilizando um vocabulário restrito

N/A
N/A
Protected

Academic year: 2021

Share "Márcio Geovani Jasinski. Comparação entre metodologias de análise de sinal aplicadas ao reconhecimento de voz utilizando um vocabulário restrito"

Copied!
11
0
0

Texto

(1)

arcio Geovani Jasinski

Compara¸

ao entre metodologias de an´

alise

de sinal aplicadas ao reconhecimento de

voz utilizando um vocabul´

ario restrito

Florian´oplis - SC Julho / 2006

(2)

Sum´

ario

1 Introdu¸c˜ao p. 2 1.1 Projeto Cyclops . . . p. 2 1.2 Objetivos Espec´ıficos . . . p. 3 1.3 Justificativa . . . p. 3 2 Formato de ´audio MP3 p. 5 2.1 Vis˜ao geral . . . p. 5 2.2 Qualidade do audio . . . p. 7 2.2.1 Bitrate . . . p. 8 2.3 Tags ID3v2 . . . p. 8 Referˆencias p. 10

(3)

2

1

Introdu¸

ao

1.1

Projeto Cyclops

Projetado em 1993, o Projeto Cyclops ´e uma coopera¸c˜ao bilateral entre o Brasil e a Alemanha com o intuito em desenvolver m´etodos, t´ecnicas e ferramentas na ´area m´edica. Os principais campos de pesquisa na ´area computacional s˜ao inteligˆencia artificial, reconhecimento de padr˜oes, computa¸c˜ao gr´afica e redes wireless. A organiza¸c˜ao atual do projeto ´e composta de 4 grupos:

• DICOM Compliant PACS

• Medical Image and Signal Analysis • Medical Workflow Management

• Telemedicine and Wireless Technologies

O sistema proposto neste trabalho pertence a telemedicina. Esta ´area procura adap-tar trabalho e recursos m´edicos em sistemas computacionais e de telecomunica¸c˜oes no diagn´ostico e tratamento m´edico. Telemedicina ´e utilizar tecnologias para interagir pro-fissionais da sa´ude e pacientes, visando realizar a¸c˜oes m´edicas `a distˆancia.

O principal objetivo da telemedicina ´e oferecer aos pacientes e m´edicos ganho em tempo e precis˜ao de dados, permitindo decis˜oes seguras quanto aos cuidados m´edicos necess´arios. A telemedicina cumpre um importante papel na evolu¸c˜ao da medicina onde os pacientes n˜ao necessitam ser deslocados afim de realizar consultas m´edicas.(CYCLOPS, 1993).

(4)

1.2 Objetivos Espec´ıficos 3

1.2

Objetivos Espec´ıficos

• Implementar um sistema de grava¸c˜ao e reprodu¸c˜ao de ´audio para laudos m´edicos para sistemas distintos como PC e Palms.

• Desenvolver TAGS para identifica¸c˜ao do ´audio, seguindo padr˜oes DICOM, utili-zando formatos de tamanho reduzido atrav´es de compacta¸c˜ao e codifica¸c˜ao.

• Implementar uma base de laudos em ´audio para armazenar de forma segura e confi´avel os laudos. Desenvolver um sistema para consulta e obten¸c˜ao dos laudos gravados por funcion´arios digitadores.

• Desenvolver um prot´otipo de reconhecimento de voz para gera¸c˜ao autom´atica de laudos em texto.

• Desenvolver procedimentos para avalia¸c˜ao, testes de usabilidade e valida¸c˜ao dos prot´otipos.

1.3

Justificativa

Em exames de tomografia computadorizada o m´edico fica em frente a um computador analisando as imagens que o mesmo fornece e dita o laudo m´edico. Este ´e gravado em uma fita que ´e enviada aos digitadores, ap´os algumas horas ou dias os laudos fiquem prontos. Este procedimento demora devido ao transporte da fita e a datilografia do laudo. Uma vez completo, as informa¸c˜oes do laudo s˜ao enviadas ao m´edico que confere se este est´a correto(??).

Outra situa¸c˜ao comum, ´e o preechimento de diagn´ostico em formul´arios. Estes nem sempre s˜ao preenchidos com letra leg´ıvel. Ap´os ser enviado aos digitadores estes dados facilmente geram erros de interpreta¸c˜ao em um processo dif´ıcil e demorado.

O Projeto Cyclops(CYCLOPS, 1993) elabora programas na ´area m´edica e encontra resistˆencia dos m´edicos na adapta¸c˜ao do software, uma vez que estes n˜ao desejam digitar os laudos no computador. O presente trabalho almeja suprir este problema, ou seja, permitir que os sistemas de laudo m´edico elaborados pelo Cyclops Project tenham suporte ao diagn´ostico ditado. Para isso deve-se elaborar um sistema de captura de ´audio que armazene o laudo em um banco de dados seguindo padr˜oes espec´ıficos(DICOM, 1985). Este laudo pode ser repassado ao digitadores ou gerar o diagn´ostico automaticamente via reconhecimento de voz.

(5)

1.3 Justificativa 4

Este trabalho visa agilizar o atual sistema de formul´arios em papel e reduzir o tempo entre a grava¸c˜ao, digita¸c˜ao e confirma¸c˜ao dos laudos, bem como, evitar os problemas com fitas cassete:

• Danificas e perdidas; • Qualidade de som ruim;

Al´em disso, o Projeto Cyclops poder´a ter seus programas melhor aceitos por m´edicos pouco familiarizados com computadores e sistemas computacionais.

(6)

5

2

Formato de ´

audio MP3

Formato de ´audio digital de alta compress˜ao desenvolvido e padronizado em 1991 por uma equipe de pesquisadores na Universidade de Hannover(INSTITUT TNT, 2005) mem-bros do Comitˆe de Audio ISO/IEC MPEG coordenado pelo Professor Hans Musmann.

Desenvolvido representar audio em arquivos de tamanho reduzido sem perder de forma significativa a qualidade original. O formato MP3 fornece uma redu¸c˜ao no tamanho dos arquivos de aproximadamente 12 vezes em rela¸c˜ao ao formato WAV. Popularmente MP3 est´a relacionado a arquivos de som ou m´usica gravado e armazenados em computadores no formato MP3.

O padr˜ao ISO/IEC 11172-3 Layer 3, ´e tamb´em conhecido como ”MPEG-1 Audio Layer 3”, define que arquivos gravados neste formato devem ser salvos com a extens˜ao .mp3. O mesmo vale para o o padr˜ao ”MPEG-2 Audio Layer 3”, evolu¸c˜ao do formato. A inven¸c˜ao do nome MP3 est´a associoada ao Instituto FhG(FGH, 2005).

2.1

Vis˜

ao geral

Arquivos MP3 fornecem uma representa¸c˜ao de dados de ´audio atrav´es de convers˜oes de pulsos em c´odigos por modula¸c˜ao-codifica¸c˜ao (PCM). O tamanho reduzido ´e obtido por serem descartadas partes impercept´ıveis ao ouvido humano.

Um audio em mp3 pode ser comprimido em diferentes taxas de codifica¸c˜ao (bitrate), com rela¸c˜ao direta entre quantidade de dados e qualidade. Quanto maior o arquivo resultante, melhor a qualidade de audio deste. A desvantagem do formato ´e que precisa-se decodificar os dados antes de toc´a-lo. Por isso somente computadores e aparelhos com suporte a mp3 podem process´a-lo.

Para transformar sinais de tempo em frequˆencia, ´e utilizada The MP3 format uses, at its heart, a hybrid transform to transform a time domain signal into a frequency domain signal:

(7)

2.1 Vis˜ao geral 6

• Filtro de quadratura multifase com 32 faixas;

• Fluxo de 32 ou 12 MDCT (Modified Discrete Cosine Transform); • Redu¸c˜ao de alising1;

Em dezembro de 2004 foi lan¸cado a vers˜ao sorround do formato mp3 com suporte aos 5.1 canais t´ıpicos do ´audio sorround. Os arquivos s˜ao similares e o novo formato ´e compat´ıvel com o padr˜ao stereo.

Outros formatos foram desenvolvidos devido ao sucesso do mp3. O fato do formato ser patenteado pela Thomson Consumer Electronics(THOMSON CONSUMER ELECTRO-NICS, 2005), impulsionou o deseonvolvimento de outros formatos:

• OGG Vorbis - Formato de encapsulamento de dados livre desenvolvido como alter-nativa a formatos multim´edia propriet´arios;

• VQF - Formato de ´audio compactado criado pela Yamaha. Possui melhor qualidade e compacta¸c˜ao que o MP3 embora demore mais para ser codificado;

• WMA - Criado pela Microsoft para disputar mercado com o MP3. A qualidade do audio em WMA, quando utilizando taxas altas de BitRate ´e inferior ao MP3. • RA, RAM, RM - Arquivos do Real Audio, tecnologia usada para streaming (r´adio

e/ou v´ıdeo on-line) na Internet. Conseguem uma boa taxa de compacta¸c˜ao, mas a qualidade ´e depreciada.

Na especifica¸c˜ao MPEG, o sucessor do formato mp3 ´e o AAC (Codifica¸c˜ao avan¸cada de ´audio) do padr˜ao ”MPEG-4”. No entanto, nem o sucessor do mp3 e as alternativas acima citadas devem modificar o quadro atual, devido a popularidade que o formato mp3 conquistou. Aparelhos de som de para casa e carro, DVD Players, celulares e canetas USB j´a s˜ao produzidos com suporte a mp3.

Embora a grande vantagem do MP3 seja a popularidade e difus˜ao ampla em soft-ware e hardsoft-ware, este formato possui uma patente, obrigando a qualquer coisa que use codifica¸c˜ao em mp3 pagar royalties `a Thomson Consumer Electronics(THOMSON CON-SUMER ELECTRONICS, 2005). Foi contra essa patente que surgiu o formato OGG Vorbis, que pode ser utilizado sem pagamento de royalties.

(8)

2.2 Qualidade do audio 7

2.2

Qualidade do audio

A redu¸c˜ao em informa¸c˜ao caracter´ıstica do formato mp3 fornece op¸c˜oes diferentes na qualidade e tamanho do arquivo. Isto ´e definido pela taxa de bits (bit rate), quantidade de bits armazenado para representar cada segundo do ´audio. Normalmente usa-se taxas entre 128 a 256 kbit/s (kilobits por segundo). Em um CD de ´audio sem compress˜ao as taxas ficam entre 1378 kbit/s a 1411 kbit/s.

Os algorimtos de codifica¸c˜ao, reduzem a informa¸c˜ao explorando o fato do ouvido humano ser capaz de captar sons entre 20 Hz at´e 20 KHz. Assim as frequˆencias fora desse intervalo s˜ao ignoradas pelo algoritmo que gera um ´audio mp3. Arquivos de m´usica normalmente s˜ao codificados em 128 kbits stereo 44khz, o ´audio nessa configura¸c˜ao ´e at´e onze vezes menor que o original(WIKIPEDIA, 2005).

A taxa de bits por segundo influi diretamente na qualidade do ´audio comprimido. Taxas baixas geram arquivos de m´a qualidade, e podem gerar sons n˜ao existentes original-mente. Esses erros s˜ao denominados artefatos de compress˜ao. Outro fator que influencia a qualidade do mp3 ´e a dificuldade do sinal ser codificado. Testes mostram que usu´arios exigentes percebem a diferen¸ca entre arquivos mp3 codificados a 128kbits/s e os originais do CD(WIKIPEDIA, 2005).

Abaixo ´e apresentada uma compara¸c˜ao entre os formatos MPEG-1 Layer 1, 2 e 3 feita pelo Instituto Fraunhofer Gesellschaft(FGH, 2005).

Camada Bit Rate Compress˜ao

Layer 1 384 kb/s At´e 4 vezes

Layer 2 192 a 256 kb/s De 6 a 8 vezes

Layer 3 112 a 128 kb/s De 10 a 12 vezes

Tabela 1: Compara¸c˜ao entre formatos MPEG-1

Quanto a compara¸c˜ao entre as diferentes camadas, ´e importante ressaltar que devem ser utilizados codificadores equivalentes em qualidade do ´audio. Os diferentes algoritmos de codifica¸c˜ao buscam eliminar as partes que n˜ao podem ser detectadas por humanos. A ´unica forma de comparar os resultados ´e ouvir os resultdos obtidos,dada a redu¸c˜ao de informa¸c˜ao inerente ao processo. Existem muitos codecs2 para MP3 j´a desenvolvidos, os

mais famosos s˜ao:

• LAME - ferramenta usada para o ensino de codifica¸c˜ao MP3 e ´e usado na maioria

(9)

2.3 Tags ID3v2 8

do software de c´odigo aberto (LAME, 2005).

• Xing - famoso codificador Windows, de excelente velocidade por´em ´e o c´odigo pro-priet´ario (XING, 2005).

• Bladeenc - codificador gratuito dentros da Licensa GPL (BLADEENC, 2005). N˜ao ´e necess´ario recodificar um arquivo em MP3 ap´os edit´a-lo, cortando se¸c˜oes e adicionando outros trechos de m´usicas de um mp3. O software Audacity, ´e uma excelente op¸c˜ao para editar ´audio, pois ´e c´odio aberto e possui vers˜oes para Mac OS X, Microsoft Windows, GNU/Linux(AUDACITY, 2005).

2.2.1

Bitrate

O bitrate ´e a quantidade de bits usados para armazenar cada segundo de ´audio em arquivo. A taxa ´e medida em kb/s, ou seja 1024 bits por segundo. Dessa forma um arquivo armzenado a 128 kb/s, utiliza 128*1024 bits por segundo de informa¸c˜ao, total 131072 b/s. Em geral, quanto mais informa¸c˜ao necessita ser mantida, maior deve ser o bitrate. ´E poss´ıvel tamb´em variar o bitrate durante a codifica¸c˜ao de um ´audio, dividindo-o em partes de diferentes taxas para codifica¸c˜ao.(WIKIPEDIA, 2005)

Em um CD de ´audio n˜ao existe existe bitrate, uma vez que o som ´e gravado direta-mente de um est´udio. No entanto ao converter m´usicas de CD para o formato MP3, ´e necess´ario especificar uma taxa que dentre: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 kbit/s. Tamb´em ´e necess´ario definir a frequˆencia: 32, 44.1 ou 48 kHz.

Com a possibilidade de variar o bitrate (VBR) os melhores codificadores baixam a taxa de amostragem nos trechos menor complexidade de sinal e aumentam o bitrate a medida que a complexidade aumenta.

2.3

Tags ID3v2

Os sons codificados em formato digital podem conter informa¸c˜oes extras que identifi-cam o arquivo. Essas informa¸c˜oes s˜ao chamadas de TAGs e podem incluir desde o nome do artista e da m´usica at´e imagens. Os aplicativos e dispositivos que tocam as m´usicas podem usar essas TAGs para mostrar alguns dados identificando a m´usica para o us´ario. Para adicionar as informa¸c˜oes foi desenvolvido em 1996 por Eric Kemp, um padr˜ao que determina como as TAGs devem descrever um arquivo de ´audio. Denomidado ID3 ´e

(10)

2.3 Tags ID3v2 9

a abrevia¸c˜ao de ”Identify an MP3”. Ap´os a primeira vers˜ao do ID3, duas revis˜oes foram feitas, sendo a ´ultima denominada de ID3v2(ID3, 1998).

(11)

10

Referˆ

encias

AMARAL, M. A.; BARRIVIERA, R.; TEIXEIRA, E. C. Reconhecimento de voz para automa¸c˜ao residencial baseado em agentes inteligentes. Revista Eletrˆonica de Sistemas de Informa¸c˜ao, n. 04, Novembro 2004.

AUDACITY. The Free, Cross-Platform Sound Editor. Dominic Mazzoni, 2005. Dispon´ıvel em: <http://audacity.sourceforge.net>. Acesso em: 10 novembro 2005. BLADEENC. Tord’s Home - Bladeenc. Tord Jansson, 2005. Dispon´ıvel em: <http://bladeenc.mp3.no>. Acesso em: 10 novembro 2005.

CYCLOPS. The Cyclops Project. Florian´opilis: Laborat´orio de Telemedicina - UFSC, 1993. Dispon´ıvel em: <http://cyclops.telemedicina.ufsc.br>. Acesso em: 30 junho 2005. DICOM. Digital Imagining and Communications in Medicine. NEMA, Suite 1847 -1300 North 17th Street - Rosslyn, VA - USA: American College of Radiology (ACR) and National Electrical Manufacturers Association (NEMA), 1985. Dispon´ıvel em: <http://medical.nema.org>. Acesso em: 1 julho 2005.

FGH. Fraunhofer Gessellschaft Instituten. Dispon´ıvel em: <http://www.tnt.uni-hannover.de>. Acesso em: 10 outubro 2005.

ID3. ID3v2. Dispon´ıvel em: <http://www.id3.org/>. Acesso em: 16 novembro 2005. INSTITUT TNT. Institut f¨ur Theoretische Nachrichtentechnik und Informationsverarbei-tung. Hanover: UNI Hannover, 2005. Dispon´ıvel em: <http://www.tnt.uni-hannover.de>. Acesso em: 10 outubro 2005.

LAME. LAME Ain’t an Mp3 Encoder. Gnu Public License, 2005. Dispon´ıvel em: <http://lame.sourceforge.net>. Acesso em: 10 novembro 2005.

MACSYS. Medical Systems. MACSYS Tecnologia M´edica, 1985. Dispon´ıvel em: <http://www.macsym.com.br>. Acesso em: 18 novembro 2005.

THOMSON CONSUMER ELECTRONICS. Thomson Worldwide portal. Dispon´ıvel em: <http://www.thomson.net>. Acesso em: 11 outubro 2005.

WIKIPEDIA. Wikipedia, the free encyclopedia. Dispon´ıvel em: <http://en.wikipedia.org/wiki/Mp3>. Acesso em: 10 outubro 2005.

XING. Xing Software. Xingtech, 2005. Dispon´ıvel em: <http://www.xingtech.com>. Acesso em: 10 novembro 2005.

Referências

Documentos relacionados

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

Neste sentido, esse estudo mostra que as famílias das camadas mé- dias cariocas são ao mesmo tempo “relacionais” e “individualistas”, pois na mesma medida em que as trocas

Assim, além de suas cinco dimensões não poderem ser mensuradas simultaneamente, já que fazem mais ou menos sentido dependendo do momento da mensuração, seu nível de

(grifos nossos). b) Em observância ao princípio da impessoalidade, a Administração não pode atuar com vistas a prejudicar ou beneficiar pessoas determinadas, vez que é

Observa-se que a empresa no geral possui uma vida econômica saudável, uma vez que ela consegue saldar suas dívidas tanto a curto como em longo prazo, sendo que a mesma apresentou

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

Quanto ao padrão de irrigação do nó atrioventricular proveniente do ramo circunflexo da artéria coronária esquerda em humanos é semelhante em suínos, variando apenas na

Processo LE-EDI 115/2017 – Pedido de licenciamento de ampliação de uma edificação, sita na Rua José Carlos Vieira de Castro, na Freguesia de Passos, requerido