• Nenhum resultado encontrado

B ASES DE D ADOS R ELACIONAIS

2.2 C RIAÇÃO DE I MAGENS T RIDIMENSIONAIS EM C OMPUTADOR

2.2.2.2 M ODELO DE A NÉIS D EFORMÁVEIS

As cápsulas endoscópicas conseguem capturar no máximo 10 imagens por segundo, pelo que é impossível conseguir extrair informação tridimensional da sua vizinhança apenas com esta informação.

Szczypinski et al [19] apresentam uma técnica segundo a qual é possível criar uma representação tridimensional simplificada do intestino, usando as imagens produzidas pelo exame da cápsula endoscópica, que serve como referência ao gastroenterologista, que indica a localização da cápsula no intestino e uma estimativa da sua velocidade [19].

O tubo digestivo pode ser simplificado como um cilindro colapsado, e assumindo que na maioria do tempo a cápsula se alinha numa direção paralela ao tubo digestivo, as imagens seguem o mesmo padrão, nomeadamente imagens das paredes do tubo, que convergem num ponto central. Assumindo que a cápsula nunca volta para trás, à medida que o tempo do exame avança, a parte visível desloca-se para o centro da imagem. Este modelo do movimento da cápsula corresponde razoavelmente ao movimento real, e torna possível o processamento automático das imagens [19].

Figura 2.10 Frame capturada (a) e malha correspondente (b, c) [19]

O Modelo de Anéis Deformáveis consiste num conjunto de nodos, cada um com informação sobre as propriedades da imagem correspondente a uma localização específica do tubo digestivo. Para cada imagem capturada durante o exame é criada uma malha cujos nodos estão dispostos em circunferências concêntricas, representadas na Figura 2.10. Cada circunferência corresponde a um corte perpendicular do tubo digestivo. Para criar a malha da frame seguinte, usa-se a anterior para procurar nodos semelhantes, o que indica o movimento que a cápsula realizou nesse intervalo de tempo. Assim, é possível criar um modelo contínuo da textura de todo o lúmen interno [19].

2.3 RECONHECIMENTO DE VOZ

Reconhecimento Automático de Voz (ASR, na sigla em inglês, correspondente a Automatic Speech Recognition) é um processo através do qual um computador processa voz gravada e cria uma representação textual das palavras faladas. Este processo tem duas áreas de estudo principais: discurso discreto e discurso contínuo [70].

O discurso discreto indica que os sistemas são capazes de reconhecer apenas uma pequena parte previamente selecionada de entre todas as palavras e frases válidas que podem ser ditas. Normalmente, a própria gramática usada é artificial e não corresponde em nada à linguagem natural. Este tipo de sistemas é ideal para a criação de texto interpretável por um computador, pois a gramática pode ser desenhada de maneira a eliminar qualquer ambiguidade de interpretação. As aplicações principais são sistemas controláveis por voz, em que um computador reconhece apenas certos comandos de voz [70].

O discurso contínuo, que pode ser também denominado ditação, pretende imitar a maneira como as pessoas comunicam entre si. Normalmente, estes sistemas pretendem reconhecer o maior vocabulário possível, permitindo a utilização de linguagem natural. As principais aplicações são sistemas que auxiliem a transcrição de grandes quantidades de áudio, transcrição automática de voz em tempo real e sistemas que apoiem pessoas com dificuldades auditivas [70]. Uma área de estudo relacionada é o processamento de linguagem natural, que tem como objetivo usar métodos automáticos para perceber o significado de comandos que não sigam gramáticas artificiais e restritivas, mas sim linguagem natural. Os sistemas existentes ainda são embrionários, se bem que já há sistemas que atingem resultados razoáveis em condições especiais [71].

Há também que reconhecer a diferença entre reconhecimento de voz e reconhecimento de discurso (speech em inglês). O reconhecimento de voz é a expressão usada para designar sistemas criados à medida de utilizadores específicos, enquanto o reconhecimento de discurso designa sistemas gerais, que têm como objetivo reconhecer a voz de qualquer pessoa, sem necessidade de treino prévio [72].

2.3.1 S

ISTEMAS

E

XISTENTES

Na área médica, já estão a ser usados vários sistemas de reconhecimento de voz em certas especialidades que têm de realizar muitos relatórios, como radiologia. Além destes sistemas, que muitas

vezes são centralizados, muitos médicos têm acesso a software individual de reconhecimento de voz para acelerar a sua produção de relatórios [73].

Noutra área de estudo, há sistemas experimentais de telemedicina que produzem resultados ainda preliminares no sentido de automatizar os diagnósticos mais simples, sem qualquer intervenção humana [73].

De seguida são apresentados alguns sistemas existentes em mais detalhe.

2.3.1.1 IBMVIAVOICE

O sistema ViaVoice foi desenvolvido pela IBM e pretende ser um motor de reconhecimento de voz generalista, independente do falante, disponível para várias línguas. Uma das suas versões está otimizada para sistemas integrados, como smartphones, computadores de bordo, etc., denominando-se Embedded

ViaVoice [74].

A sua arquitetura interna está dividida em vários módulos especializados que expõem uma API comum, que permite a sua integração fácil nos sistemas existentes. Esta integração é ainda mais facilitada pelo facto do sistema ser independente tanto da plataforma onde corre como do sistema operativo usado. A Figura 2.11 esquematiza esta arquitetura de maneira simplificada.

Existe também uma versão que funciona em desktops denominado ViaVoice Millennium. Testes efetuados por Borowitz [75] indicam que esta ferramenta leva a uma diminuição dramática na velocidade de produção de relatórios em relação ao processo anterior de recorrer a um serviço especializado, mesmo considerando que a ditação não é perfeita. O valor destas ferramentas é reduzir a escrita de um relatório completo a um processo simples de correções a um documento já existente [75].

Figura 2.11 Arquitetura do sistema Embedded ViaVoice (retirado de [74])

2.3.1.2 DRAGON NATURALLYSPEAKING MEDICAL

O sistema Dragon NaturallySpeaking é um reconhecedor de voz em “tempo real” indicado tanto para comandar um computador como para ditar textos complexos [76]. Uma das suas versões é otimizada para usos médicos, como ditação de relatórios. Consiste num serviço cloud, que pode também ser instalado localmente para instalações grandes [77].

Testes efetuados por Zick et al [78] concluíram mesmo para utilizadores avançados, as taxas de erro obtidas com este sistema e com os serviços de transcrição normalmente usados é similar, sendo este sistema muito mais barato. Estes testes foram feitos sem usar capacidades avançadas do software, como

templates, que podem levar a maiores poupanças [78].

2.3.1.3 MEDSPEAK

O sistema MedSpeak é um produto comercial destinado à produção de relatórios médicos a partir de gravações de voz em inglês. Corre em computadores normais, e tem dois modos de funcionamento: comandos e ditação. Os comandos são usados para controlar a aplicação, existindo um especial que muda o modo para ditação. Neste modo, é possível ditar o relatório enquanto a aplicação transcreve o resultado [79]. Usa o contexto para fazer a distinção entre palavras homófonas. Os testes realizados por

Rosenthal et al [79] obtiveram taxas de erro da ordem dos 3%, sendo muito mais económico que os serviços de transcrição normalmente usados.

2.3.1.4 SPEECH RECOGNITION SYSTEM IN RIS

Wang et al [80] usaram dados já existentes com o sistema CMU Sphinx para criar um sistema de reconhecimento de voz em Mandarim para uso específico na geração de relatórios para o Serviço de Informação de Radiologia (RIS, do inglês Radiology Information System). Reconhece as 395 palavras mais usadas na elaboração destes relatórios, e é dependente do falante, sendo que exige um treino inicial de aproximadamente 40 minutos. Comparado com o ViaVoice, este sistema obteve uma menor taxa de erro, devido ao facto de conter um dicionário sem palavras irrelevantes e ser dependente do falante [80].

2.3.2 B

ASE

T

ECNOLÓGICA

Apesar de experiências com reconhecimento de voz existirem há muito tempo, a abordagem atual tem como base teórica os modelos HMM (do inglês Hidden Markov Models). A vantagem desta abordagem é que esta arquitetura é simples de implementar num computador atual e permite que a fase de treino seja automatizada [72]. O reconhecimento de voz faz parte de um campo mais vasto denominado processamento de linguagem natural.

2.3.2.1 PROCESSAMENTO DE LINGUAGEM NATURAL

O processamento de linguagem natural é uma área de investigação que tem como objetivo “ensinar” computadores a compreender linguagens naturais (texto livre ou voz), para que possam ser comandados usando essas interfaces. Envolve compreender a maneira como os humanos percebem e interiorizam as linguagens naturais, para que seja possível produzir ferramentas que usem estas técnicas [71].

O reconhecimento de voz é uma parte importante do processamento de linguagem natural, que envolve vários níveis de reconhecimento, hierarquicamente distribuídos, em que se pode classificar um discurso. Cada nível usa informação proveniente de níveis inferiores para retirar inferências que podem ser usadas a níveis superiores. Apesar de serem apresentados como classificações independentes e estanques, há estudos psicolinguísticos que mostram que o processamento de linguagem realizado por humanos é mais fluido que isto, usando informação de níveis superiores para desambiguar análises a níveis inferiores [81].

Documentos relacionados