• Nenhum resultado encontrado

Reconhecimento de voz multilingue para controlo de procedimentos endoscópicos

N/A
N/A
Protected

Academic year: 2020

Share "Reconhecimento de voz multilingue para controlo de procedimentos endoscópicos"

Copied!
89
0
0

Texto

(1)

Simão Pedro Oliveira Afonso

14 Simão P edr o Oliv eir a Afonso

Reconhecimento de Voz Multilingue para

Controlo de Procedimentos Endoscópicos

R econhecimento de V oz Multilingue para Controlo de Procedimentos Endoscópicos

(2)

Dissertação de Mestrado

Mestrado Integrado em Engenharia Biomédica

Ramo de Informática Médica

Trabalho efetuado sob a orientação do

Professor Doutor Victor Manuel Rodrigues Alves

e da

Mestre Isabel Maria Cunha Laranjo

Simão Pedro Oliveira Afonso

Reconhecimento de Voz Multilingue para

Controlo de Procedimentos Endoscópicos

(3)

DECLARAÇÃO

Nome: Simão Pedro Oliveira Afonso

Título dissertação: Reconhecimento de Voz Multilingue para Controlo de Procedimentos Endoscópicos Orientador: Professor Doutor Victor Manuel Rodrigues Alves e Mestre Isabel Maria Cunha Laranjo Ano de conclusão: 2014

Designação do Mestrado: Mestrado Integrado em Engenharia Biomédica Ramo: Informática Médica

Escola: de Engenharia

Departamento: de Informática

DE ACORDO COM A LEGISLAÇÃO EM VIGOR, NÃO É PERMITIDA A REPRODUÇÃO DE QUALQUER PARTE DESTA DISSERTAÇÃO

Universidade do Minho, ____/____/________

(4)

AGRADECIMENTOS

Todo o meu percurso nos últimos 5 anos culmina neste trabalho final, pelo que o número de pessoas a quem este trabalho se deve é muito grande. Toda a gente com quem contactei durante esta etapa da minha vida contribui de que maneira fosse para o meu crescimento como pessoa nos últimos anos. Em primeiro lugar gostaria de agradecer ao Professor Doutor Victor Alves não só pelo apoio que me deu durante este trabalho, mas também por ter acreditado que eu era capaz de trazer mais-valias para o projeto onde fui inserido. Os seus conselhos foram sempre valiosos.

Dentro do projeto MyEndoscopy gostaria de agradecer aos meus coorientadores, e agora também amigos, Isabel e Joel. Sempre contribuíram com o seu melhor para ter a certeza que as minhas perguntas eram respondidas, as minhas preocupações aplacadas, e os meus erros corrigidos. Além destes coorientadores “formais”, gostaria de agradecer também a todos os residentes do ISLab, que me deram não só um espaço para trabalhar, como me acolheram e trataram como um entre iguais.

Uma palavra especial para a Margarida, que se tornou durante este último ano um partner in crime. Ela teve de aturar durante mais tempo a minha presença, constantes referências a coisas obscuras, e outras idiossincrasias, tendo sempre palavras de amizade e compreensão. Agradeço também a todos aqueles amigos que conheci durante o curso e fora dele nos últimos anos, principalmente ao Alberto, Palmeiras e Ricardo. Até ao Valliant.

Para a minha família tenho a última palavra. Aos meus pais, que são os principais responsáveis por eu poder estar aqui, agradeço profundamente a compreensão e acompanhamento nos bons e nos maus momentos. Apesar de estar longe fisicamente, a distância que nos separa continua a mesma que existia em Elvas. À Rita por aturar as minhas provocações. Às minhas tias por levaram comigo todos os fins-de-semana. Á Daniela por não me ignorar quando a chateio. Dedico especialmente este trabalho aos membros da minha família que não estão entre nós para ver mas que continuam a ter orgulho em mim.

(5)
(6)

R

ESUMO

Os exames endoscópicos são prescritos em grandes quantidades, pois são eficazes no diagnóstico, baratos quando comparados com outros exames e estarem generalizados há muito tempo, pois podem ser realizados em quase todos os hospitais. O resultado deste exame é normalmente um relatório que inclui anotações médicas complementadas com algumas imagens retiradas durante o exame.

Alguns dos exames realizados são apenas feitos para confirmar informação já recolhida, o que leva a uma duplicação de esforços desnecessária e desperdício de recursos. Os profissionais de saúde podem descartar informação relevante ao não conseguirem anotar em pormenor uma região de interesse para posterior análise mais cuidada.

O objetivo deste trabalho consiste na criação de um sistema que consiga resolver o problema apresentado anteriormente, usando tecnologia de reconhecimento de voz. Este sistema deve reconhecer um pequeno vocabulário, independentemente do falante, usado para anotar regiões de interesse nos exames.

O sistema MyEndoscopy atua como uma cloud privada, que contém vários dispositivos que usam e providenciam serviços entre si. O dispositivo central deste sistema é a MIVbox, que se liga ao endoscópio e permite a captura digital do sinal de vídeo que este gera. A principal funcionalidade providenciada por este sistema é a capacidade de armazenar indefinidamente os vídeos completos que são produzidos durante exames endoscópicos, bem como disponibilizar estes vídeos e outros dados para outros profissionais de saúde que os necessitem de consultar.

Nesta dissertação apresenta-se um módulo de reconhecimento de voz para línguas portuguesa e inglesa, denominado MIVcontrol, totalmente integrado no sistema MyEndoscopy. Este módulo reconhece um pequeno vocabulário, que consiste em comandos usado para controlar os outros módulos. O MIVcontrol é apresentado como uma alternativa a sistemas similares baseados na cloud, que resolve certos problemas relacionados com proteção de dados e segurança.

Foi realizado um estudo sobre o módulo desenvolvido para determinar a sua eficácia em comparação ao estado da arte. Na sequência desse estudo conclui-se que o sistema tinha uma taxa de erro comparável a sistemas similares para outras línguas, e que como resultado é passível de ser usado em ambientes reais.

(7)
(8)

A

BSTRACT

Endoscopic procedures are prescribed in large quantities, since they are effective in diagnostics, cheap when compared to other exams and are generalized for a long time, as almost all hospitals can perform them. The result produced by this exam is usually a report which includes medical annotations, complemented with some images produced during the exam.

Some exams have as only purpose confirming previously gathered information, which leads to unnecessary duplication of effort and waste of scarce resources. Health professionals might discard important information if they can not mark with a reasonable detail level certain interesting regions, for further analysis.

The objective of this thesis consists in creating a system that is able to solve the problem posed before, using voice recognition technology. This system should be able to recognize a small vocabulary, speaker-independent, used to annotate interesting regions during endoscopic exams.

The MyEndoscopy system acts as a private cloud, which contains several devices that both use and provide services. The central device of this system is the MIVbox, which connects to the endoscope and allows capturing the digital video signal it generates. The main functionality provided by the system is the ability of indefinitively store the complete video files produced during endoscopic procedures, as well make these videos and other data available to other healthcare professionals who need them.

In this thesis it is presented a voice recognition module for Portuguese and English, named MIVcontrol, completely integrated in the MyEndoscopy system. This module recognizes a small vocabulary which consists of commands used to control other modules of the system. MIVcontrol is presented as an alternative to similar cloud-based systems, which solves certain problems related to data protection and security.

The module was studied to determine its efficiency compared to the state-of-the-art. That study concluded that the system had an error rate comparable to that of other similar systems developed for other languages, and thus can be used in the field.

(9)
(10)

Í

NDICE

RESUMO ...V

ABSTRACT ... VII

LISTA DE FIGURAS ... XI

LISTA DE TABELAS ... XI

NOTAÇÃO E ACRÓNIMOS ... XIII

CAPÍTULO 1INTRODUÇÃO ... 1 1.1 Enquadramento ... 3 1.2 Endoscopia ... 3 1.2.1 Tipos de Endoscopia ... 4 1.2.2 Técnicas Endoscópicas ... 5 1.3 Problema ... 10 1.4 Objetivos ... 11 1.5 Metodologia de Investigação ... 11 1.6 Organização do Documento ... 12

CAPÍTULO 2ESTADO DA ARTE ... 15

2.1 Sistemas de Arquivo e Gestão de Gastroenterologia ... 17

2.1.1 Sistemas Existentes ... 17

2.1.2 Base Tecnológica... 20

2.2 Criação de Imagens Tridimensionais em Computador ... 30

2.2.1 Sistemas Existentes ... 30

2.2.2 Base Tecnológica... 34

2.3 Reconhecimento de Voz ... 36

2.3.1 Sistemas Existentes ... 36

2.3.2 Base Tecnológica... 39

CAPÍTULO 3MYENDOSCOPY -MIVCONTROL ... 45

3.1 Contextualização ... 47

(11)

CAPÍTULO 4CONCLUSÃO ... 59

4.1 Sinopse ... 61

4.2 Contribuições ... 61

4.3 Conclusões ... 63

(12)

L

ISTA DE

F

IGURAS

Figura 1.1 Áreas passíveis de exame usando técnicas endoscópicas (adaptado de [11]) ... 5

Figura 1.2 Regiões abrangidas pela Endoscopia Alta (adaptado de [12]) ... 6

Figura 1.3 Possíveis achados endoscópicos encontrados através da Endoscopia Alta (retirado de [11]) ... 6

Figura 1.4 Regiões abrangidas pela Endoscopia Baixa (retirado de [14]) ... 7

Figura 1.5 Possíveis achados endoscópicos encontrados com Endoscopia Baixa (retirado de [15]) ... 7

Figura 1.6 Cápsula Endoscópica com a sua instrumentação visível (retirado de [17]) ... 8

Figura 1.7 Colonoscopia Virtual, visão geral e ampliação (retirado de [22]) ... 9

Figura 2.1 Interface principal do endoPRO iQ (retirado de [27]) ... 18

Figura 2.2 Interface principal do DiVAS Image and Video Analysis (retirado de [28]) ... 18

Figura 2.3 Interface principal do SiiMA Gastro (retirado de [29]) ... 19

Figura 2.4 Interface principal do VictOR HD (retirado de [30]) ... 20

Figura 2.5 Esquema do paradigma MVC (adaptado de [31]) ... 21

Figura 2.6 Esquema do paradigma MVVM ... 22

Figura 2.7 Interface VisualAID (retirado de [65]) ... 32

Figura 2.8 Interface bioWeb3D (retirado de [66])... 33

Figura 2.9 Monitorização de redes elétricas inteligentes (retirado de [67])... 34

Figura 2.10 Frame capturada (a) e malha correspondente (b, c) [19]... 35

Figura 2.11 Arquitetura do sistema Embedded ViaVoice (retirado de [74]) ... 38

Figura 3.1 Arquitetura geral do sistema MyEndoscopy (retirado de [96]) ... 48

Figura 3.2 Workflow típico de um procedimento endoscópico (adaptado de[97]) ... 49

Figura 3.3 Procedimento para criação de um modelo de voz (adaptado de [97]) ... 50

Figura 3.4 Integração do MIVcontrol na MIVbox (adaptado de [97]) ... 53

L

ISTA DE

T

ABELAS

Tabela 2.1 Escala AIS (adaptado de [65]) ... 31

Tabela 3.1 Matriz de confusão para língua inglesa; 100 gaussian mixtures e 8 tied states ... 56

(13)
(14)

N

OTAÇÃO E

A

CRÓNIMOS

N

OTAÇÃO

G

ERAL

A notação ao longo do documento segue a seguinte convenção:

 Texto em itálico – para palavras em língua estrangeira (e.g., Inglês, Latim, Francês), equações e fórmulas matemáticas. Também utilizado para dar ênfase a um determinado termo ou expressão e para destacar nomes próprios.

Texto em negrito – para enfatizar alguns termos técnicos, de marcas ou de produtos. Também usado para enfatizar referências internas no documento.

A presente dissertação foi elaborada ao abrigo do novo acordo ortográfico.

A

CRÓNIMOS

A

ACID Atomicidade, Consistência, Integridade, Durabilidade AIS Abbreviated Injury Scale

AJAX Asynchronous Javascript And XML

API Application Programming Interface

ASR Automatic Speech Recognition

B

BSD Berkley Software Distribution

(15)

H

HMM Hidden Markov Models

HTML HypertText Markup Language

HTTP Hypertext Transfer Protocol

I

IPA International Phonetic Alphabet

J

JSON JavaScript Object Notation

JSGF Java Speech Grammar Format

L

LED Light Emitting Diode

LVCSR Large Vocabulary Continuous Speech Recognition

M

MCDT Meios Complementares de Diagnóstico e Terapêutica MVC Model View Controller

MVVM Model View ViewModel

R

RDBMS Relational Database Management System

RIS Radiology Information System

RM Ressonância Magnética

S

SQL Structured Query Language

T

TAC Tomografia Axial Computadorizada

U

(16)

W

WCE Wireless Capsule Endoscopy

X

(17)
(18)

Capítulo 1

(19)
(20)

1.1 E

NQUADRAMENTO

A Informática Médica surgiu com a invenção e rápida disseminação dos computadores digitais e o desenvolvimento de ferramentas de comunicação e informação baseados nesses computadores [1]. Esta mudança teve grande impacto na medicina, ao ponto de ser inimaginável hoje em dia não ter acesso a ferramentas como tomografia computadorizada, software que verifica interações medicamentosas prejudiciais, bases de dados de publicações de alta qualidade, ou até o processo clínico eletrónico. A conferência de Reisensburg em 1972 [2] catalisou todo o desenvolvimento até aos nossos dias [1]. Portugal tem dado passos importantes neste aspeto, embora ainda falte preencher várias lacunas tanto em organismos privados como públicos [3].

A prestação de cuidados de saúde teve grandes avanços tecnológicos nos últimos anos. Os Meios Complementares de Diagnóstico e Terapêutica (MCDT) continuam a ter o maior peso no financiamento dos hospitais, logo a seguir aos medicamentos. Segundo dados de 2007, cada utente dos Centros de Saúde do Serviço Nacional de Saúde originava, em média, um custo em MCDT de 64,7€, o que equivale a 20% do total. Este valor é ligeiramente superior ao gasto em vencimentos dos médicos [4]. Atualmente os

MCDT são essenciais na prestação de cuidados de saúde, pois possibilitam ao profissional de saúde uma confirmação adicional no momento da validação do diagnóstico e na prescrição do tratamento mais adequado em cada situação [5]. A combinação destes dois fatores leva a que a pressão para diminuir os custos dos MCDT seja elevada, pois sendo estes essenciais à prática médica moderna, incentivos à sua diminuição levam a uma degradação da qualidade dos serviços prestados às populações [4], [5].

Os exames de endoscopia digestiva (alta e baixa) assumem cada vez mais um papel preponderante, devido ao facto de serem eficazes no diagnóstico e apresentarem um custo reduzido, apesar de serem invasivos [6]. Além disso, são exames que se encontram generalizados há muito tempo e tem a aceitação plena dos profissionais de saúde [7]. Mais recentemente foi desenvolvida também a cápsula endoscópica, explicada em maior pormenor nas secções seguintes.

1.2 E

NDOSCOPIA

(21)

que a evolução tecnológica permitiu o aparecimento de endoscópios flexíveis, essenciais para uma elevada qualidade do exame, dada a irregularidade do interior do corpo humano [8].

1.2.1 T

IPOS DE

E

NDOSCOPIA

Como foi referido anteriormente, endoscopia é um termo genérico que abrange uma grande quantidade de técnicas desenvolvidas em paralelo por várias áreas da medicina. Várias áreas recorrem a uma versão da endoscopia para estudar os órgãos internos do seu foro, cada uma delas com especificidades e particularidades que as distinguem umas das outras.

Dentro da endoscopia digestiva convencional, as técnicas existentes correspondem a um conjunto de órgãos que se pretendem observar: EsofagoGastroDuodenoscopia, para observar o tubo digestivo alto; Colonoscopia, para observar o cólon e o resto do intestino grosso; ColangioPancreatografia Retrógrada Endoscópica (CPRE), para observar o pâncreas e as vias biliares; Enteroscopia, para observar o intestino delgado.

Ainda nesta área, existem técnicas mais recentes que são ainda experimentais. A Endoscopia Virtual, que consiste em criar um modelo tridimensional a partir de imagens médicas como as que resultam de Ressonância Magnética (RM) ou Tomografia Axial Computadorizada (TAC) [9], e a Cápsula Endoscópica que permite visualizar as zonas mais inacessíveis do intestino delgado de forma não invasiva, se bem que com certas limitações [10]. Estas novas técnicas vão ser exploradas em mais detalhe nas próximas secções.

Na Figura 1.1 é possível observar um conjunto de áreas do corpo humano que podem ser observadas e analisadas com recurso à endoscopia.

(22)

Figura 1.1 Áreas passíveis de exame usando técnicas endoscópicas (adaptado de [11])

1.2.2 T

ÉCNICAS

E

NDOSCÓPICAS

1.2.2.1 ENDOSCOPIA DIGESTIVA ALTA

A endoscopia alta, também conhecida como EsofagoGastroDuodenoscopia, é utilizada para examinar a parte superior do trato gastrointestinal. Permite examinar o esófago, o estômago e a parte superior do duodeno, e é realizada por um gastroenterologista. As regiões abrangidas por esta técnica estão representadas na Figura 1.2.

(23)

Figura 1.2 Regiões abrangidas pela Endoscopia Alta (adaptado de [12])

Este exame permite ao gastroenterologista identificar uma série de achados endoscópicos, como esofagite, varizes gástricas e esofágicas, úlceras gástricas e do duodeno, tumores benignos e malignos, e gastrites. Permite também identificar lesões na mucosa, como pólipos e cicatrizes, que também levam a sintomas semelhantes [13]. Os achados endoscópicos que podem ser encontrados estão pormenorizados na Figura 1.3.

(24)

1.2.2.2 ENDOSCOPIA DIGESTIVA BAIXA

Quanto à endoscopia digestiva baixa, também denominada Colonoscopia, é muito similar à endoscopia alta, mas permite examinar o intestino grosso e a porção distal do íleo [13]. Na Figura 1.4 e Figura 1.5 estão, respetivamente as áreas que esta técnica consegue abranger, bem como os achados endoscópicos que podem ser encontrados.

Figura 1.4 Regiões abrangidas pela Endoscopia Baixa (retirado de [14])

(25)

1.2.2.3 CÁPSULA ENDOSCÓPICA

A cápsula endoscópica, conhecida na sua sigla em inglês Wireless Capsule Endoscopy (WCE), permite visualizar áreas do intestino (e.g. delgado) inacessíveis pela técnica convencional e diminuir o desconforto provocado nos utentes [10]. A cápsula é engolida pelo paciente e por peristáltese viaja através do sistema digestivo, enquanto captura imagens, até ser eliminada naturalmente [16]. Na Figura 1.6 pode ser observada uma cápsula transparente que permite visualizar a sua instrumentação interior.

Figura 1.6 Cápsula Endoscópica com a sua instrumentação visível (retirado de [17])

A cápsula é um dispositivo em forma de comprimido, com uma ou várias câmaras, um ou mais LED (do inglês Light Emitting Diode) para iluminar o interior do intestino, um sistema de transmissão de dados sem fios, e uma bateria para alimentar tudo isto. No exterior do corpo é necessário colocar um dispositivo que recebe e armazena as imagens enviadas pela cápsula, para visualização futura. Dependendo do tipo de cápsula, a taxa de atualização oscila entre 2 e 10 imagens capturadas por segundo. A análise deste exame é realizada por um gastroenterologista, que analisa todas as imagens para anotar zonas com sangramento, pólipos ou outras anomalias. Estas anotações são usadas para produzir um relatório final. Este é um processo moroso, porque a maioria das imagens produzidas não têm problemas e a quantidade de dados produzida é substancial [18], [19].

(26)

Apesar de esta tecnologia ser interessante, encontra-se ainda numa fase inicial do seu desenvolvimento, pelo que não está tão difundida como a endoscopia convencional, é mais dispendiosa e não consegue obter resultados tão bons. Além disso, está ligada inextricavelmente a dois problemas técnicos mais abrangentes, que limitam a sua função: o desenvolvimento de sistemas práticos de transmissão de energia sem fios, para que a limitação de tempo e de taxa de atualização que advém do facto de a bateria ter de se localizar dentro da cápsula seja eliminada, e a criação de um mecanismo de locomoção da cápsula no corpo humano, para que as imagens capturadas não estejam à mercê dos movimentos imprevisíveis do sistema digestivo, e seja possível dar mais atenção há certas localizações mais interessantes [20].

1.2.2.4 ENDOSCOPIA VIRTUAL

Endoscopia Virtual é a designação de um conjunto de técnicas que pretende ser uma alternativa aos métodos convencionais de criação de imagens da superfície mucosa do colon. Usa métodos não-invasivos de imagem médica, como RM e TAC para criar uma representação tridimensional do trato digestivo passível de ser analisado pela colonoscopia convencional. Um exemplo dos dados produzidos por esta técnica encontra-se na Figura 1.7. Um estudo que comparou a endoscopia virtual com a colonoscopia convencional não encontrou diferenças significativas na eficácia de deteção de pólipos e carcinomas [21].

Figura 1.7 Colonoscopia Virtual, visão geral e ampliação (retirado de [22])

(27)

técnicas convencionais, logo a redução do desconforto é uma possibilidade. A técnica consiste em 4 passos. Antes de mais, o cólon do paciente é limpo de impurezas e cheio com ar, para que o contraste entre o lúmen e a parede seja mais evidente. Estes passos são comuns com a colonoscopia convencional. Para recolher os dados, é realizada uma RM helical do abdómen com uma alta precisão, para capturar detalhes importantes. Depois de recolhidos os dados, estes são processados para gerar imagens,

interactive flythroughs e animações, usados para diagnosticar anomalias [9].

1.3 P

ROBLEMA

Atualmente, os profissionais de saúde que realizam exames endoscópicos, os gastrenterologistas, não têm possibilidade de anotar (em pormenor) as regiões de interesse que encontram durante o exame (i.e. achados endoscópicos), para que possam ser visualizados e interpretados mais tarde de uma modo mais rigoroso e completo, sem a pressão do exame. Durante a realização do exame, o gastroenterologista retira um conjunto limitado de frames do vídeo que ilustrem os achados endoscópicos que encontre, para realização do relatório final. O exame completo, ou seja o vídeo produzido pelo endoscópio, é descartado, só as frames retiradas e o relatório ficam disponíveis para uma posterior análise. Este fenómeno de compartimentalização e incompatibilidade entre sistemas é conhecido como “ilhas de dados” [23]. Ao descartar informação relevante, muitas vezes é necessário repetir os exames para obter resultados similares, para confirmar informação que foi recolhida e depois descartada.

Este problema pode ser resolvido em várias etapas:

 Guardar os exames completos (i.e. o vídeo), além dos relatórios, para que seja possível aceder aos exames anteriores durante o diagnóstico, evitando a repetição redundante de exames;

 Recolher estes dados automaticamente, sem qualquer intervenção por parte dos profissionais de saúde, de uma forma integrada com os sistemas já existentes;

 Criar um sistema que permita anotar achados endoscópicos durante o exame, de maneira a não afetar o workflow atualmente usado pelos profissionais de saúde;

 Criar uma interface de visualização dos exames anteriores que tenha acesso a todos os metadados identificados, principalmente os achados endoscópicos, para poder poupar tempo nas visualizações posteriores.

(28)

Outro problema que os gastroenterologistas enfrentam é que os sistemas endoscópicos usam interfaces arcaicas para aceder a funções básicas do aparelho. Para um gastroenterologista selecionar uma frame para capturar necessita de um processo com vários passos: pressionar um botão no endoscópio para congelar a imagem e posteriormente carregar num pedal que captura e grava a imagem. Este procedimento não é ótimo e causa vários problemas como limitar os movimentos de todos os envolvidos e distrair os profissionais de saúde do objetivo do exame, que é o de diagnosticar anomalias.

1.4 O

BJETIVOS

No contexto apresentado e como objetivo principal deste trabalho, propõem-se a conceção e desenvolvimento de um sistema que permita reconhecer a voz do profissional de saúde que está a realizar o exame, com vista a que o gastroenterologista consiga controlar o endoscópio e o sistema de captura a ele conectado.

Mais especificamente, podem considerar-se os seguintes objetivos:

 O reconhecimento de voz deve ser independente do falante, ou seja não é necessário que cada utilizador realize um treino prévio para conseguir obter resultados;

 Integração total do sistema desenvolvido com o sistema MyEndoscopy; deve permitir controlar o exame usando os comandos de voz reconhecidos, ao realizar interface com o MIVprocessing. Sendo o MyEndoscopy um sistema umbrella, que contém vários módulos sob a sua alçada, o sistema desenvolvido deve ser um dos seus módulos.

1.5 M

ETODOLOGIA DE

I

NVESTIGAÇÃO

A presente dissertação foi realizada durante o quinto ano do Mestrado Integrado em Engenharia Biomédica, no ramo de Informática Médica. A realização dos objetivos apresentados seguiu a metodologia Ação-Pesquisa. Esta metodologia comporta uma série de passos [24].

1. Formulação de uma teoria;

(29)

5. Retorno ao ponto 2.

As metas a atingir com esta metodologia são as seguintes [25], [26]:

 Identificação do problema e especificação das suas características;

 Atualização contínua do estado da arte em todas as vertentes do trabalho;

 Modelação e desenvolvimento de um protótipo que satisfaça as especificações indicadas;

 Análise dos resultados obtidos, e correção do protótipo baseado nesse feedback;

 Validação do protótipo em situações reais;

 Publicação dos resultados obtidos e do conhecimento produzido junto da comunidade científica. No capítulo introdutório está identificado o problema e especificadas as características do sistema a desenvolver. De seguida, no Estado da Arte está contida toda a investigação realizada continuamente com vista a obter uma visão geral sobre outros trabalhos nesta área. Nos capítulos seguintes concretizam-se todos os outros pontos desta metodologia. O sistema desenvolvido foi inicialmente prototipado, para pode ser validado. Os resultados obtidos levaram a novas versões, que tiveram em conta o feedback recebido anteriormente. As versões mais completas foram testadas mais intensivamente. Por fim, os resultados obtidos foram publicados em revistas científicas.

1.6 O

RGANIZAÇÃO DO

D

OCUMENTO

A presente dissertação compreende, para além deste capítulo introdutório, três capítulos estruturados da seguinte forma:

No Capítulo 2 é realizada uma revisão dos fundamentos teóricos e um levantamento do estado da arte sobre os assuntos abordados nesta dissertação. Mais propriamente, são abordadas três áreas com especial atenção. Primeiro, são estudados os sistemas de apoio à decisão para diagnósticos médicos, focando principalmente aqueles que envolvam endoscopia, que é o foco do sistema MyEndoscopy. De seguida é apresentada a representação de imagens tridimensionais em computador, e como se pode criar estes dados a partir de exames endoscópicos. Por fim, é investigado o reconhecimento de voz, tanto nos seus princípios teóricos como na sua aplicação prática.

No Capítulo 3 é apresentado o módulo MIVcontrol, justificando as decisões que foram tomadas na sua criação. Inclui-se também os métodos de teste que foram realizados para validar o módulo, bem como os

(30)

resultados dessa validação. É apresentado um estudo mais aprofundado da MIVbox, com vários aspetos técnicos inerentes na sua conceção e implementação.

Finalmente, no Capítulo 4 são apresentadas uma sinopse de todo o trabalho realizado, a lista de contribuições realizadas no decorrer desta dissertação e as conclusões retiradas do trabalho. São também indicadas as propostas de trabalho futuro em todos os temas abordados.

(31)
(32)

Capítulo 2

(33)
(34)

O desenvolvimento de qualquer sistema deve ter em conta o estado da arte existente, para que seja possível identificar os problemas existentes nas soluções atuais e tentar encontrar uma solução eficiente para os resolver. Faz-se de seguida uma revisão dos fundamentos teóricos e um levantamento do estado da arte sobre os assuntos abordados neste trabalho.

Neste capítulo é apresentada uma revisão dos fundamentos teóricos e um levantamento do estado da arte sobre os assuntos abordados nesta dissertação. De modo sucinto, pode-se dividir este capítulo em três secções principais. Na primeira secção são estudados os sistemas de apoio à decisão para diagnósticos médicos, focando principalmente aqueles que envolvam endoscopia, que é o foco do sistema

MyEndoscopy. De seguida é apresentada a representação de imagens tridimensionais em computador, e como se pode criar estes dados a partir de exames endoscópicos. Por fim, é investigado o reconhecimento de voz, tanto nos seus princípios teóricos como na sua aplicação prática.

2.1 S

ISTEMAS DE

A

RQUIVO E

G

ESTÃO DE

G

ASTROENTEROLOGIA

Dentro da informática médica, os sistemas mais importantes tratam da gestão de utentes. Este é uma tarefa complexa, com várias especificidades para cada especialidade médica. O caso da gastroenterologia não é diferente, exigindo o uso de sistemas especializados para fazer a sua gestão. Os sistemas mais avançados integram-se com os dispositivos médicos, permitindo armazenar não só metadados sobre os exames, bem como os exames completos (que incluem o vídeo completo produzido pelo endoscópio, para além de relatórios médicos e imagens retiradas durante o exame), devidamente organizados e acessíveis.

2.1.1 S

ISTEMAS

E

XISTENTES

2.1.1.1 ENDOPRO IQ

A PENTAX desenvolveu um conjunto de aplicações para uso em endoscopia, agregadas sob a marca comum endoPRO iQ, que contêm várias ferramentas que permitem inclusive fazer uma gestão completa dos utentes, incluindo agendamento de procedimentos e geração de relatórios. De entre essas aplicações, destaca-se a HD Motion Picture Studio que é capaz de capturar vídeo e imagens a partir de um endoscópio, que podem ser utilizadas posteriormente em relatórios médicos. Está limitada a endoscópios do mesmo fabricante, e só está disponível para Windows, além de só poder ser usada no computador que

(35)

Figura 2.1 Interface principal do endoPRO iQ (retirado de [27])

2.1.1.2 DIVASIMAGE AND VIDEO ANALYSIS

A DiVAS Image and Video Analysis é uma aplicação desenvolvida pela XION que permite a gravação, arquivo, representação e processamento de dados de vídeos em formatos específicos. O nível de processamento de dados permitido resume-se a selecionar imagens individuais ou trechos de vídeos, e gerar relatórios simplificados [28]. A sua interface principal pode ser observada na Figura 2.2.

(36)

2.1.1.3 SIIMAGASTRO

O SiiMA é um conjunto de aplicações desenvolvido pela First Solutions, S.A., que permite a gestão de MCDT em diversas áreas clínicas, com módulos diferentes para cada especialidade. De particular importância é o módulo SiiMA Gastro, que tem como objetivo a gestão integrada de um sistema de Gastroenterologia. Incorpora suporte para todas as modalidades, e permite a aquisição de imagens e vídeo, anotações e medições nas imagens, geração de relatórios e estatísticas, e também gravação de dados em formato físico [29]. A sua interface principal pode ser observada na Figura 2.3.

Figura 2.3 Interface principal do SiiMA Gastro (retirado de [29])

2.1.1.4 VICTORHD

Richard Wolf desenvolveu a aplicação VictOR HD, que inclui uma interface através de um ecrã sensível ao toque. Pode ser usada para gerir dados do doente, capturar e editar imagens estáticas, vídeo, e áudio, e exportação de dados para formatos físicos [30]. A sua interface principal pode ser observada na Figura 2.4.

(37)

Figura 2.4 Interface principal do VictOR HD (retirado de [30])

2.1.2 B

ASE

T

ECNOLÓGICA

2.1.2.1 PADRÕES DE ARQUITETURA DE SOFTWARE

Existem problemas recorrentes em arquitetura de software que deram origem a certos padrões utilizados por muitos sistemas. O facto de serem soluções muito estudadas garantem que os resultados são favoráveis e fazem diminuir o tempo necessário para a conclusão dos projetos.

MODEL-VIEW-CONTROLLER (MVC)

O paradigma Model-View-Controller (MVC) serve para simplificar a criação e integração de sistemas complexos, separando as competências de cada módulo dentro da aplicação [31].

 Models são objetos que representam os dados. Situam-se um nível acima da camada de persistência de dados, normalmente assegurada por uma base de dados;

 Views mostram os dados do Model de maneira significativa para o utilizador final da aplicação;

 Controllers interagem diretamente com as Views, fornecendo dados atualizados e aplicam operações que alterem o estado dos Models.

(38)

O utilizador envia pedidos ao Controller, que comunica com o Model para obter os dados necessários. O

Controller passa estes dados à View, que faz render dos dados de maneira a serem inteligíveis para o utilizador. Na Figura 2.5 está representado o paradigma MVC e a maneira como estes se interligam entre si e com o utilizador.

Figura 2.5 Esquema do paradigma MVC (adaptado de [31])

MODEL-VIEW-VIEWMODEL (MVVM)

O paradigma Model-View-ViewModel (MVVM) é uma variação do paradigma MVC introduzida pela Microsoft que usa data binding para manter os dados apresentados na View sincronizados com os dados persistidos no Model [32].

Neste paradigma, tal como no MVC, a View encarrega-se interagir diretamente com o utilizador e mostrar os dados, o Model contém o modelo de dados e toda a business logic do sistema, e o ViewModel é

(39)

responsável por levar os dados do Model para a View e contém o estado da aplicação, como o registo que está a ser editado e outra informação relevante [32]. Este paradigma está representado na Figura 2.6.

Figura 2.6 Esquema do paradigma MVVM

2.1.2.2 APLICAÇÕES WEB

Até há pouco tempo, as aplicações nativas (que necessitam de ser instaladas no computador do utilizador) eram a única opção viável para distribuição alargada de aplicações. Estas conseguem aceder totalmente aos recursos disponíveis, e têm uma performance superior, pois encontram-se numa camada de abstração inferior. Apesar disto, não são facilmente convertidas para outros sistemas operativos e arquiteturas, dependem do hardware existente localmente, sendo que operações computacionalmente intensivas podem não ter uma performance adequada, além de que necessitam de preocupações

(40)

adicionais (incluindo por parte do utilizador, em alguns casos) para manter a aplicação atualizada. Algumas destas desvantagens podem ser minimizadas. No caso do desenvolvimento de uma aplicação de raiz, é possível utilizar frameworks cross-platform que facilitem o processo de conversão para outros sistemas operativos. Mesmo que a aplicação não possa ser modificada, existem layers de compatibilidade que permitem correr programas compilados para um sistema operativo noutro sistema diferente [33]. A Web nasceu como uma maneira de publicar documentos multimédia numa rede de computadores. Uma das grandes inovações foi o conceito de hypermedia, que permite ligar vários documentos entre si [34]. Baseia-se numa arquitetura cliente-servidor [35], em que o cliente efetua pedidos ao servidor usando o protocolo HTTP (do inglês HyperText Transfer Protocol). A identificação dos documentos faz-se por URL

(do inglês Uniform Resource Locator), e estes estão escritos na linguagem HTML (do inglês HyperText Markup Language).

Recentemente, avanços na área dos web browsers, o aparecimento de tecnologias como AJAX (do inglês

Asynchronous Javascript and XML), e o surgimento de standards modernos, como HTML5, permitiram a criação de aplicações dinâmicas e assíncronas, denominadas como Rich Internet Applications, que rivalizam em funções com as aplicações nativas [36]. A explosão na adoção de dispositivos móveis trouxe também uma redobrada ênfase dada à interface com o utilizador, que pode agora aceder a uma aplicação web num ecrã de dimensões muito diferentes, o que leva a um aumento no tempo de desenvolvimento e de testes [36].

2.1.2.3 DISTRIBUIÇÃO DE TAREFAS ENTRE SERVIDOR E CLIENTE

Considerando o paradigma MVC e as suas variações, existem duas arquiteturas principais que diferem na distribuição de tarefas entre cliente e servidor [37].

THIN CLIENT

Para aplicações que correm maioritariamente no servidor correspondem no paradigma MVC a ter o cliente como View, e o servidor como Controller e Model. Assim, o cliente faz pedidos e recebe respostas, sendo apenas responsável por mostrar os dados recebidos. Esta arquitetura é similar às mainframes do passado, e pode ser também denominada por thin client. É ideal para clientes com pouca capacidade de processamento, como smartphones e outros dispositivos móveis e integrados, mas o aumento do número de clientes leva a uma exigência maior na capacidade do servidor.

(41)

Este é o paradigma mais usado atualmente para aplicações web, devido ao facto dos web browsers terem historicamente fracas capacidades de processamento de dados. O servidor está normalmente no que denomina por cloud [38].

THICK CLIENT

Para aplicações que correm maioritariamente no cliente corresponde no paradigma MVC a ter o cliente como View e Controller, e o servidor como Model, além de enviar a aplicação para o cliente. Assim, o servidor aloja os dados e envia a aplicação para o cliente, que a executa localmente. Esta arquitetura pode ser denominada por thick client. Como vantagens tem uma capacidade muito maior de comportar uma grande quantidade de clientes a aceder ao serviço, mas os clientes deve ser capazes de processar os dados que recebem, o que deixa dispositivos menos potentes em desvantagem.

2.1.2.4 VÍDEO

De forma armazenar as grandes quantidades de vídeo produzidas durante procedimentos endoscópicos, é necessário proceder à sua compressão. Como o vídeo produzido é usado para realizar diagnósticos, é importante que não haja perda de informação clínica nem introdução de artefactos durante o processo de compressão, que possam levar a diagnósticos errados.

CODIFICAÇÃO

O método como o vídeo é comprimido para ser armazenado ou transmitido, e depois descomprimido para ser visualizado designa-se por codec, que é uma abreviatura de compressor-decompressor [39]. Os

codecs podem ser lossless, se for possível recuperam os dados iniciais, ou lossy, se a compressão levar a perdas de informação irreversíveis. Um codec lossless cria ficheiros muito grandes que podem ser impraticáveis de armazenar ou transmitir, enquanto um codec lossy pode levar a que os vídeos percam a sua utilidade para diagnóstico. Este equilíbrio atinge-se realizando testes com os tipos de vídeos a comprimir [39]. Para que os ficheiros de vídeo sejam passíveis de serem transmitidos, é necessário “empacotar” os dados produzidos pelo codec com um container que indique metadados sobre os codecs

do vídeo e permita juntar várias streams num único ficheiro. Estes metadados permitem que o ficheiro possa ser reproduzido sem que o utilizador necessite de indicar o codec com que o vídeo foi comprimido [40].

Muitos codecs produzem cada stream de vídeo de uma maneira monolítica, gerando uma stream de bits para cada stream de vídeo. Isto denomina-se codificação de vídeo não escalável, e tem como vantagens

(42)

uma maior eficiência de codificação. Por outro lado, pode ser vantajoso dividir cada stream de vídeo em várias streams de bits independentes. Normalmente, uma das streams é considerada a principal e pode ser descodificada imediatamente, produzindo uma imagem de baixa qualidade. Subsequentes streams

são refinamentos da stream principal, sendo que não podem ser descodificadas senão em conjunto com a

stream principal [41].

Para comprimir o vídeo podem ser usados uma variedade de codecs e containers com características diferentes, adequados para aplicações diversas. Segue-se uma overview pelos codecs e containers mais utilizados.

CODECS

MPEG2 é um codec já antigo inicialmente pensado para televisão digital. É uma extensão do MPEG1

que permite resoluções mais elevadas [42]. É o standard usado para codificar o vídeo presente nos DVD, e inclui codificação de vídeo escalável [39].

H.264, ou na sua designação ISO MPEG4 AVC, foi publicado em 2005 [43], e é o codec mais usado

atualmente. É muito escalável, devido à grande quantidade de perfis que define, o que permite ser usado numa variedade de situações, desde dispositivos integrados, com pouca capacidade de processamento, até computadores muito poderosos que podem processar vídeo com alta qualidade e definição. Este codec está patenteado, pelo que requer pagamento de licenças para codificação e descodificação [40]. É um dos codecs usados nos BluRay, e também permite codificação de vídeo escalável [40], [43].

Theora foi desenvolvido pela fundação Xiph.Org a partir do codec VP3, e é dos poucos codecs livres de

patentes [44]. A implementação de referência é open-source e está disponível para todos os sistemas operativos, estando disponível por omissão em quase todas as distribuições de Linux [40].

VP8 é outro codec desenvolvido a partir do VP3 [45]. Em 2010, a Google comprou a empresa que o

criou e libertou as patentes que esta detinha, pelo que este codec não requer pagamento de qualquer licença para ser usado [40]. Produz resultados ao nível do perfil avançado do H.264 com baixa complexidade de descodificação, equivalente ao perfil básico do H.264.

(43)

CONTAINERS

AVI é um container muito antigo e simples, desenvolvido pela Microsoft, que não suporta quase nenhum

codec nem sequer metadados. Foi estendido não-oficialmente ao longo dos anos, mas nesta altura é considerado legacy [40].

MPEG2 Transport Streams são usadas nos formatos físicos como DVD e BluRay. Permitem features

como múltiplas streams de áudio e vídeo, legendas e outros tipos de dados. Normalmente o codec usado é MPEG2 ou H.264, mas permite outros codecs [39].

MP4, ou a sua designação ISO MPEG4 Part 14, é o container mais usado atualmente [46]. Permite

múltiplas streams, metadados e outras features avançadas. É baseado no QuickTime desenvolvido pela Apple [40].

OGG é um standard aberto, livre de qualquer patente e disponível sob uma licença open-source [47]. Permite uma grande quantidade de codecs, contém metadados e está disponível para todos os sistemas operativos, estando instalado por omissão em quase todas as distribuições de Linux [40].

WebM é um standard aberto criado propositadamente para transmissão de vídeo na web, para ser usado com HTML5. Permite vários codecs, mas está vocacionado para VP8 como codec de vídeo e Vorbis de áudio [40]. É suportado pelos browsers principais em todas as plataformas. Tecnicamente é um subconjunto do Matroska, e como este permite uma grande variedade de streams e metadados.

MODOS DE TRANSMISSÃO

A transmissão de vídeo através da Internet pode ser dividida em dois modos distintos, dependendo do comportamento do cliente e do servidor: em diferido ou em tempo real, também denominado como

streaming [41].

Transmissão em diferido consiste em providenciar o vídeo como um ficheiro que pode ser descarregado para o cliente, e aí reproduzido. Se o protocolo de descarga obtiver os dados ordenadamente e o formato do vídeo o permitir, é possível reproduzir partes do vídeo antes de ele estar completamente descarregado [41].

Streaming permite aceder ao vídeo em tempo real, permitindo ao cliente parar e retomar a reprodução, mudar a velocidade (incluindo inverter o sentido) e até aceder a trechos aleatórios do vídeo. Este processo

(44)

está necessariamente dependente da qualidade da ligação, necessitando de um mínimo de largura de banda, latência, e perda de dados para ser possível obter uma experiência adequada [41].

Apesar disto, a Internet é uma rede best-effort, que não garante qualquer destas características para nenhuma aplicação, pelo que é necessário usar outros mecanismos para manter a qualidade do serviço. Os mais importantes são a escolha de codecs e containers adequados, aplicação de algoritmos de controlo de congestão, configuração adequada dos serviços de rede e do servidor que providencia o vídeo, e a escolha e configuração dos protocolos de transmissão de vídeo [41]. Mais propriamente, a escolha de codecs que providenciam codificação de vídeo escalável (ver secção Codificação acima) permite que mesmo em situações de pouca largura de banda alguma informação seja transmitida, mesmo com baixa qualidade.

2.1.2.5 PERSISTÊNCIA DE DADOS

O arquivo de dados em formato digital é uma forma eficiente de armazenar uma grande quantidade de informação de uma maneira acessível. A maneira de organizar esta informação designa-se por Data Base Management System (DBMS), sendo que existem vários modelos de organização.

Já em 1970 foi implementado o modelo de base de dados relacional (do inglês Relational DataBase Management System, abreviado para RDBMS), que continua a ser o mais comum hoje em dia [48]. A necessidade de tratar uma crescente quantidade de dados sem que as capacidades dos computadores individuais aumentasse tão rapidamente levou a uma necessidade de dividir as tarefas. Aparecem assim novos modelos de organização como bases de dados paralelas e distribuídas [49], divididas em clusters

[50], bem como um novo conceito de data warehouse [51]. Cada um destes modelos tem vantagens e desvantagens, mas pretendem resolver alguns problemas de escalabilidade das RDBMS.

Na procura de maiores performances com grandes quantidades de dados, foram também desenvolvidas bases de dados não-relacionais, que muitas vezes trocam características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) por maior performance [50]. Este novo paradigma é denominado NoSQL, pois a maneira como os dados estão organizados não é relacional, logo não permitir realizar queries

estruturadas. As arquiteturas utilizadas são normalmente pares chave-valor, em que cada componente do sistema armazena uma parte de todo o dataset, e existem componentes que indexar a localização dos dados [50]. Para analisar os dados podem ser utilizados algoritmos como o MapReduce [52], que podem

(45)

tanto ser usados para operações simples, equivalentes a queries SQL (do inglês Structured Query Language), como realizar operações muito complexas que não podem ser expressas em SQL.

BASES DE DADOS RELACIONAIS

As bases de dados relacionais baseiam-se no conceito matemático de relação, apresentado por Codd em 1970 [48].

Dados os conjuntos , não necessariamente distintos, é uma relação nesses conjuntos se for um tuplo de valores, sendo o primeiro um elemento do conjunto , o segundo elemento do conjunto , e assim sucessivamente. Ou de maneira concisa, [48].

A maneira mais comum de representar esta relação é como uma tabela, cujo título indica a relação, e cada uma das colunas representa um domínio dessa relação. Esta representação tem as seguintes propriedades [48]:

 Cada linha representa um -tuplo da relação ;

 Cada coluna representa um domínio da relação ;

 A ordem das linhas é irrelevante;

 A ordem das colunas é importante, porque define a relação;

 Todas as linhas são diferentes.

Cada domínio deve ser anotado com o seu tipo, para que a consistência dos dados seja mantida. Como uma relação pode ter múltiplos domínios do mesmo tipo, é recomendável que nestes casos seja também indicado o seu papel na relação [48].

Domínios que identificam univocamente cada tuplo da sua relação são denominados chaves primárias. Referências a outras relações são expressas como chaves estrangeiras, definidas como domínios que não são chaves primárias da sua relação mas cujos seus elementos são valores da chave primária de outra relação ( e podem indicar a mesma relação) [48].

A primeira e mais bem-sucedida linguagem para manipular bases de dados que usam o modelo relacional foi SQL, desenvolvida em pela IBM e pela Oracle, que foi estandardizada em 1992 [53]. A linguagem continuou a evoluir, mas o standard de 1992 é o último certificado por uma entidade independente [54].

(46)

Codd [55] apresentou em 1990 uma nova versão do modelo relacional que vinha colmatar algumas falhas identificadas entretanto, bem como apresentar os erros nas implementações do seu modelo, tais como [55]:

 SQL permite linhas duplicadas;

 Chaves primárias omitidas ou tornadas opcionais;

 Omissões relevantes no que toca a indicações sobre o significado dos dados (incluindo domínios);

 Erros no uso de índices;

 Omissão de quase todas as features relacionadas com integridade dos dados. BASES DE DADOS NÃO-RELACIONAIS

As bases de dados não-relacionais são uma inovação recente, idealizadas para dados não estruturados, que garantem altas performances, são mais facilmente escaláveis para quantidade de dados massivas necessárias em algumas aplicações, e apresentam custos inferiores devido à sua simplicidade [56], [57]. Os modelos de dados usados nestes sistemas podem ser classificados em:

 Os modelos chave-valor (do inglês key-value) associam valores a certas chaves, o que permite facilmente dividir a base de dados em vários nodos, com outros nodos diretores que direcionam a

query para o nodo que contém os dados. A base de dados mais usada com este modelo é Redis [58].

 Os modelos baseados em documentos (do inglês document-based) são similares aos modelos chave-valor, mas o valor neste caso corresponde a um ficheiro estruturado (como JSON (do inglês

JavaScript Object Notation) ou XML (do inglês eXtensible Markup Language)), que contém os dados relacionados com cada chave. MongoDB usa este modelo de dados [59], tal como

CouchDB [60].

 Os modelos orientados às colunas invertem o modelo relacional, ao agregar os dados de cada coluna em vez de cada linha das tabelas. Isto permite trabalhar nos dados proximamente relacionados entre si, para evitar carregar tantos dados de uma só vez. Exemplos deste modelo são Cassandra [61] e Vertica [49].

(47)

2.2 C

RIAÇÃO DE

I

MAGENS

T

RIDIMENSIONAIS EM

C

OMPUTADOR

A criação de imagens tridimensionais em computador é um tema vasto, que tem sido objeto de muita atenção tanto por parte de investigadores como nas várias indústrias que fazem uso desta tecnologia. Os dois algoritmos principais usados nesta área denominam-se ray casting e ray tracing.

Ray casting é o algoritmo mais usado, devido ao facto de apresentar uma melhor performance. Simplificando, para cada pixel da imagem gerado é emitido um raio, que é usado para calcular a cor desse pixel. Pode ser inclusive usado em dados volumétricos diretamente, o que garante uma performance em tempo real até para hardware já antigo [62].

Ray tracing apresenta resultados muito melhores, devido ao facto de ser baseado em propriedades físicas da interação da luz com objetos. Sendo baseado em processos físicos, as imagens produzidas são foto realistas. Necessita de uma capacidade de processamento muito superior, não sendo adequado a aplicações em tempo real. Para aplicações que realizem offline render, ou seja criem imagens antecipadamente, este método é o mais adequado.

Com as tecnologias atuais, é possível representar modelos tridimensionais com um grau de realismo elevado, mesmo em hardware modesto em termos de capacidade de processamento [63]. Já é possível realizar ray tracing em tempo real, mas com performances ainda modestas [64].

No caso da área médica, a maior parte dos datasets encontram-se sob a forma de dados volumétricos, e os computadores usados são muito específicos, tendo normalmente altas capacidades de processamento. Estes dados resultam normalmente de exames como RM e TAC [9].

2.2.1 S

ISTEMAS

E

XISTENTES

2.2.1.1 VISUALAID

Kulaga et al [65] criaram um sistema denominado Visual AID que cria representações gráficas de lesões no corpo humano. Os dados podem ser obtidos a partir de registos médicos ou a partir de simulações. As imagens criadas permitem uma identificação mais fácil do estado do utente, mesmo por pessoas sem treino médico. Este sistema usa imagens 2D, renders de modelos tridimensionais [65].

(48)

O sistema usa a escala AIS (do inglês Abbreviated Injury Scale, ou Escala Abreviada de Lesões) para classificar a gravidade das lesões, atribuindo a cada nível uma certa cor. As cores usadas estão apresentadas na Tabela 2.1.

Tabela 2.1 Escala AIS (adaptado de [65])

AIS Nível de Lesão Tipo de Lesão

1 Mínimo Superficial

2 Moderado Lesões reversíveis; Requer cuidados médicos 3 Sério Lesões Reversíveis; Requer hospitalização 4 Severo Lesões Irreversíveis

Recuperação possível com tratamento médico 5 Crítico Lesões Irreversíveis

Recuperação impossível mesmo com tratamento médico 6 Máximo Quase impossível de sobreviver

9 Desconhecido

O modelo do corpo humano usado foi o Zygote Human Anatomy 3D Model, que permite manter o anonimato do utente sem comprometer a utilidade médica. O modelo 3D foi subdividido num programa de modelação 3D, sendo posteriormente criadas uma série de imagens para cada nível da escala AIS e rotação no espaço. O sistema recebe como input uma série de códigos correspondentes a partes de corpo e gravidade das lesões, e cria uma imagem sobrepondo as imagens correspondentes a uma imagem de corpo inteiro. A sua interface pode ser observada na Figura 2.7.

Este sistema tem várias desvantagens importantes. A sobreposição das imagens pode criar ambiguidades na representação, criando representações anatomicamente incorretas que podem confundir tanto especialistas como leigos. Outra desvantagem prende-se com o facto do sistema de navegação ser extremamente limitado. O sistema permite visualizar o corpo de 24 ângulos diferentes, todos na mesma posição vertical [65].

(49)

Figura 2.7 Interface VisualAID (retirado de [65])

Kulaga identifica estas limitações e sugere o uso da tecnologia WebGL para resolver estes problemas. Se os objetos anatómicos forem representados em 3D, a sobreposição existente passa a ser anatomicamente correta, e permite a visualização do corpo a partir de qualquer ângulo. Para além disso, aumenta o potencial das anotações, neste caso para desenhar caminhos tomados por balas, selecionando feridas de entrada e saída [65].

2.2.1.2 BIOWEB3D

Pettit e Marioni [66] criaram uma ferramenta open-source baseada no browser que permite representar dados tridimensionais de uma forma acessível a utilizadores sem treino prévio, denominada bioWeb3D. Esta ferramenta usa WebGL e a biblioteca Three.js para ler dados nos formatos XML ou JSON e representar esses dados em três dimensões num browser. Os dados podem ser lidos de ficheiros remotos ou locais. A segurança dos dados está assegurada, pois não há comunicação com o exterior depois do carregamento inicial [66]. A interface apresentada por esta ferramenta pode ser observada na Figura 2.8.

(50)

Figura 2.8 Interface bioWeb3D (retirado de [66])

Depois de analisar o software existente, os autores concluíram que não havia uma solução genérica que permitisse visualizar dados num browser, sem instalação de programas ou plugins adicionais. Além disso, a maior parte dos programas existentes são muito complexos para serem usados sem treino anterior e são muitas vezes proprietários, o que exige investimentos iniciais consideráveis.

2.2.1.3 MONITORIZAÇÃO DE REDES ELÉTRICAS INTELIGENTES

Zhang et al criaram uma aplicação Web para monitorizar uma rede elétrica inteligente. Com recurso à biblioteca X3DOM, é possível mostrar o estado de cada nodo da rede, os fluxos entre nodos e as cargas para cada componente. Além de usar WebGL, este projeto serve-se de AJAX para fazer pedidos assíncronos ao servidor e assim ter informação atualizada automaticamente [67]. A sua interface pode ser observada na Figura 2.9.

(51)

Figura 2.9 Monitorização de redes elétricas inteligentes (retirado de [67])

2.2.2 B

ASE

T

ECNOLÓGICA

2.2.2.1 WEBGL

WebGL é uma tecnologia recentemente desenvolvida pelo Khronos Group que permite usar a placa

gráfica presente em muitos computadores atualmente para fazer renders tridimensionais num browser, sem utilizar quaisquer plugins. Esta tecnologia está integrada com o standard HTML5, que contém elementos nativos para áudio e vídeo, permitindo a criação de páginas web com conteúdos interativos [68].

WebGL permite explorar o potencial das placas gráficas modernas presentes na maioria dos

computadores pessoais a partir das páginas web, usando programas escritos em JavaScript. WebGL é baseada na API (do inglês Application Programming Interface) OpenGL ES2.0 Esta é uma API de baixo nível, sendo que foram desenvolvidas várias bibliotecas de alto nível para ser mais fácil usar esta tecnologia, como Three.js, PhiloGS, X3D, X3DOM, entre outras.

WebGL, assim como o seu predecessor OpenGL, foi criado com o intuito de mostrar volumes

tridimensionais usando polígonos texturados para criar superfícies. Na área médica há necessidade de mostrar dados tridimensionais, normalmente denominados por voxels. São normalmente implementados criando shaders específicos para esta função, usando as capacidades já existentes. Tanto X3D como

X3DOM têm extensões standard usadas na área médica para este efeito, denominadas MedX3D e

(52)

2.2.2.2 MODELO DE ANÉIS DEFORMÁVEIS

As cápsulas endoscópicas conseguem capturar no máximo 10 imagens por segundo, pelo que é impossível conseguir extrair informação tridimensional da sua vizinhança apenas com esta informação.

Szczypinski et al [19] apresentam uma técnica segundo a qual é possível criar uma representação tridimensional simplificada do intestino, usando as imagens produzidas pelo exame da cápsula endoscópica, que serve como referência ao gastroenterologista, que indica a localização da cápsula no intestino e uma estimativa da sua velocidade [19].

O tubo digestivo pode ser simplificado como um cilindro colapsado, e assumindo que na maioria do tempo a cápsula se alinha numa direção paralela ao tubo digestivo, as imagens seguem o mesmo padrão, nomeadamente imagens das paredes do tubo, que convergem num ponto central. Assumindo que a cápsula nunca volta para trás, à medida que o tempo do exame avança, a parte visível desloca-se para o centro da imagem. Este modelo do movimento da cápsula corresponde razoavelmente ao movimento real, e torna possível o processamento automático das imagens [19].

Figura 2.10 Frame capturada (a) e malha correspondente (b, c) [19]

O Modelo de Anéis Deformáveis consiste num conjunto de nodos, cada um com informação sobre as propriedades da imagem correspondente a uma localização específica do tubo digestivo. Para cada imagem capturada durante o exame é criada uma malha cujos nodos estão dispostos em circunferências concêntricas, representadas na Figura 2.10. Cada circunferência corresponde a um corte perpendicular do tubo digestivo. Para criar a malha da frame seguinte, usa-se a anterior para procurar nodos semelhantes, o que indica o movimento que a cápsula realizou nesse intervalo de tempo. Assim, é possível criar um modelo contínuo da textura de todo o lúmen interno [19].

(53)

2.3 R

ECONHECIMENTO DE

V

OZ

Reconhecimento Automático de Voz (ASR, na sigla em inglês, correspondente a Automatic Speech Recognition) é um processo através do qual um computador processa voz gravada e cria uma representação textual das palavras faladas. Este processo tem duas áreas de estudo principais: discurso discreto e discurso contínuo [70].

O discurso discreto indica que os sistemas são capazes de reconhecer apenas uma pequena parte previamente selecionada de entre todas as palavras e frases válidas que podem ser ditas. Normalmente, a própria gramática usada é artificial e não corresponde em nada à linguagem natural. Este tipo de sistemas é ideal para a criação de texto interpretável por um computador, pois a gramática pode ser desenhada de maneira a eliminar qualquer ambiguidade de interpretação. As aplicações principais são sistemas controláveis por voz, em que um computador reconhece apenas certos comandos de voz [70].

O discurso contínuo, que pode ser também denominado ditação, pretende imitar a maneira como as pessoas comunicam entre si. Normalmente, estes sistemas pretendem reconhecer o maior vocabulário possível, permitindo a utilização de linguagem natural. As principais aplicações são sistemas que auxiliem a transcrição de grandes quantidades de áudio, transcrição automática de voz em tempo real e sistemas que apoiem pessoas com dificuldades auditivas [70]. Uma área de estudo relacionada é o processamento de linguagem natural, que tem como objetivo usar métodos automáticos para perceber o significado de comandos que não sigam gramáticas artificiais e restritivas, mas sim linguagem natural. Os sistemas existentes ainda são embrionários, se bem que já há sistemas que atingem resultados razoáveis em condições especiais [71].

Há também que reconhecer a diferença entre reconhecimento de voz e reconhecimento de discurso (speech em inglês). O reconhecimento de voz é a expressão usada para designar sistemas criados à medida de utilizadores específicos, enquanto o reconhecimento de discurso designa sistemas gerais, que têm como objetivo reconhecer a voz de qualquer pessoa, sem necessidade de treino prévio [72].

2.3.1 S

ISTEMAS

E

XISTENTES

Na área médica, já estão a ser usados vários sistemas de reconhecimento de voz em certas especialidades que têm de realizar muitos relatórios, como radiologia. Além destes sistemas, que muitas

(54)

vezes são centralizados, muitos médicos têm acesso a software individual de reconhecimento de voz para acelerar a sua produção de relatórios [73].

Noutra área de estudo, há sistemas experimentais de telemedicina que produzem resultados ainda preliminares no sentido de automatizar os diagnósticos mais simples, sem qualquer intervenção humana [73].

De seguida são apresentados alguns sistemas existentes em mais detalhe.

2.3.1.1 IBMVIAVOICE

O sistema ViaVoice foi desenvolvido pela IBM e pretende ser um motor de reconhecimento de voz generalista, independente do falante, disponível para várias línguas. Uma das suas versões está otimizada para sistemas integrados, como smartphones, computadores de bordo, etc., denominando-se Embedded

ViaVoice [74].

A sua arquitetura interna está dividida em vários módulos especializados que expõem uma API comum, que permite a sua integração fácil nos sistemas existentes. Esta integração é ainda mais facilitada pelo facto do sistema ser independente tanto da plataforma onde corre como do sistema operativo usado. A Figura 2.11 esquematiza esta arquitetura de maneira simplificada.

Existe também uma versão que funciona em desktops denominado ViaVoice Millennium. Testes efetuados por Borowitz [75] indicam que esta ferramenta leva a uma diminuição dramática na velocidade de produção de relatórios em relação ao processo anterior de recorrer a um serviço especializado, mesmo considerando que a ditação não é perfeita. O valor destas ferramentas é reduzir a escrita de um relatório completo a um processo simples de correções a um documento já existente [75].

(55)

Figura 2.11 Arquitetura do sistema Embedded ViaVoice (retirado de [74])

2.3.1.2 DRAGON NATURALLYSPEAKING MEDICAL

O sistema Dragon NaturallySpeaking é um reconhecedor de voz em “tempo real” indicado tanto para comandar um computador como para ditar textos complexos [76]. Uma das suas versões é otimizada para usos médicos, como ditação de relatórios. Consiste num serviço cloud, que pode também ser instalado localmente para instalações grandes [77].

Testes efetuados por Zick et al [78] concluíram mesmo para utilizadores avançados, as taxas de erro obtidas com este sistema e com os serviços de transcrição normalmente usados é similar, sendo este sistema muito mais barato. Estes testes foram feitos sem usar capacidades avançadas do software, como

templates, que podem levar a maiores poupanças [78].

2.3.1.3 MEDSPEAK

O sistema MedSpeak é um produto comercial destinado à produção de relatórios médicos a partir de gravações de voz em inglês. Corre em computadores normais, e tem dois modos de funcionamento: comandos e ditação. Os comandos são usados para controlar a aplicação, existindo um especial que muda o modo para ditação. Neste modo, é possível ditar o relatório enquanto a aplicação transcreve o resultado [79]. Usa o contexto para fazer a distinção entre palavras homófonas. Os testes realizados por

Imagem

Figura 1.1 Áreas passíveis de exame usando técnicas endoscópicas (adaptado de [11])
Figura 1.3 Possíveis achados endoscópicos encontrados através da Endoscopia Alta (retirado de [11])
Figura 1.5 Possíveis achados endoscópicos encontrados com Endoscopia Baixa (retirado de [15])
Figura 1.6 Cápsula Endoscópica com a sua instrumentação visível (retirado de [17])
+7

Referências

Documentos relacionados

O CES é constituído por 54 itens, destinados a avaliar: (a) cinco tipos de crenças, a saber: (a1) Estatuto de Emprego - avalia até que ponto são favoráveis, as

Ficou com a impressão de estar na presença de um compositor ( Clique aqui para introduzir texto. ), de um guitarrista ( Clique aqui para introduzir texto. ), de um director

No capítulo seguinte será formulado o problema de programação não linear e serão apresentadas as técnicas de penalização para tratar os problemas com restrições gerais

(2013 B) avaliaram a microbiota bucal de oito pacientes submetidos à radioterapia na região de cabeça e pescoço através de pirosequenciamento e observaram alterações na

A Lei nº 2/2007 de 15 de janeiro, na alínea c) do Artigo 10º e Artigo 15º consagram que constitui receita do Município o produto da cobrança das taxas

It can be conclude that: (1) the DOX incorporation into adhesives did not interfere with the dentin bond strength; (2) the different concentrations of DOX did not

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,