Interface baseada em reconhecimento de voz para vídeo laparoscopia

(1)

TRABALHO DE GRADUAÇÃO

INTERFACE BASEADA EM RECONHECIMENTO DE VOZ PARA VÍDEO LAPAROSCOPIA

Por,

Lucas Fernandes Aguiar

Brasília, Dezembro de 2013

(2)

UNIVERSIDADE DE BRASILIA Faculdade de Tecnologia

Curso de Graduação em Engenharia de Controle e Automação

TRABALHO DE GRADUAÇÃO

INTERFACE BASEADA EM RECONHECIMENTO DE VOZ PARA VÍDEO LAPAROSCOPIA

POR,

Lucas Fernandes Aguiar

Relatório submetido como requisito parcial para obtenção do grau de Engenheiro de Controle e Automação.

Banca Examinadora

Prof. Ícaro dos Santos, Ph. D. UnB/ ENE (Orientador)

Prof. Ricardo Zelenovsky, Dr. UnB/ ENE (Examinador Interno)

Prof. Antônio Padilha L. Bó, Dr.. UnB/ ENE (Examinador Interno)

(3)

FICHA CATALOGRÁFICA AGUIAR, LUCAS FERNANDES

Interface Baseada em Reconhecimento de Voz para Vídeo Laparoscopia , [Distrito Federal] 2013.

xi, 29p., 297 mm (FT/UnB, Engenheiro, Controle e Automação, 2013). Trabalho de Graduação – Universidade de Brasília. Faculdade de Tecnologia.

1.Reconhecimento de Voz 2.Interface 3.Vídeo Laparoscopia

I. Mecatrônica/FT/UnB

REFERÊNCIA BIBLIOGRÁFICA

AGUIAR, L. F., (2013). Interface Baseada em Reconhecimento de Voz para Vídeo Laparoscopia. Trabalho de Graduação em Engenharia de Controle e Automação, Publicação FT.TG-nº 15, Faculdade de Tecnologia, Universidade de Brasília, Brasília, DF, 29p.

CESSÃO DE DIREITOS

AUTOR: Lucas Fernandes Aguiar.

TÍTULO DO TRABALHO DE GRADUAÇÃO: Interface Baseada em Reconhecimento de Voz para Vídeo Laparoscopia.

GRAU: Engenheiro de Controle e Automação. ANO: 2013

É concedida à Universidade de Brasília permissão para reproduzir cópias deste Trabalho de Graduação e para emprestar ou vender tais cópias somente para propósitos acadêmicos e científicos. O autor reserva outros direitos de publicação e nenhuma parte desse Trabalho de Graduação pode ser reproduzida sem autorização por escrito do autor.

____________________________

Lucas Fernandes Aguiar

SHCGN 710 Bloco H Casa 13 – Asa Norte.

70750-738 Brasília – DF – Brasil.

(4)

Dedicatória

Dedico este trabalho a todos os meus familiares e amigos próximos que sempre estiveram ao meu lado me apoiando em minhas empreitadas acadêmicas e proﬁssionais.

Lucas Fernandes Aguiar

(5)

Agradecimentos

Agradeço inicialmente a Deus e ao apoio da minha família e namorada Solange, que estão sempre me oferencendo o suporte incondicional que preciso em todas as atividades que exerço. Agradeço ao professor Icaro pelos conselhos e direcionamentos e ao aluno de doutorado do Laboratório de Engenharia Biomédica Raphael Matsunaga pelo esforço empenhado no acompanhamento direto do meu trabalho. Por ﬁm, agradeço aos colegas de trabalho no LaB e aos amigos de sempre da MERT.

Lucas Fernandes Aguiar

(6)

RESUMO

Cirurgias minimamente invasivas como laparoscopia, ablação e endoscopia estão se tornando cada dia mais comuns devido ao grande benefício ao paciente em termos de rapidez na recuperação, di- minuição de cicatrizes e menor risco de contração de infecções decorrentes da cirurgia. Entretanto, tais procedimentos representam maior dificuldade na perspectiva do cirurgião pelo uso não intui- tivo de ferramentas e elevado tempo de aprendizagem. Este trabalho propõe o desenvolvimento um protótipo de interfaceamento por voz para equipamentos utilizados em vídeo laparoscopia. O ci- rurgião interage com o sistema através de uma interface gráfica em um tablet, o qual se conecta via Wi-Fi com um concentrador de informações que está diretamente ligado aos equipamentos. Os comandos ao sistema podem ser tanto táteis, como por voz e são utilizados para alterar configurações dos equipamentos necessárias durante a operação.

Palavras Chave: reconhecimento de voz, interface, vídeo laparoscopia.

ABSTRACT

Minimally invasive surgeries such as laparoscopy, ablation and endoscopy are getting gradually more common due to its beneﬁts to the patient in terms of faster recovery period, less and smaller scarves, and low infection risk after the surgery. However, such procedures represent more diﬃculty on the surgeon’s perspective because of the use of non-intuitive tools and long learning periods.

This work presents the devolopment of a voice interfacing prototype for equipment used on video laparoscopy surgeries. Physicians may interact with the system through a graphical interface on a tablet, which is connected via Wi-Fi to a information concentrator that is directly connected to the equipment. The commands can be sent by both tactile buttons or by speech and are meant to modify equipment setup during the surgery.

Keywords: voice recognition, interface, video laparoscopy.

(7)

SUMÁRIO

1 Introdução . . . 1

1.1 Motivação . . . 1

1.2 Contextualização . . . 2

1.2.1 Vídeo laparoscopia . . . 2

1.2.2 Interfaceamento por voz . . . 3

1.2.3 Linguagem natural controlada . . . 3

1.3 Definição do problema . . . 4

1.4 Objetivos do projeto. . . 4

1.5 Apresentação do trabalho . . . 5

2 Revisão Bibliográfica . . . 6

2.1 Introdução . . . 6

2.2 Reconhecedores de voz para português brasileiro . . . 6

2.3 Modelos ocultos de markov . . . 8

2.4 Julius . . . 9

2.5 Coruja. . . 9

2.6 Métricas de avaliação . . . 10

2.7 Reconhecimento de voz em cirurgias minimamente invasivas . . . 11

2.8 Redes Wi-Fi. . . 11

3 Desenvolvimento . . . 12

3.2 Modelagem do sistema . . . 12

3.3 Software do concentrador . . . 13

3.3.1 Arquivos . . . 13

3.3.2 Configurações . . . 14

3.3.3 Inicialização . . . 15

3.3.4 Núcleo de processamento . . . 15

3.4 Aplicativo android . . . 16

3.4.1 Resposta ao toque de botões . . . 16

3.4.2 Resposta à entrada de áudio . . . 17

3.5 Protocolo de Comunicação . . . 18

(8)

4 Sistema Experimental AstusVoice . . . 20

4.2 Concentrador . . . 21

4.3 Tablet . . . 21

4.4 Arduíno . . . 21

4.5 Testes e resultados . . . 22

5 Conclusões . . . 23

5.1 Conclusões finais . . . 23

5.2 Trabalhos Futuros . . . 23

REFERÊNCIAS BIBLIOGRÁFICAS . . . 24

Anexos . . . 27

I Comandos de Voz . . . 28

(9)

LISTA DE FIGURAS

1.1 Laparoscopia ginecológica [1] ... 2

1.2 Estrutura Ótica do Laparoscópio [2] ... 3

2.1 Diagrama de funcionamento do reconhecedor de voz [3]... 7

2.2 Diagrama de uma cadeia de um HMM que representa um fonema [4]com modiﬁcações 9 2.3 Pacote Coruja [5] com modiﬁcações... 10

3.1 Diagrama de caso de uso da modelagem UML ... 13

3.2 Tela inicial de conﬁguração do concentrador ... 15

3.3 Tela do concentrador mostrando o status dos equipamentos ... 16

3.4 Tela do concentrador mostrando o recebimento de um comando de voz ... 17

3.5 Tela inicial do aplicativo android ... 18

3.6 Estrutura de uma mensagem ... 19

4.1 Conﬁguração experimental do sistema AstusVoice... 20

4.2 Tablet utilizado no experimento ... 21

(10)

LISTA DE TABELAS

4.1 Precisão em ambientes variados - 2 m do concentrador... 22 4.2 Precisão para distâncias variadas do tablet para o concentrador - ambiente silencioso 22

(11)

LISTA DE SÍMBOLOS

Sobrescritos

ˆ Probabilidade Condicional Siglas

API Application Programming Interface CRC Cyclic Redundancy Checking FDA US Food and Drug Administration HMM Hiden Markov Model

LC Linguagem Controlada LN Linguagem Natural

LNC Linguagem Natural Controlada

LVCSR Large Vocabulary Continuos Speech Recognition MFCC Mel-frequency Cepstrum Coeﬃcients

NOTES Natural Oriﬁce Translumenal Endoscopic Surgery PT-BR Português brasileiro

SIMIS Speech In Minimal Invasive Surgery RAV Reconhecimento Automático de Voz UFPA Universidade Federal do Pará WER Word Error Rate

(12)

Capítulo 1

Introdução

1.1 Motivação

Procedimentos cirúrgicos podem ser divididos em três níveis de invasividade. As cirurgias não invasivas não atravessam a pele nem vão além das aberturas naturais do corpo humano. Cirugias abertas envolvem o corte de pele e tecidos a ﬁm de que o cirurgião tenha acesso direto e visibilidade da área ou órgão que requer atenção. As cirurgias minimamente invasivas realizam incisões menores que cirurgias abertas, o que resulta em recuperação mais rápida e menor riscos de contrair infecções.

Alguns exemplos de procedimentos minimamente invasivos são laparoscopia, cirurgia assistida por robô, cirurgia endovascular, e cirurgia endoscópica transluminal por orifícios naturais - NOTES [6].

Cirurgias por laparoscopia vêm sendo utilizadas com grande sucesso em seres humanos por mais de 100 anos para procedimentos intra-abdominais [7] e atualmente é também largamente utilizada para cirugias em articulações, principalmente em joelhos, bem como operações ginecológicas - cistos de ovário, dilatação das trompas, torção de ovário, gravidez ectópica - e urológicas, bem como tratar prolapsos (queda) da bexiga, do reto e do útero [8]. A Fig. 1.1 mostra um exemplo de um procedimento de laparoscopia ginecológica onde pode-se observar que as incisões são de pequenas dimensões.

Ao longo de todos esses anos o procedimento de laparoscopia evoluiu bastante juntamente com os avanços tecnológico nas áres de imageamento médico, controle e automação de equipamentos cirúrgicos, uso de materiais mais bem aceitos pelo organismo humano e a integração de interfaces amigáveis a equipamentos médicos para tornar o uso destas ferramentas uma experiência mais intuitiva e de rápida apredizagem. O uso de interfaces amigáveis é uma tendência que avança por variadas abordagens, tais como uso de robôs em cirurgias, reconstrução tridimensional de órgãos e tecidos, e controle por voz.

(13)

Figura 1.1: Laparoscopia ginecológica [1]

1.2 Contextualização

A empresa paulista Astus Medical se destaca no mercado nacional de equipamentros eletromé- dicos como sendo a primeira empresa brasileira a desenvolver equipamentos de vídeo laparoscopia com tecnologia digital. O grupo vem exercendo crecente esforço em inovação tecnológica agregada a seus produtos, estratégia que vai de encontro às diretrizes do Governo Federal na área de saúde pública. Desta forma, este projeto se concretiza como um investimento conjunto entre o Ministério da Saúde e a Astus Medical com o objetivo de fomentar a inovação tecnológica em equipamentos médicos desenvolvidos e produzidos no país, com foco em vídeo laparoscopia.

1.2.1 Vídeo laparoscopia

A cirurgia de vídeo laparoscopia é um procedimento minimamente invasivo no qual uma pequena incisão é feita na parede abdominal pela qual um instrumento chamado laparoscópio é introduzido. Conforme mostrado na Fig. 1.2, o laparoscópio possui uma estrutura ótica e uma microcâmera é acoplada à janela proximal do equipamento para possibilitar ao cirurgião ver dentro do abdômen sem grandes incisões. A imagem da área da cirurgia é ampliada e exibida em um monitor. Uma fonte de luz deve ser conectada ao laparoscópio com a utilização de ﬁbras óticas.

Então, o cirurgião faz outras poucas incisões entre 5 e 15mm de comprimento para inserir ﬁnos instrumentos utilizados na operação.

A cavidade abdominal é inteiramente preenchida por órgãos que estão dispostos bem próximos ao outro, logo a parede abdominal precisa ser inflada antes da inserção dos outros intrumentos a fim de que se distenda e um espaço interno seja criado para que o cirurgião veja internamente ao corpo. O gás dióxido de carbono (CO₂) é utilizado para a insuflação por ser inerte e pouco absorvido pelo corpo. Desta forma, removendo cuidadosamente tecidos doentes em pequenas partes, órgãos cancerosos ou danificados podem ser removidos através de técnicas de laparoscopia.

(14)

Figura 1.2: Estrutura Ótica do Laparoscópio [2]

1.2.2 Interfaceamento por voz

Interfaces baseadas em reconhecimento de voz respondem a comandos transmitidos pelos usuá- rios através da fala humana e os traduzem em informações para um computador. Esse tipo de interface é muito efetiva e natural em ambientes em que o usuário possui mãos ou olhos ocupados com outras atividades [9]. Entretanto, é muito importante que se reduza o ruído de fundo para maior clareza na transmissão dos comandos. Esta tecnologia vem se popularizando em smart pho- nes, como a Siri (Apple) e o Now (Google), e em geral são softwares fechados. Grande esforço vem sendo aplicado no desenvolvimento de plataformas baseadas em software livre, as quais já estão apresentando grande conﬁablidade, tais como o CMU Sphinx desenvolvido na Carnegie Mellon University [10] e o Julius [11].

1.2.3 Linguagem natural controlada

Linguagem Natural Controlada (LNC) é um sunconjunto precisamente deﬁnido da Linguagem Natural (LN) contendo restrições léxicas, gramaticais e de estilo. Essas limitações permitem que se crie terminologias e construções gramaticias novas a partir de modelos acústicos e de linguagem da LN. Uma LNC não é uma sublinguagem da LN, pois sublinguagens evoluem com um tempo dentro de uma comunidade, enquanto LNCs são adaptações artiﬁciais de uma linguagem de forma a mantê-la o mais natural possível, conforme citado em [12].

Aplicações robustas de reconhecimento de voz apresentam maior precisão quando operadas por apenas uma pessoas por vez e são conﬁguradas para reconhecer vocabulários menores e com gra- mática mais simples. Também devem ter sintaxe e semântica muito claras e de fácil entendimento para o usuário, além de evitar ambiguidades [9].

(15)

1.3 Deﬁnição do problema

Apesar das claras vantagens da cirurgia por vídeo laparoscopia em termos dos resultados para o paciente, este procedimento é mais complicado da perspectiva do cirurgião quando comparada à cirurgia aberta. O cirurgião tem um espaço menor de trabalho no local da intervenção, perdendo portanto a destreza. Algumas características desse procedimento tornam a cirurgia laproscópica uma atividade motora não intuitiva e de difícil aprendizagem, como o fato de o ponto de atuação do instrumento de operação se mover em sentido contrário ao movimento da mão do médico devido ao ponto pivotante, e de que o cirurgião precisa de ferramentas para manipular os tecidos ao invés de fazê-lo diretamente com as mãos.

Este tipo de procedimento requer o uso imultâneo de diversos equipamentos médicos. O lapa- roscópio é o instrumento principal, a ele são acoplados os demais. A fonte de luz, o insuflador, a câmera, o gravador de vídeo, além dos instrumentos de incisão, corte e manuseio de tecidos. O cirurgião precisa de agilidade e treinamento para executar cada passo em ordem correta, além de diversas pessoas trabalhando como assistente de operação com a finalidade de realizar trocas de ferramentas, configuração de equipamentos e posicionamento de instrumentos. Esses fatores fazem com que cirurgias laparoscópicas demandem muito tempo, dinheiro e grande número de pessoas envolvidas.

1.4 Objetivos do projeto

O projeto busca utilizar uma linguagem natural controlada para criar uma interface baseada em reconhecimento de voz com trinta e oito comandos em portugês e com algumas palavras em inglês que seja pouco dependente do locutor e do ambiente para conﬁgurar os principais equipamentos eletromédicos utilizados em procedimentos de vídeo laparoscopia - fonte de luz, insuﬂador, microcâmera e gravador de vídeo - visando diminuir o número de pessoas necessárias para realizar a cirurgia bem como reduzir o tempo total e consequentemente o custo da cirurgia. A interface é mostrada em um tablet e aceita tanto comandos por voz quanto por toques na tela. Essas mensagens são transmitidas para um computador concentrador, que por sua vez reconhece o comando e envia para os equipamentos.

Mais especiﬁcamente, os objetivos são:

• Desenvolver software que utiliza ferramenta de reconhecimento de voz contínua para reconhecer comandos de voz em português.

• Desenvolver aplicativo em sistema operacional android para transmitir comandos por botões e por áudio obtido do microfone dotablet para um computador concentrador de informações através de comunicação WiFi.

• Deﬁnir um protocolo de comunicação para ser utilizado tanto na comunicação do tablet com o computador concentrador quanto do concentrador com os equipamentos.

(16)

• Converter as mensagens de comando dotablet em ações e transmiti-las para os equipamentos via USB.

1.5 Apresentação do trabalho

No capítulo 2 é feita uma revisão bibliográﬁca sobre modelos utilizados em reconhecedores de voz. Em seguida, o capítulo 3 descreve a metodologia empregada no desenvolvimento dossoftwares do projeto. O aparato experimentail é discutido no capítulo 4 e os resultados obtidos são avaliados, seguido das conclusões no capítulo 5. Os anexos contém material complementar.

(17)

Capítulo 2

Revisão Bibliográﬁca

2.1 Introdução

A conversão de linguagem falada na forma de sinais analógicos de áudio para textos com sig- nificado claro e inteligível é chamada reconhecimento automático de voz (RAV). Alguns fatores do sistema de RAV são determinantes nos resultados apresentados. Quanto ao tipo de fala, o sistema pode reconhecer palavras isoladas ou fala contínua com palavras em sequência. O reconhecimento de fala contínua apresenta maior dificuldade em discursos com poucas pausas. O tamanho do vocabulário também influi na qualidade dos resultados, sendo que quanto menor o vocabulário aceito, maior a precisão e menores as chances de ambiguidades, além de diminuir as possibilidades de busca de palavras, tornando a pesquisa mais rápida.

2.2 Reconhecedores de voz para português brasileiro

Sistemas de reconhecimento de voz com suporte a grandes vocabulários (LVCSR) são um tipo de RAV. O treinamento de um LVCSR demanda um grande corpus de voz, que são gravações de vozes com variações de ambiente de gravação, nível de ruído, uso de vocabulário e sotaque do locutor na língua desejada, e de texto, que são os respectivos textos transcritos e digitalizados.

Os corpora, conjunto decorpus, são utilizados para treinar e testar modelos acústicos, modelos de linguagem e modelos léxicos, que são elementos básicos para o funcionamento de um reconhecedor de voz.

Existem diversos corpora de texto e voz disponíveis na língua inglesa, com extensas horas de gravações, pertindo treinamentos mais robustos dos modelos de busca de palavras. Ao contrário, na língua portuguesa brasileira (PT-BR) existe pouca disponibilidade decorporade grandes dimensões para treinamento de modelos acústicos. Portanto, em sitemas para PT-BR é mais comum o desenvolvimento de reconhecedores de voz com vocabulário reduzido e com identiﬁcação de palavras isoladas em detrimento de reconhecimento contínuo de fala com o objetivo de obter maior precisão do reconhecedor.

(18)

Outros desafios recorrentes para o decodificador de áudio são diversidade de pronúncias, alta velocidade de pronúncia, palavras com mesma pronúncia (homófonas),ausência de pausas entre palavras, timbre de voz, intensidade de voz, não linearidades na transmissão do sinal, filtragem linear pelo microfone e degradação acústica.

Dicionários fonéticos são transcrições contendo as palavras conhecidas pelo vocabulário do sistema associadas às respectivas sequências de fonemas que deﬁnem em forma textual a acústica da palavra. A Gramática deﬁne as sequências de classes de palavras que são consideradas corretas.

Em uma busca de fala contínua o resultado sempre será uma frase que respeita a gramática, pois a frases gramaticalmente incorretas é atribuída a probabilidade zero de ocorrência.

O modelo de linguagem define a conexão entre as palavras conhecidas, suas respectivas re- presentações fonéticas, e as possíveis contruções gramaticais definidas para a linguagem, impondo restrições sintáticas. Ele é treinado a partir do corpus de texto e do dicionário fonético e podem ser modelos n-grama, baseados em gramática ou mesmo uma simples lista de palavras para reconhecimento de palavras isoladas. O modelo acústico é treinado a partir do corpora de voz e de texto e o dicionário fonético e consiste nos parâmetros dos sinais das gravações utilizadas no treinamento. Cada fonema é definido no modelo acústico por um modelo HMM. O modelo léxico define as palavras que o sistema conhece e é capaz de reconhecer e sua transcrição fonética, é formado pela extração dos parâmetros do dicionário fonético.

O processo de funcionamento do sistema utiliza a entrada de áudio a ser avaliada e digitaliza este sinal a uma determinada taxa de amostragem, gerando uma representação digital da fala caracterizada como um vetor contendo os parâmetros para a análise estatística. Esta representação é então passada por ﬁltros baseados em restrições impostas pelos modelos acústico, de linguagem e léxico, e a probabilidade de a palavra analisada corresponder às palavras conhecidas é estimada.

A Fig. 2.1 mostra um diagrama com a sequência de funcionamento de um reconhecedor de voz treinado.

Figura 2.1: Diagrama de funcionamento do reconhecedor de voz [3]

(19)

camente esses dados e exibindo como resultado a frase que corresponda com maior probabilidade ao que foi falado levando em consideração os modelos treinados anteriormente. A tarefa de busca é feita por um decodificador, que será detalhado adiante. A Eq. 2.1 é a regra de Bayes para probabilidades condicionais e define formalemente a equação para o cálculo das probabilidades de identificação da palavra.

Wˆ =argmax_WP(O\W)P(W)

P(O) =argmax_WP(O\W)P(W) (2.1) A probabilidade condicionalWˆ da sequência de palavrasW ser a procurada depende da matriz de parâmetros do sinal de entrada O . A probabilidade da matrizO não depende da sequência de palavras avaliadaW. Por ﬁm, o resultado desta equação é a sequênciaW com maior probabilidade de corresponder ao sinal de entrada e que portanto maximiza o produto da probabilidade P(O\W) da ocorrência de O dada a sequência W, que é fornecida pelo modelo acústico, multiplicada pela probabilidade P(W) de ocorrência da sequência W, dado obtido através do modelo de linguagem [13].

2.3 Modelos ocultos de markov

Dentre as técnicas desenvolvidas para reconhecimento de voz, as que mais se destacam nos modelos atuais são baseadas em Redes Neurais ou em Modelos Ocultos de Markov (HMM), ou uma combinação destes em modelos híbridos mais precisos. Este último é uma classe de modelos estatísticos muito efetivos na análise de uma série discreta no tempo e é o método mais recorrente em trabalhos recentes de alta relevância na área de RAV [14, 15, 16, 17, 18, 19].

O surgimento deste método matemático impulsionou de forma impactante o aumento na pre- cisão de sistemas de RAV. Apesar do aumento na taxa de acertos, este tipo de modelo estatístico tende a operar de forma mais lenta que em tempo-real devido ao grande custo computacional para realizar avaliações de proximidade entre duas hipósteses de frases em uma busca para identificar a entrada de voz [20]. Uma grande vantagem do HMM está na possibilidade de representar eventos acústicos com diferentes durações, além de implementar algoritmos eficientes e confiáveis no cálculo dos parâmetros dos modelos durante a fase de treinamento. Uma cadeia HMM de três estados com topologia left-to-right é geralmente utilizada para representar fonemas, pois estes têm com- portamento dinâmico devido ao fato de um fonema afetar os anteriores e os subsequentes durante a fala. A Fig. 2.2 mostra um diagrama de uma cadeia de um HMM deste tipo.

Um modelo oculto de markov é uma composição de dois processos estocásticos. O primeiro representa a variação temporal, o segundo é um processo observável que representa a variação es- pectral. Uma cadeia de HMM é uma máquina de estados ﬁnitos cujos estados podem ser modelados como distribuições de misturas gaussianas. A topologia de uma cadeia utilizada para modelagem em reconhecimento de voz deve ser do tipo esquerda para direita (left-to-right), de forma que as transições somente possam ocorrer para o próprio estado ou para seus vizinhos da direita [19]. Uma entrada de áudio é representada neste modelo por uma sequência de quadros no tempo. É possível

(20)

Figura 2.2: Diagrama de uma cadeia de um HMM que representa um fonema [4]com modiﬁcações calcular a probabildiade de ocorrência de uma certa sequência de quadros que seja conhecida pelo reconhecedor. Logo, se a probabilidade de se gerar uma sequência observada na entrada é alta, declara-se a semelhança entre o sinal de entrada e uma frase válida para o reconhecedor. Estas probabilidades são embutidas no modelo acústico na fase de treinamento e utilizadas na Eq. 2.1.

2.4 Julius

A ferramenta de decodificação Julius [11] é um software aberto de LVCSR de alto desempe- nho, sem nenhuma restrição para desenvolvimento comercial, utilizada mundialmente tanto para indústria como para pesquisas acadêmicas, em computadores comuns - não necessita nenhuma oti- mização em termos de hardware - em tempo real, com ampla documentação, integra ferramentas sofisticadas na busca (n-grama, HMM, gramáticas baseadas em regras). O decodificador é todo escrito em linguagem C e suportado em plataforma Linux.

O Julius suporta o processamento tanto de arquivos de áudio quanto áudio obtido pelo microfone em tempo de execução, além de aceitar entrada de áudio através de rede via socket. Este decodiﬁcador é de duas passadas, com um estágio de busca de avanço no tempo que facilita o segundo estágio, que é o de retorno. Este estágio demanda mais força computacional, mas a primeira passada elimina grande número de possibildiades, acelerando o processo. Nesta passada a busca é feita em sentido contrário ao sentido natural do tempo.

2.5 Coruja

Interfaces de programação de aplicativos (API) são implementações de funcionalidades de baixo nível com o objetivo de ofertar ferramentas aos programadores que desejam utilizar daquelas funcionalidades, mas sem ter que desenvolvê-las por inteiro para que o foco do projeto se mantenha

(21)

de baixo nível já implementadas para o uso do decodificador Julius. Desta forma, não é preciso desenvolver toda a estrutura para manipular o decodificador, a interação ocorre através da API, restanto apenas modificar configurações e parâmetros conforme o projeto.

O pacote Coruja inclui o decodiﬁcador Julius, a LaPSAPI, e modelos acústico e de linguagem previamente treinados para reconhecimento de voz em PT-BR. O Coruja foi desenvolvido com o objetivo de ser livre e facilitar a implementação de reconhecimento de voz em aplicações de diversas áreas da engenharia. A Fig. 2.3 detalha as partes do pacote Coruja.

Figura 2.3: Pacote Coruja [5]com modiﬁcações

2.6 Métricas de avaliação

A maneira mais natural, porém nem sempre a mais simples, de se avaliar os modelos treinados do sistema é constriur variações de cada modelo e comparar as taxas de erro do reconhecedor ao utilizar cada um dos modelos. Uma solução mais elegante é trabalhar com o conceito de quantidade de entropia da informação para estimar a eﬁciênia dos modelos acústico, de linguagem e léxico.

A entropia da informação é uma forma de medir a quantidade de informação contida em uma mensagem, sendo que quanto maior for a incerteza sobre o signiﬁcado da mensagem, maior é sua entropia.

Entretanto, o método mais utilizados para avaliação de reconhecedores de voz é mais prático no sentido de dar importância aos resultados obtidos que correspondam ao esperado. A taxa de erro por palavras (WER) é deﬁnida em [21] como sendo a Eq. 2.2.

W ER= D+R

W ×100% (2.2)

A taxa de erro depende portanto do número de palavras na entradaW, do número de erros por palavras que foram substituídas ou trocadas R, e do número de erros por palavras deletadas D.

(22)

2.7 Reconhecimento de voz em cirurgias minimamente invasivas

Grande parte dos trabalhos em interfaces para laparoscopia se resume a joysticks, pedais ou interfaces assistidas por robôs. A principal aplicação de interfaceamento por voz em laparoscopia consiste em controle de sistemas de posicionamento dos instrumentos juntamente com algum auxílio robótico [22, 23, 24]. Apesar de o uso da voz ser algo natural ao ser humano para efetuar comandos, muitas dessas interfaces não se destacaram neste mercado pois são dependentes do usuário, pouco conﬁáveis, e apresentam lentidão de operação.

Em 2011 a empresa francesa EndoControl, que é especializada em sistema ativos para auxílio em cirurgias de endoscopia relatou sobre o primeiro caso de cirurgia geral realizado com auxílio do sistema de controle por voz ViKY [25]. Recentemente em 2013, a mesma empresa conseguiu aprovação da agência americana de alimentos e medicações (FDA) para comercializar o primeiro sistema ativo de auxílio em cirurgias controlado por voz para posicionamento de manipuladores uterinos em cirurgias ginecológicas [26] .

Para a língua inglesa existe uma base de dados de voz especialemente coletada em ambientes de cirurgias minimamente invasivas, é conhecida como SIMIS [27]. Essa base de dados inclui ruídos de fundo e até mesmo emoções dos cirurgiões que podem ser identificadas pela voz. Estas informações permitem que estudos da natureza deste trabalho evoluam de maneira mais rápida, pois com dados específicos do ambiente real de uma cirurgia é possível a contrução de filtros mais precisos, configuração de parâmetros do sistema, além de treinamento e testes de reconhecedores de voz especializados. Os resultados de sistemas de voz em ambientes de cirurgia minamente invasivas mostram taxas de acurácia entre 75-90% [27, 28].

2.8 Redes Wi-Fi

Wi-Fié um padrão de comunicação em redes sem ﬁo. Opera em faixas de frequência sem prote- ção por licensas de instalação e operação. RedesWi-Fi permitem que informações sejam trocadas a grandes distâncias. A Wi-Fi permite a comunicação entre dois dispositivos sem pontos inter- mediários de acesso através de redes Ad-Hoc criadas por computadores que se tornam roteadores virtuais. Um sub padrão da Wi-Fi chamado Wi-Fi Direct especiﬁca um novo método de trans- missão de dados entre dois equipamentos sem que um dos dispositivos tenha que criar uma rede Ad-Hoc. Desta forma o sistema se torna mais seguro, pois em redesWi-Fi convencionais qualquer dispositivo que adentre ao campo de cobertura tem apossibilidade de acessar outros dispositivos na rede.

(23)

Capítulo 3

Desenvolvimento

3.1 Introdução

A construção de uma ferramenta de reconhecimento de voz demanda o uso de muitas horas de gravação de voz e extensos textos para treinamento e validação. Uma aplicação para reconhecimento de voz necessita de uma ferramenta de reconhecimento de voz, como descrito no capítulo 2. Para se obter um reconhecedor pouco vulnerável a ruídos externos, sotaque do locutor e ambiente de gravação do áudio, optou-se pelo uso de um vocabulário restrito a trinta e oito frases com no máximo seis palavras. A maneira mais efetiva de se obter resultados práticos sem demandar demasiado tempo na construção de um sistema de reconhecimento de voz é utilizar uma API. O sistema AstusVoice de reconhecimento de voz foi desenvolvido em cima da LaPSAPI.

3.2 Modelagem do sistema

A visão geral do sistema deve ser claramente definida antes do desenvolviemento. Com este objetivo o sistema foi projetado sobre uma modelagem UML. Esta linguagem de modelagem oferece extensa variedade de diagramas e técnicas de notação gráfica para representações do sistema em desenvolvimento em alto e baixo níveis, classes do software do sistema, sequências e dependências de uso, além de fluxo de tarefas e posicionamento dos agentes envolvidos no uso do sistema por meio de modelos visuais.

A arquitetura do sistema é do tipo servidor-cliente, onde um computador concentrador funciona como o servidor. Ele está diretamente conectado aos equipamentos médicos via USB. Dispositivos móveis são clientes e podem se conectar ao concetrador via Wi-Fi e ao servidor e enviar comandos a este. A Fig. 3.1 mostra o diagrama de caso de uso da modelagem UML para o sistema. Os atores são as partes que interagem com o sistema (voz, equipamentos,...). Os círculos são tarefas sequenciadas e epeciﬁcadas em alto nível.

(24)

Figura 3.1: Diagrama de caso de uso da modelagem UML

3.3 Software do concentrador

O sistema de reconhecimento de voz foi desenvolvido em linguagem C++. A LaPSAPI descrita na Seção 2.5 é utilizada para interação com o decodiﬁcador Julius.

3.3.1 Arquivos

Os seguintes arquivos que fazem parte do software são de grande importância para o funcionamento do reconhecedor:

• dictionary_ssp.dic: dicionário fonético em português.

• edaz.conf: arquivo de conﬁgurações do Julius.

• astus.voca: deﬁne o vocabulário utilizado (conjunto de palavras que o reconhecedor entende) e a separação das palavras em classes gramaticias.

• astus.term: associa cada uma das classes de astus.voca a um número. Este arquivo é gerado por um script.

• astus.dict: associa cada palavra do vocabulário ao número de sua. Este arquivo também é gerado por um script.

(25)

• astus.grammar: deﬁne a gramática do reconhecedor, cada linha desse arquivo representa uma possibilidade de ocorrência de ordem de palavras. As classes gramaticais são separadas por espaços. O reconhecedor somente aceitará frases que respeitem à gramática estabelecida.

• astus.dfa: matrix de parâmetro das frases aceitas pelo reconhecedor. Deve ser gerada a partir dos arquivos .grammar e .voca.

• LaPSAM1.7.1.am.bin: modelo acústico em português. Deﬁne o som de cada fonema utilizado no dicionário.

• LaPSLM1.7.1.lm.bin: modelo de linguagem em português. Deﬁne o uso dos fonemas em diversas frases.

• LaPSAM1.7.1.tiedlist: deﬁne de que maneira interrupções, silêncio, suspiros, dentre outros sons adversos devem ser interpretados.

• astus.jconf: arquivo de conﬁgurações do Julius. Nele estão deﬁnidos os caminhos para os arquivos .dfa, .dict, .am.bin, .tiedlist e .conf, além de outros parâmetros do reconhecedor.

• main_astus.cpp: aplicação que utiliza a API para realizar a tarefa desejada.

3.3.2 Conﬁgurações

Após definidas as frases que seriam reconhecidas, é criado o dicionário fonético correspondente as estas, sendo que muitas palavras já estão definidas no pacote coruja. Para sobrepor o problema de dependência do locutor a fonética de algumas palavras foi modificada buscando a melhora na precisão do sistema, outras foram definidas com duas ou mais pronúncias distintas a fim de aumentar as chances de acerto. A especificação deste projeto conta de algumas palavras na língua inglêsa. O maior desafio desta etapa é criar a fonética de palavras em inglês com fonemas em português, com o cuidado de notar que palavras em inglês pronunciadas por brasileiros possuem sua fonética adaptada pelo falante.

A primeira porta do servidor (8888) é destinada para o recebimento de mesagens de comandos formatadas conforme o protocolo de comunicação deﬁnido na seção 3.5 e o envio para os equipamentos, além do envio de mensagens de status dos equipamentos para os quais tenha enviado comandos. A segunda porta (5530) é conﬁgurada para receber o stream de áudio contínuo que chega pelo microfone do dispositivo móvel conectado. Portanto, o sistema recebe o áudio viasocket de protocolo de comunicação TCP/IP contianuamente. O áudio que chega é avaliado e dividido em frases utilizando os espaços de silêncio entre elas. Os fragmentos de áudio contendo as frases separadas é então enviado para o pré-processamento.

Devido à aleatoriedade de sinais de voz e ruídos externos indesejados, um pré-processamento deve ser realizado. O pré-processamento do sinal é conﬁgurado no arquivo .jconf. É nesta etapa que algumas ferramentas de ﬁltragem são aplicadas sobre o sinal de voz e em seguida ocorre a extração de parâmetros deste sinal. Neste trabalho é feita uma parametrização por MFCC. Durante este processo ocorre uma transformação não-inversível com redução da complexidade do sinal e consiste em extrair as partes mais relevantes do sinal.

(26)

3.3.3 Inicialização

Ao inciar, a aplicação conﬁgura as características de pré-processamento; carrega os modelos para reconhecimento de voz e a gramática; inicializa e busca por dispositivos USB conectados;

inicializa o servidor com duas portas de acesso, uma para comandos táteis e outra para o stream de áudio; e aguarda pela conexão de um cliente. A tela inicial de conﬁguração é mostrada na Fig.

3.2.

Figura 3.2: Tela inicial de conﬁguração do concentrador

3.3.4 Núcleo de processamento

O software foi projetado para funcionar em ciclos de um segundo. Após a conexão de algum cliente ao servidor da aplicação, esta mostra o status do sistema e passa a realizar ciclos com as sequintes tarefas:

• Veriﬁca se novos equipamentos foram conectados via USB e se algum se desconectou.

• Veriﬁca se existe algum dispositivo tentando conexão com o servidor ou, caso já esteja conectado, veriﬁca se existem mensagens no formato aceito pelo protocolo.

• Atualizastatus do sistema.

• Mostra status do sistema.

A tela do concentrador mostrando ostatus dos equipamentos é apresentada na Fig. 3.3.

Caso alguma mensagem recebida seja um comando válido esta é reenviada para o equipamento correto. Já as frases que chegam continuamente pelo stream de áudio são imediatamente pré-

(27)

Figura 3.3: Tela do concentrador mostrando o status dos equipamentos

seja atualizado. A Fig. 3.4 mostra a tela do concentrador quando uma mensagem é recebida por voz.

3.4 Aplicativo android

O tablet funciona como ofront-end com o usuário. É a partir dele que o operador envia um comando, seja este tátil ou por voz. A tela inicial apresenta botões com todas as opções possíveis de comando separados em colunas conforme o equipamento a que se refere, além dos botões no topo deConectar ao Concentrador,Ativa Voz e Pausa Voz, como mostrado na Fig. 3.5. Antes de iniciar o aplicativo o usuário deverá ligar o computador concentrador para que este inicie o servidor e se certiﬁcar de que o dispositivo móvel esteja conectado à rede WiFi criada pelo concentrador ou à mesma rede WiFi que o concentrador esteja conectado. As atividades do aplicativo são iniciadas de duas formas: ao toque de algum dos botões; ou à entrada de áudio pelo microfone conﬁgurado no dispositivo.

3.4.1 Resposta ao toque de botões

Após iniciar o aplicativo o usuário deve apertar o botão Conectar ao Concentrador para que o aplicativo android inicie o servidor e se comunique com o concentrador, o aplicativo cria dois

(28)

Figura 3.4: Tela do concentrador mostrando o recebimento de um comando de voz

sockets e inicia dois clientes distintos para se conectar ao servidor com o IP do concentrador e portas de acesso que estão pré-conﬁgurados no aplicativo.

A primeira porta (8888) é destinada para o envio de mesagens de comandos pela interface tátil do tablet android para o concentrador e o recebimento de mensagens de status dos equipamentos para os quais tenha enviado comandos. A segunda porta (5530) é conﬁgurada para enviar ostream de áudio contínuo que chega pelo microfone do dispositivo móvel.

Após estabelecida a conexão o usuário pode optar por apenas enviar comandos pela interface tátil ou iniciar a leitura de voz do microfone que estiver conectado ao dispositivo no momento ou microfone interno caso não exista outro apertando o botãoAtiva Voz. A leitura de áudio pode ser desativada a qualquer momento através do botão Pausa Voz e reiniciada novamente com o botão Ativa Voz.

3.4.2 Resposta à entrada de áudio

Uma vez ativada a transmissão de áudio contínuo o usuário pode pronunciar os comandos, que são os mesmos que estão escritos nos botões, com uma pequena pausa entre eles. Comandos falados sem pausa não serão identidﬁcados de forma correta, pois o reconhecedor de voz utiliza as pausas (silêncios) para marcar o ﬁm e começo de frases.

(29)

Figura 3.5: Tela inicial do aplicativo android

ando comandos, pois o sistema é configurado para encontrar a frase que corresponda com maior probabilidade a qualquer entrada de áudio que este receba, o que poderia acarretar identificação de algum comando de forma não intencional. O reconhecedor mostra o resultado da busca sempre que a confiança seja maior ou igual ao limite determinado.

3.5 Protocolo de Comunicação

As informações são trocadas pelos equipamentos através de mensagens bem deﬁnidas. Todos os equipamentos podem enviar e receber mensagens. As mensagens são divididas em dois tipos:

comando - mensagem que demanda uma ação do equipamento que a recebe; status - mensagem que informa sobre a situação do equipamento que a envia.

A rede de comunicação é composta por seis elementos. Os seguintes elementos recebem comandos e enviam status: fonte de luz; insuﬂador; câmera; gravador. Otablet envia comandos e recebe status. O concentrador é responsável por receber e distribuir mensagens de qualquer tipo.

O protocolo de comunicação entre os equipamentos é utilizado tanto na transmisssão de dados de comando do tablet para os equipamentos quanto para os dados de status do sistema que são passados dos equipamentos para o concentrador. Este protocolo é utilizado concomitantemente com o protocolo TCP/IP.

A mensagem é composta por três bytes (vinte e quatro bits), e dividida da seguinte forma:

(30)

• Byte 1: identiﬁcador do elemento de origem da mensagem.

• Bytes 2 e 3: conteúdo da mensagem. O primeiro bit identiﬁca se a mensagem é um comando ou um status. Os seis bits seguintes indentiﬁcam o comando ou status propriamente dito.

Os nove últimos bits são reservados para indicar o nível do status caso seja necessário.

• Byte 4: identiﬁcador do elemento de destino da mensagem.

• Byte 5: veriﬁcador de erros na mensagem. Este byte é reservado para utilização do algoritmo de veriﬁcação de erros CRC.

Cada um dos bytes deve seguir um padrão de ocorrência de forma que a mensagem seja bem especificada para possibilitar fácil identificação e auto correção de eventuais erros de transmissão de dados. A Fig. 3.6 mostra a estrutura de uma mensagem codificada neste protocolo.

Figura 3.6: Estrutura de uma mensagem

Os identificadores de equipamentos diferem um do outro por pelo menos dois bits, além disso, a soma dos bits de um identificador sempre deve ser igual a dois. Esses fatores contribuem para uma rápida e efetiva verificação da correta transmissão dos dados.

(31)

Capítulo 4

Sistema Experimental AstusVoice

4.1 Introdução

O sistema AstusVoice de interfaceamento por voz desenvolvido foi incorporado a um aparato experimental para testes e validações. A interface foi instalada em um laptop representando o computador concentrador de informações. O aplicativo android foi instalado em um tablet para que pudesse escutar e enviar comandos táteis e de áudio para o concentrador. Um arduíno foi utilizado para receber os comandos do concentrador via USB e realizar ações conforme o comando do usuário. A conﬁguração experimental está mostrada na Fig. 4.1.

Figura 4.1: Conﬁguração experimental do sistema AstusVoice

(32)

4.2 Concentrador

O laptop concentrador utilizado possui processador Intel Core 2 Duo de 2 GHz. Nele foi instalada a última versão da distribuição Ubuntu Linux, além de um desktop mais leve para carregamento rápido (XFCE). Foram feitas conﬁgurações de acesso para que a aplicação inicie assim que o laptop for ligado. O computador precisa estar conectado a uma rede Wi-Fi.

4.3 Tablet

O protótipo construído interage com o usuário através do tablet, por onde é possível enviar comandos táteis e por voz para conﬁgurar os equipamentos utilizados na cirurgia laparoscópica. O tablet utilizado no experimento - Fig. 4.2 - é o Samsung Galaxy Note com tela de 10,1 polegadas e alta resolução, processador Quad Core de 1,4GHz, suporta tecnologia WiFi e Bluetooth. O tablet precisa estar conectado à mesma rede Wi-Fi que o concentrador. Um microfone integrado com fones de ouvido foi conectado por ﬁo ao tablet para a entrada de voz.

Figura 4.2: Tablet utilizado no experimento

4.4 Arduíno

Os equipamentos da Astus Medical para vídeo laparoscopia ainda estão em preparação para integração ao sistema. Portanto, um arduíno faz o papel dos equipamentos médicos nos testes.

Este recebe as mensagens do concentrador via USB executa ações simplesmente demonstrativas, como o acendimento de LEDs e mostrar os comandos em uma tela LCD.

(33)

4.5 Testes e resultados

O sistema foi testado a ﬁm de validar os resultados obtidos pelo reconhecedor de voz em se- parado. Os testes foram conduzidos em ambiente fechado. O sistema foi testado por dez pessoas, sendo metade brasileiros e a outra metado de falantes da língua espanhola, ambos falando em português. As pessoas foram convidadas a falar uma lista contendo uma vez cada um dos comandos aceitos pelo sistema - a lista se encontra nos Anexos - em variadas situações de ruído, como ar condicionado e conversas paralelas, bem como para variadas distâncias do tablet para o concentrador.

Os resultados experimentais são mostrados nas tabelas 4.1 e 4.2.

Tabela 4.1: Precisão em ambientes variados - 2 m do concentrador Ambiente Tempo de resposta WER Precisão

[s] % %

silencioso 1,956 11 89

ar condicionado 2,095 16 84

conversa baixa 2,101 15 85

conversa alta 2,124 45 55

Tabela 4.2: Precisão para distâncias variadas dotablet para o concentrador - ambiente silencioso Distância Tempo de resposta WER Precisão

[s] % %

0,5m 1,930 12 88

2,0m 2,116 14 86

5,0m 2,110 12 88

Os resultados obtidos estão dentro do esperado conforme mostrado na seção 2.7, deveriam ficar entre 75% e 90%, exceto para o caso em que existem pessoas conversando em alto volume próximo do microfone. O tempo de resposta condiz com uma aplicação em tempo real para todos os casos, com uma média de aproximadamente 2 segundos entre o fim da pronúncia da frase até a mudança do status no sistema na tela do concentrador. Estes tempos não consideram casos em que a frase não foi identificada, pois nestes casos a confiabilidade no resultado é menor que o valor limite configurado e o reconhecedor não deve mostrar nenhuma resposta.

(34)

Capítulo 5

Conclusões

5.1 Conclusões ﬁnais

Este trabalho caracteriza-se pelo estudo de ferramentas atreladas a sistemas de reconhecimento de voz e o uso de uma API contendo essas ferramentas para a construção de uma aplicação que relacione, através de um protocolo de comunicação deﬁnido, comandos de voz com ações de equipamentos eletromédicos utilizados em cirurgias de vídeo laparoscopia. Ainda, foi foco deste trabalho o desenvolvimento de aplicativoandroid para leitura e envio de comandos táteis e áudio.

Os resultados mostraram que apesar dos entraves tecnológicos em se trabalhar com reconhecimento de voz para PT-BR devido à escassez de material de grande porte e de qualidade, é real a possibilidade de uso deste tipo de sistema em procedimentos cirúrgicos de laparoscopia após reﬁnamento do layout e do design do sistema como um todo.

5.2 Trabalhos Futuros

Neste trabalho as mensagens de comando são enviadas para um arduíno que por sua vez realiza alguma ação para determinados comandos, além disso o status dos equipamentos é enviado apenas para o concentrador. Portanto, trabalhos futuros se concentrarão em integrar o sistema desenvolvido aos equipamentos de laparoscopia e enviar ostatus de cada equipamento para o tablet a ﬁm de que seja exibido de forma mais evidente para o usuário. Para tal, faz-se necessária uma mudança do layout do aplicativo android de forma que este não apenas contenha botões, e sim pequenos botões e visualizadores das conﬁgurações selecionadas nos equipamentos.

Vislumbra-se também a possibilidade de utilizar o sistema aprimorado de reconhecimento por voz em outros procedimentos médicos que também fazem uso de equipamentos eletromédicos di- gitais, tais como ablação hepática e cardíaca e ressonancia magnética.

(35)

REFERÊNCIAS BIBLIOGRÁFICAS

[1] LAPAROSCOPIA Ginecológica. https://www.operarme.es/noticia/19/

en-que-consiste-la-laparoscopia. Accessado em: 15/12/2013.

[2] ASTUS Estrutura Ótica do Laparoscópio. http://www.astusmedical.com.br/_web/

servicos/. Accessado em: 13/11/2013.

[3] UNIVERSIA. http://mit.universia.com.br/6/6345/PDF/lecture1.pdf. Accessado em:

14/12/2013.

[4] HMM. http://masters.donntu.edu.ua/2008/fvti/verenich/library/th_eng.htm. Acces- sado em: 14/12/2013.

[5] BATISTA, P. dos S. Avanços em Reconhecimento de Fala para Português Brasileiro e Aplica- ções: Ditado no LibreOﬃce e Unidade de Resposta Audível com Asterisk. Dissertação (Mestrado)

— Instituto de Tecnologia, Universidade Federal do Pará, Brasil, 2013.

[6] UCSANDIEGO About Minimally Invasive Surgery. http://health.ucsd.edu/specialties/

surgery/mis/about/Pages/default.aspx. Accessado em: 13/11/2013.

[7] HATZINGER, M. et al. Hans christian jacobaeus: Inventor of human laparoscopy and thora- coscopy.Journal of Endourology, v. 20, n. 11, p. 848–850, December 2006.

[8] EM que consiste a laparoscopia? http://www.abc.med.br/p/exames-e-procedimentos/

357764/laparoscopia+o+que+e+como+e+quais+sao+as+desvantagens+e+os+riscos.htm. Ac- cessado em: 12/12/2013.

[9] KALJURAND, K.; ALUMäE, T. Controlled natural language in speech recognition based user interface. In: Third Workshop on Controlled Natural Language. [S.l.: s.n.], 2012. p. 79–94.

[10] CMU Sphyinx. http://cmusphinx.sourceforge.net/. Accessado em: 12/12/2013.

[11] JULIUS. http://julius.sourceforge.jp/en_index.php. Accessado em: 12/12/2013.

[12] CEUSTERS, W. et al. From a time standart for medical informatics to a controlled langage for health.International Journal of Medical Informatics, v. 48, p. 85–101, February 1998.

[13] RABINER, L.; SCHAFER, R.Digital Processing of Speech Signal. [S.l.]: Prentice-Hall, 1978.

(36)

[14] KINJO, T.; FUNAKI, K. On hmm speech recognition based on complex speech analysis. In:

IEEE 32nd Annual Conference on Industrial Electronics. [S.l.: s.n.], 2006. p. 3477 – 3480.

[15] HERACLEOUS, P. et al. Analysis and recognition of nam speech using hmm distances and visual information.IEEE Transactions on Audio, Speech, and Language Processing, v. 18, n. 6, p. 1528 – 1538, August 2010.

[16] REVATHI, A.; VENKATARAMANI, Y. Speaker independent continuous speech and isolated digit recognition using vq and hmm. In: International Conference on Communications and Signal Processing. [S.l.: s.n.], 2011. p. 198 – 202.

[17] LISHUANG, Z.; ZHIYAN, H. Speech recognition system based on integrating feature and hmm. In: International Conference on Measuring Technology and Mechatronics Automation.

[S.l.: s.n.], 2010. p. 449 – 452.

[18] LIU, C.-Y. et al. Hmm and bpnn based speech recognition system for home service robot. In:

International Conference on Advanced Robotics and Intelligent Systems. [S.l.: s.n.], 2013. p. 38 – 43.

[19] NAJKAR, N.; RAZZAZI, F.; SAMETI, H. A novel approach to hmm-based speech recognition systems using particle swarm optimization.International Journal of Mathematical and Computer Modelling, v. 52, p. 1910 – 1920, September 2010.

[20] CAI, J. et al. Eﬃcient likelihood evaluation and dynamic gaussian selection for hmm-based speech recognition. International Journal of Computer Speech and Language, v. 23, p. 147 Ű 164, April 2009.

[21] HUANG, X.; ACERO, A.; HON, H. Spoken Language Processing. [S.l.]: Prentice-Hall, 2001.

[22] SCHULLER, B. et al. Robust speech recognition for human-robot interaction in minimal invasive surgery. In: 4th Russian-Bavarian Conference on Bio-Medical Engineering. [S.l.: s.n.], 2008.

[23] MUNOZ, V. et al. A medical robotic assistant for minimally invasive surgery. In: IEEE International Conference on Robotics and Automation. [S.l.: s.n.], 2000.

[24] L.METTLER; M.IBRAHIM; W.JONA. One year of experience working with the aid of a robotic assistant (the voice-controlled optic holder esop*) in gynaecological endoscopic surgery.

Oxford Journal on Human Reprodution, v. 13, p. 2748Ű2750, 1998.

[25] ENDOCONTROL. http://www.summitmedicalgroup.com/press-release/

First-General-Surgery-Case-Performed-With-ViKY/. Accessado em: 15/12/2013.

[26] ENDOCONTROL. http://www.endocontrol-medical.com/press_release/PR_ViKY_UP.

pdf. Accessado em: 15/12/2013.

[27] SCHULLER, B. et al. Emotion sensitive speech control for human-robot interaction in mi-

(37)

[28] FERNáNDEZ-LOZANO et al. A telerobotic system for remote surgical collaboration with communications delay. In: ESA Workshop on Advanced Space Technologies for Robotics and Automa. [S.l.: s.n.], 2002.

(38)

ANEXOS

(39)

I. COMANDOS DE VOZ

COMANDOS GERAIS

Iniciar Procedimento - ativa reconhecimento de voz Pausar Procedimento - pausa reconhecimento de voz

Retomar Procedimento - reativa reconhecimento de voz quando pausado Finalizar Procedimento - ﬁnaliza aplicação

FONTE DE LUZ

Liga Fonte de Luz - liga equipamento de iluminação Desliga Fonte de Luz - desliga equipamento de iluminação Mais Luz- aumenta a luminosidade

Menos Luz- reduz a luminosidade CÂMERA

Liga Câmera- liga câmera acoplada ao laparoscópio Desliga Câmera - desliga câmera acoplada ao laparoscópio White Balance - ativa função de balanceamento de imagem Zoom - aplica zoom à imagem

Com Ganho- aplica ganho à imagem Sem Ganho - retira ganho da imagem User 1-seleciona conﬁgurações do usuário 1 User 2- seleciona conﬁgurações do usuário 2

Endoflexível - carrega configurações tipo endoflexível INSUFLADOR

Liga Insuflador - liga equipamento de insuflação Desliga Insuflador - desliga equipamento de insuflação Start - inicia insuflação

Stop - para insuﬂação

Reset - zera as configurações de pressão, fluxo e tempo de insuflação Aumenta Pressão - aumenta pressão de insuflação

Diminui Pressão - diminui pressão de insuflação Aumenta Fluxo - aumenta fluxo de insuflação Diminui Fluxo- diminui fluxo de insuflação

1 Litro por Minuto - configura fluxo de insuflação em 1 l/min 3 Litros por Minuto - configura fluxo de insuflação em 3 l/min 45 Litros por Minuto - configura fluxo de insuflação em 45 l/min Temperatura On - liga controle de temperatura

Temperatura Oﬀ - desliga controle de temperatura

(40)

Liga Alarme - liga alarme de aviso Desliga Alarme - desliga alarme de aviso GRAVADOR

Liga Gravador - liga equipamento de gravação Desliga Gravador- desliga equipamento de gravação Inicia Gravação - inicia gravação de vídeo

Pára Gravação - para gravação de vídeo Foto - tira uma foto a partir do vídeo