Testes e resultados - Interface baseada em reconhecimento de voz para vídeo laparoscopia

O sistema foi testado a ﬁm de validar os resultados obtidos pelo reconhecedor de voz em se-parado. Os testes foram conduzidos em ambiente fechado. O sistema foi testado por dez pessoas, sendo metade brasileiros e a outra metado de falantes da língua espanhola, ambos falando em português. As pessoas foram convidadas a falar uma lista contendo uma vez cada um dos co-mandos aceitos pelo sistema - a lista se encontra nos Anexos - em variadas situações de ruído, como ar condicionado e conversas paralelas, bem como para variadas distâncias do tablet para o concentrador.

Os resultados experimentais são mostrados nas tabelas 4.1 e 4.2.

Tabela 4.1: Precisão em ambientes variados - 2 m do concentrador Ambiente Tempo de resposta WER Precisão

[s] % %

silencioso 1,956 11 89

ar condicionado 2,095 16 84

conversa baixa 2,101 15 85

conversa alta 2,124 45 55

Tabela 4.2: Precisão para distâncias variadas dotablet para o concentrador - ambiente silencioso Distância Tempo de resposta WER Precisão

[s] % %

0,5m 1,930 12 88

2,0m 2,116 14 86

5,0m 2,110 12 88

Os resultados obtidos estão dentro do esperado conforme mostrado na seção 2.7, deveriam ficar entre 75% e 90%, exceto para o caso em que existem pessoas conversando em alto volume próximo do microfone. O tempo de resposta condiz com uma aplicação em tempo real para todos os casos, com uma média de aproximadamente 2 segundos entre o fim da pronúncia da frase até a mudança do status no sistema na tela do concentrador. Estes tempos não consideram casos em que a frase não foi identificada, pois nestes casos a confiabilidade no resultado é menor que o valor limite configurado e o reconhecedor não deve mostrar nenhuma resposta.

Capítulo 5

Conclusões

5.1 Conclusões ﬁnais

Este trabalho caracteriza-se pelo estudo de ferramentas atreladas a sistemas de reconhecimento de voz e o uso de uma API contendo essas ferramentas para a construção de uma aplicação que relacione, através de um protocolo de comunicação deﬁnido, comandos de voz com ações de equipamentos eletromédicos utilizados em cirurgias de vídeo laparoscopia. Ainda, foi foco deste trabalho o desenvolvimento de aplicativoandroid para leitura e envio de comandos táteis e áudio.

Os resultados mostraram que apesar dos entraves tecnológicos em se trabalhar com reconhe-cimento de voz para PT-BR devido à escassez de material de grande porte e de qualidade, é real a possibilidade de uso deste tipo de sistema em procedimentos cirúrgicos de laparoscopia após reﬁnamento do layout e do design do sistema como um todo.

5.2 Trabalhos Futuros

Neste trabalho as mensagens de comando são enviadas para um arduíno que por sua vez realiza alguma ação para determinados comandos, além disso o status dos equipamentos é enviado apenas para o concentrador. Portanto, trabalhos futuros se concentrarão em integrar o sistema desenvolvido aos equipamentos de laparoscopia e enviar ostatus de cada equipamento para o tablet a ﬁm de que seja exibido de forma mais evidente para o usuário. Para tal, faz-se necessária uma mudança do layout do aplicativo android de forma que este não apenas contenha botões, e sim pequenos botões e visualizadores das conﬁgurações selecionadas nos equipamentos.

Vislumbra-se também a possibilidade de utilizar o sistema aprimorado de reconhecimento por voz em outros procedimentos médicos que também fazem uso de equipamentos eletromédicos di-gitais, tais como ablação hepática e cardíaca e ressonancia magnética.

REFERÊNCIAS BIBLIOGRÁFICAS

[1] LAPAROSCOPIA Ginecológica. https://www.operarme.es/noticia/19/

en-que-consiste-la-laparoscopia. Accessado em: 15/12/2013.

[2] ASTUS Estrutura Ótica do Laparoscópio. http://www.astusmedical.com.br/_web/

servicos/. Accessado em: 13/11/2013.

[3] UNIVERSIA. http://mit.universia.com.br/6/6345/PDF/lecture1.pdf. Accessado em:

14/12/2013.

[4] HMM. http://masters.donntu.edu.ua/2008/fvti/verenich/library/th_eng.htm. Acces-sado em: 14/12/2013.

[5] BATISTA, P. dos S. Avanços em Reconhecimento de Fala para Português Brasileiro e Aplica-ções: Ditado no LibreOﬃce e Unidade de Resposta Audível com Asterisk. Dissertação (Mestrado)

— Instituto de Tecnologia, Universidade Federal do Pará, Brasil, 2013.

[6] UCSANDIEGO About Minimally Invasive Surgery. http://health.ucsd.edu/specialties/

surgery/mis/about/Pages/default.aspx. Accessado em: 13/11/2013.

[7] HATZINGER, M. et al. Hans christian jacobaeus: Inventor of human laparoscopy and thora-coscopy.Journal of Endourology, v. 20, n. 11, p. 848–850, December 2006.

[8] EM que consiste a laparoscopia? http://www.abc.med.br/p/exames-e-procedimentos/

357764/laparoscopia+o+que+e+como+e+quais+sao+as+desvantagens+e+os+riscos.htm. Ac-cessado em: 12/12/2013.

[9] KALJURAND, K.; ALUMäE, T. Controlled natural language in speech recognition based user interface. In: Third Workshop on Controlled Natural Language. [S.l.: s.n.], 2012. p. 79–94.

[10] CMU Sphyinx. http://cmusphinx.sourceforge.net/. Accessado em: 12/12/2013.

[11] JULIUS. http://julius.sourceforge.jp/en_index.php. Accessado em: 12/12/2013.

[12] CEUSTERS, W. et al. From a time standart for medical informatics to a controlled langage for health.International Journal of Medical Informatics, v. 48, p. 85–101, February 1998.

[13] RABINER, L.; SCHAFER, R.Digital Processing of Speech Signal. [S.l.]: Prentice-Hall, 1978.

[14] KINJO, T.; FUNAKI, K. On hmm speech recognition based on complex speech analysis. In:

IEEE 32nd Annual Conference on Industrial Electronics. [S.l.: s.n.], 2006. p. 3477 – 3480.

[15] HERACLEOUS, P. et al. Analysis and recognition of nam speech using hmm distances and visual information.IEEE Transactions on Audio, Speech, and Language Processing, v. 18, n. 6, p. 1528 – 1538, August 2010.

[16] REVATHI, A.; VENKATARAMANI, Y. Speaker independent continuous speech and isolated digit recognition using vq and hmm. In: International Conference on Communications and Signal Processing. [S.l.: s.n.], 2011. p. 198 – 202.

[17] LISHUANG, Z.; ZHIYAN, H. Speech recognition system based on integrating feature and hmm. In: International Conference on Measuring Technology and Mechatronics Automation.

[S.l.: s.n.], 2010. p. 449 – 452.

[18] LIU, C.-Y. et al. Hmm and bpnn based speech recognition system for home service robot. In:

International Conference on Advanced Robotics and Intelligent Systems. [S.l.: s.n.], 2013. p. 38 – 43.

[19] NAJKAR, N.; RAZZAZI, F.; SAMETI, H. A novel approach to hmm-based speech recognition systems using particle swarm optimization.International Journal of Mathematical and Computer Modelling, v. 52, p. 1910 – 1920, September 2010.

[20] CAI, J. et al. Eﬃcient likelihood evaluation and dynamic gaussian selection for hmm-based speech recognition. International Journal of Computer Speech and Language, v. 23, p. 147 Ű 164, April 2009.

[21] HUANG, X.; ACERO, A.; HON, H. Spoken Language Processing. [S.l.]: Prentice-Hall, 2001.

[22] SCHULLER, B. et al. Robust speech recognition for human-robot interaction in minimal invasive surgery. In: 4th Russian-Bavarian Conference on Bio-Medical Engineering. [S.l.: s.n.], 2008.

[23] MUNOZ, V. et al. A medical robotic assistant for minimally invasive surgery. In: IEEE International Conference on Robotics and Automation. [S.l.: s.n.], 2000.

[24] L.METTLER; M.IBRAHIM; W.JONA. One year of experience working with the aid of a robotic assistant (the voice-controlled optic holder esop*) in gynaecological endoscopic surgery.

Oxford Journal on Human Reprodution, v. 13, p. 2748Ű2750, 1998.

[25] ENDOCONTROL. http://www.summitmedicalgroup.com/press-release/

First-General-Surgery-Case-Performed-With-ViKY/. Accessado em: 15/12/2013.

[26] ENDOCONTROL. http://www.endocontrol-medical.com/press_release/PR_ViKY_UP.

pdf. Accessado em: 15/12/2013.

[27] SCHULLER, B. et al. Emotion sensitive speech control for human-robot interaction in

mi-[28] FERNáNDEZ-LOZANO et al. A telerobotic system for remote surgical collaboration with communications delay. In: ESA Workshop on Advanced Space Technologies for Robotics and Automa. [S.l.: s.n.], 2002.

ANEXOS

I. COMANDOS DE VOZ

COMANDOS GERAIS

Iniciar Procedimento - ativa reconhecimento de voz Pausar Procedimento - pausa reconhecimento de voz

Retomar Procedimento - reativa reconhecimento de voz quando pausado Finalizar Procedimento - ﬁnaliza aplicação

FONTE DE LUZ

Liga Fonte de Luz - liga equipamento de iluminação Desliga Fonte de Luz - desliga equipamento de iluminação Mais Luz- aumenta a luminosidade

Menos Luz- reduz a luminosidade CÂMERA

Liga Câmera- liga câmera acoplada ao laparoscópio Desliga Câmera - desliga câmera acoplada ao laparoscópio White Balance - ativa função de balanceamento de imagem Zoom - aplica zoom à imagem

Com Ganho- aplica ganho à imagem Sem Ganho - retira ganho da imagem User 1-seleciona conﬁgurações do usuário 1 User 2- seleciona conﬁgurações do usuário 2

Endoflexível - carrega configurações tipo endoflexível INSUFLADOR

Liga Insuflador - liga equipamento de insuflação Desliga Insuflador - desliga equipamento de insuflação Start - inicia insuflação

Stop - para insuﬂação

Reset - zera as configurações de pressão, fluxo e tempo de insuflação Aumenta Pressão - aumenta pressão de insuflação

Diminui Pressão - diminui pressão de insuflação Aumenta Fluxo - aumenta fluxo de insuflação Diminui Fluxo- diminui fluxo de insuflação

1 Litro por Minuto - configura fluxo de insuflação em 1 l/min 3 Litros por Minuto - configura fluxo de insuflação em 3 l/min 45 Litros por Minuto - configura fluxo de insuflação em 45 l/min Temperatura On - liga controle de temperatura

Temperatura Oﬀ - desliga controle de temperatura

No documento Interface baseada em reconhecimento de voz para vídeo laparoscopia (páginas 33-40)