A PLICAÇÃO P RINCIPAL - G RAMÁTICA L IVRE DE C ONTEXTO

G RAMÁTICA L IVRE DE C ONTEXTO

3.2.2 A PLICAÇÃO P RINCIPAL

Além de ter sido criado um corpus de reconhecimento, foi também criado o programa que usa esses dados para efetuar reconhecimento de voz. O sistema processa áudio em tempo-real, divide a stream em

comandos discretos e produz uma linha de texto para cada comando reconhecido. Este sistema corre na

MIVbox como um dos seus módulos. A integração deste módulo na MIVbox está esquematizada na Figura 3.4.

Figura 3.4 Integração do MIVcontrol na MIVbox (adaptado de [97])

O áudio é lido do sistema e guardado num buffer em memória. A primeira etapa de pré-processamento envolve dividir o áudio em frases, correspondentes a comandos, tendo em conta os períodos de silêncio entre elas. São também aplicados filtros com vista a reduzir o ruído de entrada, para conseguir reconhecer períodos de silêncio de maneira mais robusta e fiável. Depois desta divisão em frases independentes, cada segmento é processado para criar um conjunto de features, que são aplicados como input ao HMM, que usa o modelo para encontrar o comando que mais se assemelha à frase recebida. Este é o resultado final, que é comunicado ao sistema seguinte.

A primeira implementação foi criada como proof-of-concept, para verificar se a arquitetura e as bibliotecas utilizadas, combinadas com uma versão preliminar do corpus de reconhecimento seriam adequadas a

pelo projeto PocketSphinx. Esta implementação foi validada, com a produção de resultados favoráveis, pelo que se avançou para a integração deste conhecimento no software que serve de base à MIVbox. A implementação da versão integrada na MIVbox foi simplificada pelas escolhas feitas anteriormente. As bibliotecas de reconhecimento PocketSphinx são cross-platform, pelo que estão disponíveis tanto em Linux, usado durante o desenvolvimento, como no MacOS X, sistema operativo usado em produção. Além disso, o Qt permite a integração de bibliotecas escritas em C diretamente, sem ser necessário qualquer tipo de layer de compatibilidade.

A primeira implementação usava os métodos providenciados pelas bibliotecas PocketSphinx para recolher e segmentar áudio do sistema. Esta abordagem permitiu a criação de um protótipo muito rapidamente, mas tornava o programa difícil de converter para o sistema MacOS X, pois a capacidade de recolher o áudio neste sistema operativo pelas bibliotecas PocketSphinx estava planeada mas não implementada. Além disso, a performance não era aceitável, com atrasos de vários segundos. Assim, foi necessário implementar esta parte significativa do sistema de maneira cross-platform. As bibliotecas Qt incluem a funcionalidade de gravar áudio do sistema de modo cross-platform, pelo que foi imediatamente escolhida como solução.

A segunda implementação usava as bibliotecas Qt para recolher áudio do sistema, uma implementação de uma máquina de estados finitos para segmentar o áudio recolhido e as bibliotecas PocketSphinx para efetuar reconhecimento das frases recolhidas. Com esta versão foi possível pela primeira vez compilar e testar todo o sistema no MacOS X. O problema da performance ainda se mantinha, por isso foi decidido isolar todo o módulo MIVcontrol numa thread separada, já que a comunicação entre módulos é mínima e é assegurada pela implementação de sinais das bibliotecas do Qt, que permite comunicação segura entre diferentes threads.

A implementação final contém todo o módulo MIVcontrol numa thread separada da thread principal da

MIVbox, e usa as bibliotecas PocketSphinx apenas para reconhecimento. Com estas funcionalidades, o reconhecimento é quase instantâneo, sendo que a taxa de erros não piorou desde a primeira implementação, pois os dados fornecidos às bibliotecas PocketSphinx são similares.

3.2.3 R

ESULTADOS

O corpus de reconhecimento usado contém duas línguas: Português e Inglês, com um total de 1405 gravações, totalizando 25 minutos de voz, sendo 5 vozes femininas e 7 vozes masculinas. Para testar este modelo fui usada 10-fold cross validation em todos os dados incluídos no corpus. O vocabulário foi escolhido de maneira a ser possível ser aplicado diretamente no contexto de exames endoscópicos. Os parâmetros de teste que produzem maior variação são a distribuição de misturas Gaussianas (em inglês, Gaussian mixture distribution) e o número de estados empatados (em inglês, number of tied states). Foram variados estes parâmetros em todas as combinações possíveis, sendo os melhores resultados analisados mais pormenorizadamente. Esta primeira seleção dos resultados foi realizada recorrendo a uma métrica referida na literatura [101] como Taxa de Erro por Palavra (em inglês, Word Error Rate), que indica a percentagem de palavras corretamente identificadas pelo sistema.

Os resultados são apresentados como matrizes de confusão, ou precision-recall, onde as linhas indicam o comando fornecido ao sistema e as colunas indicam o comando previsto pelo sistema. Os comandos estão dentro de aspas, sendo que a etiqueta “OUTRO” indica comandos irreconhecíveis ou palavras fora do vocabulário.

Para o modelo em língua inglesa verificou-se que os melhores resultados eram obtidos com 100 distribuições Gaussianas de misturas e 8 estados empatados. Com estes parâmetros, a Taxa de Erro por Palavra é de 23.17%, o que corresponde a 128 erros em 550 comandos. A matriz de confusão está representada na Tabela 3.1.

Tabela 3.1 Matriz de confusão para língua inglesa; 100 gaussian mixtures e 8 tied states

“continue” “end” “hold” “start” “take picture” OUTRO TOTAL RECALL “continue” 69 8 3 2 21 7 110 62.73% “end" 3 74 3 17 9 4 110 67.27% “hold” 0 4 89 8 0 9 110 80.91% “start” 0 7 4 95 0 4 110 86.36% “take picture” 1 4 2 2 95 6 110 86.36% OUTRO 0 0 0 0 0 0 0 TOTAL PRECISION 73 94.52% 97 76.29% 101 88.12% 124 76.61% 125 76.00% 30 550

Para o modelo em língua portuguesa, verificou-se que os melhores resultados eram obtidos com 150 distribuições Gaussianas de misturas e 8 estados empatados. Com estes parâmetros, a Taxa de Erro por palavra é de 29.1%, o que corresponde a 249 erros em 855 comandos. A matriz de confusão está representada na.Tabela 3.2

Tabela 3.2 Matriz de confusão para língua portuguesa; 150 gaussian mixtures e 8 tied states

“acaba” “começa” “continua” “pausa” “tira

imagem” OUTRO TOTAL RECALL “acaba” 160 1 0 0 0 10 171 93.57% “começa” 22 87 2 2 41 17 171 50.88% “continua” 19 2 110 0 13 27 171 64.33% “pausa” 44 2 0 102 2 21 171 59.65% “tira imagem” 14 2 3 0 147 5 171 85.96% OUTRO 0 0 0 0 0 0 0 TOTAL PRECISION 259 61.78% 94 92.55% 115 95.65% 104 98.08% 203 72.41% 80 855

Capítulo 4

Este capítulo reúne e sintetiza o trabalho efetuado, apresentado uma sinopse deste documento, as contribuições realizadas com este trabalho e as conclusões finais que advieram da realização deste trabalho. Indica também as propostas de trabalho futuro que usam este trabalho como base.

4.1 SINOPSE

De seguida resumem-se os resultados obtidos com a presente dissertação, capítulo a capítulo.

Como introdução enquadra-se este trabalho no domínio da informática médica, introduzindo os objetivos desta área de estudo. Descrevem-se os meios complementares de diagnóstico, com foco especial na endoscopia, como métodos de apoio à decisão, e são apresentados dados que comprovam a importância destes exames no ato médico. As técnicas endoscópicas são aqui apresentadas de um modo resumido. São também introduzidos os problemas que este trabalho visa solucionar, os objetivos a que se propõe e a metodologia de investigação seguida. Posteriormente é realizado um levantamento do estado da arte para os três assuntos principais deste trabalho: Sistemas de Arquivo e Gestão de Gastroenterologia, Criação de Imagens Tridimensionais em Computador e Reconhecimento de Voz. Para cada um destes temas é explorada a tecnologia que incorporam, bem como uma listagem não-exaustiva de sistemas já existentes cujas capacidades e objetivos se aproximem dos objetivos deste trabalho. Antes de apresentar o trabalho realizado no âmbito da criação do módulo de reconhecimento de voz para a MIVbox, é feita uma exposição aprofundada sobre todas as tecnologias usadas na MIVbox, que servem de base a muito do trabalho realizado. Quanto ao trabalho realizado, é descrito o processo de criação do programa e as suas capacidades, explicitando o caminho que foi percorrido até chegar à versão final. É também realizado uma descrição pormenorizada dos passos necessários à criação do modelo de dados que permite efetuar o reconhecimento de voz.

Por fim, são apresentados os resultados obtidos nos testes efetuados, e feita a sua interpretação à luz do resto do trabalho.

4.2 CONTRIBUIÇÕES

Para os profissionais de saúde, uma nova interface que resolva alguns dos problemas levantados durante a endoscopia só pode contribuir para a realização de um trabalho mais produtivo, levando a um enfoque maior nos resultados a obter, e menos tempo e concentração perdidas em questões técnicas.

O facto dos profissionais de saúde terem melhores ferramentas para a realização de exames leva a uma melhoria na qualidade do serviço de saúde prestado. Ainda que indiretamente, os utentes sofrem menos desconforto durante os exames que tiverem de realizar, para além dos efeitos positivos nos diagnósticos relacionados.

As entidades prestadoras de cuidados de saúde têm à sua disposição uma nova ferramenta que lhes permite rentabilizar o tempo dos profissionais de saúde de maneira a atingir o seu objetivo de aumentar os standards de atendimento aos utentes.

Finalmente, os investigadores que trabalhem nesta área têm acesso a um sistema MIVbox melhorado, com a adição de novas interfaces de controlo, que podem servir como modelo para outros trabalhos. Está também disponível a possibilidade de usar as bibliotecas do PocketSphinx a partir do Qt, adaptando o código desenvolvido.

A partir do trabalho desenvolvido resultaram duas publicações científicas, intituladas “Endoscopic Procedures Control Using Speech Recognition” [97] e “Multilingual Voice Control for Endoscopic Procedures” [102]. Este facto é consistente com a metodologia de investigação delineada na Introdução. Foi também realizado um levantamento do estado da arte sobre Criação de Imagens Tridimensionais em Computador com vista à sua implementação como um módulo separado da MIVbox. A implementação deste módulo foi devidamente planeada, com um conjunto de metas com datas definidas, que coincidiam com a conclusão deste trabalho. Pouco tempo depois foi decidido que implementar um sistema de reconhecimento de voz era mais importante, devido ao facto do projecto MyEndoscopy estar a aproximar- se do final. Já que foi dada prioridade à implementação do módulo MIVcontrol, não houve oportunidade de concluir este desenvolvimento, pelo que é proposto como trabalho futuro, partindo desta base.

4.3 CONCLUSÕES

O trabalho efetuado no âmbito da presente dissertação teve como resultado a criação de um módulo de reconhecimento de voz para a MIVbox. Este módulo permite a um profissional de saúde controlar o endoscópio usando comandos de voz.

O MIVcontrol é um reconhecedor de voz para um pequeno vocabulário, que é usado como sistema de comando e controlo, integrado no projeto MyEndoscopy, mais propriamente na MIVbox. As capacidades existentes do projeto CMU Sphinx são utilizadas em pleno, particularmente das bibliotecas

PocketSphinx. O sistema foi criado para responder às necessidades dos gastroenterologistas e deve ser

tido como alternativa a sistemas baseados na cloud, devido a requerimentos mais exigentes quanto toca à segurança e privacidade dos pacientes. O facto de ser completamente self-contained, sem dependências externas torna-o atrativo e aumenta as probabilidades de ser adotado na prática.

Os resultados obtidos resultam de tuning extensivo aos parâmetros do PocketSphinx, necessário para adaptar estas bibliotecas a línguas como português, que iam para além dos testes realizados pelos seus criadores. Conseguiu-se uma taxa de erro comparável com outras adaptações já realizadas para línguas diversas, desde línguas de Índios Americanos e Romani [103], Espanhol do México [101], Mandarim [104], Árabe [105], e Sueco [106].

No capítulo do estado da arte está apresentado a Criação de Imagens Tridimensionais em Computador. Como trabalho futuro, este capítulo pode ser desenvolvido até tornar-se um módulo separado da MIVbox, tentativamente denominado MIV3D. Este módulo deverá ser capaz de localizar as ocorrências endoscópicas num modelo tridimensional realístico do corpo humano. Esta localização deve ser automática, aproveitando os dados já existentes para reduzir ao mínimo a intervenção dos profissionais de saúde.

REFERÊNCIAS

[1] R. Haux, “Medical Informatics: Past, Present, Future,” Int. J. Med. Inform., vol. 79, no. 9, pp. 599– 610, Sep. 2010.

[2] J. R. Moehr, “The quest for identity of health informatics and for guidance to education in it: the German Reisensburg Conference of 1973 revisited,” IMIA Yearb. Med. Informatics, pp. 201–210, 2004.

[3] Á. Rocha and J. Vasconcelos, “Os Modelos de Maturidade na Gestão de Sistemas de Informação,”

Revista da Faculdade de Ciência e Tecnologia, Porto, pp. 93–107, 2000.

[4] L. Pisco, “A Reforma dos Cuidados de Saúde Primários,” Cadernos de Economia, pp. 60–66, 2007.

[5] T. L. de S. Pereira, “Unidades de Saúde Familiar – A Evolução na Gestão dos Cuidados de Saúde Primários em Portugal,” 2011.

[6] I. Laranjo, J. Braga, D. Assunção, A. Silva, C. Rolanda, L. Lopes, J. Correia-Pinto, and V. Alves, “Web-Based Solution for Acquisition, Processing, Archiving and Diffusion of Endoscopy Studies,” in

Distributed Computing and Artificial Intelligence, vol. 217, Springer International Publishing, 2013, pp. 317–24.

[7] W. K. Hirota, M. J. Zuckerman, D. G. Adler, R. E. Davila, J. Egan, J. A. Leighton, W. A. Qureshi, E. Rajan, R. Fanelli, J. Wheeler-Harbaugh, T. H. Baron, and D. O. Faigel, “ASGE guideline: the role of endoscopy in the surveillance of premalignant conditions of the upper GI tract.,” Apr. 2006. [8] M. Classen, G. N. J. Tytgat, and C. J. Lightdale, Gastroenterological endoscopy, vol. 34, no. 10.

Thieme, 2002, p. 777.

[9] L. Hong, A. E. Kaufman, Y.-C. Wei, A. Viswambharan, M. Wax, and Z. Liang, “3D virtual colonoscopy,” in Proceedings 1995 Biomedical Visualization, 1995, pp. 26–32,83.

[10] G. D. Meron, “The development of the swallowable video capsule (M2A),” Gastrointest. Endosc., vol. 52, no. 6, pp. 817–819, 2000.

[11] Portascope.com, “Complimentary Endoscope Information and Inspection Procedures,” Olympus Pentax Fujinon Endoscopes Endoscopy Equipment Inventory, 2012. [Online]. Available:

http://www.1800endoscope.com/faq.htm. [Accessed: 01-Sep-2014].

[12] BeverlyOaksSugery, “Endoscopy,” Beverly Oaks Surgery, 2014. [Online]. Available:

[14] J. Vanamburg, “Colonoscopy / Endoscopy,” Van Amburg Surgery Care, 2014. [Online]. Available: http://www.vanamburgsurgery.com/colonoscopy/. [Accessed: 25-Sep-2014].

[15] EugeneGI, “Colonoscopy,” Eugene Gastroenterology Consultants, 2014. [Online]. Available: http://www.eugenegi.com/procedures/procedures. [Accessed: 20-Sep-2014].

[16] B. Penna, T. Tillo, M. Grangetto, E. Magli, and G. Olmo, “A technique for blood detection in wireless capsule endoscopy images,” 17th Eur. Signal Process. Conf., pp. 1864–1868, 2009.

[17] B. S. Lewis and P. Swain, “Capsule endoscopy in the evaluation of patients with suspected small intestinal bleeding: Results of a pilot study,” Gastrointest. Endosc., vol. 56, no. 3, pp. 349–353, Sep. 2002.

[18] T. Tillo, E. Lim, Z. Wang, J. Hang, and R. Qian, “Inverse Projection of the Wireless Capsule Endoscopy Images,” in 2010 International Conference on Biomedical Engineering and Computer Science, 2010, pp. 1–4.

[19] P. M. Szczypinski, P. V. J. Sriram, R. D. Sriram, and D. N. Reddy, “Model of deformable rings for aiding the wireless capsule endoscopy video interpretation and reporting,” in Computer Vision and Graphics, K. Wojciechowski, B. Smolka, H. Palus, R. S. Kozera, W. Skarbek, and L. Noakes, Eds. Warsaw: Kluwer Academic Publishers, 2004, pp. 167–172.

[20] G. Pan and L. Wang, “Swallowable Wireless Capsule Endoscopy: Progress and Technical Challenges,” Gastroenterology Research and Practice, vol. 2012. pp. 1–9, 2012.

[21] H. M. Fenlon, D. P. Nunes, P. C. Schroy III, M. A. Barish, P. D. Clarke, and J. T. Ferrucci, “A comparison of virtual and conventional colonoscopy for the detection of colorectal polyps.,” N. Engl. J. Med., vol. 341, no. 20, p. 14961503, Nov. 1999.

[22] D. Ibrahim, “Apple Core Sign - Cancer Colon,” Radiopedia, 2014. [Online]. Available: http://radiopaedia.org/cases/apple-core-sign-cancer-colon-1. [Accessed: 26-Sep-2014]. [23] R. Prus, “Generic Social Processes: Maximizing Conceptual Development in Ethnographic

Research,” J. Contemp. Ethnogr., vol. 16, no. 3, pp. 250–293, Oct. 1987.

[24] D. E. Avison, F. Lau, M. D. Myers, and P. A. Nielsen, “Action research,” Commun. ACM, vol. 42, no. 1, pp. 94–97, Jan. 1999.

[25] B. Somekh, Action research : a methodology for change and development. 2006, p. 225. [26] J. McNiff, Action research for professional development. 2002, p. 32.

[27] PENTAX, “PENTAX endoPro iQ Technology Solutions,” 2010.

[28] XION, “DiVAS Image and Video Analysis,” XION Medical, 2010. [Online]. Available: http://www.xion-medical.com/en/components/divas-software/image-and-video-analysis. [Accessed: 30-Oct-2014].

[29] SiiMA, “SiiMA - management of SMDTs in clinical services,” 2011.

[30] RichardWolf, “VictOR HD HDTV Recording Technology - a touching experience,” 2011.

[31] M. Veit and S. Herrmann, “Model-view-controller and object teams,” in Proceedings of the 2nd international conference on Aspect-oriented software development - AOSD ’03, 2003, pp. 140– 149.

[32] A. Raja, “Introduction to the Model-View-ViewModel Pattern,” INFRAGISTICS, 2012. [Online]. Available: http://www.infragistics.com/community/blogs/anand_raja/archive/2012/02/20/the- model-view-viewmodel-101-part-1.aspx.

[33] A. Skendzic, B. Kovacic, and I. Jugo, “Decreasing information technology expenses by using emulators on Windows and Linux platforms,” 2011 Proc. 34th Int. Conv. MIPRO, pp. 1387–1390, 2011.

[34] M. Jazayeri, “Some Trends in Web Application Development,” in Future of Software Engineering (FOSE ’07), 2007, pp. 199–213.

[35] P. Fraternali, “Tools and approaches for developing data-intensive Web applications: a survey,”

ACM Comput. Surv., vol. 31, no. 3, pp. 227–263, Sep. 1999.

[36] G. Rossi, Web Engineering: Modelling and Implementing Web Applications, vol. 12. London: Springer London, 2008, p. 464.

[37] M. Jern, “‘Thin’ vs. ‘fat’ visualization clients,” in Proceedings of the working conference on Advanced visual interfaces - AVI ’98, 1998, p. 270.

[38] S. P. Mirashe and N. V. Kalyankar, “Cloud Computing,” Commun. ACM, vol. 51, p. 9, Mar. 2010. [39] L. Case, “All About Video Codecs and Containers,” PCWorld, 2010. [Online]. Available:

http://www.techhive.com/article/213612/all_about_video_codecs_and_containers.html?page=0. [Accessed: 20-Aug-2014].

[40] M. Pilgrim, “Video on the Web,” in HTML5: Up & Running, O’Reilly, 2010, p. 53.

[41] Dapeng Wu, Y. T. Hou, W. Zhu, Y.-Q. Zhang, and J. M. Peha, “Streaming video over the Internet: approaches and directions,” IEEE Trans. Circuits Syst. Video Technol., vol. 11, no. 3, pp. 282–300, Mar. 2001.

[42] N. Rump, “MPEG-2 Video 1,” 2006.

[43] J.-R. Ohm and G. Sullivan, “MPEG-4 Advanced Video Coding,” 2005. [44] Xiph.Org, “Theora Specification,” 2011.

[46] V. K. M. Vadakital and D. Singer, “ISO/IEC JTC1/SC29/WG11 - Coding of Moving Pictures and Audio,” Geneva, Switzerland, 2013.

[47] S. Pfeiffer and A. Mankin, “The Ogg Encapsulation Format Version 0,” Feb. 2003.

[48] E. F. Codd, “A relational model of data for large shared data banks,” Commun. ACM, vol. 13, no. 6, pp. 377–387, Jun. 1970.

[49] A. Pavlo, E. Paulson, A. Rasin, D. J. Abadi, D. J. DeWitt, S. Madden, and M. Stonebraker, “A comparison of approaches to large-scale data analysis,” in Proceedings of the 35th SIGMOD international conference on Management of data - SIGMOD ’09, 2009, p. 165.

[50] J. Han, M. Song, and J. Song, “A Novel Solution of Distributed Memory NoSQL Database for Cloud Computing,” in 2011 10th IEEE/ACIS International Conference on Computer and Information Science, 2011, pp. 351–355.

[51] N. Tryfona, F. Busborg, and J. G. Borch Christiansen, “starER,” in Proceedings of the 2nd ACM international workshop on Data warehousing and OLAP - DOLAP ’99, 1999, pp. 3–8.

[52] J. Dean and S. Ghemawat, “MapReduce: a flexible data processing tool,” Commun. ACM, vol. 53, no. 1, p. 72, Jan. 2010.

[53] C. J. Date and H. Darwen, A Guide to the SQL Standard. New York, New York, USA: Addison- Wesley, 1987, p. 544.

[54] S. Doll, “Is SQL a standard anymore?,” TechRepublic’s Builder.com, p. 3, 2002.

[55] E. F. Codd, The relational model for database management, version 2. Reading, MA: Addison- Wesley, 1990, p. 538.

[56] J. S. van der Veen, B. van der Waaij, and R. J. Meijer, “Sensor Data Storage Performance: SQL or NoSQL, Physical or Virtual,” in 2012 IEEE Fifth International Conference on Cloud Computing, 2012, pp. 431–438.

[57] J. Han, H. E, G. Le, and J. Du, “Survey on NoSQL database,” in 2011 6th International Conference on Pervasive Computing and Applications, 2011, pp. 363–366.

[58] T. Macedo and F. Oliveira, Redis Cookbook. O’Reilly, 2011, p. 72.

[59] K. Chodorow and M. Dirolf, MongoDB: the definitive guide. O’Reilly, 2010, p. 432.

[60] J. C. Anderson, J. Lehnardt, and N. Slater, CouchDB: the definitive guide. O’Reilly, 2010, p. 272. [61] A. Lakshman and P. Malik, “Cassandra: a decentralized structured storage system,” ACM SIGOPS

[62] M. Hadwiger, C. Sigg, H. Scharsach, K. Bühler, and M. Gross, “Real-Time Ray-Casting and Advanced Shading of Discrete Isosurfaces,” Comput. Graph. Forum, vol. 24, no. 3, pp. 303–312, Sep. 2005.

[63] J. Spoerk, C. Gendrin, C. Weber, M. Figl, S. A. Pawiro, H. Furtado, D. Fabri, C. Bloch, H.

Bergmann, E. Gröller, and W. Birkfellner, “High-performance GPU-based rendering for real-time, rigid 2D/3D-image registration and motion prediction in radiation oncology.,” Z. Med. Phys., vol. 22, no. 1, pp. 13–20, Feb. 2012.

[64] S. Parker, P. Shirley, Y. Livnat, C. Hansen, and P.-P. Sloan, “Interactive Ray Tracing for Isosurface Rendering,” in Proceedings of the Conference on Visualization ’98, 1998, pp. 233–238.

[65] A. Kulaga and P. Gillich, “Investigation of Integrating Three-Dimensional (3-D) Geometry into the Visual Anatomical Injury Descriptor (Visual AID) Using WebGL,” 2011.

[66] J.-B. Pettit and J. C. Marioni, “bioWeb3D: an online webGL 3D data visualisation tool,” BMC Bioinformatics, vol. 14, no. 1, p. 185, Jan. 2013.

[67] W. Zhang, H. Yuan, J. Wang, and Z. Yan, “A WebGL-based method for visualization of intelligent grid,” no. 2010, pp. 1546–1548, 2011.

[68] C. Marin, “WebGL Specification,” 2011.

[69] J. Congote, “MEDX3DOM: MEDX3D for X3DOM,” in Proceedings of the 17th International Conference on 3D Web Technology, 2012, pp. 91–147.

[70] A. P. Harvey, R. J. McCrindle, K. Lundqvist, and P. Parslow, “Automatic speech recognition for assistive technology devices,” in Proc. 8th Intl Conf. Disability, Virtual Reality & Associated Technologies, Valparaíso, 2010, pp. 273–282.

[71] G. G. Chowdhury, “Natural language processing,” Annu. Rev. Inf. Sci. Technol., vol. 37, no. 1, pp. 51–89, 2003.

[72] M. Aymen, A. Abdelaziz, S. Halim, and H. Maaref, “Hidden Markov Models for automatic speech recognition,” in 2011 International Conference on Communications, Computing and Control Applications (CCCA), 2011, pp. 1–6.

[73] Y. Zhao, “Speech-Recognition Technology in Health Care and Special-Needs Assistance,” IEEE Signal Process. Mag., vol. 26, no. 3, pp. 87–90, May 2009.

[74] T. Beran, V. Bergl, R. Hampl, P. Krbec, J. Šedivý, B. Tydlitát, and J. Vopička, “Embedded ViaVoice,” in Text, Speech and Dialogue, vol. 3206, P. Sojka, I. Kopeček, and K. Pala, Eds. Berlin, Heidelberg: Springer Berlin Heidelberg, 2004, pp. 269–274.

[77] Nuance, “Dragon Medical 360 | Network Edition,” Nuance Products, 2014. [Online]. Available: http://www.nuance.com/products/dragon-medical-360-network-edition/index.htm. [Accessed: 01- Sep-2014].

[78] R. G. Zick and J. Olsen, “Voice Recognition Software versus a Traditional Transcription Service for Physician Charting in the ED,” Am. J. Emerg. Med., vol. 19, no. 4, pp. 295–8, Jul. 2001.

[79] D. I. Rosenthal, F. S. Chew, D. E. Dupuy, S. V. Kattapuram, W. E. Palmer, R. M. Yap, and L. A. Levine, “Computer-Based Speech Recognition as a Replacement for Medical Transcription,” Am. J. Roentgenol., vol. 170, no. 1, pp. 23–25, Jan. 1998.

[80] X. Wang, F. Wu, and Z. Ye, “The Application of Speech Recognition in Radiology Information System,” in 2010 International Conference on Biomedical Engineering and Computer Science, 2010, no. 09, pp. 1–3.

[81] E. D. Liddy, “Natural language processing,” in Encyclopedia of Library and Information Science, Marcel Decker, Inc, 2003, pp. 2126–2136.

[82] S. Feldman, “NLP Meets the Jabberwocky: Natural Language Processing in Information Retrieval,”

ONLINE, vol. 23, no. 3, pp. 62–71, 1999.

[83] P. Lamere, P. Kwok, E. Gouvea, B. Raj, R. Singh, W. Walker, M. Warmuth, and P. Wolf, “The CMU SPHINX-4 speech recognition system,” in IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP 2003), Hong Kong, 2003, vol. 1, pp. 2–5.

[84] P. Woodland, J. Odell, V. Valtchev, and S. Young, “Large Vocabulary Continuous Speech

Recognition using HTK,” in 1994 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1994. ICASSP-94., 1994, pp. 7–10.

[85] P. Woodland, C. J. Leggetter, J. Odell, V. Valtchev, and S. Young, “The 1994 HTK large vocabulary

No documento Reconhecimento de voz multilingue para controlo de procedimentos endoscópicos (páginas 69-89)