Fernando Silveira - Executando ações com comando de voz usando a API Microsoft Speech na plataforma .NET

(1)

Executando ações com comando de voz usando a API

Microsoft Speech na plataforma .NET

Fernando Lopes Mungo da Silveira, Marcos Aberto Lopes da Silva

Instituto de Informática – Centro Universitário do Triângulo (UNITRI) Caixa Postal 309 – 38.411-106 – Uberlândia – MG – Brasil

[email protected], [email protected]

Resumo. A tecnologia atualmente têm se tornado parte da vida das pessoas,

pelo fato de proporcionarem maior qualidade de vida, conforto, segurança, diversão, praticidade, comodidade e a cada dia tornam-se mais avançadas e eficientes. Estes avanços tecnológicos se tornam cada vez mais indispensáveis na vida das pessoas, e uma das tecnologias de destaque é a de reconhecimento de voz, que têm oferecido maior facilidade, conforto, diversão e acessibilidade principalmente para usuários com necessidades especiais. Este artigo têm como objetivo principal apresentar o desenvolvimento de um jogo utilizando a tecnologia Speech da Microsoft que oferece suporte ao reconhecimento de voz, substituindo assim o uso de mecanismos externos como mouse, teclado e joystick para executar as ações no jogo.

1. Introdução

Atualmente é possível perceber uma grande evolução nos meios de comunicação entre homem e máquina, numa era em que a comodidade, facilidade e interação com o computador vêm se tornando cada vez mais essenciais na vida das pessoas que buscam através da tecnologia maneiras diferentes para se divertir, ações para facilitar seu dia e até mesmo um status diante das outras pessoas. A tecnologia de reconhecimento de voz oferece isso e muito mais.

O mundo tecnológico está passando por uma grande evolução na forma de interação das pessoas com computadores e eletrônicos. Como já dizia Bill Gates em 2007 "Estamos chegando muito perto de um novo conceito denominado interfaces naturais" e atualmente estamos vivendo este conceito, pois os investimentos em tecnologias feitos a algum tempo estão começando a dar frutos agora, em forma de aparelhos que são capazes de reconhecer a voz, visão, gestos, ajudando assim a vida de pessoas com necessidades especiais, auxiliando como arma anti-fraude, aumentando a diversão em jogos eletrônicos, aumentando a comodidade das pessoas com interação da televisão, etc [ABRIL, 2007].

Nesse contexto o objetivo deste trabalho é demonstrar de forma prática em um estudo de caso o funcionamento da ferramenta Speech da Microsoft utilizando do reconhecimento de voz para executar os comandos do programa que será desenvolvido no final do artigo.

2. Evolução das Tecnologias

Atualmente, devido ao grande crescimento e avanço da tecnologia, diversas evoluções tecnológicas que no passado eram consideradas impossíveis estão sendo utilizadas como

(2)

forma de facilitar ainda mais a vida das pessoas. Este avanço acontece em varias áreas e de forma muito acelerada [TAFNER].

O mercado tecnológico têm a oferecer uma vasta quantidade de produtos de última geração com grandes avanços tecnológicos, o que têm aumentado assim a concorrência entre os consumidores, que buscam produtos com maior qualidade e tecnologias oferecida, como forma de se destacarem do restante dos usuários. O avanço de grande destaque atualmente é a tecnologia de reconhecimento que têm se propagado e destacado cada vez mais no mercado atraindo assim mais consumidores que estão deixando de utilizar mecanismos físicos como mouse, teclado ou joystick como elo de ligação entre homem e maquina esta tecnologia está presente em dispositivos móveis, TVs, GPS, automóveis, computadores, videogames, etc [TAFNER].

2.1. Dispositivos Móveis

A tecnologia de reconhecimento está presente também em dispositivos móveis como Tablets e SmartPhones. Uma pesquisa feita pela empresa NPD GROUP [NPD] mostra que cada vez mais esses dispositivos estão substituindo os notebooks e desktops em tarefas executadas no cotidiano dos usuários como: acesso a email, redes sociais, navegar na web e jogos, devido ao fato de serem mais portáteis facilitando ainda mais a vida das pessoas.

A tecnologia de reconhecimento de voz utilizada nesses dispositivos substitui o uso da mão para interagir com o dispositivo, permitindo assim uma aceitação muito grande por parte das pessoas com deficiência.

Atualmente no mercado existem dois principais serviços de reconhecimento de voz para dispositivos móveis, o SIRI do sistema IOS que funciona apenas para produtos da APPLE e o Google Voice do Android que é utilizado pela maior parte dos produtos no mercado [SEARCH].

Outro avanço que está sendo usado em empresas e bancos e têm se destacado na área de segurança e fraude é a utilização do reconhecimento de voz para identificar se seus clientes são reais ou fraudadores, diferentemente da impressão digital que é estática a voz é uma forma dinâmica sendo mais difícil se der reproduzida e copiada digitalmente. A voz tem importância crucial já que a forma principal de interação com as empresas é o atendimento telefônico [BCC].

2.2. Jogos Eletrônicos

Em 2010 aconteceu um avanço e que até hoje é considerado um dos principais marcos na tecnologia de reconhecimento de movimento, desenvolvido pelo brasileiro Alex Kipman, o Kinect acessório da Microsoft utiliza do reconhecimento de movimento e de voz para comunicar o usuário com o sistema e tem se tornado cada vez mais prático, divertido e realista o que tem atraído mais consumidores [KIPMAN A].

O ano de 2013 será marcado pelo lançamento do novo Xbox One o videogame da Microsoft e o PS4 da Sony, ambos os consoles utilizaram da tecnologia de reconhecimento de voz para aprimorar ainda mais a jogatina [CAMERA].

2.3. TVs

Outro produto que até o ano de 2012 não contava com a tecnologia de reconhecimento de voz e hoje têm se destacado no mercado permitindo maior comodidade para o usuário são as famosas Smart Tvs, que atualmente contam com reconhecimento de voz para executar funções da TV como: ligar e desligar, mudar de canal, aumentar e

(3)

diminuir o volume, navegar na internet tudo isso sem a necessidade de usar o controle remoto. Para isso foram utilizados microfones tanto na TV quanto no controle remoto para reconhecer a voz de qualquer pessoa sem precisar fazer alguma configuração [TV].

2.4. Computadores

O ano de 2011 foi um marco para a tecnologia mundial, com a criação do 1° super computador capaz de entender a linguagem natural das pessoas, criado pela empresa IBM o chamado computador Watson, é capaz de responder de forma individualizada as perguntas dos usuários, formuladas semanticamente, em linguagem coloquial em que havia duplo sentido, ambigüidade, ironia e jogos de palavras, tudo isso em menos de três segundos [IBM] [TERRA].

Em 2012 com a utilização do Microsoft Research em parceria com a Universidade de Washigton foi possível desenvolver o SoundWave uma tecnologia que utiliza de microfones e alto-falantes para reconhecer movimentos sendo possível bloquear automaticamente a tela quando o usuário se afasta do notebook e desbloquear quando o mesmo se aproxima do equipamento [NPD].

Assim como com o Kinect a Microsoft também disponibilizou para os hackers o SDK (Software Developmen Kit) da API (Application Programming Interface ou Interface de Programação de Aplicativos) Microsoft Speech sendo possível assim expandir as funcionalidades desta tecnologia de reconhecimento de voz, o que será discutido nos próximos tópicos como objetivo principal deste projeto.

3. Reconhecimento de Voz

O principal foco deste projeto é utilizar a tecnologia de reconhecimento de voz para executar ações em uma aplicação e tão importante quanto o estudo de caso é o conhecimento desta tecnologia, conforme descrito nos próximos tópicos.

3.1. História

Relacionada diretamente com a evolução e história dos computadores e do processamento de sinal digital, o reconhecimento de voz no começo foi apontado como uma tecnologia fácil de ser implementada, porém conforme avanços das pesquisas foram identificando divergências entre a voz de uma pessoa para outra o que se tornou um problema muito complexo para ser resolvido [TAFNER].

O reconhecimento de fala em computadores é um problema difícil de se resolver, pois necessita compreender o vocabulário extenso da voz humana, outro ponto que torna esta tarefa ainda mais complexa são as características do sinal de fala que podem ser diferentes de acordo com o sexo, velocidade de fala e ainda a interferência causada pelo ambiente externo sendo necessário a utilização de um removedor de ruídos [Antonio J].

3.2. Conceito

O termo "reconhecimento de voz" é utilizado constantemente com diversos sentidos, porém refere-se a tecnologias diferentes. O processo de reconhecimento de voz pode ser implementado principalmente em: comando de voz, fala natural, síntese de voz e autenticação de voz. Conforme descrito abaixo:

 Reconhecimento de palavras (implementado nos comandos de voz): Define-se por reconhecer apenas um pequeno trecho de fala, como forma de identificar a ação que será executada pelo sistema. Este reconhecimento é feito de forma simples pois

(4)

o sistema já possui os comandos pré-configurados, não necessitando assim de que o usuário configure quais serão os comandos a serem executados pelo sistema. Utilizado em centrais de serviços de atendimento ao cliente, onde o usuário pode utilizar a voz para escolher uma das opções sem precisar utilizar as teclas do telefone [GUILHOTO].

 Reconhecimento de Fala natural: Compreende única ou mais frases, ou seja, diversas palavras com um sentido semântico. A fala então é identificada e interpretada pelo sistema e então é convertida em texto. Utilizado em editores de texto como a ferramenta Microsoft Speech Recognition e no super computador Watson da IBM citado anteriormente [GUILHOTO, FOLHA].

 Síntese de voz: Método inverso ao reconhecimento de fala. O usuário digita um texto utilizando as teclas e o sistema converte este texto digital em ondas sonoras, um programa assim é utilizado quando o usuário não pode tirar sua atenção para ler algo ou pelo fato do mesmo possuir deficiência visual [GUILHOTO]. Esta função pode ser utilizada no "Google Tradutor" (http://translate.google.com.br/).

 Autenticação de voz: A voz sendo única de cada pessoa pode ser utilizada como forma de autenticar o acesso daquela pessoa em um determinado local ou em um sistema. Atualmente é utilizado em diversos telefones onde apenas o dono pode ter acesso ao equipamento [GUILHOTO].

3.2.1. Reconhecimento de fala no computador

Para que o processamento do sinal de som ocorra é fundamental a utilização do computador, que além de processar a informação referente ao sinal, é responsável também pela captura do sinal sonoro e processá-lo em sinal digital, mais especificadamente isto é feito pela placa de som. Caracterizadas como componentes ou periféricos do computador as placas de som transformam o sinal analógico em sinal digital só assim o computador consegue reconhecer o sinal [MALVINO].

O reconhecimento de fala consiste em processar o sinal acústico que foi capturado por um dispositivo de voz (microfone ou telefone) em uma conjunto de palavras, isto é, através de uma entrada em forma de sinal é processado uma saída em forma de palavras de acordo com o sinal de entrada [NETO].

A figura 1 demonstra o funcionamento do reconhecimento de fala no computador onde a voz é capturado por um microfone, processada em um sistema de reconhecimento de fala que identifica semelhança entre o sinal digital do usuário com o sinal digital cadastrado no sistema e então produz como saída o texto "dois".

Figura 1. Processo de reconhecimento de fala [NETO] 3.2.2. Reconhecimento de fala e comparação de padrões

Após ser executado o processo de reconhecimento de fala (conforme a Figura 1), o sistema então tenta encontrar semelhanças entre o sinal de fala pronunciado pelo usuário (até então desconhecido) e os sinais de fala que já estão configurados e

(5)

armazenados no sistema e o sinal mais semelhante ao do usuário é escolhido. Para melhor entendimento do funcionamento do sistema de reconhecimento de fala e comparação de padrões, segue Figura 2.

Figura 2. Reconhecimento de fala e comparação de padrões [NETO]

O processamento do sinal de fala é responsável por capturar o sinal sonoro, digitalizá-lo e convertê-lo em um conjunto de parâmetros para que possam ser comparados os padrões.

O sistema neste caso possui em seu banco de dados alguns padrões de referência que foram configurados e armazenados na etapa de treinamento. O sinal digitalizado e até então desconhecido, passa pelo processo de comparação de padrões afim de que seja encontrado dentre os padrões de referência algum que seja mais semelhante.

Na fase de pós processador são verificados os resultados obtidos para encontrar os melhores padrões de referência. Com o intuito de exemplificar de forma mais simples e objetiva todo o reconhecimento de voz, segue a Figura 3.

Figura 3. Fluxograma do processo de reconhecimento de voz e comparação de padrões

Como podemos observar na figura anterior, o sistema capta o sinal falado pelo usuário através de um dispositivo externo (microfone), transforma o sinal sonoro em digital, o sistema então compara o sinal digital do usuário com um que já está cadastrado no sistema, caso o sinal do usuário seja semelhante ao do sistema então é executado a ação que foi definida para aquele comando, caso contrário o sistema

(6)

continua a comparar com os outros sinais cadastrados até encontrar ou até não possuir mais sinais para comparação.

4. Microsoft Speech

Microsoft Speech é um kit de desenvolvimento de software SDK que possui uma API, um Runtime e pacotes de idiomas para compilação de aplicativos que utilizam do reconhecimento de fala e síntese de voz para a plataforma Windows [MSDN].

Diferente de outras API's disponíveis como o Java Speech que é exclusivo para a linguagem de programação Java e VoicePHP disponível para linguagem PHP, a API Microsoft Speech é mais simples e oferece suporte para utilização do dispositivo Kinect da Microsoft.

A plataforma Microsoft Speech dispõe de ferramentas de desenvolvimento necessárias para o uso da tecnologia de reconhecimento de voz, permitindo assim ao usuário se comunicar com a aplicação, complementando ou substituindo o uso de mouses, teclados, controladores, e gestos [Microsoft, 2013].

A ferramenta pode oferecer acesso a habilidade de reconhecer palavras faladas (reconhecimento de voz) e ao gerador de voz sintetizada (text-to-speech) [Microsoft, 2013A].

A ferramenta Microsoft Speech SDK oferece alguns benefícios como:

 Reconhecimento de voz: Permite ao usuário interagir com a aplicação utilizando a fala. É possível controlar a entrada da fala, criar gramáticas de reconhecimento de fala, coletar informações referentes aos eventos gerados pelo reconhecimento de voz, além de configurar os mecanismos de reconhecimento de fala, tudo isso usando as APIs da plataforma [Microsoft, 2013A].

 Síntese de fala (text-to-speech ou TTS): Ao contrário do reconhecimento de voz, permite que o usuário digite um texto que é convertido em fala, tudo isso com apenas algumas linhas de código [Microsoft, 2013A].

 Com a utilização do Microsoft .Speech.Recognition namespace é possível configurar, gerenciar e até mesmo criar gramáticas de reconhecimento de fala para proporcionar resultado literal e semântico [Microsoft, 2013C].

Embora seja possível utilizar gramáticas já definidas através do namespace Microsoft.Speech.Recognition e Microsoft.Speech.Recognition.SrgsGrammar, a ferramenta também oferece opção por desenvolver sua própria gramática utilizando padrões XML em qualquer editor de texto.

5. Estudo de Caso

Para demonstrar na prática e exemplificar o funcionamento da tecnologia Speech conforme abordado anteriormente, será apresentado neste tópico um simples jogo desenvolvido com o intuito de aplicar a ferramenta de reconhecimento de voz para executar os movimentos do jogo.

5.1. Ambiente de Desenvolvimento

Segue na Tabela 1 a descrição de Hardware e Software que foi utilizado para desenvolver e executar o estudo de caso.

(7)

Desenvolvimento Descrição

Hardware Processador Intel Core i5 – 2430M CPU 2.40 GHz, 6 GB de RAM (Random Access Memory ou Memória de Acesso Randômico), Disco rígido de 500 GB (Gigabytes).

Sistema Operacional Microsoft Windows 7 Ultimate, 64 bits.

IDE (Integrated Development

Environment (Ambiente Integrado de

Desenvolvimento)

Visual Studio 2012.

Kit de Desenvolvimento de Software Microsoft Speech Platform Runtime v11.0 Microsoft Speech SDK v11.0

Adicional .NET framework 4.0

5.2. Contexto do Estudo de Caso

O estudo de caso que será apresentado foi desenvolvido utilizando a ferramenta Microsoft Visual Studio 2012 na plataforma .NET. Visto que o foco principal do trabalho é o uso da API Microsoft Speech de reconhecimento de voz, foi desenvolvido um jogo simples, conforme Figura 4.

O objetivo do jogo é fazer com que o carrinho chegue até as bandeiras quadriculadas sem encostar nos cones sendo que o movimento do carrinho não é feito pelo teclado e sim pela voz, onde deve-se pronunciar as seguintes frases; "move to up" para que o carrinho se movimente para cima, "move to back" para movimentar para baixo, "move to right" para mover para a direita e "move to left" para a esquerda.

(8)

Figura 4. Tela principal do jogo

No campo "nível de áudio do microfone" será apresentado um número entre zero(0) e cem(100), onde 0 indica silêncio absoluto do dispositivo de áudio e 100 o nível máximo de áudio. No campo "palavra reconhecida" será informado ao usuário a frase que o sistema reconheceu, sendo que não será mostrado uma frase ou palavra que não esteja definida na gramática.

Caso o carrinho venha a colidir com algum cone, será mostrado na tela uma caixa de mensagem (MsgBox) com a mensagem "Bateu!" e o tempo do inicio do jogo até a colisão, e após isso será fechado o jogo. Se o carrinho chegar nas bandeiras quadriculadas, também será exibido um MsgBox, porém com a mensagem "Parabéns você conseguiu!!!" e o tempo gasto no jogo, após isso o jogo será fechado.

5.3. Desenvolvimento da Aplicação

Para desenvolver a aplicação após instalar o ambiente de desenvolvimento, é necessário adicionar as seguintes referências para o projeto: Microsoft Speech Object Library versão 11.0 e System.Speech versão 4.0.

Além disso é necessário importar algumas bibliotecas para o projeto, conforme é mostrado na Figura 5.

Imports System

Imports System.Collections.Generic Imports System.ComponentModel Imports System.Data

(9)

Imports System.Drawing Imports System.Linq Imports System.Text Imports System.Windows.Forms Imports System.Speech.Recognition Imports System.Collections.ObjectModel

Figura 5. Bibliotecas importadas para o Projeto

A aplicação de reconhecimento de voz, normalmente realiza as seguintes operações básicas [Microsoft, 2013E]:

 Inicializa o reconhecedor de voz

 Ajusta a entrada para o reconhecimento de voz  Cria uma gramática de reconhecimento de fala  Coloca a gramática no reconhecedor de voz

 Registra-se para notificação de eventos de reconhecimento de voz  Cria um manipulador para o evento de reconhecimento de fala  Inicia o reconhecimento

Na Figura 6 é possível visualizar o código necessário para inicializar o reconhecimento de voz.

Public Sub New() MyBase.New()

InitializeComponent()

'INICIALIZAR RECONHECEDOR DE VOZ

Dim recognizer As SpeechRecognitionEngine = New SpeechRecognitionEngine(New System.Globalization.CultureInfo("en-US"))

'AJUSTE DE ENTRADA PARA O RECONHECIMENTO DE VOZ recognizer.SetInputToDefaultAudioDevice() 'CRIA A GRAMÁTICA DE RECONHECIMENTO DE VOZ

Dim commandGrammar As Grammar = New Grammar("gramatica_xml.xml") commandGrammar.Name = "comando da Gramatica"

'CARREGA A GRAMÁTICA NO RECONHECEDOR DE VOZ recognizer.LoadGrammar(commandGrammar)

'OCORRE QUANDO É DETECTADO NA MUDANÇA NO NÍVEL DE AUDIO. AddHandler recognizer.AudioLevelUpdated, AddressOf Me.recognizer_AudioLevelUpdated

'OCORRE QUANDO É RECONHECIDO A VOZ

AddHandler recognizer.SpeechRecognized, AddressOf Me.MovimentoGrammar_SpeechRecognized

'INICIA O RECONHECIMENTO

recognizer.RecognizeAsync(RecognizeMode.Multiple) End Sub

Figura 6. Iniciando o reconhecimento de voz

É possível verificar na Figura 6 a criação da nova instância SpeechRecognitionEngine que utiliza o parâmetro CultureInfo para definir a cultura que o motor do reconhecimento de voz deve utilizar, nesse caso foi definido em Inglês dos EUA (en-US).

O método SetInputToDefaultAudioDevice foi definido para receber a entrada de voz pelo dispositivo de áudio padrão do computador, também foi realizado testes

(10)

utilizando o método SetInputToWaveFile que define a entrada de voz a partir de um arquivo no formato .wav.

A Gramática foi iniciada a partir de um documento no formato .xml desenvolvido em um editor de texto simples, conforme Figura 7.

</rule>

<item> up </item> <item> back </item> <item> right </item> <item> left </item> </one-of>

</rule> </grammar>

Figura 7. Arquivo .XML desenvolvido em um Bloco de Notas

Na figura 7, é possível verificar um código bastante simples em xml, que é usado como gramática para o reconhecimento de fala. Para que o sistema possa reconhecer a voz do usuário é necessário que o mesmo pronuncie "move to" e a ação desejada dentre as opções "up","back","right" ou "left".

Ainda na Figura 6, a gramática commandGrammar criada pelo arquivo "gramatica_xml.xml", foi carregada como gramática do reconhecimento de voz.

Quando é detectado uma mudança no nível de áudio é executado o evento recognizer_AudioLevelUpdated, e consequentemente um manipulador de evento, conforme Figura 8, mostrando assim o nível de intensidade do áudio capturado em um Label no Form, este nível vai de zero(0) a cem(100), sendo que zero é silencio absoluto e cem o nível máximo de áudio.

'CRIA UM MANIPULADOR DE EVENTOS PARA O AUDIO DETECTADO

' Ocorre quando uma mudança no nível de áudio é detectado.

Public Sub recognizer_AudioLevelUpdated(ByVal sender As Object, ByVal e As AudioLevelUpdatedEventArgs)

Label4.Text = "Nivel de Audio do Microfone: {0-100}." + e.AudioLevel.ToString End Sub

(11)

Após identificar essa mudança no nível de áudio, conseqüentemente é reconhecido a voz e então executa o evento recognizer_SpeechRecognized que também possui um manipulador de eventos, conforme Figura 9.

Private Sub MovimentoGrammar_SpeechRecognized(ByVal sender As Object, ByVal e As RecognitionEventArgs)

''MOSTRA A PALAVRA RECONHECIDA OU FRASE

Label1.Text = "Texto reconhecido: " + e.Result.Text

'SE O RESULTADO DO RECONHECIMENTO FOR "MOVE TO UP" O CARRO MOVE PARA CIMA If e.Result.Text = "move to up" Then

carro.Top -= 55 Me.Refresh()

'SE O RESULTADO DO RECONHECIMENTO FOR "MOVE TO BACK" O CARRO MOVE PARA BAIXO

ElseIf e.Result.Text = "move to back" Then carro.Top -= -55

Me.Refresh()

'SE O RESULTADO DO RECONHECIMENTO FOR "MOVE TO RIGHT" O CARRO MOVE PARA DIREITA

ElseIf e.Result.Text = "move to right" Then carro.Left += 55

Me.Refresh()

'SE O RESULTADO DO RECONHECIMENTO FOR "MOVE TO LEFT" O CARRO MOVE PARA ESQUERDA

ElseIf e.Result.Text = "move to left" Then carro.Left -= 55 Me.Refresh() Else Exit Sub End If End Sub

Figura 9. Manipulador do evento recognizer_SpeechRecognized

É possível visualizar na Figura 9 as ações que serão executadas no programa quando é reconhecido o comando de voz, conforme contextualizado no tópico 5.2.

Por fim o método RecognizeAsync na Figura 6 é responsável por iniciar o reconhecimento de voz, juntamente com o evento RecognizeMode.Multiple que executa uma ou mais operações de reconhecimento de voz até que um método de parada (RecognizeAsyncCancel ou RecognizeAsyncStop) é chamado, no caso do programa não existe nenhum método de parada.

6. Conclusão

O projeto desenvolvido, demonstra-se o uso da ferramenta Speech da Microsoft como forma de otimizar a interação entre usuário e máquina sem a necessidade de utilizar dispositivos externos como mouse, teclado e joystick, facilitando assim a vida dos usuários e proporcionando maior acessibilidade para pessoas com deficiência.

Este trabalho visa oferecer para desenvolvedores, novas possibilidades de desenvolvimento para enriquecer ainda mais o seu programa, utilizando funcionalidades de reconhecimento de voz, melhorando assim a interação entre usuário e maquina.

No decorrer do projeto foram encontrados várias dificuldades, como a interação entre o aplicativo e o reconhecimento pelo microfone. No princípio do desenvolvimento foi utilizado um arquivo no formato .wav como entrada de áudio para os testes, somente

(12)

após várias pesquisas foi implementado a capacidade de entrada com a utilização do microfone.

Outro ponto de dificuldade encontrada foi ao utilizar a gramática padrão da ferramenta, pois a palavra reconhecida era muito divergente do que era falado, após vários testes identificou-se a necessidade de criar a própria gramática para a aplicação, o que tornou a mesma mais rápida e precisa.

Uma dificuldade, que mesmo após várias pesquisas e testes não foi possível de ser solucionada, foi a utilização do pacote de idiomas em português, foram feitos todos os procedimentos descritos no site da Microsoft para utilização do pacote de idiomas, porém a aplicação não reconhecia o parâmetro "(pt-BR)" que era passado para a instância SpeechRecognitionEngine.

Analisando os resultados obtidos, sugere-se para trabalhos futuros, a utilização do pacote de idiomas da língua portuguesa e modificar o conteúdo semântico da gramática. Aplicar a ferramenta em dispositivos móveis, explorar as funcionalidades da tecnologia e criar uma aplicação mais útil e otimizada auxiliando pessoas com deficiência.

Por fim é possível compreender que o trabalho auxilia de forma objetiva e simples no desenvolvimento de futuros programas utilizando a API Microsoft Speech, visto que no decorrer do projeto os conteúdos pesquisados são complexos, incompletos e na maioria das vezes em outros idiomas dificultando assim o entendimento da ferramenta.

7. Referências

ABRIL. (2007) A hora da colheita. Disponível em:

<http://veja.abril.com.br/especiais/tecnologia_2007/p_068.html>. Acessado em: agosto de 2013.

TAFNER. (1996) Universidade Federal de Santa Catarina. Disponível em: <http://www.eps.ufsc.br/disserta96/tafner/index/index.htm#sum>. Acessado em: agosto de 2013.

KIPMAN A. (2010) Vídeo Game que se joga sem joystick. Disponível em: <http://g1.globo.com/tecnologia/noticia/2010/06/conheca-o-brasileiro-que-criou-o-videogame-que-se-joga-sem-joystick.html>. Acessado em: agosto de 2013.

IBM. (2011) Watson IBM:

<http://www-03.ibm.com/systems/br/power/advantages/watson//>. Acessado em: novembro de 2013.

TERRA. (2011) Disponível em: <http://tecnologia.terra.com.br/hardware-e-

software/computador-watson-e-o-1-a-entender-a-linguagem-natural-das-pessoas,a50134e95e711410VgnVCM4000009bcceb0aRCRD.html/>. Acessado em: novembro de 2013.

NPD. (2013). Disponível em: <http://www.npd.com/wps/portal/npd/us/news/press- releases/37-percent-of-pc-users-migrate-activities-to-mobile-devices-according-to-the-npd-group/>. Acessado em: setembro de 2013.

SEARCH. (2012). Disponível em: <http://tecnologia.terra.com.br/celular/google-voice-

search-supera-siri-por-usar-verificacao-ortografica,beb8f678eecda310VgnCLD200000bbcceb0aRCRD.html>. Acessado em: outubro de 2013.

(13)

BCC.(2013) Tecnologia de Reconhecimento de Voz Disponível em: <http://www.bbc.co.uk/portuguese/noticias/2013/11/131112_tecnologia_reconhecim ento_voz_fn.shtml>. Acessado em: novembro de 2013. .

CAMERA. (2013) Câmera com Reconhecimento de VozDisponível em: <http://www.tecmundo.com.br/video-game/44033-playstation-camera-tambem-tera-sistema-de-reconhecimento-de-voz.htm>. Acessado em: setembro de 2013.

TV. (2013) Como funciona o reconhecimento de voz em Smart TVs Disponível em:

<http://www.techtudo.com.br/artigos/noticia/2013/06/como-funciona-o-reconhecimento-de-voz-nas-novas-smart-tvs.html>. Acessado em: setembro de 2013. FOLHA. (2010) Disponível em: <http://www1.folha.uol.com.br/tec/811968-sistema-de-reconhecimento-de-fala-do-windows-7-funciona-bem.shtml>. Acessado em: setembro de 2013.

REDMOND.(2012) Disponível em: <http://research.microsoft.com/en-us/um/redmond/groups/cue/soundwave/>. Acessado em: setembro de 2013.

Antônio, J. (1997) "Avaliação de Diferentes Técnicas para Reconhecimento de Fala" Unicamp.

Guilhoto P. and Rosa S. (2001/2002) Reconhecimento de Voz. sistemas multimédia. Universidade de Coimbra, Faculdade de Ciências e Tecnologias. Departamento de Engenharia Informática.

Neto, N., Patrick, C., Klautau, A., and Trancoso, I. (2010). Free tools and resources for Brazilian Portuguese speech recognition. Journal of the Brazilian Computer Society. Malvino, Alberto P (1985). Microcomputadores e microprocessadores. São Paulo:

McGraw-Hill.

MSDN. (2008) Legal Notice. Disponível em: <http://msdn.microsoft.com/pt-br/library/aa920210.aspx>. Acessado em: outubro de 2013.

MICROSOFT. (2013) Legal Notice. Disponível em: <http://msdn.microsoft.com/en-us/library/dd266409(v=office.14).aspx>. Acessado em: outubro de 2013.

MICROSOFT. (2013A) Legal Notice. Disponível em: <http://msdn.microsoft.com/en-us/library/dd266409(v=office.14).aspx>. Acessado em: outubro de 2013.

MICROSOFT. (2013B) Legal Notice. Disponível em: <http://msdn.microsoft.com/en-us/library/hh378337(v=office.14).aspx>. Acessado em: outubro de 2013.

MICROSOFT. (2013C) Legal Notice. Disponível em: <http://msdn.microsoft.com/en-us/library/hh378380(v=office.14).aspx>. Acessado em: novembro de 2013.

MICROSOFT. (2013D) Legal Notice. Disponível em: <http://msdn.microsoft.com/en-us/library/hh378349(v=office.14).aspx>. Acessado em: novembro de 2013.

MICROSOFT. (2013E) Legal Notice. Disponível em: <http://msdn.microsoft.com/en-us/library/hh378349(v=office.14).aspx>. Acessado em: novembro de 2013.

(14)