ASSISTENTES DE VOZ: DO RECONHECIMENTO DE PALAVRAS AO GOOGLE

2 ESTRATÉGIAS METODOLÓGICAS PARA PENSAR MATERIALIDADES,

3.2 ASSISTENTES DE VOZ: DO RECONHECIMENTO DE PALAVRAS AO GOOGLE

“A fala é o meio fundamental da comunicação humana” (NASS; BRAVE, 2005, posição 118, edição eletrônica)22_{e nada é mais social do que ela. O reconhecimento}

de fala hoje presente em diversos artefatos de comunicação é resultado de décadas de pesquisa conjunta em áreas como engenharia, estatística, semântica, linguística, algoritmos e inteligência artificial. A primeira ferramenta digital de reconhecimento de fala desenvolvida foi o dispositivo experimental IBM Shoebox (1961), que permitia fazer cálculos matemáticos simples através do reconhecimento de 10 dígitos e 6 palavras, captando o som por meio de um microfone e os convertendo através de impulsos elétricos (Figura 4).

Figura 4 - William C. Dersch apresenta a Shoebox ao público

Fonte: Reprodução do site oficial da IBM da reprodução televisiva do dispositivo.23

22_{Do original: Speech is the fundamental means of human communication.}

23_{Disponível em: https://www.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html. Acesso}

Uma década antes do lançamento do Shoebox, designers, engenheiros e cientistas da IBM realizaram pesquisas e experimentos com reconhecimento de padrões e inteligência artificial, elementos fundamentais para o reconhecimento de voz. Entre 1971 e 1976 o Departamento de Defesa dos Estados Unidos financiou diversas empresas e universidades através do Programa de Pesquisa de Compreensão de Fala. Assim surgiu a Harpy, na Carnegie Mellon University (CMU), que fazia o reconhecimento de cerca de 1000 palavras e era capaz de compreender frases inteiras. A intenção de seus criadores era que a máquina pudesse traduzir a fala, função similar a do Google Tradutor hoje.

Em entrevista à BBC, o diretor do Instituto de Tecnologias da Linguagem da CMU, Jaime Carbonell, afirmou que a Harpy foi o primeiro sistema que conseguiu utilizar com sucesso um modelo de linguagem que reuniu palavras sem que elas perdessem o sentido, ou fossem interpretadas de forma isolada pelo programa (CARBONELL, 2017). Nos anos 1980 e 1990 o desenvolvimento da tecnologia evoluiu e, em 1997, um sistema conseguiu fazer o reconhecimento de voz de forma contínua, sem que cada palavra fosse pronunciada com penas pausas entre elas. Criado pela Dragon Systems, concorrente da IBM, o Dragon NaturallySpeaking foi muito utilizado para a criação de documentos, principalmente pela área médica (MOSKVITCH, 2017). Em 1998, após cinco anos em desenvolvimento, o software CSLU Toolkit representou outro avanço na área ao possibilitar a criação de arquivos de voz sintética, de animação facial, de reconhecimento de voz e de sistemas de linguagem interativos baseados na voz.

Em 2002, a Microsoft introduziu o reconhecimento de fala nos programas que compõem a sua suíte Office24_{e, em 2007, incorporou o sistema de reconhecimento}

de voz ao seu novo sistema operacional, Windows Vista. Em 2006, a Agência Nacional de Segurança (NSA), dos Estados Unidos, passou a utilizar o reconhecimento de voz para isolar palavras-chave em conversas gravadas. No ano seguinte, a Google apresentou o GOOG-411, serviço telefônico gratuito ativado por voz, onde era possível ligar para o serviço, solicitar o telefone de uma pizzaria, por exemplo, e as

informações eram fornecidas gratuitamente. Contudo, o serviço não era de fato gratuito, uma vez que a empresa armazenava milhares de dados de voz, usados para aprimorar seus programas de reconhecimento de fala. Assim, em 2008, a Google lançou o aplicativo Voice Search, inicialmente para iPhone, trazendo o reconhecimento de voz para dispositivos móveis.

O diferencial do Voice Search era o seu sistema de armazenamento de dados, uma vez que a Google utilizava a computação em nuvem, o conjunto de seus servidores distribuídos por diversas bases ao redor do planeta, para processar os dados de voz recebidos pelo aplicativo. Em 2012, a empresa adicionou a função de reconhecimento personalizado à pesquisa por voz em telefones com sistema operacional Android, o Google Now, incorporando ainda a pesquisa por voz no navegador Google Chrome (MOSKVITCH, 2017).

No ano anterior, em 2011, a Apple lançou sua própria assistente de voz, intitulada Siri, assistente de voz do iPhone 4S, atualmente embarcada em todos os produtos da empresa. A assistente virtual tem suas origens no projeto Cognitive Agent

that Learns and Observes (CALO), tecnologia desenvolvida pelo Stanford Research Institute (SRI International), entre 2003 e 2008, em parceria com o departamento de

defesa do governo estadunidense (Defense Advanced Research Projects Agency – DARPA), com o objetivo de “criar sistemas de software cognitivo, ou seja, sistemas que possam raciocinar, aprender com a experiência, saber o que fazer, explicar o que estão fazendo, refletir sobre sua experiência e responder robustamente para surpreender” (SRI INTERNATIONAL ARTIFICIAL INTELLIGENCE CENTER, [201?]).25

Em 2014, a Microsoft lançou a Cortana, assistente digital do Windows, mesmo ano em que a Amazon anunciou a venda da Alexa em dispositivos da linha Echo,

smart speakers da empresa. A inteligência artificial de Alexa foi batizada em

homenagem à biblioteca de Alexandria, e elevava o patamar de consumo da empresa, pois, além de responder diversas perguntas, acessar à internet, tocar músicas e afins, possibilitava a criação de uma lista de compras vinculada à conta do usuário na

25_{Do original: create cognitive software systems, that is, systems that can reason, learn from}

experience, be told what to do, explain what they are doing, reflect on their experience, and respond robustly to surprise.

Amazon, ou enviava o produto diretamente para a casa do consumidor, após a solicitação por voz: “aperte um dash button”,26_{em determinado produto.}

Nos dois anos seguintes, a Amazon introduziu o Alexa Skills Kit no mercado e ampliou a quantidade de dispositivos com seu assistente de voz embarcado, sejam eles produzidos pela própria empresa ou por terceiros. A Microsoft também expandiu a Cortana a dispositivos móveis e a consoles como o Xbox One, enquanto a Google introduzia o Google Assistente como parte do aplicativo de mensagens Allo.27_Em 2016, a Google divulgou o primeiro dispositivo de linha de alto-falantes inteligentes da empresa, o Google Home, com o Google Assistente embarcado.

A partir de 2017, essas empresas trabalharam para ampliar o número de dispositivos com suas assistentes de voz, enquanto outras produziam seus próprios assistentes – a exemplo da Samsung, com o Bixby, das chinesas Baidu com o Xiaodu e Alibaba, com Genie, e da russa Yandex, com Alisa. Esse conjunto de serviços e produtos também foi explorado para situações específicas, como a Dragon Medical

Virtual Assistant, da Nuance, inteligência artificial específica para cuidados com a

saúde.

Em 2018, novamente as empresas observadas anteriormente lançaram produtos. Ao passo que a Apple disseminou o seu smart speaker HomePod, com Siri embarcada, a Google divulgou a Duplex para o seu Google Assistente. Enquanto isso, a Amazon apresentou a Alexa Auto SDK para carros e a Samsung introduziu no mercado seu próprio smart speaker, o Galaxy Home, com a Bixby 2.0 embarcada. A Alexa ainda foi a base para o smart display Portal do Facebook, e o Djingo, da Orange. No ano seguinte, as empresas de tecnologia que trabalham com assistentes de voz, especificamente as que consideramos mais importantes para o salto tecnológico observado nos últimos anos, aprimoraram seus assistentes em busca de um processo de comunicação sonora mais próximo ao da fala humana. A presença de um assistente em um produto passou a ser praticamente obrigatória, não mais uma novidade. Desta forma, serviços de inteligência artificial e aprendizagem de máquina

26_{Dash Button é um dispositivo conectado que encomenda um produto ao apertar o botão. A ideia da}

empresa era colocar botões ao lado de máquinas de lavar, cafeteiras, entre outros, para que produtos relacionados fossem comprados com um clique. A entrega era feita em até dois dias e uma confirmação de compra era enviada ao celular do cliente.

cobrem com software relógios, fones de ouvido, pulseiras e alto-falantes inteligentes, entre outros. Tudo ao alcance de um comando de voz.

Com essa breve linha do tempo, observamos o quão complexo é mapear algo que está em expansão e em pleno desenvolvimento. Nosso objetivo não foi o de apresentar todas as inovações que surgiram no campo do reconhecimento de fala, ou apontar todos os assistentes de voz e smart speakers existentes, mas sim o de dimensionar quantos anos de pesquisa e desenvolvimento científico foram necessários para que a fala pudesse ser reconhecida e naturalizada pela máquina, assistentes de voz baseados em inteligência artificial fossem criados e que objetos pudessem embarcá-los.

Todo esse movimento contemporâneo que engloba tecnologia, aprendizado e inteligência diminuem as fronteiras entre o homem e a máquina. Já fazemos isso ao entrar em contato com call centers, por exemplo, onde toda a solicitação é feita através de rotinas de programação baseadas na voz. Aumentamos a memória, a possibilidade de criação, nossa própria sensibilidade e subjetividade, tornando tudo isso externo ao humano. Essas transformações fazem parte do que Cayley (2017) chama de Big

Software, ou seja, uma arquitetura substancial e determinante no atual mundo da

computação, instaurada sob contextos sociopolíticos e econômicos, que possibilitou a emergência de vetoralistas (vectoralists): uma classe de poderes corporativos habilitados para redes e, por isso, não regulamentados, que operam dentro de um regime de computação.

Assim, a computação em rede pode situar a vida humana dentro de uma terceira natureza, constituída por fluxos de informação que podem ser hackeados para gerar vetores de interesse cultural e social (Cayley, 2017). Os assistentes de voz são constituídos, portanto, como entidades computacionais ligadas à nuvem que fazem parte dessa estrutura de Big Software, dominada por empresas de tecnologia como a Google, a Apple e a Amazon, conforme já abordamos neste capítulo. Visando refletir sobre essas transformações na área da comunicação, o próximo tópico aborda o momento de transição que estamos enfrentando.

No documento Materializações digitais da cultura : os transatores vocais e a comunicação contemporânea (páginas 56-60)