2 ESTRATÉGIAS METODOLÓGICAS PARA PENSAR MATERIALIDADES,
3.2 ASSISTENTES DE VOZ: DO RECONHECIMENTO DE PALAVRAS AO GOOGLE
“A fala é o meio fundamental da comunicação humana” (NASS; BRAVE, 2005, posição 118, edição eletrônica)22 e nada é mais social do que ela. O reconhecimento
de fala hoje presente em diversos artefatos de comunicação é resultado de décadas de pesquisa conjunta em áreas como engenharia, estatística, semântica, linguística, algoritmos e inteligência artificial. A primeira ferramenta digital de reconhecimento de fala desenvolvida foi o dispositivo experimental IBM Shoebox (1961), que permitia fazer cálculos matemáticos simples através do reconhecimento de 10 dígitos e 6 palavras, captando o som por meio de um microfone e os convertendo através de impulsos elétricos (Figura 4).
Figura 4 - William C. Dersch apresenta a Shoebox ao público
Fonte: Reprodução do site oficial da IBM da reprodução televisiva do dispositivo.23
22 Do original: Speech is the fundamental means of human communication.
23 Disponível em: https://www.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html. Acesso
Uma década antes do lançamento do Shoebox, designers, engenheiros e cientistas da IBM realizaram pesquisas e experimentos com reconhecimento de padrões e inteligência artificial, elementos fundamentais para o reconhecimento de voz. Entre 1971 e 1976 o Departamento de Defesa dos Estados Unidos financiou diversas empresas e universidades através do Programa de Pesquisa de Compreensão de Fala. Assim surgiu a Harpy, na Carnegie Mellon University (CMU), que fazia o reconhecimento de cerca de 1000 palavras e era capaz de compreender frases inteiras. A intenção de seus criadores era que a máquina pudesse traduzir a fala, função similar a do Google Tradutor hoje.
Em entrevista à BBC, o diretor do Instituto de Tecnologias da Linguagem da CMU, Jaime Carbonell, afirmou que a Harpy foi o primeiro sistema que conseguiu utilizar com sucesso um modelo de linguagem que reuniu palavras sem que elas perdessem o sentido, ou fossem interpretadas de forma isolada pelo programa (CARBONELL, 2017). Nos anos 1980 e 1990 o desenvolvimento da tecnologia evoluiu e, em 1997, um sistema conseguiu fazer o reconhecimento de voz de forma contínua, sem que cada palavra fosse pronunciada com penas pausas entre elas. Criado pela Dragon Systems, concorrente da IBM, o Dragon NaturallySpeaking foi muito utilizado para a criação de documentos, principalmente pela área médica (MOSKVITCH, 2017). Em 1998, após cinco anos em desenvolvimento, o software CSLU Toolkit representou outro avanço na área ao possibilitar a criação de arquivos de voz sintética, de animação facial, de reconhecimento de voz e de sistemas de linguagem interativos baseados na voz.
Em 2002, a Microsoft introduziu o reconhecimento de fala nos programas que compõem a sua suíte Office24 e, em 2007, incorporou o sistema de reconhecimento
de voz ao seu novo sistema operacional, Windows Vista. Em 2006, a Agência Nacional de Segurança (NSA), dos Estados Unidos, passou a utilizar o reconhecimento de voz para isolar palavras-chave em conversas gravadas. No ano seguinte, a Google apresentou o GOOG-411, serviço telefônico gratuito ativado por voz, onde era possível ligar para o serviço, solicitar o telefone de uma pizzaria, por exemplo, e as
informações eram fornecidas gratuitamente. Contudo, o serviço não era de fato gratuito, uma vez que a empresa armazenava milhares de dados de voz, usados para aprimorar seus programas de reconhecimento de fala. Assim, em 2008, a Google lançou o aplicativo Voice Search, inicialmente para iPhone, trazendo o reconhecimento de voz para dispositivos móveis.
O diferencial do Voice Search era o seu sistema de armazenamento de dados, uma vez que a Google utilizava a computação em nuvem, o conjunto de seus servidores distribuídos por diversas bases ao redor do planeta, para processar os dados de voz recebidos pelo aplicativo. Em 2012, a empresa adicionou a função de reconhecimento personalizado à pesquisa por voz em telefones com sistema operacional Android, o Google Now, incorporando ainda a pesquisa por voz no navegador Google Chrome (MOSKVITCH, 2017).
No ano anterior, em 2011, a Apple lançou sua própria assistente de voz, intitulada Siri, assistente de voz do iPhone 4S, atualmente embarcada em todos os produtos da empresa. A assistente virtual tem suas origens no projeto Cognitive Agent
that Learns and Observes (CALO), tecnologia desenvolvida pelo Stanford Research Institute (SRI International), entre 2003 e 2008, em parceria com o departamento de
defesa do governo estadunidense (Defense Advanced Research Projects Agency – DARPA), com o objetivo de “criar sistemas de software cognitivo, ou seja, sistemas que possam raciocinar, aprender com a experiência, saber o que fazer, explicar o que estão fazendo, refletir sobre sua experiência e responder robustamente para surpreender” (SRI INTERNATIONAL ARTIFICIAL INTELLIGENCE CENTER, [201?]).25
Em 2014, a Microsoft lançou a Cortana, assistente digital do Windows, mesmo ano em que a Amazon anunciou a venda da Alexa em dispositivos da linha Echo,
smart speakers da empresa. A inteligência artificial de Alexa foi batizada em
homenagem à biblioteca de Alexandria, e elevava o patamar de consumo da empresa, pois, além de responder diversas perguntas, acessar à internet, tocar músicas e afins, possibilitava a criação de uma lista de compras vinculada à conta do usuário na
25 Do original: create cognitive software systems, that is, systems that can reason, learn from
experience, be told what to do, explain what they are doing, reflect on their experience, and respond robustly to surprise.
Amazon, ou enviava o produto diretamente para a casa do consumidor, após a solicitação por voz: “aperte um dash button”,26 em determinado produto.
Nos dois anos seguintes, a Amazon introduziu o Alexa Skills Kit no mercado e ampliou a quantidade de dispositivos com seu assistente de voz embarcado, sejam eles produzidos pela própria empresa ou por terceiros. A Microsoft também expandiu a Cortana a dispositivos móveis e a consoles como o Xbox One, enquanto a Google introduzia o Google Assistente como parte do aplicativo de mensagens Allo.27 Em 2016, a Google divulgou o primeiro dispositivo de linha de alto-falantes inteligentes da empresa, o Google Home, com o Google Assistente embarcado.
A partir de 2017, essas empresas trabalharam para ampliar o número de dispositivos com suas assistentes de voz, enquanto outras produziam seus próprios assistentes – a exemplo da Samsung, com o Bixby, das chinesas Baidu com o Xiaodu e Alibaba, com Genie, e da russa Yandex, com Alisa. Esse conjunto de serviços e produtos também foi explorado para situações específicas, como a Dragon Medical
Virtual Assistant, da Nuance, inteligência artificial específica para cuidados com a
saúde.
Em 2018, novamente as empresas observadas anteriormente lançaram produtos. Ao passo que a Apple disseminou o seu smart speaker HomePod, com Siri embarcada, a Google divulgou a Duplex para o seu Google Assistente. Enquanto isso, a Amazon apresentou a Alexa Auto SDK para carros e a Samsung introduziu no mercado seu próprio smart speaker, o Galaxy Home, com a Bixby 2.0 embarcada. A Alexa ainda foi a base para o smart display Portal do Facebook, e o Djingo, da Orange. No ano seguinte, as empresas de tecnologia que trabalham com assistentes de voz, especificamente as que consideramos mais importantes para o salto tecnológico observado nos últimos anos, aprimoraram seus assistentes em busca de um processo de comunicação sonora mais próximo ao da fala humana. A presença de um assistente em um produto passou a ser praticamente obrigatória, não mais uma novidade. Desta forma, serviços de inteligência artificial e aprendizagem de máquina
26 Dash Button é um dispositivo conectado que encomenda um produto ao apertar o botão. A ideia da
empresa era colocar botões ao lado de máquinas de lavar, cafeteiras, entre outros, para que produtos relacionados fossem comprados com um clique. A entrega era feita em até dois dias e uma confirmação de compra era enviada ao celular do cliente.
cobrem com software relógios, fones de ouvido, pulseiras e alto-falantes inteligentes, entre outros. Tudo ao alcance de um comando de voz.
Com essa breve linha do tempo, observamos o quão complexo é mapear algo que está em expansão e em pleno desenvolvimento. Nosso objetivo não foi o de apresentar todas as inovações que surgiram no campo do reconhecimento de fala, ou apontar todos os assistentes de voz e smart speakers existentes, mas sim o de dimensionar quantos anos de pesquisa e desenvolvimento científico foram necessários para que a fala pudesse ser reconhecida e naturalizada pela máquina, assistentes de voz baseados em inteligência artificial fossem criados e que objetos pudessem embarcá-los.
Todo esse movimento contemporâneo que engloba tecnologia, aprendizado e inteligência diminuem as fronteiras entre o homem e a máquina. Já fazemos isso ao entrar em contato com call centers, por exemplo, onde toda a solicitação é feita através de rotinas de programação baseadas na voz. Aumentamos a memória, a possibilidade de criação, nossa própria sensibilidade e subjetividade, tornando tudo isso externo ao humano. Essas transformações fazem parte do que Cayley (2017) chama de Big
Software, ou seja, uma arquitetura substancial e determinante no atual mundo da
computação, instaurada sob contextos sociopolíticos e econômicos, que possibilitou a emergência de vetoralistas (vectoralists): uma classe de poderes corporativos habilitados para redes e, por isso, não regulamentados, que operam dentro de um regime de computação.
Assim, a computação em rede pode situar a vida humana dentro de uma terceira natureza, constituída por fluxos de informação que podem ser hackeados para gerar vetores de interesse cultural e social (Cayley, 2017). Os assistentes de voz são constituídos, portanto, como entidades computacionais ligadas à nuvem que fazem parte dessa estrutura de Big Software, dominada por empresas de tecnologia como a Google, a Apple e a Amazon, conforme já abordamos neste capítulo. Visando refletir sobre essas transformações na área da comunicação, o próximo tópico aborda o momento de transição que estamos enfrentando.