Sistema de Geração de Texto Para Performance

(1)

MESTRADO

MULTIMÉDIA - ESPECIALIZAÇÃO EM MÚSICA INTERATIVA E DESIGN DE SOM

SISTEMA DE GERAÇÃO AUTOMÁTICA

DE TEXTO PARA PERFORMANCE

Luís Carlos Ribeiro Kasprzykowski

M

2020

FACULDADES PARTICIPANTES:

FACULDADE DE ENGENHARIA FACULDADE DE BELAS ARTES FACULDADE DE CIÊNCIAS FACULDADE DE ECONOMIA FACULDADE DE LETRAS

(2)

Sistema de Geração Automática de Texto

Para Performance

Luís Carlos Ribeiro Kasprzykowski

Mestrado em Multimédia da Universidade do Porto

Orientador: Filipe Lopes (PhD)

(3)

Resumo

Com este trabalho propus-me a construir uma ferramenta para geração automática de texto reativa a um sinal áudio em tempo real. O objetivo da ferramenta é providenciar suporte visual para performances ao vivo de música eletrónica e, com base nela, criar um modelo de performance audiovisual assente num diálogo entre a música tocada e o texto gerado, mediado pelo performer. Este modelo ambiciona oferecer uma experiência ao público em que o somatório da música e texto terão interpretações originais que, isoladamente, seriam diferentes.

A investigação assentou numa metodologia que incorporou ações práticas, a documentação das mesmas, o desenvolvimento de software e a reflexão sistemática sobre as experiências performáticas à luz da teoria recolhida e premissas originais.

(4)

Abstract

With this work I proposed to develop a tool for automatic text generation based on a real time audio signal. The objective of this tool is to create visuals for an electronic music performance and enable a form of dialogue between what is being played in the music and the text being generated in real time, mediated by the musician. This model aims to offer a performance where music and text can have multiple interpretations when experienced together. The investigation was based on action-research, where the software development, it’s documentation and the experimental tests where systematically analysed in light of the basic premises and knowledge gained throughout.

(5)

Agradecimentos

Obrigado ao Filipe Lopes por ter sido este ano mais professor do que amigo e mais amigo do que professor.

(6)

Índice

1. Introdução ... 8

1.1 Contexto e Motivação Pessoal ... 9

1.2 Problemas, Hipóteses e Objetivos de Investigação ... 10

1.3 Metodologia de Investigação... 11

1.4 Estrutura da dissertação ... 11

2. Do início da geração automática de texto às suas aplicações artísticas atuais ... 13

2.1 O volvelle e o início da geração automática de texto ... 13

2.2 As cadeias de Markov e os primórdios da inteligência artificial ... 15

2.3 O cut-up e a recombinação de texto como processo artístico... 17

2.4 A ficção científica e a massificação dos computadores pessoais ... 19

2.5 A poesia e a ciberliteratura em Portugal ... 20

2.6 O GPT-3 e a Inteligência Artificial na geração de texto ... 20

2.7 Análise percetual de conteúdo sonoro e psicoacústica ... 23

2.8 Exemplos criativos recentes da geração automática de texto ... 24

3. Prototipagem ... 26

3.1 Conceptualização da ferramenta ... 27

3.2 O Som ... 31

3.3 O Texto ... 33

4. Implementação ... 35

4.1 O primeiro protótipo de geração de texto ... 35

4.2 O segundo protótipo e a primeira aplicação ao vivo ... 38

4.3 Construção do programa de geração de texto ... 41

4.4 Construção da componente de análise áudio e ferramenta final ... 45

(7)

5. Conclusões ... 51 5.1 Trabalho futuro ... 52 6. Bibliografia ... 53 8. Anexos ... 57 Anexo 1 ... 57 Anexo 2 ... 58

(8)

Abreviaturas

IA Inteligência Artificial

IS Internacional Situacionista

MIT Massachussets Institute of Technology

NLG Natural Language Generation

NLP Natural Language Processing

PBR Practice-Based Research

PD Pure Data

(9)

Lista de figuras

Fig. 1 - Facsimile do Ars Magna por Ziereis Facsimiles………..………. 13

Fig. 2 - Impressão original de How to Make a Dadaist Poem ………..……… 16

Fig. 3 - Primeiro protótipo de geração de texto ………...…………. 36

Fig. 4 - Esquema de probabilidades na aplicação de uma cadeia de Markov………. 41

Fig. 5 - Esquema de probabilidades da aplicação de uma cadeia de Markov de grau 2… 41 Fig. 6 - Esquema da distribuição de textos nas strings ………... 43

Fig. 7 - Esquema das strings de texto para cada grau da cadeia de Markov……..………. 43

Fig. 8 - Esquema do workflow da ferramenta ……… 44

(10)

Lista de Tabelas

Tabela 1 – Tabela de combinações entre os estados de geração de texto ……… 46

(11)

1. Introdução

A geração automática de texto é um campo emergente na ciência da computação, com exemplos como a aplicação nas áreas do jornalismo automático (Graefe, 2016) e da geração de conteúdos automáticos para a internet (chatbots, email bots, entre outros), ou mesmo aplicações como o SCIgen, uma polémica ferramenta de geração automática de textos científicos.

Apesar desta componente mecanizada da automatização da escrita, a geração automática de texto tem as suas raízes ligadas à literatura e a processos criativos, como por exemplo a literatura experimental com os dadaístas nos anos 20 e posteriormente com a beat generation nos anos 60. Ao mesmo tempo e talvez mais impactante ainda para o panorama atual tenha sido o contributo da geração automática de texto nos primeiros desenvolvimentos no campo da inteligência artificial, como por exemplo, com o algoritmo de geração de cartas de amor de Christopher Strachey em 1952, considerado por alguns a primeira obra de literatura digital e, por outros até, a primeira obra de arte digital (Gaboury, 2013).

O trabalho que me proponho a desenvolver consistirá em explorar algumas das raízes e conceitos primordiais (assumidamente low tech1_{ou retrocomputing}2_{) da geração de texto e} aplicá-los como suporte visual à performance de música eletrónica em contexto de performance, no seu sentido clássico de concerto em palco para audiência. Pretende-se criar um sistema que:

- Permita a geração automática de texto em tempo real de forma generativa.

- Seja expansivo, aberto e modular, capaz de ser adaptado não só a cada performance, mas a diferentes aplicações futuras.

- Permita, de forma performativa, a interação com o músico.

Como ponto central, pretende-se que todo este processo reaja diretamente a um sinal áudio, ou seja, que o sistema de recombinação de textos reaja de forma ativa e “consciente” à música. Para isso, irá definir-se um conjunto de descritores sonoros e musicais que permitam o

1_{Low tech ou low technology é um movimento político, social e filosófico que defende o uso de}

tecnologias antigas, mais ecológicas e mais baratas, baseadas na mão de obra humana como combate a uma sociedade consumista de mercados. Este movimento surge principalmente nos estados unidos na década de 70 como consequência do boom económico nos Estados Unidos da América no pós-guerra do Vietnam, com obras como Post Scarcity Anarchism de Murray Bookchin em 1972.

2_{Retrocomputing é a prática, normalmente recreativa e/ou criativa, de recorrer a hardware ou}

software antigo ou praticamente obsoleto de maneira a explorar as suas capacidades à luz da tecnologia moderna.

(12)

mapeamento de algumas das características sonoras e testar de que forma estas podem vir a ser utilizadas no controlo da geração de texto.

Para isso, pretende-se recorrer a descritores de baixo nível, que possibilitem o mapeamento de parâmetros percetuais. Desta forma, a ferramenta poderá posteriormente tomar diferentes formas e ser aplicada em diversas situações fora do contexto da performance, como por exemplo em instalações.

1.1 Contexto e Motivação Pessoal

Este trabalho insere-se nos campos da geração automática de texto, da análise de conteúdo sonoro/musical e da performance. Surge da minha vontade, como músico, de criar um sistema de geração de visuais para performances musicais, mas também como o início da exploração de um tema que me tem vindo a interessar progressivamente e sobre o qual pretendo continuar a investigação: a relação entre a música e a palavra escrita. Este trabalho toca ainda em vários aspetos entre os quais o meu trabalho pessoal normalmente orbita: a filosofia especulativa, as problemáticas ligadas ao impacto que alguns avanços tecnológicos têm ou poderão ainda vir a ter na sociedade e também a performance musical como um veículo de exploração destas temáticas.

As problemáticas levantadas pela performance da música eletrónica ao vivo, em palco, também me têm vindo a acompanhar durante o meu percurso académico e artístico, sendo uma das principais manifestações do meu trabalho. Tenho vindo a experimentar diferentes maneiras de incluir uma componente visual que surja da música em tempo real, que não se limite a ser uma reprodução autónoma de conteúdos visuais já definidos e pré-estruturados.

Assim, pretendo com esta dissertação conseguir fazer a ponte entre uma necessidade pessoal e o desenvolvimento de uma ferramenta que pretende ter uma aplicação concreta, mas também que possa vir a servir como a base de um sistema em constante construção e adaptação a diferentes aplicações futuras.

Este projeto surge como uma forma de consolidação dos conhecimentos adquiridos no decorrer do meu percurso académico ligado ao Mestrado em Multimédia, no ramo de Música Interativa e Desenho de Som. Centra-se em algumas das componentes principais do conteúdo programático: a análise de conteúdo musical, a interatividade e a geração automática. A esta componente vem aliar-se o meu percurso artístico e profissional ligado à produção de música eletrónica. Em paralelo, e ainda ligado ao percurso académico deste mestrado, desenvolvi

(13)

também um interesse pela programação criativa (do termo mais comum em inglês creative coding) ligada à literatura, ao data visualization de texto e, mais concretamente, à geração automática de texto.

Este trabalho resulta então numa convergência de todas estas vertentes, pretende ser um trabalho pessoal de exploração que pretende, acima de tudo, começar um processo contínuo de construção e adaptação da ferramenta aqui construída.

Por último, mas não menos importante, referir ainda que esta dissertação foi realizada aquando da pandemia de COVID-19, o que impossibilitou de forma total uma das componentes principais deste trabalho, a experimentação em situação real (de concerto ao vivo) visto que durante o processo de realização desta dissertação todo o tipo de atividades culturais em salas de espetáculo estavam proibidas ou impraticavelmente limitadas.

1.2 Problemas, Hipóteses e Objetivos de Investigação

O objetivo central deste trabalho é desenhar e programar uma ferramenta que permita a geração de conteúdo visual textual, em tempo real, a partir de um sinal áudio.

Pretende-se que o texto gerado reaja não só em forma, mas também em conteúdo e que introduza assim, de forma conceptual, uma nova camada de interpretação ao conjunto som/imagem. De encontro a este objetivo, pretende-se recorrer à combinação entre diferentes fontes de texto, de forma a existir um controlo superficial dos conteúdos temáticos, mas onde através da sua recombinação, se criem conteúdos novos.

Assim, as principais questões levantadas nesta dissertação são:

- Como gerar conteúdo semântico generativo a partir de um sinal áudio?

- Que tipo de interação, ao nível da performance musical, é promovida entre um músico e um sistema de geração de texto automático?

(14)

1.3 Metodologia de Investigação

Dada a componente exploratória deste trabalho, bem como o meu background ligado à música eletrónica e às artes performativas, optei por seguir uma metodologia de experimentação pessoal, action research ou art-based research conforme definido por Shaun McNiff (McNiff, 1998).

O recurso à prática criativa como forma de pesquisa académica tem vindo a tornar-se cada vez mais importante por permitir uma componente pessoal de observação, reflexão e prática artística no discurso científico através da documentação progressiva de cada passo efetuado e das razões de cada tomada de decisão no percurso do trabalho (Busch, 2009).

Assim, esta dissertação documenta de forma sistemática e cronológica o processo de criação da ferramenta, bem como as dificuldades encontradas e a forma como foram ultrapassadas à medida que foram surgindo. Discutem-se também os conceitos aplicados e o raciocínio por trás de cada decisão tomada na prática. Reflete-se, finalmente, sobre os resultados observados, bem como se avalia a sua viabilidade e relevância para os objetivos finais da ferramenta. Como se trata de um trabalho exploratório, pretende-se assim que seja o próprio trabalho de exploração e experimentação aqui documentado a funcionar como conhecimento novo.

1.4 Estrutura da dissertação

Esta dissertação é constituída por um capítulo introdutório onde se explica sucintamente o objetivo da dissertação e onde se retrata de forma sucinta as problemáticas gerais a serem exploradas.

De seguida é apresentada uma revisão bibliográfica que serve não só de contextualização do enquadramento histórico, mas também de alguns dos conceitos teóricos ou artísticos daí provenientes, a serem explorados durante o resto do trabalho.

O terceiro capítulo documenta a fase de conceptualização da ferramenta bem como os conceitos que deram origem a algumas das ideias a implementar. Apresenta ainda o desenho das componentes de extração de informação sonora bem como o sistema de geração automática de texto.

(15)

O quarto capítulo documenta o processo de construção da ferramenta de forma cronológica em todas as suas iterações até ao seu formato final. Descreve-se aqui também a performance exemplificativa.

O capítulo final conclui sobre o trabalho realizado e faz uma avaliação dos resultados. Apresenta-se ainda neste capítulo uma breve exposição de trabalho futuro e de ideias a serem exploradas que surgiram durante o percurso desta dissertação.

(16)

2. Do início da geração automática

de texto às suas aplicações artísticas

atuais

Para contextualizar o trabalho apresentado nesta dissertação é necessário documentar alguns conceitos e fazer o seu enquadramento histórico. Neste capítulo introduzo alguns dos conceitos a serem explorados neste trabalho, bem como algumas das teorias relevantes aos procedimentos a testar durante a fase de experimentação. Incluirei também algumas das referências mais importantes a nível tecnológico, artístico e conceptual para o trabalho apresentado nesta dissertação, já que se pretende que as tecnologias aplicadas remetam, de alguma forma, para alguns enquadramentos tecnológicos historicamente relevantes para os temas em discussão neste trabalho.

Farei ainda referência a alguns conceitos e metodologias que, apesar de não serem aplicados diretamente neste trabalho, são importantes para a conceptualização de algumas das características finais que este trabalho adquiriu.

2.1 O volvelle e o início da geração automática de texto

Talvez o exemplo mais primordial de automatização de geração de textos seja o I Ching, datado de 1000 a 750 A.C.. O I Ching é um livro de divinações que tem como objetivo ser consultado pelo recurso a objetos que encerram em si algum tipo de aleatoriedade (dados ou objetos semelhantes) já que, na época, a aleatoriedade (a sorte ou a má sorte) estavam ligados a um conceito de divindade ou à própria manifestação da vontade divina (Aarseth, 1998). No entanto, nesta obra não havia geração de texto novo, era antes a sua leitura que era feita de forma aleatória.

(17)

Pode considerar-se que um dos primeiros exemplos mais concretos de geração automática de texto aparece com o zairja, mais comumente conhecido no ocidente como volvelle, um dispositivo usado na antiguidade pelos astrónomos Árabes como dispositivo de divinação a partir da astronomia e da leitura de fenómenos astronómicos (Crupi, 2019).

O volvelle consiste num grupo de círculos de papel concêntricos, atados com um cordel. Estes círculos continham listas de significações astrológicas que eram combinadas entre si através da rotação dos círculos e das suas referências a várias tabelas (Link, 2010). Esta rotação era feita de acordo com a leitura dos astros, ou seja, permitia uma espécie de “geração automática” de astrologia. Ao longo dos tempos, este dispositivo foi sendo adaptado e melhorado, tornando-se num instrumento mecânico de criação de conceitos. Ramon Llull (1232-1314), matemático e filósofo Catalão, adaptou a ferramenta árabe à ideologia cristã no seu Ars Magna, publicado em 1305, que incluía um volvelle que misturava conceitos filosóficos e religiosos cristãos. Llull pretendia desta forma usar um instrumento familiar aos muçulmanos como ferramenta de propaganda religiosa cristã, no entanto, o verdadeiro objetivo das suas obras era, principalmente, explorar a possibilidade de criar, de forma mecânica, novos pensamentos sobre o Universo (Bonner & Anthony, 2007).

Fig.1 Facsimile do Ars Magna por Ziereis Facsimiles

No seguimento dos volvelle e das tabelas de divinação surgem as primeiras obras de combinação recreativa de texto, com autores como Georg Philipp Harsdörffer, poeta alemão que viveu entre 1607 e 1658 e cuja escrita poética envolvia o recurso a dados com letras pintadas nas suas faces, bem como peças de madeira com palavras e anagramas que podiam ser movidos e combinados de formas diferentes (Manns, 2013). É também com Harsdörffer que surge a ideia de uma das primeiras

(18)

performances com geração de texto em tempo real, um ballet em que cada bailarino segurava um papel com uma letra do alfabeto, o que fazia com que surgissem palavras ou expressões através da dança e dos movimentos dos próprios bailarinos (Westerhoff, 1999).

No seguimento de Harsdörffer surge em 1671 o Heavenly Love-Kisses de Quirinus Kuhlmann, também poeta e também alemão, mas que viveu parte da sua vida na Rússia, onde acaba assassinado pelas suas tendências místicas. Nesta obra, Kuhlmann sintetiza uma série de linhas em verso com métrica específica, juntamente com uma série de expressões monossilábicas que permitem a criação praticamente infinita de sonetos (Johnson, 2012)

Durante o restante séc. XVII e o séc. XVIII continuaram a ser exploradas estas tecnologias de geração e combinação de texto por inúmeros artistas, cientistas, poetas e místicos e começam a fazer-se as primeiras pontes com outras áreas de conhecimento como a matemática combinatória e a criptografia, que vem a culminar, mais tarde, na teoria da computação (Schäfer, 2006).

2.2 As cadeias de Markov e os primórdios da inteligência artificial

Em 1906 Andrey Markov publica uma série de artigos sobre cadeias probabilísticas, posteriormente conhecidas por cadeias de Markov, modelos estocásticos que descrevem uma sequência de eventos possíveis em que a probabilidade de um evento ocorrer depende do evento que lhe antecede (Privault, 2013). As cadeias de Markov foram aplicadas em vários campos da matemática, com aplicações como a previsão climatérica, a previsão de mudanças na Bolsa de Valores e no estudo de jogos de azar (Gagniuc, 2017), ou seja, várias aplicações de tentativas de previsão de sistemas intrinsecamente imprevisíveis e complexos.

Este tipo de modelo veio a tornar-se exímio para a geração de texto porque permite facilmente a recombinação probabilística de letras ou palavras já existentes, criando novos trechos de texto gramaticalmente correto como veio a provar, anos depois, já em 1948, Claude Shannon com o The Mathematical Theory of Communication, um dos livros seminais sobre teoria da comunicação. Neste livro Shannon aplica cadeias de Markov a tabelas probabilísticas de letras de forma a gerar texto

aleatório (Shannon, 1948). Este artigo marca o início do campo da Teoria da Informação3_{, o princípio}

da quantificação, armazenamento e transmissão de informação que viria a tornar possível a digitalização e transmissão de informação e que, por sua vez, viria a resultar na sua última instância na internet e na informática tal como a conhecemos hoje.

3_{A teoria da informação surge nos anos 20 como o campo que estuda o armazenamento, quantificação e}

(19)

Em 1953, Christopher Strachey programa num Ferranti Mark 1, o primeiro computador doméstico de venda ao público, um programa para a geração automática de cartas de amor. Usando um esquema muito simples (“You are my [adjective] [noun]. My [adjective] [noun] [adverb] [verb] your [adjective] [noun].”) e um vocabulário de cerca de 70 palavras, Strachey conseguiu gerar algo como três mil milhões de cartas diferentes (Link, 2006). É de notar também que, ainda que de forma fechada e estruturada, foi uma das primeiras implementações de geração de texto com conteúdo semântico e subjetivo (Rettberg, 2019), tendo tido no entanto resultados ambíguos:

“Like ELIZA, Love-letters used personal pronouns to create a relationship between two communication partners. Both sentence constructions used relate “my” to “you”, or “your”, but not in the form of a dialogue where “you” would be transformed on the other side into “me” and vice versa, as is the case with ELIZA. Because Love-letters did not display the result but printed it because this was easier to realise technically, the addressee of the letters remains ambiguous. The computer is either writing to or for its user. Ultimately, the software bases on a reductionist position vis à vis love and its expression. Like the draughts game that Strachey had attempted to implement the previous year, love is regarded as a recombinatory procedure with recurring elements, which can be formalised, but which is still intelligent enough to raise considerable interest should it succeed.” (Link, 2016, p. 63)

Em 1966, Joseph Weizenbaum, pioneiro da inteligência artificial e da passagem da computação analógica para computação digital, e então professor e investigador no MIT, escreve ELIZA, um programa capaz de simular Processamento de Linguagem Natural (NLP). Este programa pretendia simular uma conversa com um psicoterapeuta, aplicando o conceito de perguntas abertas de Carl Rogers4. O ELIZA aplica técnicas de pattern matching às respostas dos utilizadores para dar origem às perguntas subsequentes (Weizenbaum, 1966). Weizenbaum ficou surpreendido com o nível de ligação pessoal que o programa conseguia obter com alguns utilizadores e tem vindo a ser usado como exemplo de uma das formas primordiais de inteligência artificial. Weizenbaum tornar-se-ia posteriormente num dos primeiros críticos da inteligência artificial (de um ponto de vista especulatório e filosófico) e viria a tornar-se extremamente cético das suas possíveis aplicações. Admitiu posteriormente ter criado o ELIZA (à semelhança de Strachey com o programa referido anteriormente) para demonstrar a superficialidade mecânica da comunicação entre homens e máquinas, tendo escrito um livro sobre as conclusões que havia retirado junto de utilizadores do ELIZA com o título Computer Power and Human Reason (Wizenbaum, 1976). Neste livro Weizenbaum defende que ainda que uma inteligência artificial seja possível, nunca se deverá permitir a um computador tomar decisões importantes pois nunca conseguirão ter as características humanas da compaixão, da empatia e da sabedoria, sabedoria aqui como conhecimento através das vivências e

(20)

da experiência de vida. Wizenbaum foi, portanto, um dos primeiros autores a pensar a componente ética ligada à implementação e ao impacto social que poderia vir a ter a construção e aplicação social de sistemas de inteligência artificial.

2.3 O cut-up e a recombinação de texto como processo artístico

Outro exemplo central para este trabalho é o How to Make a Dadaist Poem de Tristan Tzara (1896-1963), um manifesto artístico dadaísta que consistia nas seguintes instruções:

Fig. 2 Impressão original do How to Make a Dadaist Poem de Tristan Tzara

Este método, apesar de permitir algum tipo de controlo das fontes utilizadas, não faz qualquer tipo de encadeamento ou relação gramatical entre os elementos textuais, sendo completamente aleatório. No entanto, é o primeiro exemplo de uma adaptação artística à geração de texto. Aparece como uma técnica anti-romanticismo e anti-burguesismo das artes, conceitos ligados aos dadaístas. (Rettberg, 2019) No seguimento dos dadaístas, talvez o exemplo mais amplamente conhecido da utilização desta técnica em contextos literários tenha vindo de William S. Burroughs. Nos anos 50, no auge da beat generation, Burroughs utiliza e desenvolve esta técnica extensivamente:

“The method is simple. Here is one way to do it. Take a page. Like this page. Now cut down the middle and cross the middle. You have four sections: 1 2 3 4 . . . one, two, three, four. Now rearrange the sections placing section four with section one and section two with section three. And you have a new page. Sometimes it says much the same thing. Sometimes something quite different—cutting up political speeches is an interesting exercise—in any case you will find that it says something and something quite definite. Take any poet or writer you fancy. Here, say, or poems you have read over many times. The words have lost meaning and life through years of repetition. Now take the poem and type out selected passages. Fill a page with excerpts. Now cut the page. You have a new poem. As

(21)

many poems as you like. As many Shakespeare Rimbaud poems as you like.” (Burroughs & Gysin, 1978, p. 29)

Burroughs descobriu o cut-up em 1959 em Paris através de Brion Gysin. Burroughs viu o cut-up de Gysin como uma evolução do que ele próprio tinha feito em Naked Lunch (1959), uma obra de ficção que interliga uma série capítulos que podem ser lidos em diferentes ordens. Em 1960 é publicado em França o compêndio Minutes to Go, uma série de poemas e cut-ups de Burroughs, Gysin, Sinclair Beiles e Gregory Corso, e The Exterminator (com Brion Gysin), obras que tinham como objectivo fomentar uma audiência específica para a técnica do cut-up. Durante o resto da década de 60, Burroughs colabora em várias vertentes artísticas com técnicas de cut-up, como por exemplo em três filmes com o realizador Antony Balch (Towers Open Fire, Cut Ups e Bill and Tony, todos de 1965) e algumas colagens áudio junto com Ian Sommerville, um técnico de electrónica e computadores também residente na altura no Beat Hotel em Paris. Ainda em 1965 colabora com Gysin em The Third Mind (somente publicado em 1978), uma espécie de colectânea dos trabalhos de cut-up de ambos, bem como um manifesto que sumariza a importância da técnica para o panorama social e político da altura. (Kleon, 2010)

Também nos anos 60 surge o grupo Oulipo (Ouvroir de Littérature Potentielle), um colectivo de escritores, matemáticos e artistas que se reúnem na exploração da escrita com restrições. No entanto, o grupo adopta estas restrições como uma espécie de algoritmo generativo, ou seja, são as próprias restrições (e.g. como escrever um texto sem palavras que contenham a letra E) que guiam a criatividade, numa espécie de trabalho generativo automatizado. Em alguns dos trabalhos mais tardios deste colectivo, recorrem mesmo a fórmulas matemáticas de construção e substituição de palavras ou a esquemas estruturais (como por exemplo escrever um poema em que cada linha contém uma letra a mais do que a linha que a antecede) como forma algorítmica de geração de texto. Acima de tudo, estas regras são vistas pelos Oulipo como procedimentos para gerar texto que nunca poderia ser sequer imaginado fora destas restrições. (Rettberg, 2019)

O trabalho de Burroughs com o cut-up foi extremamente influente, acima de tudo, na década de 70 onde atravessou diversos ramos das artes, como por exemplo com artistas pop como David Bowie ou os Rolling Stones a utilizarem o cut-up para algumas das suas letras.

(22)

2.4 A ficção científica e a massificação dos computadores pessoais

Em Fevereiro de 1961 é lançada na revista de ficção científica Science Fantasy uma short story de J. G. Ballard intitulada Studio 5, The Stars. Este conto faz parte de um ciclo, mais tarde publicado em livro sob o título Vermillion Sands (1971). Nesta obra, Ballard retrata uma sociedade hedonista de artistas decadentes, onde a escrita da poesia havia sido entregue aos computadores e o ato de criar poesia havia sido completamente esquecido pelos próprios poetas, até que um dos protagonistas resolve começar a destruir todos os computadores que encontra, numa espécie de manifesto ludista, de anti-mecanização da criatividade humana. Esta obra, bem como as histórias que completam este livro, vieram a ter bastante mais relevância cultural algum tempo mais tarde, quando este discurso crítico da informatização das artes e da sociedade se tornou mais agudo e generalizado e, durante as décadas de

80 e 90, começa a popularizar-se o conceito de cibercultura5_{tal como hoje o conhecemos.}

Com o avanço, a miniaturização e a massificação dos computadores nas décadas de 70 e 80 do século passado, vemos um crescente interesse nas capacidades da computação digital para a escrita criativa. Aparecem também novas formas de tratar o texto digitalmente, como o hipertexto, a literatura interactiva e a poesia digital (Rettberg, 2019). O contexto emergente da cibercultura e a intersecção cada vez mais forte entre a arte e o computador têm o grande boom durante os anos 90, altura em que o texto ainda era a forma mais eficiente de comunicar via Internet. No entanto, o legado de obras como a de J. G. Ballard, bem como o aparecimento das primeiras obras de ficção especulativa ligadas a estes temas, como Neuromancer (1984) de William Gibson ou Snow Crash (1992) de Neal Stephenson, que definiram o género agora associado com o cyberpunk, trazem para o mainstream uma ideia muito própria da informatização como evolução social negativa, sempre associada a uma ideia de capitalismo desconstrutivo e degenerativo da rede social humana, em benefício das redes sociais digitais e de uma tecnologia mercantilista, de monitorização constante do ser humano, considerado consumidor antes de indivíduo. Todos estes conceitos foram curiosamente proféticos do panorama cultural em que vivemos hoje e surgiram única e exclusivamente de uma espécie de extrapolação para o futuro das tecnologias e aplicações que estavam a surgir na altura, quase como um mash-up híper-realista de conceitos que, à data, eram muito recentes (McCranor & Michels, 2020).

5_{Cibercultura é o termo usado para definir a expansão da internet para o domínio social e a generalização}

(23)

2.5 A poesia e a ciberliteratura em Portugal

Na década de 70 começam as primeiras experiências com texto gerado por computadores na península ibérica. Em 1976 é publicado em Espanha Poemas V2 de Angel Carmona, uma colectânea de poemas com o subtítulo Poesía Compuesta por una Computadora, alegadamente o primeiro livro totalmente gerado por um computador (Castanyer, 2005).

Em 1977 é publicado em Portugal o livro A Literatura Cibernética 1: Autopoemas Gerados por Computador de Pedro Barbosa, professor universitário natural do Porto e pioneiro a nível mundial na utilização dos computadores para escrita criativa. Este trabalho deu origem a uma larga corrente artística em Portugal dedicada à escrita computadorizada e é um dos primeiros exemplos que recorre à técnica da mistura entre dois textos. Barbosa utiliza dois programas da sua autoria (Permuta e Texal) para misturar entre si diversas obras, como por exemplo em [Camões e as voltas que o computador (lhe) dá ou Variações sobre uma estrutura poética de Cesariny] (PO.EX, n.d.).É relevante referir, a título de curiosidade, que os programas utilizados para a conceção deste livro foram executados num NCR Elliot 4100, o primeiro computador a ser usado por uma Universidade em Portugal, na altura pertencente ao Laboratório de Cálculo Automático da Faculdade de Ciências e agora com o acervo mantido pela Faculdade de Engenharia da Universidade do Porto (FCUP, 2018)

Pedro Barbosa foi um dos precursores da utilização criativa dos computadores na escrita e dos primeiros a pensar a literatura num contexto cibernético e totalmente computadorizado, tendo o computador como entidade criativa. O trabalho de Pedro Barbosa é normalmente denominado de ciberliteratura, termo esse que engloba muitas das vertentes da geração de texto através da computação, no entanto, segundo o próprio, continua a preferir o termo literatura generativa (Queirós, 2017) , numa diferenciação ténue mas relevante entre a semântica dos dois termos.

No seguimento de Pedro Barbosa, deu-se origem em Portugal a uma corrente de trabalhos ligados à literatura gerada por computador com nomes como Silvestre Pestana e Rui Torres, que perdura até aos dias de hoje e converge no Portuguese Experimental Poetry (po-ex.net) um arquivo online e plataforma de investigação sobre a poesia digital (impressa, online e multimédia) com participantes nacionais e internacionais.

2.6 O GPT-3 e a Inteligência Artificial na geração de texto

Em 2014 foi noticiado na imprensa o primeiro gerador de texto (chatbot) a passar o teste de Turing (D’Orazio, 2014). No seguimento de chatbots como o ALICE (vencedor do Loebner Prize em 1998 e inspiração para o filme Her, de 2013, realizado por Spike Jonze) ou do motor de geração de

(24)

texto Jabberwacky (vencedor do Loebner6_{em 2004), o programa denominado Eugene Goostman,} criado por Vladimir Veselov, Eugene Demchenko e Sergey Ulasen consegue passar a barreira imposta por Turing em 1950, de que pelo menos 30% dos utilizadores de um sistema de inteligência artificial o deveriam avaliar como interacção humana credível. Este feito, tal como o teste de Turing em si, são historicamente controversos, havendo diversas críticas ao modelo de avaliação, pois este não distingue entre sistemas com aplicações concretas de inteligência artificial e sistemas em que esta interação humana é simplesmente simulada (Schofield, 2014).

O advento das redes neuronais (RN) na inteligência artificial veio desde então trazer um novo patamar tecnológico ao campo da geração de texto (natural language generation ou NLG), permitindo não só uma simulação mais aproximada do comportamento cerebral humano na reprodução de linguagem textual mas também um crescimento exponencial na capacidade de computação necessária para análise e síntese de texto. No caso específico das RN, acresce a

possibilidade de implementação de formas de autoaprendizagem através do deep learning7.

Talvez o expoente máximo actual da geração de texto seja o GPT-3, um programa da autoria da OpenAI, uma organização com o objectivo autoproposto de desenvolvimento de “friendly AI”. O GPT-3 é um modelo generativo de linguagem com capacidade de deep learning sem supervisão, ou seja, consegue melhorar a sua própria performance e os seus resultados através da aprendizagem automática, sem ser treinado em nenhum modelo de reconhecimento ou de síntese em específico.

Sobre o GPT-2, a versão open source anterior do actual algoritmo, escrevem os seus criadores: “Our model, called GPT-2 (a successor to GPT), was trained simply to predict the next word in 40GB of Internet text. Due to our concerns about malicious applications of the technology, we are not releasing the trained model. As an experiment in responsible disclosure, we are instead releasing a much smaller model for researchers to experiment with, as well as a technical paper.” (OpenAI, 2019)

Esta preocupação com este tipo de tecnologia é um campo relativamente recente de discussão dentro da área da IA tendo em conta as aplicações atuais possíveis destes programas e vem no seguimento das previsões e críticas feitas por Joseph Wizenbeum décadas antes. Os primeiros exemplos comerciais a recorrer à NLG foram a automatização de notícias de previsão climatérica, em que os primeiros algoritmos chegavam para lidar com uma quantidade de vocabulário bastante pequena e previsível. Hoje em dia estes mecanismos de geração de texto mais evoluídos são usados para a criação de notícias completas, o chamado robot journalism (Retresco, 2020), um campo

6_{O Prémio Loebner é uma competição anual no campo da inteligência artificial que pretende premiar}

programas de computador considerados pelo júri como mais próximos do ser humano, avaliados através de um teste de Turing.

7_{Deep learning é um método na aplicação de inteligência artificial que pretende simular o funcionamento}

do cérebro humano na recolha e tratamento de informação e sua posterior aplicação prática (Ian Goodfellow et al., 2016)

(25)

bastante controverso quando se considera os impactos possíveis da criação, difusão automática e em massa de conteúdo informativo de forma não supervisionada. Companhias como a Retresco e a Automated Insights vendem serviços de NLG para as mais variadas aplicações, desde reports corporativos até geração de resumos automáticos de grandes corpos de texto. Outros campos em evidente crescimento com estas tecnologias são a tradução automática de texto, classificação e categorização automática de textos, reconhecimento e detecção de copyright infringement e detecção automática de plágio. Este último exemplo tem vindo a ser cada vez mais relevante no meio académico, onde a geração automática de texto tem vindo a permitir a autoria de artigos científicos em massa. É exemplo disto o SCIgen8_{, um programa de geração de texto recorrendo a gramática} context-free para a geração de papers e documentos académicos, completos com gráficos, diagramas e até citações. Este programa gerou bastante polémica no meio académico quando foram detetados documentos nele criados que haviam sido submetidos com sucesso a plataformas de distribuição de materiais académicos como o Springer (springer.com). Veio até a gerar uma série de websites de deteção de textos criados pelo SCIgen. (Noorden, 2014)

Podemos encontrar também o seguinte no manifesto da OpenAi:

“The public at large will need to become more skeptical of text they find online, just as the “deep fakes” phenomenon calls for more skepticism about images. Politicians may want to consider introducing penalties for the misuse of such systems, as some have proposed for deep fakes.

Today, malicious actors—some of which are political in nature—have already begun to target the shared online commons, using things like “robotic tools, fake accounts and dedicated teams to troll individuals with hateful commentary or smears that make them afraid to speak, or difficult to be heard or believed”. We should consider how research into the generation of synthetic images, videos, audio, and text may further combine to unlock new as-yet-unanticipated capabilities for these actors, and should seek to create better technical and non-technical countermeasures. Furthermore, the underlying technical innovations inherent to these systems are core to fundamental artificial

intelligence research, so it is not possible to control research in these domains without slowing down the progress of AI as a whole.” (OpenAI, 2019)

Mais recentemente, o GPT-3 permite aplicações tão avançadas como a escrita automática de

código HTML ou CSS9_{através da descrição, em linguagem corrente, do resultado pretendido}

(Bussler, 2020). Este tipo de implementação pode vir a criar um novo campo importante na aplicação destas tecnologias, trazendo ao utilizador comum uma forma simples de interação com uma tecnologia complexa, dando a possibilidade a qualquer pessoa de conseguir programar código informático sem qualquer conhecimento prévio.

8_{website disponível em arquivo em pdos.csail.mit.edu/archive/scigen e consultado a 8 de Setembro de}

(26)

2.7 Análise percetual de conteúdo sonoro e psicoacústica

O estudo de som enquanto fenómeno acústico pode ser feito de variadas formas, por exemplo, analisando a relação física que estabelece com o espaço, estudando o seu comportamento em diferentes meios de propagação, observando a reação de diferentes materiais ao interagirem com som, entre outros. O estudo do som, que também se estende à música enquanto objeto específico, pode também ser feito pela análise e observação dos efeitos cognitivos e percetuais que produz nos humanos, ou seja, a relação dos humanos com música e som. Estes dois campos, o do som enquanto algo externo ao humano e o som enquanto fenómeno que tem impacto emocional e cognitivo no ser humano, estão tipicamente divididos em dois pontos de vista diferentes mas complementares: no que diz respeito às suas qualidades físicas e matemáticas e no que diz respeito à parte percetual e cognitiva. A extração de conteúdo percetual de sons ou música pode ser ligada aos primórdios da psicanálise com Sigmund Freud, não pelo seu estudo concreto mas precisamente pela inabilidade de Freud de conseguir estudar, com base num modelo racional, as reações emocionais à música (Roazen, 1992). Freud, reconhecendo estas reações emocionais (que descreveu como “uma capacidade de agarrar e segurar”), marcou o reconhecimento da componente subconsciente da perceção musical, bem como da psicoacústica como campo de estudos (Costa Lima, 1995).

Nas décadas seguintes vários psicanalistas e musicologistas tocaram nestes conceitos de percepção musical e da emoção na música, bem como as suas ramificações para os campos da terapia musical e da musicologia psicoanalítica, no entanto um dos contributos mais relevante para o contexto desta dissertação terá sido o trabalho de Theodor Reik, ex-aluno de Freud, com a obra The Haunting Melody: Psychoanalytic Experiences in Life and Music (1953). Nesta obra Reik explora as ligações mais profundas e subconscientes da mente com a música, explora conceitos de memória musical e, mais importante ainda, os paralelismos entre a música e a linguagem como veículos de comunicação de emoções. Reik afirma que a linguagem verbal simplesmente fala de experiências enquanto que a música é capaz de evocar psicologicamente e fisicamente essas experiências (Arnold, 2007). Esta componente é importante pois remete para a dificuldade que existe em definir e estudar, de forma puramente cientifica ou académica, o campo da perceção musical, bem como da componente psicoacústica do som e da música já que está subconscientemente ligada à experiência de cada um e à forma como o seu cérebro interliga todas estas componentes de perceção, de experiência e de memória.

Como continuação deste pensamento surge em 2007 o livro Musicophilia de Oliver Sacks, um dos mais importantes neurologistas modernos, no qual defende que o ser humano é primordialmente musical e que a linguagem representa uma camada construída em cima dessa musicalidade instintiva. Sacks defende que, ao contrário de alguns animais, em que a musicalidade é visível e tem aplicações biológicas concretas, como o canto dos pássaros ou os sons das baleias, no homem essa característica

(27)

é maioritariamente subconsciente, sendo ainda assim inata, já que é transversal a todos os seres humanos a perceção de conceitos como o timbre, a melodia e principalmente o ritmo (Sacks, 2007).

É aqui que a componente percetual se intersecciona com a componente física do som, com as primeiras aplicações de modelos psicoacústicos ao estudo da acústica, da engenharia electrónica e da ciência dos computadores como é exemplo a espacialização sonora (surround sound e espacialização 3D, por exemplo), sonificação e até da síntese sonora.

2.8 Exemplos criativos recentes da geração automática de texto

Além das implementações técnicas têm vindo a crescer também os recursos artísticos dedicados à geração automática de texto desde os cut-ups da beat generation. Um dos exemplos mais proeminentes, neste seguimento, é o livro 1 the Road de Ross Goodwin, publicado em Julho de 2018. Goodwin simulou a viagem de Jack Kerouac em On the Road numa viatura equipada com câmaras, GPS, microfones, um relógio e um algoritmo de IA (um gerador de texto baseado numa RN e treinado

em três grandes corpos de texto poético e prosa), com um input do Foursquare10_{como semente para a}

geração de texto. Assim, o algoritmo “escrevia” sobre os locais por onde passava, à semelhança de Kerouac, enquanto misturava inputs vídeo e áudio na geração automática do texto. O resultado, um livro de 143 páginas de texto e imagens, é vendido como um dos primeiros trabalhos multimédia totalmente criados por uma Inteligência Artificial e tornou-se de imediato num foco de reflexão sobre questões de autoria. Num artigo de uma revista online sobre o livro lê-se uma aplicação quase directa do ELIZA effect:

“You might see, in the odd line, the flickering ghost of something like consciousness, a deeper understanding. Or you might just see fragments of meaning thrown into a neural network blender, full of hype and fury, obeying rules in an occasionally striking way, but ultimately signifying nothing.” (Hornigold, 2018)

Um exemplo mais antigo mas bastante mais próximo do trabalho apresentado nesta dissertação é o Nam Shub de Jörg Piringer, apresentado em 2005. O Nam Shub, nome retirado de uma das obras já mencionadas anteriormente (Snow Crash de Neal Stephenson) é um software que permite geração de texto para aplicações performativas de literatura experimental e poesia visual (Piringer, 2007). Trata-se de uma ferramenta de geração de texto com baTrata-se em cadeias de Markov que permite a criação e composição visual de texto através de um user interface, de controladores externos ou mesmo do live

10_{Aplicação de geolocalização para telemóveis, normalmente utilizado para referenciar restaurantes ou}

(28)

coding. Apesar do foco no output visual do texto, o Nam Shub permite ainda o recurso ao text-to-speech, de forma a ser utilizado também de modo performativo. Do Nam Shub é importante ainda

referir a componente visual, com uma estética marcadamente ASCII11_{e também o recurso ao}

reconhecimento de voz como forma de input de texto, tecnologia esta que Piringer utiliza precisamente pelo facto de ser bastante errática, o que por vezes resulta em conteúdo ricamente poético. (Piringer, 2007)

Ainda anterior ao Nam Shub, e uma das referências também para este, foi o Cut n’ Mix de C.P. Bryan. Este software, introduzido pelo autor como um processador de texto pós-modernista ou como um laboratório de cut-up e que se encontra disponível gratuitamente no website do próprio autor12_, introduziu vários conceitos relevantes. Um deles advém da sua forma de funcionamento elementar, que consiste numa espécie de mesa de mistura, reminiscente dos gravadores de cassetes de quatro pistas, em que são misturados quatro inputs (quatro ficheiros de texto externos) através de um fader para cada “pista” de texto, tal como aconteceria numa mesa de mistura de som com pistas de sinal sonoro. Depois, permite ainda algumas funcionalidades interessantes para a geração do texto, permitindo por exemplo fazer o output do texto misturado recorrendo ao estilo de um autor específico (e.g. Shakespeare), de misturar o texto com palavras nonsense (retiradas da obra Jabberwocky de Lewis Carrol) ou ainda de apresentar o resultado em formato de haiku13 (C.P.Bryan, 2012). Este software consiste maioritariamente numa ferramenta de apoio à escrita criativa, completa com várias funcionalidades adicionais como o simples cut-up ou o recurso às librarias internas para enriquecer o vocabulário de um texto em criação, não possuindo, no entanto, aplicações performativas em tempo real.

11_{ASCII ou American Standard Code for Information Interchange é uma tecnologia de codificação de}

caracteres de texto para apresentação em ecrã. Actualmente o termo usa-se para caracterizar uma corrente estética que recorre unicamente a estes caracteres para ilustrações ou efeitos visuais.

12_{Disponível em}_{http://www.cutnmix.com/cutnmix_software.html}_{, consultado a 10 de setembro de 2020} 13_{O formato tradicional da poesia japonesa apresentada sempre em três linhas de cinco, sete e cinco}

(29)

3. Prototipagem

Numa palestra intitulada Relations Between Text and Music, durante a edição de 2009 do Ung Nordisk Musik, o compositor sueco Henrik Strindberg enumerou cinco tipos de relação entre música e texto da seguinte formad (Streindberg, 2009). O primeiro tipo de relação é a relação literal, onde o som representa a significação textual e vice versa, por exemplo um bombo representando um trovão ou uma flauta representando um canto de ave. Um segundo tipo é a relação emocional, onde o som representa a reacção emocional de outrem, como por exemplo o folley usado nos desenhos animados antigos. O terceiro tipo de relação é a relação metafórica entre som e texto e o quarto tipo de relacionamento que Strindberg enumera é a relação conceptual, como por exemplo nas Europeras de John Cage. No entanto, o quinto tipo de relação que Strindberg enumera, ou mais especificamente a sua explicação, é ponto central para a dissertação que aqui será apresentada:

There should be a fifth category: Independency between music and text. No relation. However - I believe that the human brain will try to invent a relation when there is none. - (Streindberg, 2009)

Neste capítulo irei documentar os passos iniciais da construção desta ferramenta, fazendo a ligação entre os exemplos incluídos no capítulo anterior com os conceitos pessoais e características técnicas que irei introduzir.

Este terceiro capítulo dividir-se-á em três secções principais, referentes a cada uma das componentes deste trabalho: a conceção, o desenho da componente áudio e o desenho do componente texto. Tendo sido um processo de investigação prática contínua, em que se desenvolveram ambas as componentes som/texto em simultâneo e em que cada uma delas condicionou e influenciou o desenvolvimento da outra, tornam-se de certa forma indissociáveis. No entanto, por uma questão de clareza e organização deste documento, irão ser aqui documentadas em capítulos separados, fazendo referência à sua simbiose sempre que necessário.

(30)

3.1 Conceptualização da ferramenta

Antes de documentar a componente técnica levada a cabo, é necessário documentar e explicar o processo da sua conceptualização, já que daqui advêm grande parte, senão todas, as diretrizes que guiaram a conceção deste trabalho.

A génese para o desenvolvimento deste trabalho surge com uma série de concertos entre 2018 e 2019 e do desafio que surgiu ao ter de os adaptar a contextos marcadamente diferentes, uma situação de performance em galeria e uma situação de clubbing e rave. Para estes concertos pretendia usar projeções do filme Sociedade do Espectáculo (1972) de Guy Debord, obra que me encontrava a analisar na altura.

O filme trata-se de uma colagem de imagens com carga política, implícita ou explícita, sobrepostas da narração do próprio Guy Debord do seu livro com o mesmo título de 1967. Conceptualmente, trata-se de uma obra filosófica de análise social, com enfoque na crítica sociopolítica e na crítica das artes, tendo sido historicamente importante para os eventos e as revoltas estudantis de Maio de 1968 em França. Guy Debord foi uma das figuras mais proeminentes da Internacional Situacionista (IS), uma espécie de coletivo e organização política de intelectuais, artistas avant-garde e teóricos sociais proeminente na europa entre 1957 e 1972, da qual esta obra se tornou na peça central.

É importante aqui referir alguns dos conceitos-chave da IS, pois serão aproveitados no decorrer deste trabalho. As fundações intelectuais da IS prendem-se com a teoria crítica, nomeadamente teoria Marxista, não só sociopolítica e materialista mas também cultural e artística. (Henriques, 1998) Talvez o principal conceito Situacionista, ou talvez o mais importante para este trabalho, seja o conceito de Espectáculo que os situacionistas definem como a intersecção entre a economia de mercados e os mass media como sendo a fonte das problemáticas do fetichismo da mercadoria, da reificação e da alienação conforme levantadas por Karl Marx em meados do séc. XIX e mais especificamente conforme retomadas por György Lukács nos anos 20. (Wark, 2011) Aqui, os

situacionistas defendem que são a economia e os mercados que dominam os

trabalhadores/consumidores e que existe uma passividade social crescente, fomentada por esta “sociedade do espectáculo”.

Societé Du Spectacle, o livro de 1967 que deu origem à versão filme-ensaio aqui usada, tem como premissas centrais a degradação da vida humana, ou seja, a passagem progressiva do Homem como um ser social, em que a sua representação é o seu próprio caracter individual dentro de uma sociedade, para um Homem definido pelas suas posses (mercantilização) e, num estado mais avançado, para um ser que se define pelo que aparece: o que é visível e demonstrado socialmente. O

(31)

ser deu progressivamente lugar ao ter e o ter, por sua vez, foi substituído pelo aparecer:

“The first phase of the domination of the economy over social life brought into the definition of all human realization the obvious degradation of being into having. The present phase of total occupation of social life by the accumulated results of the economy leads to a generalized sliding of having into appearing, from which all actual “having” must draw its immediate prestige and its ultimate function. At the same time all individual reality has become social reality directly dependent on social power and shaped by it. It is allowed to appear only to the extent that it is not.” (Debord, 1967, para. 17)

Esta progressão atinge o apogeu na era actual: do Homem social da época clássica, ao Homem de mercadorias da época industrial até ao Homem da representação nas redes sociais. Neste trabalho pretendo trabalhar sobre este preciso momento na história social do ser humano usando para isso uma espécie de subversão crítica das tecnologias, à semelhança do que Joseph Wizenbaum havia feito com a aplicação digital ELIZA ou Christopher Strachey com o programa Love Letters.

Esta componente também advém de outra das temáticas centrais do livro de Debord, que se relaciona com o plágio, a reutilização ou reapropriação de ideias, de forma irónica, crítica e construtiva:

207. Ideas improve. The meaning of words participates in the improvement. Plagiarism is necessary. Progress implies it. It embraces an author’s phrase, makes use of his expressions, erases a false idea, and replaces it with the right idea. (Debord, 1967, para. 207)

Esta é outra das contribuições intelectuais e artísticas centrais do movimento Situacionista: o conceito de détournment. O détournment aparece descrito da seguinte forma na primeira edição da revista da IS, editada como Internationale Situationniste 1 em Junho de 1958:

Détournement - Short for “détournement of preexisting aesthetic elements.” The integration of present or past artistic productions into a superior construction of a milieu. In this sense there can be no situationist painting or music, but only a situationist use of those means. In a more elementary sense, détournement within the old cultural spheres is a method of propaganda, a method which reveals the wearing out and loss of importance of those spheres.(Debord et al., 1958, p. 13)

Ou seja, trata-se de um desvio estético, crítico e criativo de uma metodologia ou conteúdo de forma a evidenciar de as suas próprias falhas.

Partindo destes princípios, a ideia era recorrer à projeção do vídeo diretamente da internet, usando o sistema nativo de captions e de tradução automática do YouTube. Sendo o filme narrado em

(32)

francês, ficaria sujeito ao bom (ou mau) funcionamento não só do reconhecimento de voz automático das captions como também da tradução automática do francês para o inglês. Pretendia-se assim que as fragilidades destes sistemas fossem expostas e exploradas de forma recreativa, uma espécie de détournment dos situacionistas e das tecnologias automáticas massificadas mas erráticas disponíveis em plataformas tão ubíquas hoje em dia como o YouTube. A projeção seria enquadrada de modo a centralizar o foco no texto cortando até parte da imagem. O texto tornou-se desta forma o principal elemento da projeção que acompanharia toda a performance musical. Apesar do conteúdo político e filosófico do texto ser intencional, a introdução de uma componente incontrolável (o reconhecimento e tradução automáticos erráticos) contribuiria para um efeito heurístico, onde as partes mal transcritas ou mal traduzidas poderiam vir a potenciar uma nova camada de interpretação ao espectador.

No entanto, este sistema de apresentação do texto via YouTube veio a tornar-se impossível de implementar pelo simples facto de depender de uma ligação à internet, característica que não conseguia garantir em todos os espaços onde pretendia apresentar este trabalho. Surgiram então deste modo as premissas principais que levaram a este trabalho: o texto como conteúdo principal (mais especificamente a sua desconstrução e recombinação) e o détournement tecnológico como forma de crítica, à semelhança de Strachey, de Wizenbaum, de Burroughs e de Debord.

O próprio livro Societé du Spectacle (1967) de Guy Debord foi escrito como uma série de colagens de várias fontes, muitas das vezes reinterpretadas, outras vezes reapropriadas ou desviadas (détourné) e, outras ainda, plagiadas diretamente. Debord recorre a apropriações de várias fontes directas, como Karl Marx, Max Stirner ou Hegel mas também a fontes menos diretas como Moby Dick de Herman Melville. (Debord, 2003) Esta técnica, uma espécie de variação do cut-up de Burroughs, mais cirúrgica e minuciosa e sem aleatoriedade, confere ao texto uma camada interpretativa bastante profunda. É necessário descodificar o sentido do texto através da forma, torna-se difícil de ler mas, de alguma forma, fácil de interpretar. Foi assim que surgiu a ideia de usar geração automática de texto neste trabalho.

Numa primeira fase, pretendia recorrer a tecnologias avançadas ligadas à geração automática de texto para evidenciar as falhas que existem e até tentar expor de alguma forma o uncanny valley14 inevitável resultante de se entregar escrita criativa a um algoritmo digital. No entanto, ao estudar

hipóteses como o GPT-2, as redes neuronais ou até o machine learning (e.g. TensorFlow15_{), aparecem}

inúmeras problemáticas que se prendem não só com a aplicação técnica como incapacidade de resposta em tempo real devido a sistemas de processamento complexos ou (novamente) a necessidade de ligação à internet. Também existem algumas problemáticas conceptuais como os vieses gramaticais e contextuais inerentes à própria programação dos algoritmos e à amostragem que é usada para a sua construção. Há também uma componente ética, conforme documentado em 2.6, que me inibiu de

14_{O uncanny valley é um conceito hipotético que pretende relacionar o grau de semelhança de um objecto}

com o ser humano e a resposta humana a esse mesmo objecto.

15_{O TensorFlow é uma plataforma online open-source da Google para machine learning}

(33)

recorrer a sistemas potencialmente enviesados para algum tipo de ideologia inerente à sua construção, como por exemplo os famosos autocomplete do Google que normalmente continham conteúdo racista ou misógino16_.

Surgiu assim a vontade de recorrer às tecnologias primitivas e elementares de recombinação de texto, tanto o cut-up de Burroughs como as cadeias de Markov usadas por Wizenbaum e Strachey nos seus trabalhos seminais. Pretendia combinar de alguma forma estas duas técnicas, a capacidade de conseguir controlar o conteúdo ou, no mínimo, a temática, da mesma forma que o cut-up permite escolher o que se recorta. Assim sendo, o objectivo passou a ser recombinar dois trechos de textos diferentes através de cadeias de Markov geradas e controladas através do computador.

O recurso a passagens maiores de textos recombinados através de cadeias de Markov permitiria gerar texto gramaticalmente mais interessante do que um processo totalmente aleatório como o cut-up. Da mesma forma, iria conseguir desta forma ter algum controlo sobre a temática geral do texto gerado.

Encontrado este esquema base, fui desenvolvendo a ideia em torno de retirar o máximo de variações possíveis deste método de recombinação de dois textos. O modo de interação mais simples neste modelo seria a possibilidade de obter controlo sobre a quantidade de cada texto que se misturava no “sistema”, ou seja, quanto conteúdo do texto-fonte A e do texto-fonte B seria alimentado à cadeia de Markov para posterior recombinação. Desta forma seria possível guiar a temática geral do texto sem nunca se obter controlo total, deixando sempre em aberto uma componente generativa na criação do texto.

Foram estas premissas que deram origem à proposta desta dissertação e ao trabalho que passo a documentar no capítulo seguinte.

(34)

3.2 O Som

O principal objetivo na implementação da componente de análise de áudio é recorrer a um modelo que se correlacione com a componente percetual e psicoacústica. Deste modo, e tendo em conta que o modelo terá de funcionar em tempo real, pareceu-me mais indicado recorrer a descritores sonoros de baixo nível. Os descritores de baixo nível são normalmente calculados diretamente a partir do próprio sinal sonoro e através de computações simples (Friberg et al., 2014; Gouyon et al., 2008) o que permite a sua aplicação instantânea, ou seja, para cada instante do sinal sonoro, em tempo real (Peeters, 2004).

A escolha deste tipo de descritores advém também do facto de não possuir estudos musicais formais, pelo que pretendia que o modelo fosse baseado em características sonoras basilares e menos baseado em descritores de médio ou alto nível, que introduzissem características já ligadas a conceitos de composição e interpretação musical. Os descritores de nível médio implicam uma generalização das características medidas através dos descritores de baixo nível e normalmente necessitam de amostras espectrais maiores ou mesmo bases de dados (Gouyon et al., 2008). Os descritores de alto nível ainda adicionam uma camada interpretativa adicional, centrada no ouvinte, com conceitos ainda mais subjetivos (e.g. mood) (Gouyon et al., 2008). Assim, mantendo a extração de conteúdo sonoro mais baseada no próprio sinal sonoro em si, não só me era mais natural como músico como evitaria modelos mais complicados, que poderiam dificultar na obtenção de uma ferramenta abrangente e facilmente adaptável a diferentes aplicações.

Para a extração do conteúdo sonoro resolvi recorrer a um objecto Max/MSP bastante familiar no

percurso do Mestrado: o analyser~ de Tristan Jehan17_{. Esta implementação, entretanto descontinuada}

mas ainda disponibilizada pelo autor, serviu de base a outras livrarias de extração de informação de

sinais sonoros, como a livraria de Max externals do CNMAT18_{, ou os zsa.descriptors}19_{da autoria de}

Mikhail Malt and Emmanuel Jourdan. No entanto o analyser~ continua a ser um dos objectos mais elementares e de aplicação mais direta, permitindo o acesso rápido a uma série de descritores sonoros de baixo nível, ideal para o que pretendia estudar.

Para isso construí um patch em Max/MSP que permitia experimentar várias fontes sonoras (sweeps de frequências, samples de percussão, arpejos de sintetizador, etc.) com diferentes características sonoras, texturais e espectrais de forma a poder visualizar graficamente e em tempo real a resposta dos descritores em teste. Os descritores que escolhi foram loudness, brightness e noisiness, os quais passo a fundamentar:

17_{Disponível em}_{http://web.media.mit.edu/~tristan/maxmsp.html}_{consultado a 18 de Julho de 2020} 18_{Disponível em}_{https://cnmat.berkeley.edu/downloads}_{consultado a 18 de Julho de 2020}

(35)

- Loudness é a perceção acústica de pressão sonora (Ziemer et al., 2016). É uma perceção subjetiva já que depende não só do som em si mas também do ouvinte e ainda de outras características espectrais e envolventes. No entanto, do ponto de vista psicoacústico, é bastante unânime na sua utilização descritiva da sensação de volume (Schubart, 1978). Esta “unanimidade percetiva” e as aplicações possíveis na sua correlação com componentes visuais pareceram-me claramente importantes de explorar. No analyser~, o loudness é medido através do cálculo da quantidade de energia espectral geral (Jehan & Schoner, 2001).

- Brightness é uma qualidade sonora diretamente relacionada com o timbre de um som e com a sua posição espectral (Friberg et al., 2014). É uma correlação entre perceção auditiva e visual largamente documentada. Valores de brightness mais altos estão normalmente associados a cores mais vibrantes ou a sensações sinestésicas de brilho mas também existe correlação com emoções e mesmo estados de espírito (Collier & Hubbard, 2004). É então uma característica que apesar de extremamente simples na sua definição, poderá trazer bastante conteúdo semântico e percetual. Com o analyser~, medimos o brightness através da medição do centroide espectral (spectral centroid) (Jehan & Schoner, 2001).

- Noisiness é a medição do número de vezes que um sinal sonoro passa de positivo para negativo e vice-versa (i.e. zero-crossing rate), o que tem relação direta com a perceção de ruído sonoro (Giannakopoulos & Pikrakis, 2014). Interessou-me explorar esta noção percetual de ruído na forma das suas possíveis aplicação ao texto. No analyser~, a noisiness é medida recorrendo ao nivelamento espectral (spectral flatness measure) com base na Escala de Bark20_{(Jehan & Schoner, 2001).}

Esta implementação foi sustentada pela dissertação Interactive Musical Visualization Based on Emotional And Color Theory de Karessa Bowens, onde está detalhadamente documentada a aplicação

de um modelo semelhante (também recorrendo ao analyser~ para extração de

loudness/brightness/noisiness) à extração de conteúdo sinestésico de sinais áudio (Bowens, 2008). Sendo que pretendo fazer a correlação áudio/texto, é bastante relevante a correlação sonora e visual ali investigada e documentada.