Visão computacional como possibilidade de interação

Seção 4 Visão computacional no imaginário artístico

3.2. Visão computacional como possibilidade de interação

A organização de um sistema de visão computacional depende de sua aplicação. A implementação específica desse sistema depende também se sua funcionalidade é pré- especificada ou se existe alguma parte de aprendizagem durante a operação.

A funcionalidade de um sistema de visão computacional é necessária para que se defina a estrutura do projeto e dos equipamentos que integrarão a proposta. De modo geral Bernd Jähne (2000) aponta como componentes de um sistema de visão: (1) a fonte de radiação, pois sem a radiação nada será observado; (2) a câmera, que capta a radiação emitida pelos objetos de tal forma que as origens da radiação possam ser identificadas e processadas; (3) um sensor, que converte a densidade radioativa do fluxo recebido em um sinal adequado para tratamento posterior; uma unidade de processamento associado à memória do sistema; e (4) agentes que reagem ao resultado da observação final.

Diagrama. Visão Computacional

Apesar de parecer complexo e muitas vezes realmente ser, o resultado artístico final dos trabalhos aparentam ser mais simples que o suporte técnico, computacional e algorítmico que o originaram.

David Rokeby desenvolveu Very Nervous System - VNS (1983-2004) é uma instalação interativa que usa câmeras de vídeo, um sistema de percepção artificial, computadores e sintetizadores para criar um espaço no qual os movimentos do corpo são traduzidos em sons

ou música em tempo real. Embora o trabalho tenha sido experimentado pelo público como uma instalação interativa de som, sem qualquer componente visual, uma grande parte do sistema foi um sistema de visão. A tradução da imagem em movimento ao som ou à música era muito subjetiva, mas levou o artista a pensar sobre as relações entre imagem e som, e entre ver e ouvir. O caráter sensível do VNS é construído de pequenos instrumentistas virtuais, cada um improvisa de acordo com seu estilo pessoal, baseado no que "vê" por meio da câmera. Neste sistema é realizado feedback em tempo real.

Em uma proposta que une música e produção de imagens, IdAnce (2009), pista de dança interativa, gamearte projeto coordenado por Suzete Venturelli, com os bolsistas de iniciação científica Leandro Gaby Andersen Trintade e Pedro Guerra Brandão, programadores, utiliza de um sistema de visão computacional que objetiva mapear o movimento do atuadores no espaço do jogo. O gamearte apresenta o uso da música como meio de geração de gráficos computacionais artísticos capazes de reforçar no usuário o estímulo gerado, ampliando assim a experiência sensorial criada pela música. Além do

software, o sistema compreende um dispositivo com sensor de captação de movimento

infravermelho, projetor multimídia e um espelho para a instalação do ambiente interativo de imagem e som em tempo real.

Figura 80 – IdAnce (2009)

Sparacino (2001) afirma que as técnicas de captação por infravermelho são usadas em sistemas de visão computacional baseados em monitoramento de organismos em diferentes condições iluminação e/ou com projeção frontal de imagem. As vantagens do uso dessas técnicas estão na aplicabilidade da captação em tempo real, basta que se tenha uma câmera infravermelha integrada a um computador pessoal, sem esquecer o software que possibilita a interpretação dos dados captados. Contudo, não permite que se faça distinção entre as diferentes especificidades do corpo, apenas o corpo enquanto silhueta contra um fundo.

Torna-se necessário o uso de um modelo de reconhecimento inteligente para garantir um maior detalhamento do reconhecimento.

No desenvolvimento de um sistema de visão computacional, devem-se levar em consideração algumas funções que foram indicadas por Rehem e Trindade (2009) como comuns a esses sistemas. A aquisição de imagem digital, produzida por um ou vários sensores, cujo resultado pode variar entre uma imagem bidimensional, uma cena tridimensional ou ainda uma sequência de imagens, dependendo do tipo do sensor. Nessas imagens, os valores dos pixels geralmente indicam a intensidade da luz em uma ou várias faixas de cor. O pré-processamento da imagem, realizado antes da aplicação de um método de visão computacional em uma imagem para extrair informação, assegura que ela satisfaça às condições do método. Em seguida, processa-se a extração de características matemáticas da imagem em vários níveis de complexidade, tais como detecção de bordas, de cantos, de textura, de formato ou de movimento. Já a detecção e segmentação referem-se à detecção da relevância de regiões da imagem para processamento posterior. Finaliza-se com o processamento de alto nível que inclui a verificação da satisfação dos dados, a estimativa de parâmetros sobre a imagem e a classificação dos objetos detectados em diferentes categorias.

Jähne (2000) sintetiza afirmando que a meta do sistema de visão computacional é converter as imagens captadas em sinais digitais para que possamos obter informações sobre onde ele está (geometria, posicionamento a partir de eixos cartesianos), aquilo que é (ser/objeto), ou quais suas propriedades. De forma mais simplificada, um sistema de visão computacional requer uma entrada de dados (imagem) obtida por meio sensores, câmeras, ou vídeos. À captação, segue-se o processamento, no qual os dados originais são transformados em uma informação esperada, Rehem e Trindade (2009) exemplificam o sistema de visão computacional com uma sequência de ações simples: receber uma imagem colorida (dado), binarizar a imagem (processamento), exibir uma imagem preta e branca em níveis de cinza (informação esperada). A transformação da imagem ocorre a partir de um processo realizado por métodos contidos em bibliotecas de processamento gráfico. Algumas das bibliotecas mais utilizadas atualmente são: OpenCV e OpenGL.

OpenCV (Open Source Computer Vision) foi originalmente desenvolvida pela Intel, como uma versão simplificada de Open Source Computer Vision Library (bliblioteca de visão computacional de código aberto). Ela é escrita em C e C++, roda em Linux, Windows e Mac OS X, e possui métodos bastante úteis à aquisição e ao tratamento de imagens, facilitando a implementação de trabalhos com visão computacional, como segmentação de imagens, reconhecimento de faces e detecção de movimento entre outros. Segundo Flávia Ost (2008),

essa biblioteca possui, entre outras, funções para captura de imagem de câmera, para execução de operações sobre essas imagens, além de possibilitar a exibição dos resultados com facilidade. Por ser de código aberto, encontramos vários algoritmos já implementados que podem ser utilizados, adaptados, ou reescritos.

OpenGL (Open Graphics Library) é uma biblioteca de funções gráficas e de modelagem bidimensional (2D) e tridimensional (3D). Em linhas gerais, Cohen e Manssour (2006) afirmam que a OpenGL é uma Interface de Programação de Aplicativos (API –

Application Programming Interface) para a criação de aplicativos gráficos. Os comandos e

funções desta biblioteca possibilitam acesso a quase todos os recursos do hardware de vídeo. Entre os recursos gráficos disponíveis pela OpenGL encontram-se formas de desenho de pontos, ajuste de largura de linhas, aplicação de transparência, mapeamento de texturas, manipulação de iluminação e sombreamento, transformação de sistemas de coordenadas, transformações em perspectiva e combinação de imagens (blending). Atualmente, segundo os autores, a OpenGL é reconhecida e aceita como um padrão de API para o desenvolvimento de aplicações gráficas 3D interativas e que geram imagens em tempo real.

Fluídos, trabalho coordenado por Mario Maciel e Suzete Venturelli e desenvolvido por Johnny Souza e Ronaldo Ribeiro, que tem por objetivo principal a colaboração entre os jogadores e o computador, utiliza Inteligência Artificial nas ações interativas ao provocar no ambiente de jogo imagens inusitadas na medida em que ocorre qualquer tipo de movimentação, introduzidas no ambiente virtual a partir de algoritmo de fluídos. Um dos aspectos mais importantes é o desenvolvimento da interface sensório-motora, que, segundo Venturelli (2007), permite digitalizar os movimentos do jogador por meio de uma câmera digital, com visão computacional, provocando a interação entre os atuadores e o ambiente virtual. A elaboração do software/algoritmo de fluídos foi realizada com a linguagem C/C++ em conjunto com as bibliotecas SDL e OpenGL. A manipulação de fluídos (forma, cor, movimento e textura) ocorre a partir de gestos dos atuadores que são digitalizados por uma câmera digital.

3.2.1 Técnicas de Visão computacional

Para compreender como a arte computacional interativa pode tirar partido das técnicas de visão computacional, é necessário iniciarmos pelos mecanismos básicos de funcionamento da visão que computacionalmente são resolvidos e gerenciados por algoritmos. Levin (2006) lembra que um computador, sem programação adicional, não tem capacidade sequer para

atender às mais elementares questões sobre se um vídeo contém uma pessoa ou objeto, ou se a cena mostrada acontece de dia ou à noite, entre outras. Wangenheim (2005) aponta uma série de diferentes técnicas que são encontradas em um único sistema de visão computacional, a saber: técnicas de óptica e iluminação; técnicas de aquisição de imagens; técnicas de processamento e análise de imagens; além de automação e controle.

Um dos resultados da implementação algorítmica destas técnicas está na detecção de movimento dentro de um espaço de interação. Os movimentos de pessoas (ou outros objetos), dentro deste espaço podem ser detectados e quantificados utilizando um método diferenciação/comparação a partir de um mapeamento prévio. Cada pixel de um campo previamente delimitado é comparado com seu correspondente pixel no mesmo campo captado posteriormente. A diferença de cor e/ou brilho entre estes dois pixels é uma medida da quantidade de movimento em uma determinada localização. Estas diferenças podem ser resumidas em todos os pixels do espaço de interação, a fim de proporcionar uma única medição do movimento total no campo delimitado. Levin (2006) explica que, em algumas implementações de detecção de movimento, o espaço é espacialmente dividida em um grid de células, e os valores provenientes da demarcação inicial são comunicadas para cada uma das células. Para precisão, o algoritmo de diferenciação/comparação depende da iluminação ambiente relativamente estável e a câmera digital para captura deve estar parada (a menos que seja o movimento da câmera que está sendo medido).

Em Zerseher (1991), Joachim Sauter e co-autoria de Luesebrink Dirk, utiliza-se se rastreamento do movimento ocular numa proposta de instalação interativa em que os visitantes de uma exposição ao se aproximarem de uma pintura percebem que no local da foto que estão olhando ocorrem mudanças na interface gráfica. A imagem reage sobre o olhar do atuador que se julga inicialmente apenas observador da obra, assim mesmo olhando para a obra mais de uma vez, não poderá vê-la no mesmo estado. Segundo Sauter, o projeto foi desenvolvido como uma reação à atitude geral, no final dos anos 1980, de considerar os computadores como ferramentas. O intuito desta instalação foi o de promover uma das qualidades mais importantes do computador como um meio, promover a interatividade ou diálogo mútuo.

Figura 81 – Zerseher (1991)84

Para que a transformação na tela seja visualizada pelo observador um projetor atrás do quadro enquadra a tela que exibe a pintura; por trás desta tela um olho-rastreador é instalado (câmera, infravermelho-light, computador, vídeo-monitoramento de software). A câmera está apontando para os olhos dos observadores, enquanto um software analisa o sinal de vídeo e localiza no centro da a fim de poder calcular exatamente em que parte da pintura, a pessoa está olhando. Estas posições são então enviadas para um programa gráfico que distorce a imagem exatamente nessas coordenadas. Se ninguém olha para a imagem para mais de 30 segundos a imagem volta para sua condição original.

Cada vez mais os algoritmos usados em visão computacional buscam tornar os trabalhos artísticos que constituem mais interativos, imersivos, possibilitando ao atuadores sentir-se parte da obra. Levin (2006) afirma que existem técnicas que podem criar relatórios em tempo real sobre a identidade das pessoas, lugares, movimento gestual, expressões faciais, características do andar, direcionamento do olhar, entre outras características. Embora a implementação de alguns algoritmos exijam entendimentos avançados de processamento de imagens e estatísticas, uma série de técnicas eficazes podem ser implementadas com

resultados muito bons. Existe, hoje, amplo conjunto de ferramentas livres e comerciais disponíveis que fornecem o acesso às avançadas funcionalidades da visão computacional.

Ciberinstalações que integrem diferentes sistemas e possibilidades de interação oferecem reflexões mais amplas, que envolvem arte, tecnologia e as ciências. Diana Domingues, Anderson Maciel e o Grupo NTAV apresentam nessa perspectiva Ídolos Tagueados (2008), uma ciberinstalação em realidade aumentada e conexão on-line para escritas colaborativas. Todo o ambiente está tagueado e oferece interação com o cotidiano simbólico de personagens da história da cultura humana, elevados à categoria de ídolos. Quando o visitante apresenta uma etiqueta de código de barra ao leitor laser, chama um ídolo, por exemplo: Carmem Miranda, Ayrton Senna, Pelé. Por visão computacional uma câmera capta a pessoa e a coloca na projeção, ao lado do personagem, elevando-a a categoria de ídolo, com seus minutos de fama. A sala possui uma mesa com bandejas decoradas com etiquetas (tags), com formas geométricas como elementos decorativos. Ao elevar a bandeja como uma oferenda, surgem objetos sobre as bandejas, como frutas, medalhas, capacetes, bolas de futebol. A visão computacional permite que uma câmera leia as formas dos padrões das tags e interfaces gráficas, somadas a computação ubíqua, permitem tocar e manipular objetos virtuais colados sobre o espaço físico. Ampliando o grau de sensorialidade, etiquetas usadas para a interação contêm em seu código de barra termos da vida dos ídolos, e oferecidas ao leitor, vão para um sistema de busca na internet e escrevem frases sobre os personagens, numa escrita colaborativa de autores distribuídos no planeta. Nessa trabalho vemos a visão computacional utilizada em dois sistemas diferentes de captura e interpretação de imagens.

3.2.2 Campos relacionados à visão computacional

A visão computacional que tem sido explorada em diferentes propostas artísticas desde seu surgimento, insere-se em outros campos de estudo que contribuem para o aprimoramento da técnica e das possibilidades de aplicação hoje existentes.

Relaciona-se diretamente à inteligência artificial. Uma das propostas da inteligência artificial é o processamento do movimento de robôs em determinado espaço, combinado a determinados padrões de aprendizagem. Esse sistema necessariamente depende de um sistema de visão computacional, que por meio de um sensor de visão, capta as impressões imagéticas que são processadas e fornecem ao robô informações em que se movimenta. Rehem e Trindade (2009) reforçam a importância da física nos estudos de visão computacional, pois muitos dos sistemas mais avançados requerem o entendimento dos processos em que a radiação eletromagnética, luz infravermelha, é refletida pelas superfícies dos objetos e capturada pelos sensores para formar a imagem. Assim abarcamos campos da física que envolvem a óptica, a física dos estados sólidos e física quântica, visto que alguns sensores mais modernos requerem conhecimentos de quântica para fornecer uma compreensão do processo de formação da imagem.

E para não esquecer o pioneiro David Marr é no campo da neurobiologia que enriqueceremos o estudo e as aplicações da visão computacional a partir do estudo dos sistemas biológicos de visão. Os sistemas de visão computacional buscam imitar os sistemas biológicos em diferentes níveis de complexidade, possibilitando o desenvolvimento de inúmeras aplicações no campo da biologia e da medicina.

Apresenta-se relacionada a outros campos, tais como estatística, geometria computacional e processamento de sinais. E os estudos realizados em cada uma das áreas específicas contribuem para o desenvolvimento da técnica que pode ser aplicada em parcerias entre os diferentes campos da arte, ciência e tecnologia.

As pesquisas avançam, permitindo uma precisão algorítmica que antes parecia não ser possível. Um exemplo é o rastreamento do movimento ocular na implementação de sistemas que possibilitam maior interação homem-máquina. O artista-pesquisador dessas tecnologias acompanha as possibilidades exploradas pelas ciências para uso da visão computacional para que possa constituir parcerias que contribuam para o desenvolvimento de trabalhos que contribuam para a solução de problemas ou situações que envolvam o uso de visão computacional. Os trabalhos artísticos em visão computacional buscam maior interação homem-máquina aproximando a realidade física da virtualmente modelada.

Conclusão

A realização da presente pesquisa ofereceu oportunidade de explorar e compreender diferentes tipos de interface, padrões de interatividade, além de confirmar a opção por aprofundar em estudos futuros nas conexões e transdisciplinaridade oferecidas pela arte e tecnociência. Apesar de alguns aspectos da pesquisa terem sido abordados com relativa superficialidade as leituras foram intensas, bem como as interseções entre teoria e prática.

No desenvolvimento da prática, utilizaram-se diferentes interfaces de interação e exploraram-se alguns modelos de interface gráfica. Com estes trabalhos participamos de exposições e mantivemos presença com publicação de artigos em eventos nacionais e internacionais realizados no Brazil e em ambientes online. O fato de todos os trabalhos terem sido desenvolvidos sem o suporte de uma equipe foi importante para percebermos que a prática ganha em complexidade e em variabilidade à medida que se pode contar com parcerias de outras áreas. Por outro lado esta produção só foi viável em função do domínio de softwares gráficos e de desenvolvimento de interfaces gráficas interativas, além de linguagens de programação.

Os estudos gerais sobre interação, interatividade e interface contribuíram para que fossem estabelecidas as conexões tão presentes hoje na arte computacional e na arte interativa. Verificando que a arte tem se aproximado, dentro da linha de arte e tecnologia, das ciências para tornar-se campo mais amplo de investigações, em que se preocupa com a utilização de interfaces mais naturais, com processos que promovam a simbiose da prática com a teoria, e com a confirmação do atuador como co-autor nos trabalhos artísticos interativos.

Durante a investigação prático-teórica, verificou-se que em trabalhos de arte computacional a escolha e a integração de diferentes interfaces relacionam-se diretamente com o processo criativo. A aproximação entre artistas e cientistas tem construído parcerias que tornam possível a execução de trabalhos mais complexos artística e tecnologicamente, integrando tecnologias e possibilidades de interação com as interfaces humano-computador.

Os processos interativos artísticos oferecem inúmeras possibilidades quando analisados dentro de perspectivas de hibridização com as ciências ao incorporar nas instalações visão computacional, dispositivos não convencionais de interação, sistemas de

espaço para o desenvolvimento de interfaces visuais, sonoras, sensíveis, motoras, que transpassem o sujeito agente e paciente do processo criativo.

O artista ao dedicar-se à arte computacional deve conhecer as linguagens computacionais, bem como os códigos, pois a programação algorítmica faz parte do processo criativo. O artista-programador transita entre a arte prático-teórica, a ciência da computação e o design em busca das estruturas lógicas que torne visível a poética presente na escrita do código. Confirmou-se a tendência do artista-programador em arte e tecnologia trabalhar de forma colaborativa em equipes/grupos de modo a se aproveitar as potencialidades de cada membro da equipe que somadas resultam num todo mais produtivo que a soma das partes. Novos projetos já se iniciam no MidiaLab - Laboratório de Pesquisa em Arte e Realidade Virtual, UnB, coordenado pela Profª. Drª. Suzete Venturelli, chamado de WiKinaRua85, com o projeto Visão computacional como possibilidade de interação uma CyberTV.

Investigando processos que aplicam visão computacional como interface de interação, além do estudo das interfaces sensoriais e dos dispositivos não convencionais de interação, conclui-se que o artista tem como função integrar poeticamente estas técnicas, e dar visibilidade a dados biológicos e/ou sensoriais estabelecendo conexões entre estes dados e conteúdos. Neste sentido, é importante que o artista-pesquisador esteja vinculado a um laoratório de pesquisa. Só assim será possível fazer com que estes trabalhos ganhem em consistência e qualidade, oferecendo oportunidade de se produzir de forma dinâmica e colaborativa.

Os estudos realizados durante o mestrado e a elaboração desta dissertação abriram novos caminhos que serão ampliados com a continuação destas pesquisas no doutorado interligando arte e tecnociência direcionadas para o estudo das ciências da interface. Contribuindo para o campo da arte transdisciplinarmente por meio da ciência, da física e da biofísica no desenvolvimento de interfaces que dêem visibilidade artística a processos físicos e orgânicos, buscando uma aproximação com as teorias que integram o estudo da endofísica presente nas estéticas tecnológicas.

Dando sequência às pesquisas iniciadas nesta etapa, direcionam-se os estudos para

No documento UNIVERSIDADE DE BRASÍLIA INSTITUTO DE ARTES DEPARTAMENTO DE ARTES VISUAIS PROGRAMA DE PÓS-GRADUAÇÃO EM ARTES ALEXANDRA CRISTINA MOREIRA CAETANO (páginas 137-170)