Processamento da informação visual

matemática

“INPUT” GRÁFICO

4.2. Processamento da informação visual

As representações visuais (gráficos, diagramas, imagens), enquanto sistemas simbólicos privilegiados, nos enunciados bimodais dos problemas de matemática, carecem de uma análise que evidencie as suas potencialidades, as suas especificidades e sobretudo a sua funcionalidade para a eficácia da comunicação.

104

Ler e interpretar os enunciados bimodais dos problemas são os procedimentos essenciais para que se efetive a resolução dos mesmos. Contudo, a própria estrutura representacional deste tipo de enunciados levanta complexidades de leitura e de interpretação que exigem uma certa desenvoltura visual e um complexo desempenho cognitivo.

Atualmente, o termo “leitura” já não é aplicado, exclusivamente, aos textos verbais, mas é, igualmente, extensível às representações visuais e/ou aos textos picturais.

A leitura de imagens/representações visuais, à semelhança da leitura de textos, implica um exercício estruturado da capacidade de codificação-descodificação. Colin, referenciado em Calado (1994), realça as duas aceções do termo “leitura” (reading): o da “decifração” (readability) e o da “compreensão” (comprehensibility), destacando a importância da leitura compreensiva para a comunicação.

No caso concreto das imagens, a leitura, que não se limita apenas ao processo de decifração, resulta dos processos cognitivos de perceção e de compreensão da informação veiculada nas representações visuais. Como defende Baptista (2009, p. 25), “não faz sentido distinguir decifração de compreensão, mas antes perceção de compreensão”.

Há várias décadas que se desencadeiam experiências, com recurso aos sistemas Eye Tracker, que visam determinar a interação entre os mecanismos cognitivos que promovem a atenção e o registo dos movimentos dos olhos, durante a perceção de representações visuais. Desde cedo se percebeu que as fixações e os movimentos sacádicos, realizados através dos movimentos oculares, centravam-se em determinadas áreas informativas ou de interesse em detrimento de outras áreas do mesmo estímulo visual (Buswell, 1935; Yarbus, 1967).

A duração das fixações, na pesquisa visual e na observação de imagens, tende a ser muito variada. Alguns estudos relatam tempos de fixação tão curtos como 180ms (Vlaskamp & Hooge, 2006), outros estudos apresentam médias entre 275ms e os 400ms (Rayner, 1998). Estes valores resultam do nível de dificuldade da pesquisa, sobretudo quando se trata de matrizes muito densas ou desordenadas, e da natureza da tarefa que irá influenciar fortemente o tempo que os sujeitos demoram a fixar cada item.

105 Normalmente, a amplitude média das sacadas, na pesquisa visual e na observação de imagens, situa-se entre os 3° e os 4°, sendo um pouco maior do que em tarefas de leitura, cuja amplitude média dos movimentos sacádicos não ultrapassa os 2°. Estas medidas reportam-se apenas às sacadas progressivas, dado que, nas imagens, a matriz de fixações apresenta uma forma bastante irregular dentro da área de perceção e não estão, até ao momento, identificados todos os fatores que determinam a sequência das fixações.

No entanto, quando o estímulo visual é bastante complexo, desordenado ou denso, os movimentos oculares refletem as propriedades da matriz do estímulo através de sacadas mais curtas e do aumento da duração e do número de fixações (Vlaskamp & Hooge, 2006).

As várias experiências, realizadas ao longo de anos de investigação, sugerem que, à semelhança dos modelos de leitura para os textos verbais, também os modelos de leitura para as representações visuais/imagens envolvem processamentos descendentes (do tipo “top-down”), ascendentes (do tipo “bottom-up”) e interativos43.

O processo Top-down ou processamento descendente, baseia-se nas teorias construtivistas, onde as perceções são construídas tendo por base a seleção ativa dos estímulos visuais e as sensações emergentes na memória.

Para o processo Top-down estabelecem-se os seguintes pressupostos teóricos: (i) a perceção é um processo ativo e construtivo;

(ii) a perceção não é dada de forma direta pelo estímulo visual mas ocorre como um produto final das influências interativas dos estímulos e hipóteses internas, das expectativas e também de fatores emocionais e motivacionais, ou seja, a atividade percetiva tem de basear-se num processo probabilístico de inferência dependendo de associações e da experiência prévia do sujeito; (iii) como a perceção é influenciada por hipóteses e expectativas, por vezes, é incorreta e propensa ao

erro.

O processo de reconhecimento de uma imagem ou de um objeto é iniciado por hipóteses acerca do todo, o que leva à identificação e subsequente reconhecimento dos componentes.

O processo Bottom-up ou processamento ascendente firma-se na perceção direta, que consiste na aquisição direta de informação do ambiente. Este processo, formalizado a partir de uma abordagem ecológica, tem por base três pressupostos fundamentais:

(i) toda a informação visual do ambiente que chega ao olho é constituída por um padrão de luz estruturado (padrão ótico – “optic array”);

(ii) o padrão ótico dá informação invariante acerca da configuração dos objetos no espaço;

(iii) os invariantes podem ser percecionados através de diversas formas como, por exemplo, os gradientes de textura ou os padrões de fluxo ótico. Assim, os objetos e o meio têm um significado direto (“affordances”) e sem necessidade de mediação cognitiva e são, por si, capazes de orientar o ser humano.

No processamento interativo, o processo de reconhecimento de uma imagem ou de um objeto é

iniciado pelas partes de um padrão, que serve de base para o reconhecimento do todo. A interpretação das partes e do todo ocorre simultaneamente com processos ascendentes (Bottom-up) e descendentes (Top-down).

106

A primeira manifestação da influência do processo “top-down” na perceção dos estímulos visuais foi, inicialmente, reconhecida por Yarbus (1967), que procedeu a estudos sistemáticos das alterações da posição dos olhos durante a observação de imagens complexas, chegando à conclusão que o reconhecimento e a apreciação de imagens é um processo sequencial. Mesmo que o olhar esteja confinado aos limites de uma única pintura44, os seus vários componentes são apreendidos um após o outro e não todos ao mesmo tempo.

Outra revelação interessante desse estudo foi verificar que os movimentos dos olhos ocorrem em ciclos, isto é, as partes importantes do estímulo são, num primeiro momento, examinadas, e, logo de seguida, reexaminadas.

O sujeito não usa o tempo disponível para observar outras partes menos importantes do estímulo, mas esgota o tempo em observações sucessivas de partes que considera mais significativas:

“(…) when changing its points of fixation, the observer's eye repeatedly returns to the same elements of the picture. Additional time spent on perception is not used to examine the secondary elements, but to reexamine the most important elements” (Yarbus, 1967, p. 193).

O sujeito rapidamente "decide" quais são as partes mais importantes do estímulo e gasta o restante tempo na reexploração dessas partes.

"(…) the duration of a cycle during which the observer's eye can cover the whole picture amounts sometimes to several seconds, sometimes to several tens of seconds." (op. cit., p. 194).

Este estudo permitiu, ainda, concluir que a distribuição das fixações resulta dos objetivos dos sujeitos (processo descendente). Logo, a análise de componentes em padrões complexos não é apenas fruto da natureza do estímulo, mas também dos objetivos pessoais dos observadores.

No seu estudo, Yarbus instruiu um sujeito a responder a sete perguntas diferentes acerca do quadro de Ilya Repin O visitante inesperado.Os resultados revelaram que a perceção de uma cena complexa envolve um modelo complexo de fixações e de sacadas:

“Records of eye movements show that the observer's attention is usually held only by certain elements of the picture.... Eye movement reflects the human thought processes; so the observer's thought may be followed to some extent from records of eye movement (the thought accompanying the examination of the particular object). It is easy to determine from these records which elements attract the observer's eye (and, consequently, his thought), in what order, and how often.” (Yarbus 1967, p. 190).

107 As pesquisas sobre perceção de representações visuais (imagens, pinturas, entre outras) comprovaram que os sujeitos não podem ocupar-se de todas as coisas ao mesmo tempo, a sua capacidade de atenção é usada para focar a visão em determinadas regiões de interesse.

A capacidade do processamento da informação é limitada, daí que a inspeção de representações visuais seja executada com determinada atenção nos estímulos selecionados.

James (1890) propôs a seguinte definição de atenção visual, a partir da qual Broadbent (1958) sugeriu a formação de um modelo de atenção visual que fosse relevante para a obtenção de uma melhor compreensão do conteúdo do estímulo:

"Every one knows what attention is. It is the taking possession by the mind, in clear and vivid form, of one out of what seem several simultaneously possible objects or trains of thought. Focalization, concentration, of consciousness are of its essence. It implies withdrawal from some things in order to deal effectively with others…" (ibidem, pp. 403-404)

A partir da teoria da atenção seletiva45, formalizada por Broadbent (1958), Treisman & Gelade (1980), com base nos resultados obtidos em experiências de busca visual, sugerem a Feature Integration Theory (FIT) que determina que o processo da perceção de objetos/imagens congrega duas fases. A fase “pre-attentive”, através da qual se detetam aspetos das características básicas das imagens como: orientação, largura, tamanho, cor, brilho, etc. Para que estas características básicas possam ser entendidas como elementos que compõem as imagens, elas têm que estar “integradas” num nível mais elevado do processo cognitivo, correspondente à fase seguinte, designada por “attentive”, que corresponde à intenção voluntária de examinar partes da imagem.

45_{Através da realização de experiências de natureza auditiva, Broadbent (1958) concluiu que a informação} entra em paralelo no cérebro onde é seletivamente filtrada para canais sensoriais e que é importante que a “armação” de uma boa atenção visual seja capaz de discriminar, seletivamente, a informação dentro de uma imagem.

108

De acordo com o modelo descrito anteriormente e outros que lhes sucederam46, parece que os objetos e as imagens são selecionados puramente por processos bottom- -up, ainda que se evidencie uma dimensão ao longo da qual a seleção possa ser estrategicamente controlada, isto é, governada por processos top-down.

Theeuwes (1993) defende que as duas etapas, que o mecanismo da atenção seletiva incorpora, são funcionalmente hierárquicas e independentes: à primeira etapa – “pre-attentive” – que opera sem limitação de capacidade sobre todo o campo visual, segue-se uma segunda etapa – “attentive” – com uma capacidade limitada que trata um item (ou alguns itens) de cada vez. Quando os itens passam da primeira para a segunda etapa, considera-se que esses itens foram selecionados.

Tomando como referência os trabalhos de vários investigadores (La Berge, 1983; Eriksen & Yeh, 1985; Eysenck & Keane, 1990, Phaf et al., 1990), que corroboram a ideia de que é possível focar estrategicamente a atenção em áreas muito pequenas do campo visual, e considerando que "The pre-attentive process has no access to the origins of these activation levels (i.e., whether activations are caused by differences in form, colour, brightness etc.)" (op. cit., p. 112), Theeuwes recupera as sugestivas metáforas sugeridas por Posner et al. (1980)47 e Eriksen & Yeh (1985)48 e propõe um modelo de atenção

Nas últimas décadas, apurou-se a significação do conceito de atenção, consolidando-se a ideia de que a atenção não pode ser entendida como um processo puramente automático.

Foram delineados vários modelos para classificar o processo da atenção de acordo com os seus vários aspetos: “Active vision” (Aloimonos, 1988; Bajcsy, 1988; Ballard, 1991); “Selective Attention Model (SLAM)” (Phaf et al., 1990); “VISIT” (Ahmad, 1992); “Dynamic routing circuits” (Olshausen et al., 1993); “Search via recursive rejection (SERR)” (Humphreys & Miller, 1993); “Guided search” (Wolfe, 1994); “Signal channelling attentional network (SCAN)” (Postma et al., 1997); “What-and-where filter” (Carpenter et al., 1998).

Os estudos delineados na área das neurociências estabeleceram a dicotomia entre os mecanismos de orientação da atenção em métodos exógenos e endógenos.

Os componentes exógenos são determinados principalmente pelas características externas dos estímulos, enquanto os componentes endógenos dependem mais das intenções dos sujeitos e das tarefas. Combinando alguns modelos neurológicos de atenção, Perry & Hodges (1999) dividiram a atenção em três largas categorias:

(i) “Sustained attention” - corresponde à capacidade de manter o foco da atenção durante um longo período de tempo;

(ii) “Selective attention and shifting” - a atenção é concentrada num único estímulo relevante, durante um determinado período de tempo, ignorando os restantes estímulos irrelevantes ou distratores;

(iii) “Divided attention” - a atenção é dividida na observação de mais do que um estímulo relevante, durante um determinado período de tempo.

Posner et al., (1980) criam a “ metáfora do refletor” em que a atenção pode ser variada à semelhança de um refletor em contacto com o campo visual, uma vez que o refletor realça a eficácia da deteção de eventos dentro do seu raio.

109 visual, com uma etapa paralela, em que as características múltiplas da imagem tal como a cor, a orientação e a intensidade se combinam num “feature difference map” que reflete as áreas de atenção. Este mapeamento dá a indicação da localização do objeto relativamente ao resto da cena (fig. 37).

Figura 37: Matriz do modelo de atenção visual seletiva proposto por Theeuwes (1993)

Neste modelo de seletividade da atenção visual, o processo bottom-up (enquanto espaço paralelo de capacidade ilimitada) produz alguns “feature difference maps” que são, então, acrescentados em conjunto e uma zoom lens (“spotlight”), que pode ser estrategicamente dirigida – por um processo top-down –, que delimita a área dentro da qual se selecionam os objetos. Tudo isto é feito antes que a atenção e os olhos sejam dirigidos para uma nova localização alvo. Depois dos objetos serem selecionados pelo processo “pré-attentive”, o processo “atentive” atua para “colar”, em conjunto, as características das diferentes dimensões, de acordo com a teoria de integração de Treisman.

Theeuwes (1993) destaca, ainda, que a atenção é deslocada para uma nova posição antes que seja iniciada a sacada que move a direção do olhar para uma nova parte da imagem. Assim, o movimento dos olhos não deve ser considerado como o próprio processo de seleção, mas simplesmente como o resultado de processos de seleção de atenção.

48_{Eriksen & Yeh (1985) alvitram a metáfora do “zoom da lente da máquina fotográfica”, através da qual o} fotógrafo pode selecionar apenas objetos da cena focados pelo zoom da lente. Em contraste com a “metáfora do refletor” que tem uma “abertura fixa”, o zooming da lente pode ser variado. Quando os sujeitos se ocupam de uma cena visual em liberdade, o detalhe é feito com uma resolução relativamente baixa. Todavia, uma examinação detalhada é feita com uma resolução relativamente alta.

Feature Visual Field Feature Difference maps rence Maps Local Difference

Summing Zoom Lens (Spotlight)

Parallel Processes Feature Integration & Stimulun Identification

110

Em suma, os estudos científicos que sustentam um ou outro modelo de processamento visual corroboram, de forma mais ou menos consensual, que os movimentos dos olhos são controlados por mecanismos bottom-up ou top-down ou que resultam da interação de ambos (processamento interativo).

Muitos outros estudos sobre extração de informação na perceção de cenas visuais/imagens contribuíram para a identificação de fatores relevantes no processamento visual de imagens. Entre outros, destacam-se os trabalhos de Mackworth & Morandi (1967)49, reportados por Barber & Legge (1976), que concluíram que os elementos que contêm mais informação são fixados mais vezes. Segundo estes investigadores, a densidade das fixações é feita de acordo com a quantidade de informação disponível na(s) região(ões) da imagem. Assim sendo, as regiões consideradas com pouca informação apresentam um menor número de fixações.

Baptista (2009, p. 28) salienta a evidência, apurada por Loftus (1972), de que a capacidade para recordar a informação contida numa imagem resulta do número de fixações efetuadas sobre a imagem e não do tempo de duração das fixações e dá conta das investigações levadas a cabo por Loftus & Mackworth (1978) que permitiram identificar que, durante o processo de observação de uma imagem, o elemento mais informativo/pertinente é identificado no início da observação durante as duas primeiras fixações, sendo que as restantes fixações ocupam-se com o preenchimento dos detalhes da imagem.

Loftus & Mackworth (1978) e Friedman & Liebelt (1981) argumentaram a rapidez na compreensão alotópica com dados empíricos que justificaram que os olhos se moviam rapidamente para um objeto que se encontrava fora do seu lugar previsível num determinado cenário.

As propriedades das imagens, como a alta frequência espacial (Mannan et al., 1996, 1997) e o contraste local (Reinagel & Zador, 1999) foram identificadas por estarem estreitamente correlacionadas com a probabilidade do aumento do número de fixações.

Mackworth & Morandi (1967) desenvolveram um trabalho experimental onde apresentaram a dois grupos de sujeitos as mesmas imagens. Ao primeiro grupo foi pedido para identificarem as áreas ou regiões das imagens que continham maior incidência de informação. Ao segundo grupo foi aplicada a metodologia Eye Tracking para identificar as regiões das imagens mais fixadas pelos sujeitos. Os dados do segundo grupo revelaram um maior número de fixações nas regiões que tinham sido identificadas pelo primeiro grupo como as que continham mais informação para a compreensão das imagens.

111 Henderson & Hollingworth (1999) classificam a informação semântica como a significação da região da imagem, distinguindo-a da informação visual que caracterizam como informação estrutural. A partir desta distinção, consideram que as posições das fixações são mais influenciadas pela informação semântica do que pela informação visual.

Wooding et al. (2002), numa investigação com obras de arte, reiteraram que apenas pequenas regiões dos estímulos observados eram fixadas durante mais tempo pelos sujeitos.

Parkhust & Ernst (2003) sugerem que o papel dos mecanismos no controle dos movimentos oculares depende das propriedades das imagens e fundamentalmente do montante do seu conteúdo semântico.

Ler uma imagem pressupõe, então, compreender as suas propriedades estruturais e as relações que estabelecem com os contextos em que ocorrem.

“A compreensão de uma imagem exige, como os textos verbais, mais do que um nível de análise e, por isso, a identificação da dimensão representativa, apesar de implicar a identificação/compreensão de algumas características estruturais, não é suficiente. A imagem exige, pois, para ser globalmente entendida a identificação das características e dos objectivos da sua representação, assim como a compreensão das suas estratégias usadas na representação do mundo (real ou ficcional) … compreender uma imagem implica, a par da identificação dos objectivos da sua reprodução, a identificação do grau de desvio patente na reprodução e detecção de características sémicas decorrentes da organização retórica dos seus elementos.” (Baptista, 2009, p. 25).

Goldsmith (1984), citado em Calado (1994), partindo da distinção dos conceitos realizada por Morris (1938), estabeleceu uma associação entre vários níveis da leitura da imagem com os níveis da linguagem verbal, destacando:

a) o nível sintático (reconhecimento de uma imagem em termos do seu contorno, dos seus limites). Neste nível, a leitura define-se como uma resposta aos sinais gráficos que definem a imagem;

b) o nível semântico (reportando-se às significações que o autor da imagem teve intenção de lhe conferir – identificação literal das imagens);

112

c) o nível pragmático (correspondente a todo o acréscimo de sentidos/interpretações que o leitor acrescenta às intenções do autor, em função da sua experiência passada e do juízo atual).

A compreensão da imagem resulta, assim, da interdependência destes registos semióticos que são interatuantes e hierarquizados:

“O primeiro nível, conhecido como sintáctico, podia ser sintetizado como o nível em que não se pressupõe um reconhecimento ou identificação das imagens. O segundo e terceiro níveis são designados por Morris (1938) como semântico e pragmático, e ambos estão relacionados com o conteúdo ou sentido do signo: no caso da imagem, do signo pictórico.” (ibidem, p. 124).

A tomada de consciência da complexidade da linguagem verbal leva a que a leitura das imagens implique, à semelhança da leitura dos textos verbais, a interceção de vários níveis, como o lexical, o sintático, o semântico e o pragmático, sendo, portanto, necessário ter conhecimento da “gramática da imagem” para que o processo de compreensão se possa efetivar.

“Essa gramática pressupõe que se analise e estruture as imagens segundo diferentes planos: os lexicais (por exemplo, elementos significativos, cores, nitidez, etc.), os sintáticos (por exemplo: aparência e movimento, linhas, padrões, tamanhos e formas), os semânticos (por exemplo: designação e categorização dos objetos representados explicitamente ou apenas sugeridos e suas interpretações) e os pragmáticos (por exemplo: inteligibilidade geral da imagem, utilidade, função) e que estes se articulem produtivamente numa linguagem específica para a transmissão de conteúdos.” (Baptista, 2009, p. 33).

Nos problemas bimodais, onde as imagens surgem frequentemente em articulação com os textos verbais através de relações de ancoragem, de complementaridade ou simplesmente cumprindo uma função ilustrativa/decorativa, é fundamental conhecer conceptualmente a sua estrutura para compreender as suas potencialidades e a sua funcionalidade na transmissão de conteúdos informativos dos

No documento Estudos experimentais sobre leitura e compreensão de problemas verbais de matemática (páginas 125-148)