• Nenhum resultado encontrado

Teoria do reconhecimento por componentes de Biederman

Irving Biederman (1987) (ver foto) desenvolveu e ampliou a abordagem teórica de Marr em sua teoria do reconhecimento pelos componentes. Sua suposi- ção central era que os objetos consistem de formas ou componentes básicos conhecidos como geons (íons geométricos). Exemplos de geons são blocos, cilindros, esferas, arcos e cunhas. Segundo Biederman (1987), há aproximadamente 36 geons diferentes. Esse núme- ro pode ser duvidosamente pequeno para proporcionar descrições de todos os objetos que podemos reconhe- cer e identificar. No entanto, podemos identificar uma quantidade enorme de palavras no inglês falado, embo- ra haja apenas aproximadamente 44 fonemas na língua inglesa (os sons básicos). A razão disso é que esses fo- nemas podem ser dispostos em combinações pratica- mente infinitas. O mesmo acontece com os geons. Por exemplo, uma xícara pode ser descrita como um arco conectado à lateral de um cilindro. Um balde pode ser descrito pelos mesmos dois geons, mas com o arco co- nectado à parte superior do cilindro.

As características principais da teoria do reconhecimento pelos componentes são apresentadas na Figura 3.8. O estágio que discutimos até agora envolve a determinação dos componentes ou geons de um objeto visual e suas relações. Quando essas informa- ções estão disponíveis, elas são combinadas às representações do objeto ou a modelos estruturais armazenados que contêm informações sobre a natureza dos geons relevantes, suas orientações, seus tamanhos, etc. A identificação de um objeto visual é determinada por qualquer representação armazenada que melhor se adequar às informações baseadas nos componentes ou no geon obtidas do objeto visual.

Conforme indicado na Figura 3.9, o primeiro passo no reconhecimento dos objetos é a extração das bordas, descrita por Biederman (1987, p. 117) da seguinte maneira: “[Há] um estágio inicial de extração das bordas, que responde às diferenças nas caracte- rísticas de superfície, ou seja, luminosidade, textura ou cor, fornecendo o traçado de uma linha que descreve o objeto”.

O passo seguinte é decidir como um objeto visual deve ser segmentado para es- tabelecer suas partes ou seus componentes. Biederman (1987) defendeu que as partes côncavas do contorno de um objeto são de particular valor na realização dessa tarefa. Leek e colaboradores (2012) avaliaram os movimentos dos olhos durante o desempenho do reconhecimento de um objeto. Conforme previsto, os movimentos dos olhos eram

Irving Biederman. University of Southern California.

CONTEÚDO ON-LINE

em inglês

Weblink:

CAPÍTULO 3 Reconhecimento de objetos e faces 93

voltados predominantemente na direção das regiões côncavas internas.

O outro elemento importante é deci- dir que informação das bordas de um objeto permanecem invariáveis sob diferentes ân- gulos de visão. De acordo com Biederman (1987), há cinco dessas propriedades inva- riantes nas bordas:

Curvatura: pontos em uma curva.Paralelismo: conjuntos de pontos em

paralelo.

Coterminação: extremidades que ter- minam em um ponto comum.

Simetria: versus assimetria.

Colinearidade: pontos que comparti- lham uma linha comum.

De acordo com a teoria, os compo- nentes, ou geons, de um objeto visual são construídos a partir dessas propriedades invariantes. Por exemplo, um cilindro tem bordas curvas e duas bordas paralelas co- nectando as bordas curvas. Biederman (1987, p. 116) defendeu que as cinco propriedades:

[...] apresentam as propriedades desejáveis de ser invariantes nas mudanças de orientação e podem ser determinadas a partir de apenas alguns pontos em cada borda. Consequentemente, elas permitem que um [componente ou geon] primitivo seja extraído com grande tolerância de variações de ponto de vista, oclusões [obs- truções] e ruído.

Essa parte da teoria conduz a uma de suas principais previsões, a de que o reco- nhecimento de objetos geralmente é uma invariância do ponto de vista, o que significa que um objeto pode ser reconhecido com a mesma facilidade a partir de quase todos os ângulos de visão. Observe que Marr (1982) presumia que a representação tridimensional do modelo era invariante em relação ao ponto de vista. Por que é feita essa previsão? O reconhecimento de objetos depende fundamentalmente da identificação dos geons, os quais podem ser identificados a partir de inúmeros pontos de vista. Assim, o reconheci- mento de um objeto a partir de determinado ângulo de visão só será difícil se um ou mais geons estiverem ocultos da visão.

Uma parte importante da teoria de Biederman (1987) com respeito às propriedades invariantes é chamada de princípio da “não acidentalidade”. Segundo esse princípio, as regularidades na imagem visual refletem as regularidades reais (ou não acidentais) no mundo, em vez das características acidentais de determinado ponto de vista. Assim, por exemplo, supõe-se que uma simetria bidimensional na imagem visual indica simetria no objeto tridimensional. O uso do princípio não acidental ocasionalmente conduz ao erro. Por exemplo, uma linha reta em uma imagem visual geralmente reflete uma borda reta no mundo, mas pode não ser (p. ex., uma bicicleta vista de trás).

Como reconhecemos objetos quando as condições não são as ideais (p. ex., um objeto intermediário obscurece parte do objeto-alvo)? Biederman (1987) destacou que os seguintes fatores são importantes em tais condições:

Combinação dos componentes com as representações do objeto Determinação dos componentes Detecção de propriedades não acidentais Extração das bordas Análise das regiões de concavidade Figura 3.8

Esboço da teoria do reconhecimento pelos componentes de Biederman.

94 PARTE I Percepção visual e atenção

• As propriedades invariantes (p. ex., curvatura, linhas paralelas) de um objeto ainda podem ser detectadas mesmo quando somente partes das bordas são visíveis.

• Desde que as concavidades de um contorno sejam visíveis, existem mecanismos que permitem que as partes ausentes de um contorno sejam restauradas.

• Geralmente, há uma quantidade considerável de informações supérfluas disponí- veis para o reconhecimento de objetos complexos, e, assim, eles ainda podem ser identificados quando alguns geons ou componentes estão faltando. Por exemplo, uma girafa pode ser identificada unicamente a partir de seu pescoço.

Achados

Vogels e colaboradores (2001) avaliaram a resposta dos neurônios de um indivíduo no córtex temporal inferior a mudanças em um geon comparada a alterações no tamanho de um objeto sem mudanças no geon. Alguns neurônios responderam mais a mudanças no geon do que às alterações no tamanho do objeto, proporcionando, assim, algum apoio para a realidade dos geons.

Uma previsão essencial da teoria do reconhecimento pelos componentes é que o re- conhecimento de objetos é geralmente invariante em relação ao ponto de vista do observa- dor. Biederman e Gerhardstein (1993) testaram essas previsões em um estudo em que um objeto a ser nomeado era antecedido por uma pré-exposição (priming). O objeto era no- meado quando havia uma mudança angular de 135° entre as duas visões do objeto da mes- ma forma que quando as duas visões eram idênticas, apoiando, assim, a previsão.

Biederman e Gerhardstein (1993) usaram objetos familiares. Esses objetos foram encontrados a partir de diversos pontos de vista, o que facilita a tarefa de lidar com diferentes pontos de vista. Não causou surpresa quando Tarr e Bülthoff (1995) obtive- ram achados diferentes ao usar novos objetos e dar aos observadores a oportunidade de praticar o reconhecimento desses objetos a partir de pontos de vista específicos. O reco- nhecimento dos objetos dependeu do ponto de vista, com o desempenho sendo melhor quando foram usados pontos de vista familiares.

De acordo com a teoria, o reconhecimento de objetos depende mais de infor- mações sobre a borda do que sobre a superfície (p. ex., cor). Entretanto, Sanocki e colaboradores (1998) assinalaram que os processos de extração da borda têm menos probabilidade de produzir o reconhecimento preciso de objetos quando estes são apre- sentados no contexto de outros objetos, em vez de isoladamente. Isso ocorre porque pode ser difícil decidir que bordas pertencem a que objeto quando diversos deles são apresentados em conjunto.

Sanocki e colaboradores (1998) apresentaram brevemente aos observadores obje- tos na forma de desenhos de linha ou fotografias coloridas, e esses objetos foram exibi- das de forma isolada ou dentro de um contexto. O reconhecimento de objetos foi muito pior com os desenhos das bordas do que com as fotografias em cores, especialmente quando foram apresentados dentro do contexto. Assim, Biederman (1987) exagerou o papel dos processos de extração com base na borda no que diz respeito ao reconheci- mento de objetos.

Como pode ser visto na Figura 3.8, a teoria enfatiza fortemente os processos bot- tom-up no reconhecimento de objetos. Entretanto, os processos top-down que dependem de fatores como expectativa e conhecimento com frequência são importantes, especial- mente quando o reconhecimento do objeto é difícil (Viggiano et al., 2008: esse estudo será discutido em breve).

Avaliação

A teoria do reconhecimento por componentes de Biederman (1987) tem sido muito in- fluente. Ela fornece uma resposta para o enigma de como identificamos os objetos ape-

CAPÍTULO 3 Reconhecimento de objetos e faces 95

sar das diferenças substanciais entre os integrantes de uma categoria quanto a sua forma, tamanho e orientação. A suposição de que geons ou componentes semelhantes aos geons estão envolvidos no reconhecimento visual de objetos é plausível. Além disso, as conca- vidades e as bordas são da maior importância no reconhecimento de objetos.

Quais são as limitações dessa abordagem teórica? Em primeiro lugar, ela focaliza primariamente processos bottom-up desencadeados de forma direta pela produção do es- tímulo. Fazendo isso, negligencia a importância dos processos top-down fundamentados na expectativa e no conhecimento (discutidos em seguida).

Em segundo lugar, a teoria explica apenas discriminações perceptuais muito pou- co sutis. Explica em parte como decidimos se o animal à nossa frente é um cão ou um gato, mas não como decidimos se é uma raça particular de cão ou gato. Essa questão é discutida a seguir.

Em terceiro lugar, a teoria pressupõe que o reconhecimento de objetos em geral envolve a combinação da representação de um estímulo independentemente do ponto de vista do observador, com informações sobre o objeto armazenadas na memória de longo prazo. Como será discutido a seguir, existem inúmeras exceções a essa previsão.

Em quarto lugar, a noção de que os objetos consistem em geons invariantes é mui- to inflexível. Conforme assinalado por Hayward e Tarr (2005, p. 67), “você pode pegar praticamente qualquer objeto, colocar sobre ele uma lâmpada e chamá-lo de abajur [...], quase tudo na imagem pode constituir uma característica em condições apropriadas”.