A problemática da segmentação e da classificação

Em processos de visão, sejam eles biológicos ou artificiais, é possível identificar duas partes fundamentais: a segmentação e a classificação. Normalmente entende-se a segmentação como o assinalar de uma região de interesse e a classificação como a interpretação da região de interesse. Porém, olhando para o funcionamento de um sistema de visão e pretendendo atingir soluções sobre imagens naturais, é sempre difícil dissociar uma da outra. De facto, normalmente, é difusa a fronteira entre o processo de segmentação e o processo de classificação. Em alguns casos pode-se constatar que um não existe sem o outro ou até mesmo pode-se referir, semanticamente, que um é o outro. Concretamente o problema põe-se da seguinte forma: para se segmentar uma região é necessário reconhecer aspectos dessa região, logo, é necessário classificar. Por outro lado, para se classificar uma região é necessário deter informação sobre, pelo menos,

estas ideias têm sido subscritas ao se observarem realimentações de informação nas estruturas em hierarquia neuronal [1;2]. Isto leva a crer que a acção das estruturas menos dirigidas de segmentação, nos primeiros níveis do córtex visual, são por supervisão reajustadas por mecanismos de classificação das camadas mais elevadas do córtex visual, que, por sua vez, interagem com outras zonas do cérebro, como é o caso do hipocampo, onde são estabelecidos alguns tipos de memórias. As camadas mais elevadas do córtex visual estão vocacionadas para um objectivo cuja estrutura poderá ter sido retida numa fase de aprendizagem, pelo menos parcialmente. Isto reforça a ideia de cooperação mútua entre a componente essencialmente de segmentação e a componente essencialmente de classificação.

Em visão por computador, se o problema em causa for de segmentação simples, por exemplo, uma única figura geométrica representada por pixels bem contrastados e totalmente conexos, é exigida uma simples operação de binarização. O passo seguinte, neste caso, é o de classificar a figura mediante as características extraídas do conjunto de pixels que a formam, não existindo uma cooperação forte e mútua entre os dois processos.

Se a segmentação em questão tiver que ser feita sobre imagens naturais complexas, as decisões de como fazer as agregações dos diversos pixels, para obter a segmentação, podem passar por vários tipos e escalas de características. Enquanto algumas características podem ser analisadas como factores típicos de similaridade ou factores típicos de desigualdade para produzir agregação, outras, não sendo típicas, têm que ser consideradas só em alguns contextos. Isto significa que existem características que devem ser tomadas sempre como diferenciadoras para realizar, ou não, a decisão e outras que não podem ser sempre usadas com esse fim e que estão dependentes de um factor efémero contextual. Nesta última situação a decisão fica dependente de uma aprendizagem de um classificador supervisionado. A situação de características típicas pode ser tratada por métodos não supervisionados que intrinsecamente são construídos com base nas assinaturas dessas características. Apesar de tudo, podem existir situações em que as características que eram típicas deixam de o ser. Esse factor contextual pode ser ele próprio difícil de interpretar.

Os problemas relacionados com os classificadores supervisionados estão muitas vezes aliados com a insuficiência, que é natural, dos padrões usados na fase de treino. Por exemplo, como fazer “perceber” a um classificador deste tipo que o facto de um

A problemática da segmentação e da classificação

determinado atributo variar nos padrões de treino significa que esse atributo deve ser sempre e apenas considerado no seu valor relativo aos outros atributos e não no seu valor absoluto? Ou seja, certo atributo pode não funcionar como elemento classificador, mas funcionar como elemento diferenciador, permitindo distinguir um padrão de outro padrão, mas não contribuindo para a determinação de um dado padrão.

Todo este enredo traduz a complexidade deste problema e eleva a capacidade que os mecanismos cerebrais têm ao cooperarem entre si da forma dinâmica como o fazem.

Para agravar o problema, a maior parte das técnicas que estão embutidas nos métodos de decisão supervisionados ou não-supervisionados possuem dificuldades no que refere à obtenção da melhor solução. Umas podem ficar retidas em mínimos locais e outras são demasiadamente exigentes computacionalmente. Estes problemas densificam-se exponencialmente à medida que a dimensão estrutural da solução cresce. As próprias características que se adoptam para decidir sobre a melhor solução podem deixar de ser as melhores dependentemente do contexto. A métrica que é usada para avaliar sobre essas características consiste normalmente em distâncias euclidianas, o que também pode não garantir a melhor solução. Alternativas podem ser usadas, como por exemplo medidas de entropia. Mas mesmo neste caso a melhor utilização de uma ou de outra parece variar de imagem para imagem.

Tudo isto adensa a dificuldade de decidir sobre a estrutura e sobre os métodos a usar na minimização global destes problemas. Uma estrutura de solução que funciona razoavelmente num contexto pode não operar bem em outro contexto não muito distinto. Tentar, de alguma forma, fundir duas estruturas de solução que funcionam bem nos seus respectivos contextos parece por vezes irrealizável, passando a solução composta a comportar-se melhor no geral, mas pior quando comparada com o comportamento que existia sobre os respectivos domínios antes dessa fusão.

Assim, as soluções que minimizam estes problemas são estruturalmente complexas, na medida em que se pretende o aumento do desempenho funcional, e requerem assim suportes físicos de capacidade extrema, por vezes inexistentes.

No documento Técnicas de segmentação e de classificação em imagens. Estudo de um caso de aplicação (páginas 31-34)