Classificação - Consenso de segmentações de imagens usando classificação de padrões

Nessa etapa o objetivo é utilizar um algoritmo de reconhecimento de padrões para classificar um determinado pixel em foreground ou background de acordo com seu vetor de caraterística. Segundo Jain e Farrokhnia (1991), pode-se classificar o reconhecimento de padrões de acordo com seu modo de aprendizagem: aprendizagem supervisionada ou não supervisionada. Na aprendizagem supervisionada o padrão de entrada é rotulado como um membro de uma classe pré-definida por um especialista, enquanto que na aprendizagem não supervisionada, o padrão é associado a uma classe que é aprendida com base na similaridade entre os padrões de treinamento. O ISECO baseia-se em algoritmos de reconhecimento de padrões que utilizam aprendizagem supervisionada. No entanto, ao contrário do que é feito tradicionalmente, o conjunto de treinamento é criado de modo on-line, ou seja, durante a execução do algoritmo, os pixels da classe do foreground e background são selecionados logo após a pré-segmentação de acordo com o algoritmo do voto majoritário.

A abordagem dos K-vizinhos mais próximos ou KNN (K-Nearest Neighbors) in- troduzida por Fix e Hodges (1951) é um dos métodos de classificação de padrões mais simples existentes na literatura. Uma das vantagens do KNN é a robustez em relação a classes desbalanceadas, como é o caso da maioria dos problemas de segmentação de imagens médicas, onde o número de pixels do foreground é inferior ao número de pixels do

background. A Figura32apresenta 3 problemas de segmentação: retina, ventrículo esquerdo

e sépala. Considerando o ground-truth, a proporção de pixels do foreground é de 8.9%, 2.75% e 3.5% para as imagens da retina, ventrículo esquerdo e sépala, respectivamente.

Sendo o KNN o algoritmo utilizado neste trabalho para auxiliar no processo de classificação dos pixels confusos, suponha um conjunto X composto por N amostras de treinamento. Cada elemento Xi, i = 1, 2, . . . , N, é formado por um vetor de características

(xi1, xi2, . . . , xin) e uma classe c a qual pertence. O vetor de características Xi pode

ser interpretado como um ponto num espaço n-dimensional. O tamanho do vetor de características n é definido no próximo capítulo através de experimentos. No KNN, um novo individuo Y é classificado, primeiramente, calculando-se as distâncias entre os

vetores de características de Y e todos os indivíduos de X. Seleciona-se as k amostras de treinamento mais similares a Y e dentre estes, verifica-se qual a classe que aparece com mais frequência. A amostra Y será classificada como pertencente a esta classe mais frequente. A similaridade entre as amostras pode ser calculada de acordo com a distância euclidiana: ω(Xi, Y) = v u u t n X j=1 (Xij − Yj)2, (6.4)

onde n é o número de características.

Uma das grandes desvantagens do KNN é a complexidade computacional para realizar uma busca, que é igual a O(n). No entanto, os K-vizinhos mais próximos podem ser localizados de forma mais eficiente quando o conjunto de treinamento é representado através de uma árvore binária, denominada KD-tree. O KD-tree é uma estrutura de dados para armazenar um conjunto finito de pontos em um espaço n-dimensional, originalmente proposta por Bentley (1975). O nó raiz representa a totalidade do espaço, e os nós folhas representam subespaços contendo pequenos subconjuntos mutuamente exclusivos de X. Em qualquer nó, apenas uma das dimensões é usada como um discriminador para particionar o espaço. Normalmente, utiliza-se um limiar tr, que pode ser a média ou a

variância dos valores nessa dimensão, para particionar um determinado conjunto em dois sub-conjuntos: um superior que contém os indivíduos cujo valor nessa dimensão é superior a tr e um inferior que contém o restante dos indivíduos. Este particionamento é feito de

forma recursiva, agrupando os indivíduos em espaços cada vez menores, de acordo com a quantidade de níveis especificada na criação da árvore. A parte superior da Figura 37 exemplifica a divisão de um espaço 2-dimensional pelo KD-tree. No exemplo, de acordo com um critério qualquer, o espaço é primeiramente dividido na dimensão x. Em seguida, o espaço é divido na dimensão y e x, respectivamente. Na parte inferior da Figura 37é mostrada a representação da árvore KD-tree do exemplo.

Através do KD-tree pode-se localizar o vizinho mais próximo de um novo indivíduo

Y iniciando a partir do nó raiz e selecionando recursivamente a região mais próxima que

contém o novo ponto. O processo inicia pelo nó raiz e prossegue recursivamente pela árvore tentando encontrar o melhor candidato X0_{. Todo nó folha encontrado no caminho pode} se tornar X0_{, desde que seja mais similar a Y do que o melhor candidato encontrado até} o momento. No final do processo, tem-se a folha com o melhor candidato X0 _{e pode-se} encontrar os k − 1 vizinhos restantes de forma recursiva considerando os nós vizinhos e os nós ascendentes de X0_.

Uma das vantagens dessa abordagem é que a construção da árvore é rápida, uma vez que o particionamento é executado apenas com base em uma dimensão dos dados, não sendo necessário calcular distâncias n-dimensionais. A complexidade da busca depende da

y x

Divisão na dimensão x Divisão na dimensão y Divisão na dimensão x

Figura 37: Exemplo da divisão de um espaço bidimensional. Na parte superior da figura é mostrado o processo de divisão do espaço baseado no KD-tree, enquanto que na parte inferior encontra-se a árvore formada após o processo.

profundidade da árvore. No entanto, se a árvore for balanceada, a complexidade é próxima a log2n. No pior caso, a complexidade é n.

Neste trabalho, os pixels confusos em C são classificados em foreground F e

background B com o auxilio de duas árvores KD-tree. A primeira árvore KD-tree (TF)

contém os pixels da classe F e a segunda árvore (TB) armazena os pixels da classe B. Dado

um pixel confuso p, em cada árvore é realizada uma busca e seleciona-se os K pixels mais similares a p. A similaridade é dada pela distância euclidiana do vetor de características do pixel p e o vetor de um dado pixel q presente em cada uma das árvores. Em seguida, o algoritmo computa a média das similaridades MF e MB para os pixels selecionados em TF

e TB, respectivamente, ponderada pela restrição espacial:

Mi(p) =

q∈tiDi(p, q)Wi(p, q)

K (6.5)

onde ti contém os K pixels mais similares em Ti e Di é a similaridade entre os pixels p e q,

sendo i = F, B. A função Wié uma restrição espacial que indica que os pixels espacialmente

vizinhos devem ter pouca ou nenhuma influência na etapa de classificação. Os pixels espacialmente vizinhos em uma mesma região apresentam características semelhantes, o que aumenta a chance de serem rotulados como foreground ou background pelo voto majoritário. Se um pixel foi rotulado erroneamente como background pelo voto majoritário, são grandes as chances de que os vizinhos desse pixel também estejam rotulados incorretamente como

background. A ideia é que a classificação considere fortemente os pixels similares de outras

restrição espacial em relação a um pixel q da classe F é dada por: WF(p, q) = 1 + exp − DF(p, q) λ ! (6.6) onde DF(p, q) = q

(xF − cx)2+ (yF − cy)2 e (xF, yF) são coordenadas espaciais do pixel

q ∈ tF. O parâmetro λ controla o tamanho da restrição espacial. De forma semelhante

calcula-se WB.

Dado MF e MB, um pixel confuso p pode ser classificado de acordo com a seguinte

equação: ISECO(p) =      1 se MF(p) ≤ MB(p); 0 em outros casos. (6.7)

A segmentação final da abordagem proposta é dada por:

S = ISECO ∪ V M. (6.8)

A Figura 38ilustra o resultado final da abordagem proposta.

U =

VM ISECO S

Figura 38: Ilustração do resultado final da abordagem proposta.

No documento Consenso de segmentações de imagens usando classificação de padrões (páginas 87-90)