• Nenhum resultado encontrado

Modicação dos cálculos de índices de validação

5.3 Análise, seleção e modicação dos cálculos de índices de validação

5.3.2 Modicação dos cálculos de índices de validação

Apesar da existência de um grande número de índices de validação de agrupamentos com características e propriedades variadas, a maior parte deles apresenta um problema comum: a alta complexidade computacional. Quando o número de agrupamentos e/ou o volume de dados a ser analisado é muito grande, o uso de índices de validação de agrupamentos se torna proibitivo. As imagens de sensoriamento remoto são um exemplo típico. Como descrito em Ji (2003), índices de validação de agrupamentos são freqüentemente ignorados na análise de imagens de sensoriamento remoto e não estão disponíveis na maioria dos pacotes ou softwares de processamento digital de imagens.

De fato, na literatura de sensoriamento remoto são raros os trabalhos que apresentam a aplicação direta de índices de validação na análise de agrupamentos de imagens. Quando isso é feito, nota-se que o índice de validação utilizado apresenta uma baixa complexidade de cálculo, mas não possui potencial para avaliar quaisquer tipos de agrupamentos. Nos trabalhos de Tran et al. (2003) e Marçal e Borges (2005), por exemplo, o índice de validação Davies-Bouldin foi empregado para avaliar diferentes partições de dados de imagens de satélite, uma vez que apre- senta, segundo os autores, uma complexidade computacional adequada para a aplicação. No entanto, conforme mencionado na seção 5.3.1, o índice Davies-Bouldin é apropriado apenas para agrupamentos de dados que possuem formas hiperesféricas. Caso os agrupamentos avaliados apresentem outros padrões de forma ou geometria, a aplicação deste índice pode comprometer a interpretação dos resultados.

Diante disso, neste trabalho propõe-se uma maneira de reduzir o alto custo computacional exigido pelos índices de validação de agrupamentos, tornando possível aplicá-los em conjuntos de dados volumosos como as imagens de sensoriamento remoto. A idéia consiste basicamente em modicar os cálculos dos índices de validação usando a quantização vetorial produzida pelo SOM. Considerando que nos métodos de classicação de imagens propostos neste trabalho, a análise de agrupamentos não é feita a partir dos padrões originais da imagem, e sim por um conjunto reduzido de protótipos do SOM (que os representam), a aplicação de um índice de validação para avaliar as diferentes partições obtidas torna-se viável, uma vez que a quantidade de dados a ser avaliada é bem menor que a quantidade de padrões extraída diretamente da

imagem original. Ou seja, ao invés de usarmos o conjunto de vetores de dados amostrais da imagem, apenas os vetores de pesos sinápticos dos neurônios do SOM são utilizados para realizar os cálculos dos índices de validação.

Embora o SOM efetue uma boa aproximação do espaço de entrada, é certo que a estratégia de aplicar um índice de validação sobre os protótipos da rede, ao invés de aplicá-lo diretamente sobre os padrões originais, pode causar diferenças numéricas nos resultados. Para diminuir possíveis erros de aproximação, propõe-se que os índices sejam calculados utilizando não apenas os vetores de pesos (wi) dos protótipos do SOM, mas também o nível de atividade (h(wi)) de

cada um deles, ou seja, o número de padrões de entrada que foram associados a cada protótipo pelo processo de mapeamento do SOM.

Um exemplo das modicações aplicadas nos cálculos dos índices de validação pode ser descrito através da equação 5.1. A fórmula, e variantes dela, são comumente usadas em alguns índices de validação de agrupamentos para calcular a distância (δij) entre dois agrupamentos

de dados Ci e Cj (Bezdek e Pal, 1998):

δij = 1 |Ci| |Cj|x∈Ci,y∈Cj d(x, y) (5.1)

Na fómula acima, d(∗, ∗) é uma medida de distância, e |Ci| e |Cj| representam o número

de pontos nos agrupamentos de dados Ci e Cj, respectivamente. Portanto, δij é determinada

basicamente através dos cálculos de distância entre todos os pares de pontos x e y pertencentes aos agrupamentos de dados Ci e Cj. Se |Ci| e |Cj| são muito grandes, a computação de δij

torna-se excessivamente custosa.

Aplicando a proposta de modicação de cálculo dos índices, a computação da distância entre os agrupamentos Ci e Cj, equivalente a equação 5.1, ca formulada da seguinte maneira:

δijSOM = 1

|Ci| |Cj|

wi∈Wi,wj∈Wj

h(wi)· h(wj)· d(wi, wj) (5.2)

na qual Wi e Wj são os conjuntos de protótipos do SOM que representam os agrupamentos de

150Classicação baseada em SOMs segmentados por morfologia matemática e emíndices de validação de agrupamentos

h(wi)é o nível de atividade do protótipo wi pertencente a Wi e h(wj)é o nível de atividade do

protótipo wj pertencente a Wj.

Enquanto δij baseia-se nas distâncias entre todos os pares de pontos pertencentes a Ci e

Cj, δSOMij está baseada somente nas distâncias entre os pares de pontos pertencentes a Wi

e Wj. Portanto, nota-se que δijSOM é um cálculo aproximado de δij, mas com um custo de

processamento muito mais baixo, já que as quantidades |Wi| e |Wj| são geralmente muito

menores do que |Ci| e |Cj|. A inclusão dos níveis de atividade h(·) dos protótipos no cálculo

de δSOM

ij ajuda a diminuir os erros ocasionados pelo uso da quantização vetorial produzida

pelo SOM, uma vez que incorpora de maneira aproximada a densidade de pontos do espaço de entrada que são representados por cada protótipo da rede.

Seguindo essa proposta, foram modicados os cálculos dos índices de validação pré-selecionados na sessão 5.3.1, exceto a do índice Conn, uma vez que em sua versão original esse índice já se baseia somente no uso de protótipos.

Na próxima seção, as modicações dos índices são testadas na avaliação de diferentes par- tições de conjuntos de dados e os seus resultados são comparados com aqueles obtidos pelas suas versões originais.

O apêndice A.3, localizado na mídia que acompanha essa tese, apresenta a descrição das versões modicadas dos sete índices de validação pré-selecionados na sessão 5.3.1.