• Nenhum resultado encontrado

CAPÍTULO 4 – DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS

4.3 Descoberta de Conhecimento em Bancos de Dados Espaciais

4.3.4 Métodos para Validação de Mapas de UGDs

A validação de agrupamentos considerando as características do conjunto de dados utili- zado e da aplicação em si, com o intuito de se escolher o melhor agrupamento dentre diversas soluções disponíveis não é tarefa simples. No âmbito do delineamento de UGDs em AP, onde essa escolha significa também definir a quantidade de CGDs em que será dividida uma área de cultivo, a metodologia mais convencional necessita do conhecimento do usuário final. Em diversas abordagens da literatura, o usuário determina um intervalo possível de quantidades de CGDs, normalmente entre 2 e 5, seja de maneira subjetiva ou a partir de algum conhecimento sobre a área em questão, e calcula individualmente a acurácia de cada solução a partir de ex- perimentos comparativos dos mapas finais de UGDs com relação a variáveis isoladas (JAYNES; COLVIN; KASPAR, 2005;KITCHEN, 2005;KHOSLA, 2010;PEDROSO, 2010;MORAL; TERRÓN; RE- BOLLO, 2011). Esses experimentos podem ser realizados utilizando coeficientes de correlação

como Pearson, já descrito na Subseção 4.2.1 com a função de viabilizar a seleção de atributos em um conjunto de dados; e Kappa, já descrito na Subseção 4.2.5.1 com a função de verificar a correlação existente entre duas soluções de agrupamento. Outras abordagens definem essa quantidade considerando restrições para que as UGDs definidas sejam úteis na prática, como o número máximo possível de porções distintas que podem ser configuradas em um equipamento convencional para aplicação de insumos agrícolas (ORTEGA; SANTIBÁÑEZ, 2007).

Em se tratando de abordagens para o delineamento de UGDs baseadas em algoritmos de agrupamento com sobreposição, a quantidade considerada ideal de CGDs é normalmente en- contrada a partir da convergência dos valores fornecidos pelos índices NCE (Normalized Classi- fication Entropy) e FPI (Fuzziness Performance Index). O NCE (BEZDEK, 1981) é uma medida

para estimar o grau de desorganização criado por um determinado número de grupos em um agrupamento. Já o FPI (ODEH; CHITTLEBOROUGH; MCBRATNEY, 1992; BOYDELL; MCBRAT- NEY, 2002) estima o grau de incerteza na definição de uma determinada quantidade de grupos

de um agrupamento, a partir do nível de compartilhamento do grau de pertinência entre eles. Apesar de amplamente utilizados, em determinados conjuntos de dados de AP esses índices po- dem não convergir com relação à quantidade ideal de CGDs a ser utilizada, causando dúvidas ao usuário final sobre qual estratégia adotar (BROCK, 2005).

4.3 Descoberta de Conhecimento em Bancos de Dados Espaciais 92

ção da quantidade ideal de CGDs, que leva em consideração a variância média das variáveis presentes no espaço de atributos. A partir de estudos de conjuntos de dados de AP, os autores notaram que a variância entre as amostras associadas a cada CGD diminui consideravelmente conforme a quantidade de classes aumenta, com tendência a se estabilizar a partir de certa quan- tidade de classes estabelecida. Desse modo, foi criado um algoritmo iterativo, que determina o número ideal de CGDs quando duas condições são satisfeitas: a redução total da variância das amostras associadas a cada CGD for de 50%, a partir da variância obtida no passo inicial; e a redução consecutiva dessa variância, ou seja, a redução entre os passos k e k+1 do algo- ritmo, for inferior a 20%. A segunda condição também pode ser determinada por uma quebra de tendência, ou seja, se a variância aumenta ao invés de diminuir.

Apesar de essas metodologias poderem ser consideradas como critérios de validação interna relativos e, portanto, guiarem o usuário na escolha de um mapa ideal de UGDs dentre diversas soluções disponíveis, alguns fatores devem ser levados em consideração. Além da possibilidade de não convergência dos valores obtidos pelos índices NCE e FPI, essas medidas só podem ser obtidas a partir de mapas de UGDs gerados utilizando algoritmos de agrupamento com sobreposição, que nem sempre são utilizados para este fim. Já na abordagem desenvolvida por Zhang (2010), apesar dos autores não reportarem a sua eficácia de maneira detalhada, é importante notar que apenas uma medida de coesão interna de agrupamentos foi utilizada, sem considerar o importante fator de separação entre os grupos.

Considerando essas questões, foi constatada a necessidade de se encontrar um critério de validação interna relativo que avalie de maneira equilibrada tanto a coesão quanto à separação existente em mapas de UGDs com variância mínima e capazes de proporcionar bons resultados na prática. Dentre os critérios de validação interna para agrupamentos de dados convencionais, entende-se que o critério SD pode ser adequado para o contexto do delineamento de UGDs em AP, pois procura encontrar agrupamentos com mínima variância interna e bem separados com relação aos centroides no espaço de atributos, características desejáveis para UGDs em AP. Mesmo que o critério SD ou outros similares possam ser técnicas adequadas para avaliar a eficácia dos mapas de UGDs, nenhum deles se preocupa em avaliar o arranjo das CGDs no espaço de coordenadas, ou seja, se as CGDs delineadas possuem um nível de estratificação excessivo que pode prejudicar a análise visual do usuário. Assim, foi verificada a necessi- dade de desenvolvimento de novos critérios ou de modificações nos critérios já existentes, para que os agrupamentos obtidos a partir de dados espaciais possam ser avaliados de uma maneira equilibrada com relação à complexidade desse tipo de dado. Essa necessidade proporcionou o desenvolvimento de uma extensão para o critério SD para análise de agrupamentos espaciais, e que se constituiu em uma das principais contribuições desta tese.

4.4 Considerações Finais 93

4.4 Considerações Finais

As definições teóricas apresentadas neste capítulo são de grande importância e serviram como motivação para o desenvolvimento das duas atividades mais importante e que constituem as principais contribuições desta tese: o desenvolvimento de uma nova abordagem para agru- pamento de dados espaciais pontuais e com densidade constante, obtida a partir de interpolação espacial realizada na etapa de pré-processamento do KDSD; e a criação de um critério de va- lidação interna relativo que permite medir o nível de estratificação de agrupamentos de dados espaciais quando exibidos em forma de mapa.

O Capítulo 5, a seguir, apresenta uma revisão dos trabalhos presentes na literatura e que estão relacionados às contribuições desenvolvidas no âmbito desta tese.