Análise Preliminar de Complexidade Computacional

CAPÍTULO 8 – SWMU CLUSTERING: UMA ABORDAGEM DE AGRUPAMENTO

8.5 Análise Preliminar de Complexidade Computacional

O desenvolvimento de abordagens de agrupamento para a tarefa de delineamento de UGDs em AP possui como objetivo principal fornecer ao usuário final mapas de UGDs eficazes, fá- ceis de interpretar e úteis para a tomada de decisão a respeito de operações agrícolas sítio- específicas. Desse modo, o desenvolvimento da abordagem SWMU Clustering, no âmbito desta tese, priorizou a criação de uma solução capaz de fornecer mapas de UGDs representados por agrupamentos altamente coesos e bem separados, levando-se em consideração tanto o espaço de atributos quanto o espaço de coordenadas. Entretanto, mesmo que de maneira secundária, questões relacionadas com a eficiência e a complexidade computacional foram levadas em con- sideração no processo de desenvolvimento. Desse modo, uma primeira análise da complexidade computacional da abordagem SWMU Clustering foi realizada e está descrita a seguir.

Se considerarmos as abordagens utilizadas pelo estado da arte, a complexidade computacional da abordagem SWMU Clustering é bastante próxima da HACC-Spatial, por ambas se tratarem de abordagens de agrupamento hierárquico aglomerativo. Em geral, para essas abordagens, os melhores casos proporcionam complexidade computacional da O(n2_{), e os piores}

casos daO(n3_{), com n sendo a quantidade total de amostras agrupadas. A inclusão das res-}

trições espaciais na abordagem SWMU Clustering pode proporcionar a redução ou o aumento dessa complexidade, dependendo dos parâmetros fornecidos pelo usuário.

Levando-se em consideração a utilização da tesselação inicial, principalmente quando o parâmetro varTess indica uma subdivisão em uma quantidade de grupos muito menor do que a quantidade de amostras, a complexidade computacional pode ser bastante reduzida, por conta da utilização do algoritmo k-means, com complexidade daO(n), em substituição a diversos passos de construção do dendrograma. Considerando o melhor caso, a tesselação inicial poderia proporcionar a redução da complexidade da abordagem SWMU Clustering paraO((k − 1)2_{) +}

(n − k)), com k sendo a quantidade de grupos delimitada pela tesselação inicial, sempre menor que a quantidade de amostras n. Com isso, sendo utilizada de maneira ponderada, a tesselação inicial pode auxiliar tanto na redução da estratificação dos mapas de UGDs, quando na redução da complexidade computacional da abordagem SWMU Clustering.

Por outro lado, a busca pela amostra mais próxima do centroide espacial, apesar de também auxiliar na redução da estratificação dos mapas de UGDs, gera um custo extra daO(Nk) em

cada passo do dendrograma da abordagem SWMU Clustering, com Nk sendo a quantidade de

amostras pertencentes a um grupo k. Um custo extra também é gerado quando é incluída a restrição espacial relacionada aos obstáculos, onde deve ser verificada a existência ou não dos

8.6 Considerações Finais 192

obstáculos entre duas amostras e, em caso positivo, realizado o cálculo de distância cumulativa, conforme descrito no Algoritmo 1. Finalmente, a verificação de UGDs consideradas como estratos envolve operações de geoprocessamento relacionadas à verificação de tamanho de área e união de polígonos, que geralmente possuem complexidade computacional elevada. Porém, essas operações são executadas em um único passo do dendrograma, quando a quantidade de grupos atingida é igual ao valor fornecido para o parâmetro maxDMC, não proporcionando grande impacto no tempo final de execução da abordagem SWMU Clustering.

Se tomarmos como exemplo mapas de UGDs obtidos com a utilização do conjunto de atributos UP-CA2, que contém 415 amostras e 13 atributos, em experimentos realizados utilizando um computador pessoal com processador modelo Intel(R) Core (TM) i5-3337U, de 1.8 GHz, 6 GB de memória principal (RAM), sistema operacional Ubuntu de 64 bits, versão 16.04, e algoritmos de agrupamento implementados no ambiente R, a abordagem FCM consumiu, em média, 0,4 segundos para fornecer ao usuário final mapas contendo entre 2 e 5 CGDs. Conside- rando essas mesmas amostras, atributos e configurações de hardware e software, além de todas as restrições espaciais possíveis de serem utilizadas, a abordagem SWMU Clustering consumiu, em média, 85 segundos para fornecer ao usuário final esses mesmos resultados. Apesar dessa grande diferença no tempo de execução, o que pode-se concluir, a partir dessa análise preliminar, é que as restrições espaciais impostas pela abordagem SWMU Clustering não são capazes de prejudicar a sua complexidade computacional a ponto de impedir que os mapas de UGDs solicitados pelo usuário não sejam gerados em um período de tempo de execução aceitável. Entretanto, por se tratar de uma abordagem hierárquica aglomerativa, um conjunto de dados de entrada com quantidade elevada de amostras pode proporcionar um aumento considerável desse período de tempo, sugerindo modificações em sua forma de execução que podem considerar, por exemplo, conceitos de processamento paralelo e distribuído.

8.6 Considerações Finais

Neste capítulo foi apresentada, de maneira detalhada, a abordagem de agrupamento espacial SWMU Clustering, composta em sua essência por uma restrição espacial relacionada à identi- ficação do centroide imposta à tradicional abordagem de agrupamento hierárquica de Ward; e por três outras restrições espaciais opcionalmente impostas a partir de parâmetros definidos pelo usuário final: a tesselação inicial considerando o espaço de coordenadas e a variabilidade no espaço de atributos; a utilização de obstáculos espaciais no cálculo da dissimilaridade entre amostras; e o tamanho mínimo desejado para uma UGD. Diferentes configurações de parâme- tros e conjuntos de atributos de entrada foram utilizados em experimentos que permitiram com-

8.6 Considerações Finais 193

parar a abordagem SWMU Clustering com outras abordagens que constituem o estado da arte no delineamento de UGDs em AP. Os resultados obtidos mostraram que a abordagem SWMU Clustering é capaz de proporcionar a obtenção de mapas de UGDs válidos, menos estratificados e mais fáceis de interpretar por parte do usuário final.

Capítulo 9

SWMU POLYGON: UMA

ABORDAGEM

PARA

DELINEAMENTO DE

UGDS

POLIGONAIS

9.1 Considerações Iniciais

Neste capítulo é apresentada a abordagem complementar SWMU Polygon, que permite representar os mapas de UGDs em formato poligonal. O capítulo está organizado da seguinte forma:

• A Seção 9.2 descreve as vantagens de se utilizar mapas de UGDs com representações poligonais ao invés de mapas de UGDs representados por pontos.

• A Seção 9.3 descreve a abordagem complementar SWMU Polygon, desenvolvida para possibilitar a representação dos mapas de UGDs gerados a partir da abordagem SWMU Clustering em formato poligonal.

• A Seção 9.4 descreve experimentos realizados com dados reais que mostram as vantagens para o armazenamento e a recuperação de mapas de UGDs em formato poligonal em bancos de dados espaciais.

• A Seção 9.5 finaliza o capítulo com as considerações finais.

9.2 Representação de Mapas de UGDs em Formato Poligonal

A representação de mapas de UGDs em formato poligonal tem o objetivo principal de reduzir a quantidade de dados espaciais a serem armazenados, pois em geral é utilizada uma quantidade menor de coordenadas para representar uma área por meio de polígonos do que para

9.3 A Abordagem SWMU Polygon 195

representar essa mesma área por meio de pontos, principalmente para os conjuntos de dados com altas resoluções espaciais coletados em AP. A Figura 9.1 mostra um exemplo de uma mesma UGD representada por pontos e por polígonos. Nesse caso, a representação por pontos pode ser considerada como uma forma de representação matricial, onde cada ponto representa a coordenada central de um pixel.

Figura 9.1: Exemplo de UGD representada por (a) geometrias de pontos; e (b) por um único polígono.

(a) (b)

Considerando as UGDs exibidas na Figura 9.1, foram necessárias 509 amostras contendo coordenadas de latitude e longitude para representar a UGD exibida no item (a); e apenas 136 amostras para representar a UGD exibida no item (b), a partir de uma simplificação utilizando-se uma forma geométrica poligonal composta por essas amostras. Em alguns casos, essa diferença pode diminuir e até mesmo fazer com que a representação por pontos utilize menos geometrias do que a representação poligonal, principalmente nos casos em que a UGD possui uma área muito pequena de forma a ser considerada como estrato. Entretanto, se considerarmos os resultados obtidos pela abordagem SWMU Clustering, que prioriza, por meio de suas restrições espaciais, a obtenção de mapas com UGDs de tamanho balanceado e pouco estratificadas, a redução do custo de armazenamento e recuperação convertendo esses mapas em formas geo- métricas poligonais será em geral similar ao que ocorre no exemplo da Figura 9.1.

9.3 A Abordagem SWMU Polygon

Com o intuito de permitir a representação dos mapas de UGDs em formato de pontos de- lineados pela abordagem SWMU Clustering em formas poligonais mais sofisticadas, foi desenvolvida uma abordagem complementar, denominada SWMU Polygon. Os principais passos e algoritmos utilizados na execução dessa abordagem estão descritos a seguir.

9.3 A Abordagem SWMU Polygon 196

Além do mapa de UGDs gerado pela abordagem SWMU Clustering e o respectivo conjunto de dados que proporcionou a geração desse mapa, com as amostras dispostas obrigatoriamente em uma grade espacial regular, a abordagem complementar SWMU Polygon considera como entrada o polígono PC representativo da área de estudo, para a realização de ajustes na forma das UGDs poligonais geradas ao final de sua execução. A ideia principal da abordagem SWMU Polygon é fazer com que as bordas das UGDs sejam constituídas pelas próprias amostras que geraram o mapa de UGDs obtido pela abordagem SWMU Clustering.

Primeiramente, com o intuito de se obter o seu conjunto de amostras vizinhas mais próxi- mas, é gerado, para cada amostra an de um total de N amostras pertencente ao mapa original

de UGDs, um buffer circular bn que abrange um raio de tamanho r ×√2, onde r é a resolução

espacial da grade regular em que o mapa foi delineado. A Figura 9.2 mostra um exemplo de buffer gerado seguindo esse procedimento.

Figura 9.2: Exemplo de buffer circular bncom raio de tamanho r ×√2gerado para uma amostra

an, visualizado (a) em um mapa de UGDs como um todo; e (b) em uma escala aproximada.

(a) (b)

A partir da Figura 9.2 (b), é possível identificar a presença de outras oito amostras que interceptam o buffer circular bn e, portanto, são consideradas vizinhas da amostra an. Nesse

exemplo, também é possível identificar que quatro dessas amostras vizinhas pertencem à mesma CGD da amostra an, pois são exibidas no mapa com o mesmo tom de cinza; e as outras quatro

amostras vizinhas pertencem a outras duas CGDs. A partir dos N buffers gerados, são identificados dois tipos de amostras que poderão fazer parte das bordas dos polígonos das UGDs. Inicialmente, as amostras que possuem no máximo 5 amostras vizinhas espaciais, considerando o seu buffer circular, são marcadas como pertencentes à borda externa, ou seja, serão anexadas à borda do contorno da área de estudo, constituindo o conjunto BE. Em seguida, também considerando o buffer circular, são identificadas as amostras candidatas à borda interna. Nesse caso,

9.3 A Abordagem SWMU Polygon 197

serão marcadas como candidatas as amostras que possuírem ao menos uma amostra vizinha interna a seu buffer bnassociada a uma CGD diferente da sua. Essas amostras serão identificadas

pelo conjunto CBI.

A próxima etapa de execução da abordagem complementar SWMU Polygon considera uma matriz U de dimensões N ×K, contendo os graus de pertinência de cada amostra n do mapa com relação a cada uma das K CGDs, gerada a partir da execução da abordagem de agrupamento FCM em sua forma original, ou seja, considerando apenas o espaço de atributos do conjunto de dados utilizado para o delineamento das UGDs. Nessa etapa, para cada amostra do conjunto CBI, deve ser encontrada, ainda considerando o seu buffer circular, a amostra vizinha espacial- mente mais próxima pertencente à uma CGD distinta da qual essa amostra foi associada pela abordagem SWMU Clustering, formando pares de amostras candidatas. Para cada um dos pares, é escolhida a amostra com menor grau de pertinência para a CGD à qual foi associada, segundo a matriz U, caracterizando a existência de uma dúvida maior sobre a associação dessa amostra com sua respectiva CGD. Em termos práticos, entende-se que essa amostra pertence menos à CGD a qual foi associada do que o seu par para a sua respectiva CGD, fazendo com que se torne mais apta a fazer parte de uma borda do que da própria CGD em si. As amostras selecionadas são agora identificadas pelo conjunto BI. A Figura 9.3 exibe graficamente um exemplo do processo executado para a seleção de amostras pertencentes aos conjuntos BI e BE.

Figura 9.3: Exemplo gráfico para definição dos pontos de borda pela abordagem SWMU Polygon, onde são selecionadas (a) uma amostra a1pertencente à borda externa; (b) uma amostra a2candi-

data à borda interna; e (c) um par de amostras (a2e a3) candidatas à borda interna, onde a seleção

final ocorre a partir do menor valor de pertinência da matriz U.

(a) (b) (c)

A partir da Figura 9.3, é possível verificar graficamente a sequência para seleção das amostras que devem ser consideradas como borda. Nos recortes de mapa exibidos nessa figura,

9.3 A Abordagem SWMU Polygon 198

diferentes tons de cinza atribuídos às amostras indicam a associação à diferentes CGDs no agrupamento gerado pela abordagem SWMU Clustering, e os círculos indicam os buffers circulares das amostras citadas. Para efeitos desse exemplo, será rotulada como G1 a CGD identificada pelo tom de cinza mais escuro; e como G2 a CGD identificada pelo tom de cinza mais claro. No item (a), a amostra a1 é selecionada para o conjunto BE porque possui apenas cinco amostras vizinhas espaciais, considerando o seu buffer b1. Já no item (b), a amostra a2 é selecionada

para o conjunto CBI porque, além de possuir mais de cinco amostras vizinhas considerando o seu buffer b2, duas delas pertencem à CGD G2, ou seja, diferente da CGD à qual a própria

amostra foi associada (G1), considerando o agrupamento gerado pela abordagem SWMU Clus- tering. Finalmente, no item (c), a amostra a3 é identificada como a vizinha mais próxima de a2 e pertencente a outra CGD. Considerando o par de amostras (a2,a3), a amostra a3 deve ser selecionada para compor BI, uma vez que essa amostra possui, segundo a matriz U gerada a partir da execução da abordagem FCM, um grau de pertinência para a CGD G2 menor do que o grau de pertinência da amostra a2 para a CGD G1. Uma vez que uma amostra é incluída no conjunto BI, esta já é dada como selecionada, e não pode mais ser considerada como vizinha em processo posterior de seleção de pares de amostras, como executado na Figura 9.3 (c). A partir da definição das amostras do conjunto BI, é gerado o conjunto de adjacências de cada uma delas, ou seja, são identificadas quais as UGDs que irão compartilhar essas amostras em suas bordas, com o auxílio de uma triangulação de Delaunay. Esse conjunto de adjacências é identificado como AI.

Utilizando-se dos conjuntos BI e AI, a etapa seguinte consiste na execução do algoritmo TSP para delineamento dos polígonos representantes das UGDs. A partir desse algoritmo, as amostras são ligadas por linhas, considerando a sua heurística de procurar sempre o menor cami- nho, até que a última amostra seja ligada à primeira para formar um polígono. Entretanto, como esses polígonos são gerados de maneira independente entre si, podem ocorrer intersecções entre as suas áreas, que são identificadas e tratadas pela abordagem SWMU Polygon. Esse tratamento é realizado da seguinte maneira: para cada intersecção entre duas ou mais UGDs, a geometria gerada será unida ao grupo de polígonos que representam as UGDs pertencentes à CGD que rotula a maioria das amostras internas à ela. Consequentemente, essa mesma geometria será subtraída das geometrias correspondentes às outras UGDs que proporcionaram a intersecção gerada. No caso de uma CGD possuir mais de uma UGD poligonal, a sua representação será realizada por meio de uma coleção de polígonos.

Finalizando, para cada amostra pertencente ao conjunto BI, é verificado o seu ponto mais próximo pertencente ao polígono PC que irá substituí-la, a fim de realizar ajustes no mapa de UGDs com relação ao contorno da área de estudo. O Algoritmo 4 descreve, em alto nível, os

9.3 A Abordagem SWMU Polygon 199

principais passos de execução da abordagem SWMU Polygon. Algoritmo 4: SWMU Polygon.

Entrada: V = conjunto de vetores de dados espaciais com n amostras nos espaços de atributos e coordenadas; PC = polígono do contorno da área; VClust = mapa contendo o

agrupamento gerado pela abordagem SWMU Clustering. Saída: M = Mapa de UGDs em formato poligonal.

1 BE,CBI e BI ← vetores de amostras; 2 bu f f er ← vetor de buffers;

3 U ← FCM (V,numCGD(VClust)); 4 início

// Geração de buffer e seleção de amostras candidatas à borda

5 para cada amostra an∈VClust faça 6 bu f f ern=buffer(an, res(VClust)); 7 se an∈ BE e a/ n∈ BI então/

8 se nVizinhos(an) ≤ 5 então

9 BE ← BE ∪ an;

10 senão

11 se ∃av∈ viz(an) | CGD(av) 6= CGD(an)então

12 CBI ← CBI ∪ an;

13 fim se

14 fim se

15 fim se

16 fim para

// Seleção de amostras para a borda interna a partir do grau de pertinência.

17 para cada amostra an∈ CBI faça

18 avp← maisProximo (an,viz(an) | CGD(av) 6= CGD(an)); 19 se U(avp)≥ U(an)então

20 se an∈ BI então/ 21 BI ← BI ∪ an; 22 fim se 23 senão 24 se avp∈ BI então/ 25 BI ← BI ∪ avp; 26 fim se 27 fim se 28 fim para

29 AI ← delaunayTri(BI) ; // Encontra adjacências pela triangulação de Delaunay 30 MParc ← TSP(BI,AI) ; // Gera os polígonos utilizando o algoritmo TSP

31 MParc ← a justaInter(MParc) ; // Ajusta intersecções dos polígonos 32 M ← a justaPolArea(MParc,PC) ;// Ajusta polígonos das UGDs com a borda externa 33 retorna M;

34 fim

A partir do Algoritmo 4 podem ser identificados, de maneira resumida, todos os passos de execução da abordagem SWMU Polygon. As linhas numeradas de 5 à 16 resumem as operações

No documento Mineração de dados espaciais aplicada no delineamento de unidades de gestão diferenciada em agricultura de precisão (páginas 192-200)