Agrupamento de Dados Convencionais - Descoberta de Conhecimento em Bancos de Dados Convencionai

CAPÍTULO 4 – DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais

4.2.3 Agrupamento de Dados Convencionais

O principal objetivo das abordagens de agrupamento é agrupar amostras de maneira natu- ral, fazendo com que aquelas menos dissimilares com relação às características impostas pelo domínio em questão sejam alocadas em um mesmo grupo, e aquelas mais dissimilares sejam alocadas em grupos distintos. Medidas algébricas conhecidas, como as distâncias Euclidiana, Diagonal e Mahalanobis para dados numéricos; e abordagens de correspondência simples para dados nominais, são normalmente utilizadas para determinar a dissimilaridade entre as amostras. Existem diferentes abordagens que podem ser utilizadas para o agrupamento dados e a sua escolha está fortemente relacionada às particularidades dos dados da aplicação e a disponibili- dade de cada uma delas para o usuário final (WITTEN; FRANK; HALL, 2011).

Quando os dados referentes ao problema a ser resolvido são de fácil separação em grupos distintos, possibilitando o uso de abordagens conhecidas como de particionamento sem sobre- posição, o algoritmo mais usado é o k-means (MACQUEEN et al., 1967). Considerado um dos

dez algoritmos mais influentes em mineração de dados (WU, 2007), o k-means é um método

iterativo bastante simples, e que deve ser iniciado com a escolha, pelo usuário final, do valor para o parâmetro que define a quantidade de grupos desejada (parâmetro k). Dessa forma, k amostras são escolhidas, normalmente de maneira aleatória dentro do conjunto de dados, para representar os centroides iniciais representantes de cada grupo. Em cada passo do algoritmo, cada amostra é associada ao grupo menos dissimilar, considerando a distância da amostra com relação ao centroide do grupo. Ao final de cada iteração, a média das amostras de um grupo determina o seu novo centroide. Se os centroides não são alterados com relação à iteração ante- rior, o algoritmo converge e o agrupamento final é obtido. Desse modo, o k-means possui como objetivo principal minimizar a soma das distâncias ao quadrado de cada amostra com relação ao centroide do grupo ao qual foi associada, também conhecida como soma dos erros quadráticos ou função J (Equação 4.2).

J =

_∑

i=1x

∑

j∈_Gi

d xj,¯xi2 (4.2)

Na Equação 4.2, k define a quantidade total de grupos do agrupamento, xj é uma amostra

qualquer pertencente ao grupo Gi e ¯xi corresponde ao centroide representante desse mesmo

grupo.

Apesar de sua simplicidade, eficiência e eficácia, os resultados obtidos pelo k-means são altamente influenciados pela escolha aleatória dos centroides iniciais dos grupos, não fornecendo garantias em se atingir um resultado que possa ser considerado como ótimo global. De qualquer

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais 69

maneira, os resultados obtidos podem se tornar mais confiáveis se escolhermos, por exemplo, os centroides iniciais com base em distribuições de probabilidade uniformes (WITTEN; FRANK; HALL, 2011). Variações do k-means (KAUFMAN; ROUSSEEUW, 1987) podem melhorar a eficácia

do resultado final, evitando, por exemplo, a influência de valores extremos, conhecidos como outliers. Apesar de possuir uma complexidade computacional baixa (O(n)), o k-means também possui variações desenvolvidas para melhorar a eficiência na sua execução e que podem ser utilizadas, por exemplo, quando o conjunto de dados possui grandes quantidades de amostras e atributos (LLOYD, 1982;ALSABTI; RANKA; SINGH, 1997;KANUNGO, 2002).

Já as abordagens hierárquicas permitem a obtenção recursiva de possíveis agrupamentos particionais aninhados com diferentes quantidades de grupos para a resolução de um problema (JAIN; DUBES et al., 1988). Essa hierarquia pode ser visualizada por meio de uma árvore biná- ria, conhecida como dendrograma. Para essa abordagem, duas estratégias distintas podem ser utilizadas: a aglomerativa (bottom-up), que considera inicialmente cada amostra do conjunto de dados como um grupo, fundindo pares de grupos em cada nível da hierarquia; e a divisiva (top-down), que considera inicialmente todos as amostras pertencentes a um único grupo, dividindo-as em grupos menores em cada nível da hierarquia (HASTIE; TIBSHIRANI; FRIEDMAN,

2009). A estratégia aglomerativa é a mais utilizada e explorada na literatura, principalmente por conta da dificuldade em se encontrar os pontos de divisão dos grupos exigidos na estra- tégia divisiva, podendo inviabilizar o seu uso em aplicações como o delineamento de UGDs em AP (RUSS, 2012). Considerando a estratégia aglomerativa, em cada nível do dendrograma

devem ser fundidos sempre os dois grupos menos dissimilares, até que se atinja o nível final com um único grupo. Como cada grupo é composto por uma ou mais amostras, a medida de dissimilaridade a ser utilizada em cada iteração, normalmente baseada na distância Euclidiana, é o principal diferencial entre os algoritmos hierárquicos aglomerativos tradicionais disponíveis na literatura, descritos a seguir.

O algoritmo single-linkage (FLOREK, 1951;SNEATH, 1957) calcula a dissimilaridade entre

dois grupos como sendo a distância mínima entre pares de amostras compostos por uma amostra de cada grupo. Apesar de ser capaz de fornecer agrupamentos que não são exclusivamente globulares no espaço de atributos, o single-linkage é muito sensível a ruídos e outliers. De maneira similar, o algoritmo complete-linkage (SØRENSEN, 1948) calcula essa dissimilaridade

como sendo a distância máxima entre pares de amostras compostos por uma amostra de cada grupo. Apesar de ser menos suscetível a ruídos e outliers, o algoritmo complete-linkage tende a dar preferência para a subdivisão de grupos com maior cardinalidade, enviesando a obtenção de agrupamentos globulares. Já o algoritmo average-linkage (SOKAL, 1958) calcula a dissimi-

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais 70

por uma amostra de cada grupo. Apesar de também favorecer grupos globulares, o average- linkage é muito menos suscetível a ruídos e outliers do que o complete-linkage, o que o torna um algoritmo mais robusto e capaz de fornecer resultados mais consistentes.

Diferentemente dos algoritmos supracitados, o algoritmo de Ward (WARD JR, 1963) calcula

a dissimilaridade entre grupos com base na somatória dos erros quadráticos (J) do agrupamento, conforme definido na Equação 4.2. Assim, em cada passo da sua hierarquia, são considerados menos dissimilares os grupos para os quais uma suposta fusão proporcionará o menor aumento possível de J, visando minimizar o crescimento das variâncias intragrupos. Como isso, o algoritmo de Ward pode ser considerado como análogo ao k-means, só que em uma abordagem hierárquica. Apesar de proporcionar resultados que o tornam similar ao average-linkage com relação à robustez, diversos estudos indicam que o algoritmo de Ward possui eficácia supe- rior aos outros algoritmos hierárquicos (GROSS, 1972; KUIPER; FISHER, 1975; MOJENA, 1977; BAYNE, 1980;GOLDEN; MEEHL, 1980;MILLIGAN; SCHILLING, 1985).

Em geral, é importante ressaltar que, independentemente do algoritmo hierárquico utilizado, se o conjunto de dados permitir a criação de grupos compactos e bem separados, todos eles deverão produzir dendrogramas semelhantes (WITTEN; FRANK; HALL, 2011). Por outro

lado, a geração de agrupamentos aninhados impossibilita que uma amostra seja associada a um novo grupo em um determinado nível, impedindo a correção de erros executados em passos anteriores (XU; WUNSCH-II, 2005; EVERITT, 2011). Outra questão relevante em alguns casos é

com relação à complexidade computacional, que para algoritmos de agrupamento hierárquico aglomerativo é, em geral, de ordem quadrática (O(n2_{)). Quando essa questão é relevante para o}

contexto da aplicação, um esquema de parametrização pode ser utilizado para reduzir o cálculo de distâncias e assim amenizar o custo computacional desses algoritmos, desde que estes sejam utilizados em sua forma tradicional (LANCE; WILLIAMS, 1967). Por outro lado, a capacidade de exploração do dendrograma pelo usuário, permitindo definir a quantidade e disposição dos grupos que melhor atende as necessidades da aplicação, pode ser considerada como a característica mais positiva das abordagens de agrupamento hierárquicas.

Tanto a abordagem por particionamento quanto a hierárquica - no caso da segunda, considerando cada um dos níveis do dendrograma - permitem que cada amostra seja associada a apenas um único grupo. Por conta disso, são classificadas como técnicas de agrupamento sem sobreposição. Entretanto, em grande parte dos problemas do mundo real, separar certas amostras do conjunto de dados não é uma tarefa simples, levando a necessidade de considerar a associação de cada amostra a mais de um grupo. Para tanto, as abordagens capazes de produzir grupos cujas amostras são associadas a eles considerando uma probabilidade ou grau de perti-

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais 71

nência, conhecidas como técnicas de agrupamento com sobreposição, devem ser consideradas. Um dos principais algoritmos existentes para atender a essas abordagens é o EM (Expectation- Maximization) (DEMPSTER; LAIRD; RUBIN, 1977), que foi concebido originalmente como mé-

todo de aprendizado de máquina semissupervisionado, mas que pode ser utilizado como técnica de agrupamento com sobreposição por se basear em cálculos probabilísticos. Devido às suas ca- racterísticas, a utilização do k-means como técnica agrupamento sem sobreposição é altamente correspondente com a utilização do EM como técnica de agrupamento com sobreposição.

Outro algoritmo de agrupamento com sobreposição bastante similar ao k-means, mas que considera a pertinência das amostras ao invés de probabilidades com relação aos grupos é o Fuzzy c-Means (FCM) (BEZDEK; EHRLICH; FULL, 1984). Também inicializado com a escolha

aleatória de k centroides, em cada iteração do FCM é calculado o grau de pertinência de cada amostra com relação a cada um dos k grupos (ωk), considerando a distância (d) da mesma com

relação ao centroide desses grupos, além de um parâmetro de fuzzificação (m) . A Equação 4.3 exibe esse cálculo, considerando j como sendo a quantidade de grupos desejada.

ω_k= 1

∑j

_{d(centroide(k),x)}

d(centroide( j),x)

₍_m−1)2 (4.3)

A partir da Equação 4.3, pode ser verificado que quanto maiores são os valores utilizados pelo parâmetro m, maior será a vagueza associada às fronteiras de separação entre os grupos. No limite m=1, o grau de pertinência deve convergir para 0 ou 1, implicando na obtenção de grupos sem sobreposição semelhantes aos obtidos pelo k-means. Ao final de cada iteração os centroides são recalculados, levando-se em consideração todas as amostras do conjunto de dados e seu grau de pertinência com relação a cada grupo (HU; MENG; SHI, 2008). O FCM converge quando

os valores de pertinência não sofrem alterações acima de um limiar, que deve ser informado como parâmetro para o algoritmo. Diferentemente do k-means, que fornece como resultado a associação de cada amostra a um único grupo, o FCM retorna uma matriz de dados contendo o grau de pertinência - com valores entre 0 e 1 - de cada amostra com relação a cada grupo. En- tretanto, se for necessária a obtenção de agrupamentos sem sobreposição para o resultado final, uma operação de defuzzificação pode ser realizada. Normalmente, essa operação é realizada as- sociando cada amostra ao grupo cujo grau de pertinência seja o maior, ou considerando outras formas que levam em consideração vizinhanças, localização espacial ou modelos probabilísti- cos (LE; ALTMAN; GARDINER, 2012). O FCM possui como principal vantagem a capacidade de

fornecer melhores resultados em conjuntos de dados onde ocorrem muitas sobreposições. A principal desvantagem está associada à dificuldade na escolha do limiar adequado para a con-

4.2 Descoberta de Conhecimento em Bancos de Dados Convencionais 72

vergência do algoritmo. Quanto menor esse valor, o que normalmente proporciona resultados mais precisos, maior é o número de iterações que devem ser executadas pelo algoritmo, aumen- tando significativamente o seu custo computacional (CAI; CHEN; ZHANG, 2007). Por outro lado,

um limiar que proporcione a rápida convergência do algoritmo também pode resultar em um mínimo local ao invés de global (HATHAWAY; BEZDEK, 1986).

De uma maneira geral, apesar de a abordagem hierárquica levar vantagem por não ser neces- sário informar a quantidade de grupos desejada e os centroides iniciais, a mesma não consegue fornecer bons resultados quando os dados são complexos e difíceis de separar. No entanto, essa característica é bastante explorada nas abordagens de agrupamento com sobreposição, que normalmente fornecem melhores resultados para esse tipo de dado. Desse modo, reforça-se a ideia de que a escolha da abordagem correta a ser utilizada depende muito da aplicação e das características relacionadas aos dados utilizados. Considerado a tarefa delineamento de UGDs em AP, as abordagens utilizadas devem considerar a complexidade dos conjuntos de dados espaciais, onde o espaço de coordenadas deve ser tratado de maneira diferenciada com relação ao espaço de atributos, de tal forma que sejam obtidos agrupamentos coesos e bem separados considerando esses dois espaços de maneira equilibrada. Para tanto, algoritmos tradicionais de agrupamento, como os que foram descritos nesta seção, necessitam ser modificados para que possam atender a esses requisitos.

No documento Mineração de dados espaciais aplicada no delineamento de unidades de gestão diferenciada em agricultura de precisão (páginas 69-73)