• Nenhum resultado encontrado

Um problema inerente à utilização de comitês de agrupamento é a combinação dos resultados parciais. Strehl (2002) descreve bem essa questão e apresenta as três abordagens mais comuns para solucionar esse problema sob diferentes pontos de vista. A primeira abordagem consiste em analisar a semelhança entre as diferentes partições produzidas através do uso de métricas de similaridade entre partições. A segunda utiliza hipergrafos para representar os relacionamentos entre os objetos e aplica algoritmos de particionamento de hipergrafos sobre eles para encontrar os agrupamentos. Na terceira

abordagem, os elementos do conjunto de entrada são rotulados e, em seguida, os rótulos são combinados para apresentar um resultado final, normalmente através de algum sistema de votação.

Strehl e Ghosh (2002) introduzem o problema de combinar múltiplas partições de um conjunto de objetos em uma única partição consolidada a partir dos rótulos parciais obtidos. Em suma, o objetivo dessa abordagem é obter um conjunto de rótulos que correspondem ao resultado de cada partição e, considerando apenas os resultados parciais, combiná-los para obter um resultado consenso, sem levar em consideração características anteriores sobre os objetos que determinaram as partições.

De fato, essa é a forma de fusão de resultados mais popular entre as três apresentadas por Strehl (2002) para tarefas de agrupamento de dados e as dificuldades associadas à sua utilização têm sido investigadas em diversos outros trabalhos que abordam o tema [Dimitriadou et al., 2001] [Frossyniotis et al., 2004] [Zhou e Tang, 2006] [Tumer e Agogino, 2008].

Alguns trabalhos baseados em comitês de SOM introduzem técnicas específicas de combinação de resultados através de técnicas de fusão dos mapas. Na abordagem proposta por Vrusias et al. (2007), um grande mapa auto-organizável é dividido em pequenos sub-mapas e enviado a diversas unidades de uma grade computacional, para ser treinado em paralelo. Cada unidade treina seu sub-mapa com um subconjunto diferente dos dados. Neste caso, a fusão dos resultados é feita a partir das médias dos mapas treinados individualmente. Os valores médios dos neurônios são calculados a partir da média aritmética, em cada dimensão, para cada nó do SOM no comitê. Esse cálculo é feito após um número pré-fixado de iterações na fase de treinamento.

Como cada rede neural é treinada a partir de seu respectivo subconjunto de dados, esse processo tende a perder em precisão em relação ao treinamento de uma única rede com todos os dados disponíveis, porém se obtém mais eficiência em relação ao tempo gasto no treinamento. Por outro lado, o comitê tem o potencial de gerar melhores resultados que uma única rede neural, uma vez que uma quantidade maior de treinamento pode ser realizada no mesmo intervalo de tempo.

Em outra proposta, Georgakis et al. (2005) sugerem um comitê de mapas auto- organizáveis treinados simultaneamente com subconjuntos de dados ligeiramente diferentes e utilizados para organizar e recuperar documentos. Nesse caso, a fusão dos resultados também é realizada através de uma média aritmética de seus pesos sinápticos, mas combinando-se os neurônios mais similares de cada mapa para compor um novo neurônio do mapa final. A dificuldade dessa proposta é manter a topologia dos mapas parciais no mapa final. A mesma estratégia é utilizada em um trabalho posterior para recuperação de imagens baseada em conteúdo [Georgakis e Li, 2006].

Hore et al. (2006) descrevem algumas formas de fusão de resultados baseado em combinação de rótulos e mostram que esses métodos não são adequados para aplicação em bases de dados muito volumosas. Por isso, apresentam uma proposta de comitês de

agrupamento que extrai um conjunto de centroides, rotula os centroides e combina esses resultados para formar os agrupamentos do conjunto original. Além disso, o trabalho inclui um processo de filtragem para agrupamentos mal-formados por falhas na inicialização, na distribuição dos dados ou pela existência de ruídos.

4.6 Resumo do Capítulo

Este capítulo discutiu o uso de comitês em tarefas de classificação e de agrupamento de dados. Foram analisadas questões relacionadas à existência de bases de dados geograficamente distribuídas e os mecanismos utilizados para o particionamento dos dados. Também foi apresentada uma ampla revisão sobre algoritmos e estratégias que abordam o uso de comitês, principalmente em tarefas de agrupamento.

Em seguida, foram abordadas questões relacionadas à segurança e privacidade em agrupamento de dados distribuídos. No final, foram apresentadas algumas técnicas de fusão de informações utilizadas para combinar resultados provenientes de múltiplas soluções de agrupamento.

No próximo capítulo será apresentada a arquitetura partSOM como uma proposta para realização de análise de agrupamento sobre bases de dados geograficamente distribuídos.

Capítulo 5

A Arquitetura partSOM

Computação bioinspirada é a área da Computação que busca inspiração na Natureza − particularmente na Biologia − para o desenvolvimento de novas técnicas de solução de problemas. Essa área desenvolve algoritmos e ferramentas baseados em processos naturais e inclui técnicas como redes neurais, computação evolutiva, algoritmos genéticos, programação genética e vida artificial. Resultados dessas pesquisas têm sido aplicados com sucesso em áreas diversas como reconhecimento de padrões, otimização, planejamento de cidades e roteamento de pacotes em redes de telecomunicações [Azevedo et al., 2000] [Johnson, 2003] [Whitby, 2004].

Redes neurais artificiais são uma abstração para o funcionamento do cérebro humano. São constituídas por várias unidades de processamento simples paralelamente distribuídas, denominadas neurônios, que têm a capacidade de armazenar conhecimento e torná-lo disponível para o uso [Haykin, 2001].

Muitos pesquisadores da área discordam quanto ao funcionamento de cérebros e computadores, defendendo que as redes neurais artificiais são muito diferentes das redes neurais biológicas no tocante ao processamento de informações [Teixeira, 1998] [Whitby, 2004] [Braga et al., 2007]. Entretanto, Haykin (2001) cita dois aspectos comuns aos dois sistemas: i) ambas as redes adquirem seu conhecimento interagindo com o ambiente, através de um processo de aprendizagem; ii) ambas armazenam o conhecimento adquirido através de um mecanismo denominado de pesos sinápticos, baseado na força de conexão entre os seus neurônios.

Este capítulo apresenta a arquitetura partSOM, baseada em redes neurais auto- organizáveis, cuja aplicação é direcionada à solução de problemas que envolvem a realização de análise de agrupamentos sobre bases de dados distribuídas. Inicialmente são discutidos alguns princípios básicos do funcionamento do cérebro humano que motivaram o desenvolvimento da arquitetura. A seguir, é apresentada a arquitetura partSOM e os seus respectivos algoritmos. Depois disso, é analisado o funcionamento da arquitetura através da simulação de um exemplo simples, utilizando uma base de dados de pequeno porte. Os resultados são comparados com aqueles obtidos pelos métodos tradicionais de análise de agrupamentos. Ao final, é apresentado um breve resumo do capítulo.