Desde que os computadores foram criados sempre se pensou até que ponto estes poderiam aprender [Fayyad et al., 1996] [Russel and Norvig, 1995]. Essa possibilidade permitiria novas utilizações destes, atribuindo-lhes novos níveis de competência. Ainda que esse objectivo tenha sido em parte alcançado, ainda não se consegue que os computadores aprendam como os humanos. Contudo, principalmente nas áreas da aprendizagem automática e do reconhecimento de padrões têm sido desenvolvidos algoritmos que são eficientes para certos tipos de tarefas de aprendizagem tendo surgido entretanto também a compreensão teórica da aprendizagem. Dependendo da existência ou não de conhecimento prévio a aprendizagem pode ser supervisionada, semi-supervisionada ou não supervisionada.
Na aprendizagem supervisionada (classificação) é usado um conjunto de dados pré-classificados para aprender as descrições das classes existentes nesse conjunto de dados. O objectivo é aprender regras de decisão a partir de dados de treino disponíveis, de forma, a
Bases de Dados Selecção Limpeza Pré- processamento Data Mining Interpretação Avaliação Consolidação do novo conhecimento Amostra escolhida para exploração Dados corrigidos Dados generalizados e reduzidos Relações
possibilitar a construção de classificadores na fase de aprendizagem. Esses classificadores são usados posteriormente para determinar a classe de novos dados ainda não classificados.
Desenvolvimentos teóricos e práticos na última década mostraram que a combinação de classificadores constitui uma abordagem vantajosa na aprendizagem supervisionada levando à obtenção de melhores resultados do que a aplicação isolada desses mesmos classificadores [Jain et al., 2000] [Kittler, 1998] [Kittler et al., 1998]. Na combinação de classificadores, as decisões individuais de cada classificador são combinadas de forma a classificar novos dados. Actualmente, esta classe de algoritmos constitui o estado da arte em aprendizagem supervisionada, continuando activa a investigação nesta área.
Contrariamente à aprendizagem supervisionada, na aprendizagem não supervisionada (agrupamento de dados), não se conhece à partida qual o número de classes existentes no conjunto de dados nem a classe associada a cada objecto, tornando-se por isso um problema de difícil resolução [Jain and Dubes, 1988]. O objectivo do agrupamento de dados consiste em obter classes ou grupos de dados em que os dados dentro do mesmo grupo são similares uns com os outros e são dissimilares aos dados existentes noutros grupos. Os resultados obtidos pelos algoritmos de agrupamento de dados estão dependentes de vários factores que podem levar à descoberta de estruturas diferentes para um mesmo conjunto de dados. Estes factores podem ser os parâmetros de entrada, as inicializações do algoritmo de agrupamento de dados ou a própria estrutura existente nos dados. Todos estes factores permitem obter diferentes resultados para um mesmo algoritmo e um mesmo conjunto de dados, o que dificulta a análise do processo de agrupamento.
Várias áreas de aplicação usam técnicas de agrupamento para organizar e descobrir estrutura em dados, tais como, análise exploratória de dados, recuperação de informação, análise de documentos, bioinformática, processamento de imagem, estudos de mercado, entre outras.
Nos últimos anos, aproveitando ideias da aprendizagem supervisionada, verificou-se a extensão, com sucesso, dos métodos de combinação de classificadores aos problemas de aprendizagem não supervisionada. A combinação de agrupamentos de dados tem sido foco de grande actividade de investigação por parte das comunidades de aprendizagem automática e reconhecimento de padrões, existindo diferentes algoritmos de combinação de agrupamentos de dados disponíveis na literatura [Fred, 2001] [Strehl and Gosh, 2002] [Topchy, et al. 2003] [Jouve and Nicoloyannis, 2003] [Ayad and Kamel, 2003] [Fern and Brodley, 2004] [Fred and Jain, 2005] [Al-Razgan and Domeniconi, 2006]. A combinação de diferentes agrupamentos de dados tem como finalidade minimizar os problemas inerentes ao processo de agrupamento de dados e criar um agrupamento de dados final que seja melhor que aqueles que lhe deram origem. A investigação em combinação de agrupamentos de dados envolve dois tipos de aspectos: a obtenção dos conjuntos de agrupamentos de dados e a combinação da informação contida nos agrupamentos de dados (funções de consenso).
O conjunto de agrupamentos de dados pode ser obtido a partir de um ou de vários algoritmos de agrupamento de dados, com ou sem variação dos parâmetros de entrada de cada algoritmo e com diferentes inicializações dos algoritmos. Outras duas possibilidades para a construção do conjunto de agrupamentos de dados consistem na aplicação de algoritmos de agrupamento de dados a apenas subconjuntos de objectos do conjunto de dados e na aplicação de algoritmos de agrupamento de dados a apenas subconjuntos de atributos do conjunto de dados. Outra hipótese ainda reside no uso de projecções para subespaços, nomeadamente, projecção aleatória e análise dos componentes principais.
Os métodos mais representativos para cada tipo de função de consenso são: os métodos baseados em votação, métodos baseados em co-associações, métodos baseados em agrupamento mediano, métodos baseados em hipergrafos, métodos baseados em grafos e modelos de mistura. Nos métodos baseados em votação, cada agrupamento de dados obtido atribui (vota) um grupo a cada objecto e como resultado do procedimento de combinação de agrupamentos de dados, o grupo escolhido para esse objecto é o grupo com mais votos. Nos métodos baseados em co-associações, a matriz de co-associações armazena o número de vezes que cada par de objectos é colocado no mesmo grupo pelos algoritmos de agrupamento de dados e cada co-ocorrência é um voto no
sentido do par de objectos ser colocado no mesmo grupo no agrupamento de dados final. Nos métodos baseados em agrupamento mediano, o agrupamento de dados final é determinado de forma a maximizar a semelhança entre o agrupamento de dados final e o conjunto de agrupamentos de dados. Nos métodos baseados em hipergrafos, o problema da combinação de vários agrupamentos de dados é visto como o particionamento de um hipergrafo construído com base num conjunto de agrupamentos de dados enquanto que nos métodos baseados em grafos, o problema da combinação de vários agrupamentos de dados é visto como o particionamento de um grafo construído com base num conjunto de agrupamentos de dados. Nas funções de consenso baseadas em modelos de mistura, incluem-se os métodos que utilizam modelos de mistura para obter o agrupamento de dados final.
Os algoritmos de aprendizagem semi-supervisionada usam simultaneamente dados pré-classificados e não classificados. A aprendizagem semi-supervisionada é tipicamente vista como um problema de classificação supervisionada no qual se desconhecem as classes de alguns dos dados de treino. Recentemente surgiu trabalho em agrupamento de dados semi-supervisionado com o objectivo de usar conhecimento adicional fornecido pelo utilizador, isto é, conhecimento parcial relativo à estrutura dos grupos que pretendem encontrar. Geralmente esse conhecimento existe na forma de restrições de ligação obrigatória ou proibida entre objectos de dados, isto é, objectos de dados que devem (ou não) ficar agrupados no mesmo grupo. Dependendo do tipo de restrições usadas, o agrupamento de dados com restrições pode seguir várias abordagens.
Na classificação, com a existência de dados de treino e de teste classificados antecipadamente, o desempenho dos classificadores é avaliado a partir da exactidão da classificação obtida. No agrupamento de dados, além da inexistência de dados previamente classificados, por vezes, a avaliação quantitativa dos resultados é ainda mais difícil devido ao carácter inerentemente subjectivo do conceito de grupo. O problema da avaliação dos agrupamentos de dados, bem como a descoberta do número de grupos existentes nos conjuntos de dados têm sido também motivo de uma intensa investigação. Na literatura existem vários métodos de avaliação quantitativa dos agrupamentos de dados [Dunn, 1974] [Davies and Bouldin, 1979] [Folkes and Mallows, 1983] [Hubert and Arabie, 1985] [Meila, 2002] [Halkidi et al., 2001]. As medidas de validação podem ser baseadas em dois tipos de critérios: externos ou internos. As medidas de validação baseadas em critérios externos avaliam os resultados da aplicação de um algoritmo de agrupamento de dados, comparando-os com uma estrutura de dados, definida anteriormente, que reflecte o conhecimento ou intuição de como os dados devem estar agrupados enquanto que as medidas baseadas em critérios internos não usam conhecimento adicional na forma de etiquetas de grupos definidos previamente e avaliam os agrupamentos de dados usando apenas informação inerente ao próprio conjunto de dados. Nos anos mais próximos, paralelamente às medidas clássicas de validação baseadas em critérios internos, apareceram outras abordagens de validação baseadas em dispersão, previsão e estabilidade, que avaliam globalmente os agrupamentos de dados [Tibshirani et al., 2000] [Tibshirani et al., 2001] [Levine and Domany, 2001] [Ben-Hur et al., 2002] [Dudoit and Fridlyand, 2002] [Roth et al., 2002] [Ben-Hur and Guyon, 2003] ou grupos individuais [Fred and Jain, 2006].