Agrupamento em Grafos - T´ ecnicas de Agrupamento

2.3 T´ ecnicas de Agrupamento

2.3.5 Agrupamento em Grafos

Muitos dados podem vir na forma de grafos, por exemplo, dados de redes sociais. Nesse caso, podemos estar interessados em encontrar grupos de pessoas com interesses semelhantes. Outro exemplo de dados vindos na forma de grafos são redes de cita¸cões bibliográficas entre artigos, nas quais podemos estar interessados em identificar regiões temáticas, artigos de referência ou surveys. Além disso, conjuntos de dados não necessa- riamente na forma de grafos podem ser transformados em grafos. Neste caso, os vértices do grafo podem representar os dados, e as arestas podem representar um valor de dissi- milaridade entre os dados, por exemplo, a distância.

Existem muitos algoritmos de agrupamento que utilizam uma representa¸cão em grafo dos dados. Uma maneira de detectar grupos em grafos é usando a Árvore Geradora M´ınima (Zahn, 1971). Uma árvore geradora m´ınima é um subgrafo conexo, sem ciclos, que contém todos os vértices do grafo e que tem a menor soma dos pesos da arestas poss´ıvel. O método para obter grupos no grafo, então, é primeiramente determinar a ´

arvore geradora m´ınima do grafo, e depois remover as arestas da árvore iterativamente, formando novos componentes conectados (os grupos), até chegar ao número pretendido de grupos. Há diferentes estratégias para remover as arestas. Por exemplo, a cada itera¸cão podemos remover a aresta com o maior peso.

Outro método para encontrar grupos em grafos é através de Componentes Fortemente Conectados (Hartuv and Shamir, 2000). A conectividade das arestas λ(G) de um grafo G = (V, E) é o número m´ınimo de arestas cuja remo¸cão resultará em um grafo desconexo, e um grafo G = (V, E) é dito fortemente conectado se λ(G) > |V |/2. O algoritmo, então,

Figura 2.12: Agrupamento MCL. Caminhamentos aleat´orios no grafo tender˜ao a se con- centrar dentro de cada grupo (van Dongen, 2000).

particiona os v´ertices do grafo em grupos de modo que cada grupo seja um componente fortemente conectado.

O algoritmo Markov Clustering (MCL) (van Dongen, 2000) encontra grupos no grafo através de um modelo matemático que calcula a probabilidade de um vértice alcan¸car outro vértice através de caminhamentos aleatórios no grafo. O algoritmo alterna entre duas etapas, chamadas de expansão e infla¸cão para mudar as probabilidades dos caminhamentos. O algoritmo faz isso usando matrizes estocásticas, também chamadas de matrizes de Markov, que capturam o conceito matemático de caminhamentos aleatórios no grafo. A etapa de expansão corresponde à computa¸cão de caminhamentos aleatórios de maior dura¸cão, ou seja, caminhamentos com muitos passos. Essa etapa associa novas probabilidades para todos os pares de vértices. Como esses caminhamentos tendem a ocorrer mais intra-grupos do que inter-grupos, as probabilidades associadas a cada par de vértices de um mesmo grupo serão, em geral, relativamente maiores, já que há muitas maneiras de ir de um vértice para outro do mesmo grupo. A etapa de infla¸cão, então, aumenta as probabilidades de caminhamentos intra-grupo e diminui caminhamentos inter-grupos. Isto é feito sem qualquer conhecimento prévio da estrutura dos grupos.

Alternando entre as etapas de expansão e infla¸cão levará à separa¸cão do grafo em diferentes segmentos. Em um momento, não haverá mais caminhos entre diferentes segmentos, que podem ser interpretados como os grupos. Além do grafo, o único parâmetro usado pelo algoritmo é chamado taxa de infla¸cão, que tem o efeito de fazer a etapa de infla¸cão mais forte e, com isso, aumentar ou diminuir a granularidade dos grupos. Por- tanto, não é necessário especificar o número de grupos desejados. A Figura 2.12 ilustra o processo de transformar um grafo em segmentos desconexos (grupos).

Cap´ıtulo

3

Visualiza¸c˜ao

O ser humano tem a faculdade de ao observar uma imagem, abstrair muita informa¸cão contida naquela imagem. Através de uma imagem, conseguimos entender a rela¸cão entre muitos itens de uma vez, o que não seria poss´ıvel através de uma representa¸cão textual, como uma tabela. Por exemplo, através de um gráfico em barras, conseguimos entender a rela¸cão de quantidade entre muitos itens de uma vez, o que não seria poss´ıvel olhando diretamente na tabela.

A visualiza¸cão tira proveito dessa situa¸cão para criar abordagens de interpreta¸cão dos dados de maneiras intuitivas (Thomas and Cook, 2005). A visualiza¸cão envolve qualquer técnica de cria¸cão de imagens, diagramas e anima¸cões para comunicar uma mensagem. É famosa a frase “uma imagem vale mais que mil palavras”, deveras para algumas tarefas (mas não todas) é evidente que uma representa¸cão visual, tal como um mapa ou uma fotografia, é dramaticamente mais fácil de usar do que uma descri¸cão textual ou um relato falado (Shneiderman, 1996). A Figura 3.1 mostra o quanto de informa¸cão uma imagem pode conter, ilustrando a marcha do exército de Napoleão rumo à Moscou. O tamanho do exército de Napoleão é mostrado pela largura decrescente das linhas de avan¸co (verde) e recuo (alaranjado). A informa¸cão do recuo está correlacionada com uma escala de temperatura mostrada ao longo da por¸cão inferior do mapa.

A visualiza¸cão tem aplica¸cão em processos de tomada de decisão, reconhecimento de padrões, descoberta de tendências, aprendizado, pesquisa, entre outros, nas mais diversas ´

areas, como ciência, educa¸cão, engenharia, medicina, setores empresariais e órgãos gover- namentais. A visualiza¸cão possui vários ramos, cada um trata tipos espec´ıficos de dados e tem objetivos diferentes. Os principais ramos de visualiza¸cão são: visualiza¸cão cient´ıfica, visualiza¸cão de informa¸cão, visualiza¸cão de software e minera¸cão visual de dados.

Na visualiza¸cão cient´ıfica, o objetivo é “principalmente a visualiza¸cão de fenômenos tridimensionais (arquitetônicos, meteorológicos, médicos, biológicos, etc.), com ênfase na renderiza¸cão realista de volumes, superf´ıcies, fontes de ilumina¸cão, e assim por diante, às vezes com um componente dinâmico” (Friendly, 2008). Ou seja, na visualiza¸cão cient´ıfica, os dados têm uma representa¸cão geométrica conhecida, como órgãos do corpo humano e moléculas qu´ımicas. O objetivo da visualiza¸cão cient´ıfica é ilustrar graficamente os dados de modo que permita a cientistas e engenheiros compreender, ilustrar e ter insights de seus dados.

Figura 3.1: Marcha do ex´ercito de Napole˜ao rumo a Moscou. Fonte: Encyclopædia-Britannica-Online(http://www.britannica.com/EBchecked/media/ 70821/Statistical-map-of-Napoleons-Russian-campaign-of-1812-The-size), acessado em 01/09/2014.

Na visualiza¸cão de informa¸cão, que é o foco deste projeto de mestrado, os dados são abstratos, ou seja, não têm uma representa¸cão geométrica definida e qualquer representa¸cão adotada é arbitrária. Na visualiza¸cão de informa¸cão, grandes cole¸cões de informa¸cão não-numérica, como cole¸cões de texto, rela¸cão entre sites na internet e conjuntos de imagens, são representados em alguma forma visual (Friendly, 2008).

A visualiza¸cão de software é uma área especializada da visualiza¸cão de informa¸cão que pode ser definida como “representa¸cão gráfica dos diferentes aspectos de software. Seu principal objetivo é melhorar, simplificar e clarificar a representa¸cão mental que um engenheiro de software tem de um sistema de computador” (Teyseyre and Campo, 2009). A minera¸cão de dados (data mining) é um passo no processo de descoberta de conhecimento em bancos de dados (knowledge discovery in databases, KDD) que consiste na aplica¸cão de algoritmos para a descoberta de padrões (ou modelos) em conjuntos de dados (Fayyad et al., 1996). Minerar dados automaticamente é dif´ıcil e nem sempre produz resultados compreens´ıveis. Visualizar dados brutos (sem minerar, ou extrair modelos) nem sempre é poss´ıvel. Logo, há uma certa complementaridade entre minera¸cão de dados e visualiza¸cão. Essa complementaridade é chamada minera¸cão visual de dados: “Um passo no processo de extra¸cão de conhecimento (KDD) que utiliza a visualiza¸cão como um canal de comunica¸cão entre computador e usuário para apoiar a identifica¸cão de padrões novos e interpretáveis” (Ankerst, 2001).

O usuário tem notáveis habilidades de percep¸cão que podem ser incorporadas às técnicas de minera¸cão de dados através da visualiza¸cão. O usuário pode rastrear, mapear, examinar, reconhecer e recordar imagens rapidamente e pode detectar altera¸cões de tamanho, forma, cor, movimento ou textura (Shneiderman, 1996). A união de técnicas de visualiza¸cão, apoiadas pela capacidade intuitiva da mente humana, com os métodos

CAPÍTULO 3. VISUALIZAÇ ÃO 43

já estabelecidos de minera¸cão de dados, com seus algoritmos rápidos e automáticos, pro- porcionaria uma melhor qualidade e velocidade no processo de extra¸cão de conhecimento (Keim, 2002). Assim, as habilidades humanas podem ser utilizadas em três etapas na combina¸cão com os métodos de minera¸cão: na prepara¸cão dos dados para a minera¸cão, na interpreta¸cão dos resultados da minera¸cão ou em estágios intermediários do processo (Ankerst, 2001).

3.1 Visualiza¸c˜ao de Informa¸c˜ao

Visualiza¸cão da informa¸cão é a comunica¸cão de dados abstratos através do uso de interfaces visuais (interativas ou não) para refor¸car a cogni¸cão do usuário (Keim et al., 2006). Análise de dados é fundamental em qualquer área, seja na academia, empresa ou indústria, pois com uma boa apresenta¸cão dos dados podemos interpretá-los corretamente e tirar conclusões consistentes. Sendo assim, visualiza¸cão de informa¸cão tem aplica¸cão em todas as áreas. A visualiza¸cão de informa¸cão consegue tirar proveito das habilidades humanas cognitivas, permitindo que o usuário explore e interaja com os dados de uma forma intuitiva, o que facilita a compreensão da informa¸cão.

Existem muitas técnicas e ferramentas para visualizar conjuntos de dados. Essa é uma tarefa dif´ıcil e, para cada abordagem diferente, devemos considerar suas vantagens e desvantagens. Dependendo do propósito do usuário, da forma como ele queira visualizar os dados, se o conjunto de dados é muito extenso ou se o usuário quer resultados mais gerais (globalmente) ou mais espec´ıficos (localmente), uma técnica de visualiza¸cão pode ser mais adequada que outras. Os dados podem ser de diversos tipos, como imagens, reportagens, artigos cient´ıficos, not´ıcias, etc. Geralmente as técnicas de visualiza¸cão são capazes de mapear dados em geral, mas há técnicas que são mais indicadas para determinados tipos de dados.

Os princ´ıpios básicos que uma visualiza¸cão deve seguir são chamados de Visual Infor- mation Seeking Mantra (Shneiderman, 1996). Esses princ´ıpios constituem das seguintes tarefas:

1. Primeiramente, Visão Geral da cole¸cão – É importante que o usuário possa observar a cole¸cão como um todo, para encontrar padrões entre os dados e encontrar uma ´

area de interesse. Tamb´em se deve permitir a capacidade de navegar pela cole¸c˜ao e percorrer os itens.

2. Depois Zoom – Com uma ferramenta que amplie a visualiza¸cão em regiões espec´ıficas, o usuário deve poder focar em determinadas partes que lhe interessem. 3. E Filtro – Filtrar elimina itens que não interessam ao usuário, o que facilita a

interpreta¸cão pois reduz a quantidade de informa¸cão desnecessária na visualiza¸cão. 4. E então, Detalhes sobre demanda – Conforme o usuário vai lapidando sua ex- plora¸cão, mais detalhes podem aparecer sobre os itens, de acordo com sua necessi- dade.

Outras tarefas complementares e também importantes para o desenvolvimento de visualiza¸cões são (Shneiderman, 1996):

1. Rela¸cão – O usuário pode selecionar um atributo e a visualiza¸cão expõe os itens que possuem este atributo, ou então, o usuário pode selecionar um item e os itens com atributos similares são destacados.

2. Histórico – Explorar um conjunto de dados envolve muitos passos, e muitas vezes determinados passos realizados pelo usuário não são bem sucedidos. Então, é útil manter um histórico das a¸cões do usuário, de modo que ele possa voltar a um determinado estado, ou desfazer alguma a¸cão indesejada.

3. Extra¸cão – Depois que o usuário chegou a um resultado, seja um padrão encontrado ou um conjunto de dados de seu interesse, deve haver uma forma para ele salvar a informa¸cão que conseguiu obter e de poder usá-la posteriormente.

Para tirar o melhor proveito das técnicas de visualiza¸cão, é importante que elas sejam assistidas por técnicas de intera¸cão e distor¸cão (Keim, 2002). Intera¸cão permite que o usuário interaja diretamente com a visualiza¸cão, mudando-a dinamicamente de acordo com suas inten¸cões e possibilitando relacioná-la e combiná-la com outras visualiza¸cões independentes. Distor¸cão permite que o usuário foque em uma parte do conjunto de dados, provendo um alto n´ıvel de detalhes, enquanto mantêm uma visão geral do conjunto inteiro. Essa abordagem é conhecida como foco+contexto.

3.2 Representa¸c˜ao dos Dados e o Pipeline de Visua-

No documento Visualização de informação através de metáforas geográficas (páginas 39-44)