• Nenhum resultado encontrado

CAPÍTULO 4 APOIO DE FERRAMENTAS

4.4 A POIO DE F ERRAMENTAS PARA A NÁLISE DE C ONTEXTOS

4.4.2 Aglomeração com a ferramenta HCE

A HCE (Hierarchical Clustering Explorer) [62] foi desenvolvida originalmente para a visualização interativa de resultados do agrupamento hierárquico de conjuntos de dados multidimensionais. A HCE foi desenvolvida no HCIL da Universidade de Maryland, o o

mesmo laboratório que desenvolveu o Treemap. A ferramenta foi escolhida por ter a seguintes características:

• É de acesso livre;

• Tem uma implementação estável e confiável;

• Importa e exporta dados de diversas fontes, o que facilitou a criação de uma exportação de dados compatível a partir da InfoESE.

• Além de implementar um HAC que constrói por aglomeração um modelo hierárquico descritivo dos dados que lhes são fornecidos (Figura 35);

• Possui os recursos de uma ferramenta de visualização de informação, é completamente interativa e usa uma cena visual para representar os agrupamentos que constrói.

• É útil a quem quer “visualizar” sua série de dados, “explorar” padrões interessantes de aglomeração, e “escolher” o modelo de aglomeração mais adequado à sua situação. Esta seção descreve como o HCE utiliza visualização para auxiliar a compreensão de conjuntos de dados multidimensionais utilizando a exploração interativa de resultados de aglomerações hierárquicos, consultas dinâmicas e coordenação entre visões múltiplas.

A HCE combina a apresentação de dendrogramas com um mosaico colorido descritivo dos dados sendo analisados. As séries de dados multidimensionais são representadas geralmente em uma tabela onde uma linha representa um item e uma coluna representa uma variável (ou uma dimensão). Por exemplo, Figura 35(a) mostra uma série de dados multidimensional pequena (77 linhas e 13 colunas) sobre a informação nutricional de cereais. Cada linha é um cereal, e cada coluna é um componente de nutrição. Uma representação gráfica deste conjunto de dados codifica cada valor na tabela de acordo com um esquema de mapeamento de cores. Esta representação gráfica de uma tabela é o que chamamos de “mosaico colorido”. Uma maneira típica de mostrar um mosaico colorido é manter a mesma disposição da tabela original e somente codificar cada célula (Figura 35(b)). Mesmo que esta disposição vertical seja uma representação natural, HCE usa uma disposição transposta (Figura 35(c)). Quando os analistas querem identificar pontos de interesse e compreender a distribuição dos dados, Apoio de Ferramentas

Figura 35 – Mosaico colorido para um conjunto de dados multidimensional.

a) conjunto de dados b) mosaico colorido vertical

c) mosaico colorido horizontal

Figura 36 – Um mosaico colorido anexado a um dendrograma.

A HCE aglomera os dados e os apresenta por meio de um dendrograma com um mosaico colorido nas suas folhas (Figura 36(a)). O arranjo das linhas e das colunas no mosaico colorido é alterado de acordo com o resultado do algoritmo de aglomeração. O mapeamento das cores é especificado por um controle de cores que usa um histograma para todos os valores numéricos na série de dados (Figura 36 (b)). Por default, no HCE, um valor elevado tem uma cor vermelha brilhante e um valor baixo tem verde brilhante. O valor médio tem uma cor preta. A linha vermelha vertical especifica o valor acima do qual todos os valores são mapeados à cor vermelha, a mais brilhante, e a linha verde vertical especifica que o valor está abaixo de todos os valores. Quando um valor começa a chegar mais perto do valor médio entre as linhas verdes e vermelhas, a cor torna-se mais escura.

Os usuários do HCE iniciam o uso da ferramenta executando o algoritmo de aglomeração hierárquico que constrói um dendrograma e um mosaico colorido. Com a barra de similaridade (Figura 37), os usuários podem interativamente ajustar um parâmetro (similaridade mínima) para encontrar o número mais natural dos grupos. Outros controles são possíveis, mas estão fora do escopo deste trabalho e são descritos por Jinwook [62].

Arrastando para baixo a barra de similaridade, cuja coordenada determina o ponto inicial mínimo da similaridade, usuários podem filtrar os elementos menos similares. Desta maneira, os usuários podem, facilmente, encontrar os conjuntos dos elementos que são similares o bastante para estarem no mesmo grupo. Os usuários também podem destacar a posição de um grupo no conjunto de dados original apenas clicando no grupo. A Figura 37 mostra o processo de descoberta dos grupos usando a barra de similaridade. A coordenada vertical da barra

a) mosaico colorido anexado ao dendrogama b) mapeamento de cores

determina o valor mínimo da similaridade. Os usuários podem arrastar para baixo a barra para filtrar os itens que estão distantes de um grupo. Os valores mínimos da similaridade mudaram de 0.36 para 0.764 neste exemplo para separar 1 grupo grande em 13 grupos pequenos.

Figura 37 – Barra de Similaridade Mínima.

Apesar de vários pacotes estatísticos de software oferecerem recursos de aglomeração, quase todos implementam somente o algoritmo e produzem o resultado visual estático dos dendrogramas. O HCE, ao contrário, permite o uso dos recursos de aglomeração de forma interativa, permitindo a exploração dinâmica dos grupos de estudos. As características dos estudos podem ser então exportadas para a ferramenta e exploradas para construir o melhor agrupamento de contextos para os resultados em mãos.

Considere o exemplo mostrado na Figura 38, que apresenta como os contextos dos estudos apresentados em 11 artigos foram agrupados automaticamente pela ferramenta. A Seção 4.4.3 descreve em detalhes como este agrupamento reflete o agrupamento feito de forma manual e independente por um grupo de especialistas na área.

É importante notar o quanto o ferramental flexibiliza a análise de contexto. É possível a qualquer momento modificar os pesos dos atributos de contexto de maior interesse, ou simplesmente solicitar que certos atributos sejam desconsiderados. Desta maneira, o algoritmo poderá ser facilmente reprogramado para considerar somente certos aspectos na análise do contexto dos estudos. Isto permite que um cientista possa focar em certos atributos teóricos, experimentais ou humanos de seu interesse. Por exemplo, se aglomerarmos os contextos que consideramos anteriormente usando somente alguns aspectos teóricos dos o

Documentos relacionados