T´ ecnicas Gerais de Visualiza¸c˜ ao - Exemplos de Visualiza¸c˜ ao

3.3 Exemplos de Visualiza¸c˜ ao

3.3.1 T´ ecnicas Gerais de Visualiza¸c˜ ao

Uma matriz de scatterplots (Andrews, 1972) representa os dados em uma matriz n × n sendo n o número de dimensões dos dados e cada célula da matriz representa um par de dimensões. A Figura 3.4 ilustra um exemplo de matriz de scatterplots. Os dados são um conjunto de flores Íris e os atributos são o tamanho e altura das sépalas e das pétalas. Para cada par de atributos, é feito um gráfico de dispersão.

De acordo com Wright and Williams (2005), “Matrizes de scatterplots são úteis para determinar rapidamente todas as rela¸cões bivariadas, mas se o número de dimensões for muito alto, pode ser dif´ıcil compreender a rela¸cão. Algumas das caracter´ısticas extras de um gráfico de dispersão de duas variáveis, como a adi¸cão de s´ımbolos e inclusão de

Figura 3.5: Visualiza¸c˜oes baseadas nos atributos dos dados. Coordenadas paralelas (Mazza, 2009).

limites de confian¸ca em linhas de regressão, criariam confusão demais em uma matriz de dispersão”.

A técnica de coordenadas paralelas (Inselberg, 1985) apresenta os itens como linhas ao longo de eixos paralelos e equidistantes entre si. Os eixos representam os atributos dos itens. Cada ponto do eixo corresponde a um valor que o atributo pode assumir. Uma linha, então, corta os eixos no valor correspondente aos seus atributos. A Figura 3.5 ilustra um exemplo de coordenadas paralelas. Apesar de ser uma técnica robusta de análise exploratória, coordenadas paralelas podem apresentar alguns problemas com conjuntos de dados muito grandes (por exemplo, em conjuntos de dados com 5000 ele- mentos). Em tais casos, a representa¸cão visual pode ser demasiado densa para permitir a distin¸cão das linhas(Mazza, 2009). Além disso, a disposi¸cão dos eixos de coordenadas paralelas é decisiva para a análise da dependência entre os vários atributos. Interpretar a dependência entre eixos imediatamente adjacentes é fácil, ao passo que a análise entre atributos representados por eixos distantes é mais dif´ıcil. Há muitas formas de persona- lizar a técnica, assim como há muitas abordagens diferentes para coordenadas paralelas. Um procedimento de intera¸cão que a técnica permite é o reordenamento dos eixos. Se quisermos estudar a correla¸cão direta entre dois atributos, posicionamos seus eixos um ao lado do outro. Outro procedimento poss´ıvel em coordenadas paralelas é colorir os valores de um ou mais atributos.

Técnicas como a matriz de scatterplots e as coordenadas paralelas dão mais ênfase na rela¸cão entre os atributos dos itens. Também há aquelas técnicas que dão mais ênfase na rela¸cão entre os itens. Por exemplo, as técnicas de proje¸cão multidimensional, mostradas na Se¸cão 2.2, apresentam os dados como pontos no plano, onde a distância de um ponto a outro significa a similaridade entre eles. Apesar desse ser um modo eficiente de apresentar os dados, podem surgir problemas. Por exemplo, podem ocorrer sobreposi¸cões de pontos quando há uma grande quantidade de dados, o que dificulta a compreensão. Outro as- pecto a ser considerado nas proje¸cões multidimensionais é que não há muita informa¸cão adicional, como a rela¸cão entre os dados e seus atributos.

Um exemplo de técnica de visualiza¸cão que usa proje¸cão multidimensional e trata do problema de sobreposi¸cão de pontos é a técnica Hierarchical Point Placement (HiPP) (Pau-

CAPÍTULO 3. VISUALIZAÇ ÃO 49

lovich and Minghim, 2008). Essa constrói uma árvore que agrupa os itens em várias hierarquias, da mais alta (agrupamentos mais abstratos), para a mais baixa (subgrupos mais detalhados) até chegar aos itens individuais. Essa técnica tem boa escalabilidade visual, pois para conjuntos de dados muito grandes o usuário pode focar apenas na região de interesse. A Figura 3.6a mostra a proje¸cão do conjunto de dados CBR (descrito na Se¸cão 5.3) usando HiPP.

Outra técnica de visualiza¸cão é a constru¸cão de uma “árvore filogenética de dados” (Cuadros et al., 2007). O problema da reconstru¸cão de árvore filogenética é definido como “inferir antepassados para um grupo de espécies, reconstruindo sua história evolucionária”. Trocando espécies por dados e usando uma heur´ıstica bem conhecida de constru¸cão de árvores filogenéticas, é constru´ıdo um relacionamento de ancestralidade de alta para baixa correla¸cão de conteúdo. Nessa exibi¸cão, cada folha da árvore é um dado e o comprimento das arestas (seu peso) representa a distância entre os dados. Para cons- truir árvores filogenéticas, Cuadros et al. (2007) utilizaram a heur´ıstica Neighbor Joining (NJ) (Saitou and Nei, 1987). As principais vantagens dessa abordagem são uma melhor explora¸cão e uma mais clara visualiza¸cão dos relacionamentos de similaridade dos dados. As desvantagens são o alto custo computacional e uma grande quantidade de nós não- representativos, que reduzem o espa¸co visual. Uma versão melhorada de árvores NJ foi proposta por Paiva et al. (2011), tanto no uso de espa¸co quanto na velocidade de pro- cessamento. A Figura 3.6b ilustra um exemplo de visualiza¸cão por constru¸cão de árvore filogenética para o conjunto de dados CBR (descrito na se¸cão 5.3), acrescido de mais cinco artigos “intrusos” de mesmo assunto. Cada ponto no mapa representa um trabalho relacionado a um tema. Cada ramo da árvore pode ser considerado como um grupo de documentos com conteúdo mais similar. Pontos próximos das folhas da árvore são aqueles com conteúdo bem definido, que o algoritmo conseguiu identificar bem. Pontos próximos do centro são aqueles que o algoritmo teve mais dificuldade para identificar o conteúdo.

As técnicas apresentadas até o momento não levaram em considera¸cão a variável “tempo” explicitamente. Podemos estar trabalhando com um conjunto de dados que so- freu várias mudan¸cas ao longo do tempo e queremos captar essa informa¸cão de mudan¸ca. Por exemplo, quando queremos observar a evolu¸cão de determinada disciplina dentro de um campo de pesquisa. A técnica Time-based Least Square Projection (Alencar et al., 2012) é uma técnica de proje¸cão multidimensional orientada ao tempo, que constrói uma sequência de mapas a partir de subconjuntos dos dados com estampas de tempo. Es- ses mapas não mudam drasticamente de uma estampa de tempo para outra, favorecendo a percep¸cão de mudan¸ca para o usuário. Esses mapas são constru´ıdos de forma que, ao acrescentar um novo subconjunto, dados semelhantes e que estavam posicionados em uma determinada região no mapa continuem aproximadamente na mesma região, favorecendo, assim, a visão mental que o usuário tem do mapa. A Figura 3.7a mostra a visualiza¸cão Time-based LSP para um conjunto de artigos publicados pelo pesquisador Alessandro Vespignani, com apenas algumas alguns entre 1995 a 2010. Cada mapa se refere a um ano, logo abaixo do mapa, que é a estampa de tempo. Os c´ırculos representam os artigos, suas cores representam o ano de publica¸cão e seus tamanhos representam o número de cita¸cões. As arestas representam cita¸cões entre artigos.

(a) HiPP (Paulovich and Minghim, 2008).

(b) ´Arvore Filogen´etica (Cuadros et al., 2007).

Figura 3.6: Visualiza¸c˜oes baseadas nos relacionamentos entre os dados. Conjunto de dados CBR, composto de artigos cient´ıficos sobre 4 temas diferentes, representados pelas cores vermelho, amarelo, azul claro e azul escuro. (a) Grupos com menos de 70% dos pontos de mesmo tema s˜ao pintados em bege. (b) Foram acrescidos 5 artigos “intrusos” ao conjunto, representados pela cor verde.

CAPÍTULO 3. VISUALIZAÇ ÃO 51

(a) Time-based LSP (Alencar et al., 2012).

(b) ThemeRiver (Havre et al., 2002).

ria¸cões de determinados assuntos sobre um conjunto de documentos, para, por exemplo encontrar tendências, prever acontecimentos ou estudar rela¸cões sobre os assuntos. A visualiza¸cão ThemeRiver (Havre et al., 2002) retrata varia¸cões de diferentes temas ao longo do tempo, dentro de uma cole¸cão de documentos. Essas mudan¸cas temáticas são mostradas no contexto de uma linha do tempo. É usada a metáfora de um rio para transmitir várias no¸cões a respeito dos temas: a linha do tempo é representada pelo fluxo do rio, que corre da esquerda (tempo mais antigo) para a direita (tempo mais novo), a cor de cada fluxo do rio representa determinado tema e a largura de cada fluxo representa a relevância de cada tema em um determinado momento. Também é mostrada uma linha do tempo abaixo do rio, com uma escala de datas e marcadores com eventos importantes ocorridos na parte de cima do rio. A Figura 3.7b mostra a varia¸cão de alguns temas ocorrida em um conjunto de not´ıcias da agência Associated Press, entre os meses de julho e agosto de 1990.

No documento Visualização de informação através de metáforas geográficas (páginas 47-52)