• Nenhum resultado encontrado

T´ ecnicas Gerais de Visualiza¸c˜ ao

3.3 Exemplos de Visualiza¸c˜ ao

3.3.1 T´ ecnicas Gerais de Visualiza¸c˜ ao

Uma matriz de scatterplots (Andrews, 1972) representa os dados em uma matriz n × n sendo n o n´umero de dimens˜oes dos dados e cada c´elula da matriz representa um par de dimens˜oes. A Figura 3.4 ilustra um exemplo de matriz de scatterplots. Os dados s˜ao um conjunto de flores ´Iris e os atributos s˜ao o tamanho e altura das s´epalas e das p´etalas. Para cada par de atributos, ´e feito um gr´afico de dispers˜ao.

De acordo com Wright and Williams (2005), “Matrizes de scatterplots s˜ao ´uteis para determinar rapidamente todas as rela¸c˜oes bivariadas, mas se o n´umero de dimens˜oes for muito alto, pode ser dif´ıcil compreender a rela¸c˜ao. Algumas das caracter´ısticas extras de um gr´afico de dispers˜ao de duas vari´aveis, como a adi¸c˜ao de s´ımbolos e inclus˜ao de

Figura 3.5: Visualiza¸c˜oes baseadas nos atributos dos dados. Coordenadas parale- las (Mazza, 2009).

limites de confian¸ca em linhas de regress˜ao, criariam confus˜ao demais em uma matriz de dispers˜ao”.

A t´ecnica de coordenadas paralelas (Inselberg, 1985) apresenta os itens como linhas ao longo de eixos paralelos e equidistantes entre si. Os eixos representam os atributos dos itens. Cada ponto do eixo corresponde a um valor que o atributo pode assumir. Uma linha, ent˜ao, corta os eixos no valor correspondente aos seus atributos. A Figura 3.5 ilustra um exemplo de coordenadas paralelas. Apesar de ser uma t´ecnica robusta de an´alise explorat´oria, coordenadas paralelas podem apresentar alguns problemas com conjuntos de dados muito grandes (por exemplo, em conjuntos de dados com 5000 ele- mentos). Em tais casos, a representa¸c˜ao visual pode ser demasiado densa para permitir a distin¸c˜ao das linhas(Mazza, 2009). Al´em disso, a disposi¸c˜ao dos eixos de coordenadas paralelas ´e decisiva para a an´alise da dependˆencia entre os v´arios atributos. Interpretar a dependˆencia entre eixos imediatamente adjacentes ´e f´acil, ao passo que a an´alise entre atributos representados por eixos distantes ´e mais dif´ıcil. H´a muitas formas de persona- lizar a t´ecnica, assim como h´a muitas abordagens diferentes para coordenadas paralelas. Um procedimento de intera¸c˜ao que a t´ecnica permite ´e o reordenamento dos eixos. Se quisermos estudar a correla¸c˜ao direta entre dois atributos, posicionamos seus eixos um ao lado do outro. Outro procedimento poss´ıvel em coordenadas paralelas ´e colorir os valores de um ou mais atributos.

T´ecnicas como a matriz de scatterplots e as coordenadas paralelas d˜ao mais ˆenfase na rela¸c˜ao entre os atributos dos itens. Tamb´em h´a aquelas t´ecnicas que d˜ao mais ˆenfase na rela¸c˜ao entre os itens. Por exemplo, as t´ecnicas de proje¸c˜ao multidimensional, mostradas na Se¸c˜ao 2.2, apresentam os dados como pontos no plano, onde a distˆancia de um ponto a outro significa a similaridade entre eles. Apesar desse ser um modo eficiente de apresentar os dados, podem surgir problemas. Por exemplo, podem ocorrer sobreposi¸c˜oes de pontos quando h´a uma grande quantidade de dados, o que dificulta a compreens˜ao. Outro as- pecto a ser considerado nas proje¸c˜oes multidimensionais ´e que n˜ao h´a muita informa¸c˜ao adicional, como a rela¸c˜ao entre os dados e seus atributos.

Um exemplo de t´ecnica de visualiza¸c˜ao que usa proje¸c˜ao multidimensional e trata do problema de sobreposi¸c˜ao de pontos ´e a t´ecnica Hierarchical Point Placement (HiPP) (Pau-

CAP´ITULO 3. VISUALIZAC¸ ˜AO 49

lovich and Minghim, 2008). Essa constr´oi uma ´arvore que agrupa os itens em v´arias hierarquias, da mais alta (agrupamentos mais abstratos), para a mais baixa (subgrupos mais detalhados) at´e chegar aos itens individuais. Essa t´ecnica tem boa escalabilidade visual, pois para conjuntos de dados muito grandes o usu´ario pode focar apenas na regi˜ao de interesse. A Figura 3.6a mostra a proje¸c˜ao do conjunto de dados CBR (descrito na Se¸c˜ao 5.3) usando HiPP.

Outra t´ecnica de visualiza¸c˜ao ´e a constru¸c˜ao de uma “´arvore filogen´etica de da- dos” (Cuadros et al., 2007). O problema da reconstru¸c˜ao de ´arvore filogen´etica ´e de- finido como “inferir antepassados para um grupo de esp´ecies, reconstruindo sua hist´oria evolucion´aria”. Trocando esp´ecies por dados e usando uma heur´ıstica bem conhecida de constru¸c˜ao de ´arvores filogen´eticas, ´e constru´ıdo um relacionamento de ancestralidade de alta para baixa correla¸c˜ao de conte´udo. Nessa exibi¸c˜ao, cada folha da ´arvore ´e um dado e o comprimento das arestas (seu peso) representa a distˆancia entre os dados. Para cons- truir ´arvores filogen´eticas, Cuadros et al. (2007) utilizaram a heur´ıstica Neighbor Joining (NJ) (Saitou and Nei, 1987). As principais vantagens dessa abordagem s˜ao uma melhor explora¸c˜ao e uma mais clara visualiza¸c˜ao dos relacionamentos de similaridade dos dados. As desvantagens s˜ao o alto custo computacional e uma grande quantidade de n´os n˜ao- representativos, que reduzem o espa¸co visual. Uma vers˜ao melhorada de ´arvores NJ foi proposta por Paiva et al. (2011), tanto no uso de espa¸co quanto na velocidade de pro- cessamento. A Figura 3.6b ilustra um exemplo de visualiza¸c˜ao por constru¸c˜ao de ´arvore filogen´etica para o conjunto de dados CBR (descrito na se¸c˜ao 5.3), acrescido de mais cinco artigos “intrusos” de mesmo assunto. Cada ponto no mapa representa um trabalho relacionado a um tema. Cada ramo da ´arvore pode ser considerado como um grupo de documentos com conte´udo mais similar. Pontos pr´oximos das folhas da ´arvore s˜ao aqueles com conte´udo bem definido, que o algoritmo conseguiu identificar bem. Pontos pr´oximos do centro s˜ao aqueles que o algoritmo teve mais dificuldade para identificar o conte´udo.

As t´ecnicas apresentadas at´e o momento n˜ao levaram em considera¸c˜ao a vari´avel “tempo” explicitamente. Podemos estar trabalhando com um conjunto de dados que so- freu v´arias mudan¸cas ao longo do tempo e queremos captar essa informa¸c˜ao de mudan¸ca. Por exemplo, quando queremos observar a evolu¸c˜ao de determinada disciplina dentro de um campo de pesquisa. A t´ecnica Time-based Least Square Projection (Alencar et al., 2012) ´e uma t´ecnica de proje¸c˜ao multidimensional orientada ao tempo, que constr´oi uma sequˆencia de mapas a partir de subconjuntos dos dados com estampas de tempo. Es- ses mapas n˜ao mudam drasticamente de uma estampa de tempo para outra, favorecendo a percep¸c˜ao de mudan¸ca para o usu´ario. Esses mapas s˜ao constru´ıdos de forma que, ao acrescentar um novo subconjunto, dados semelhantes e que estavam posicionados em uma determinada regi˜ao no mapa continuem aproximadamente na mesma regi˜ao, favorecendo, assim, a vis˜ao mental que o usu´ario tem do mapa. A Figura 3.7a mostra a visualiza¸c˜ao Time-based LSP para um conjunto de artigos publicados pelo pesquisador Alessandro Vespignani, com apenas algumas alguns entre 1995 a 2010. Cada mapa se refere a um ano, logo abaixo do mapa, que ´e a estampa de tempo. Os c´ırculos representam os artigos, suas cores representam o ano de publica¸c˜ao e seus tamanhos representam o n´umero de cita¸c˜oes. As arestas representam cita¸c˜oes entre artigos.

(a) HiPP (Paulovich and Minghim, 2008).

(b) ´Arvore Filogen´etica (Cuadros et al., 2007).

Figura 3.6: Visualiza¸c˜oes baseadas nos relacionamentos entre os dados. Conjunto de dados CBR, composto de artigos cient´ıficos sobre 4 temas diferentes, representados pelas cores vermelho, amarelo, azul claro e azul escuro. (a) Grupos com menos de 70% dos pontos de mesmo tema s˜ao pintados em bege. (b) Foram acrescidos 5 artigos “intrusos” ao conjunto, representados pela cor verde.

CAP´ITULO 3. VISUALIZAC¸ ˜AO 51

(a) Time-based LSP (Alencar et al., 2012).

(b) ThemeRiver (Havre et al., 2002).

ria¸c˜oes de determinados assuntos sobre um conjunto de documentos, para, por exemplo encontrar tendˆencias, prever acontecimentos ou estudar rela¸c˜oes sobre os assuntos. A vi- sualiza¸c˜ao ThemeRiver (Havre et al., 2002) retrata varia¸c˜oes de diferentes temas ao longo do tempo, dentro de uma cole¸c˜ao de documentos. Essas mudan¸cas tem´aticas s˜ao mostra- das no contexto de uma linha do tempo. ´E usada a met´afora de um rio para transmitir v´arias no¸c˜oes a respeito dos temas: a linha do tempo ´e representada pelo fluxo do rio, que corre da esquerda (tempo mais antigo) para a direita (tempo mais novo), a cor de cada fluxo do rio representa determinado tema e a largura de cada fluxo representa a relevˆancia de cada tema em um determinado momento. Tamb´em ´e mostrada uma linha do tempo abaixo do rio, com uma escala de datas e marcadores com eventos importantes ocorridos na parte de cima do rio. A Figura 3.7b mostra a varia¸c˜ao de alguns temas ocorrida em um conjunto de not´ıcias da agˆencia Associated Press, entre os meses de julho e agosto de 1990.