Landscapes, Superf´ıcies, e Mapas Geogr´ aficos

3.3 Exemplos de Visualiza¸c˜ ao

3.3.3 Landscapes, Superf´ıcies, e Mapas Geogr´ aficos

A cartografia é a área de estudo dentro da geografia que estuda meios eficientes de apresentar informa¸cões geográficas através de mapas. Vários cartógrafos têm percebido que visualiza¸cão de informa¸cão utiliza muitos princ´ıpios cartográficos de elabora¸cão de mapas para poder representar dados não-geográficos (Fabrikant and Buttenfield, 2001, Skupin, 2000, Skupin and Fabrikant, 2003). De acordo com Skupin (2000):

O valor de um mapa deriva em grande parte do casamento bem sucedido entre componentes estéticos e úteis. É através de um processo conhecido como design de mapas que dados geográficos brutos são transformados em representa¸cões visuais que são atraentes e úteis. Enquanto isso envolve um grau de subjetividade, há uma série de princ´ıpios de design de mapas amplamente aceita. Muitos desses princ´ıpios são também utilizados para a visualiza¸cão de informa¸cão não geográfica. Um bom exemplo disso é o uso de variáveis gráficas para codificar variáveis de dados quantitativos ou qualitativos. Por exemplo, o tamanho é uma variável gráfica cuja utiliza¸cão deve ser restringida a dados quantitativos, enquanto que varia¸cões de s´ımbolos ou formas podem ser usadas para codificar dados qualitativos.

Ao emprego desses princ´ıpios cartográficos para apresentar dados não-geográficos, da- mos o nome de metáforas geográficas, metáforas espaciais ou espacializa¸cão (Fabrikant and Buttenfield, 2001). Outros exemplos de princ´ıpios muito usados em cartografia e her- dados em visualiza¸cão são a Primeira Lei da Geografia de Tobler, que diz “Todas as coisas

CAPÍTULO 3. VISUALIZAÇ ÃO 55

(a) Janela de configura¸c˜ao do pipeline de visualiza¸c˜ao.

(b) Janela de visualiza¸c˜ao e intera¸c˜ao com os dados projetados.

Figura 3.10: Visualiza¸cão de resumos de conferências com a exibi¸cão simultânea de cinco n´ıveis de grupos em GIS (Skupin, 2004).

estão relacionadas entre si, mas aquelas mais próximas entre si estão mais relacionadas do que aquelas mais distantes entre si” e o conceito de escala longe e perto, ou seja, “objetos em uma cena que estão mais perto do espectador são percebidos com mais detalhes do que objetos mais longe” (Fabrikant and Buttenfield, 2001). A seguir, apresentamos trabalhos que usam metáforas geográficas/espaciais para apresentar dados não geográficos.

Skupin (2004) criou uma visualiza¸cão utilizando o conceito de mapas geográficos para visualizar uma cole¸cão de 2220 resumos de conferências. É montada uma hierarquia das principais palavras que expressam a ideia de cada resumo, de modo que as palavras mais gerais fiquem no topo da hierarquia e conforme as palavras se tornam mais espec´ıficas, a hierarquia vai descendo. A analogia com mapas geográficos é que da hierarquia mais alta para a mais baixa, as regiões vão se agrupando como se fossem pa´ıses, estados e cidades, respectivamente. A metodologia consiste em aplicar uma técnica de SOM seguida de uma técnica de agrupamento para agrupar os itens. A visualiza¸cão é produzida usando um Sistema de Informa¸cõe Geográficas (SIG), que são sistemas de software que trabalham com dados essencialmente geográficos. A Figura 3.10 apresenta o resultado desse trabalho. Jianu and Laidlaw (2013) escreveram um resumo de vários trabalhos que consistem em visualiza¸cões pré-computadas, preparadas por especialista de dom´ınio, acompanhadas por intera¸cões intuitivas, e dispon´ıveis via Web através da API de mapas Google Maps. Também são discutidas as oportunidades e fraquezas que essa abordagem de visualiza¸cão traz. Embora não seja adequada para análise de dados muito complexos em tempo real,

CAPÍTULO 3. VISUALIZAÇ ÃO 57

pois todas as visualiza¸cões dos dados já devem ter sido geradas por um especialista, essa abordagem é particularmente útil em disseminar a publica¸cão de dados já tradicionais. Outra vantagem é que essa abordagem é de fácil acesso e com pouca sobrecarga de apren- dizagem, por ser baseada exclusivamente na Web, com recursos fáceis de se usar e já conhecidos, como Google Maps.

Um exemplo de visualiza¸cão apresentado por Jianu and Laidlaw (2013) é o Mapa de genes, em que os genes são colocados de modo que a sua proximidade é proporcional `

a similaridade dos seus perfis de expressão gênica sobre múltiplas condi¸cões biológicas. O mapa tem vários n´ıveis de zoom, cada um com uma representa¸cão potencialmente diferente. Por exemplo, os genes são desenhados como glifos em zoom aproximado e como pontos em zoom distante. Foi utilizada a técnica de proje¸cão HiPP (Paulovich and Minghim, 2008) para dividir os genes em vários grupos, o que permite uma visualiza¸cão multiescala. A cada n´ıvel de zoom, os genes são exibidos dentro de diferentes grupos. Para cada grupo é calculada a média e o desvio padrão do perfil de expressão dos genes, estes sendo exibidos como um glifo amarelo sobre o mapa. Outras intera¸cões dispon´ıveis são janelas pop-up que ligam a fontes de dados adicionais e cria¸cão de um heatmap ao selecionar um conjunto de genes. A Figura 3.11 ilustra a visualiza¸cão proposta com alguns de seus recursos. Na imagem superior, um heatmap é criado ao selecionar um grupo de genes. Nas imagens inferiores, os genes são exibidos como pontos (à esquerda) e aumentando o zoom, são exibidos como glifos (à direita).

O trabalho de Chalmers (1993) foi um dos primeiros trabalhos a tratar sobre a in- fluência e os princ´ıpios de visualiza¸cões landscape, uma forma de representa¸cão 2,1D, no sentido que a terceira dimensão é usada não para representar a distância entre os dados, como em uma proje¸cão 3D, mas para representar alguma caracter´ıstica sobre os dados, como densidade da região em que eles se encontram. Nesse trabalho, foi proposto o sistema Bead, que constrói um mapa landscape de um corpus cujos documentos similares se encontram próximos uns dos outros. Esse artigo destaca a importância de ferramentas de explora¸cão adaptativa em um conjunto de textos, orientada graficamente, e não apenas através da abordagem “recupera¸cão” de documentos através de consultas em bancos de dados. O objetivo de Bead, então, é representar um corpus de documentos de modo que ajude com tarefas que dependam das rela¸cões de todo o conjunto de documentos, bem como das propriedades de membros individuais, por meio de intera¸cões de explora¸cão adaptativa em um modelo de representa¸cão landscape do corpus.

Chalmers (1993), então, sugere que, apesar da espacializa¸cão 3D de pontos ter pro- blemas de usabilidade, como oclusão e cenas complexas, a abstra¸cão de uma paisagem (landscape) e a metáfora espacial fazem o mapa ser mais fácil de memorizar, talvez por ser mais semelhante ao nosso mundo cotidiano: “Dada nossa vida na superf´ıcie terrestre, a nossa experiência é de um mundo com maior extensão horizontal que vertical, pode- se até chamar nosso mundo cotidiano como 2,1 dimensional. Portanto, sugerimos um afastamento de estruturas fortemente 3D em dire¸cão a estruturas parecidas com mapas (2D) ou com landscapes (2,1D)” Chalmers (1993). Esse trabalho também conclui que embora texturas e sombreamentos mais realistas podem tornar o landscape mais natural, essas cores e texturas podem ser melhor colocadas como conteúdo informativo, ao invés de compor o landscape. E também conclui que há um certo perigo em adicionar muitos

Figura 3.11: Visualiza¸cão de genes com sua expressão gênica no Google Maps (Jianu and Laidlaw, 2013).

CAPÍTULO 3. VISUALIZAÇ ÃO 59

detalhes à visualiza¸cão, uma vez que isso pode produzir uma confusão visual, distraindo o usuário e obscurecendo a informa¸cão.

Segundo Wise et al. (1995), o olho humano tem sensibilidade ao comprimento de onda e de contraste muito altas, capazes de construir imagens complexas. Grande parte desse processo ocorre em paralelo no n´ıvel da retina e por isso é relativamente fácil, expcecionalmente rápido e não aumenta a carga de trabalho cognitiva. A interpreta¸cão das imagens no cérebro se dá por processos de constru¸cão paralelos distribu´ıdos espacialmente em uma topografia que corresponde ao mundo f´ısico real. Wise et al. (1995) concluem então que podemos usar os mesmos mecanismos de percep¸cão espacial que operam no mundo real para representar um mundo sintético, se sinais análogos estiverem devidamente presentes e integrados. Dessa forma, a limita¸cão de entender grandes quantidades de informa¸cão pode ser superada se os dados forem “espacializados” de uma maneira que se aproveite dos poderes comuns de percep¸cão.

Pensando nisso, Wise et al. (1995) propuseram um software, chamado IN-SPIRE1_{, ou} Spatial Paradigm for Information Retrieval and Exploration, para facilitar a explora¸c˜ao de grandes conjuntos de documentos (cerca de 20000 documentos), composto principalmente de duas visualiza¸c˜oes, Galaxy e ThemeView.

A visualiza¸cão Galaxy se assemelha a um conjunto de “estrelas” de um céu noturno, na qual cada estrela representa um documento. O processo consiste basicamente em agrupar os documentos no espa¸co multidimensional e selecionar os centróides que representarão cada grupo de documentos, projetar primeiramente os centróides no plano 2D, usando alguma técnica de proje¸cão multidimensional, como Principal Component Analysis (Jol- liffe, 2002), e depois projetar cada documento dentro de seu próprio grupo. Em adi¸cão aos modos básicos de explora¸cão dos dados, como sele¸cão e pesquisa de documentos, várias ferramentas sofisticadas também foram implementadas. Por exemplo, uma barra desli- zante do tempo. Se cada documento possuir uma estampa de tempo, conforme o usuário vai deslizando a barra temporal, mais documentos vão sendo exibidos de acordo com sua estampa de tempo. A Figura 3.12a mostra um exemplo da visualiza¸cão Galaxy.

A visualiza¸cão ThemeView exibe um landscape do conjunto de dados baseado nos temas, ou palavras-chave. Eleva¸cões descrevem a for¸ca de determinado tema, enquanto que outras caracter´ısticas no mapa, como vales, picos, depressões e intervalos representam inter-rela¸cões detalhadas entre os documentos e seus temas. Em uma primeira observa¸cão, é poss´ıvel obter um resumo temático de todo o corpus. Através de diferentes n´ıveis de escala, podemos ter informa¸cões resumidas sobre todo o conjunto de documentos, sobre um grupo de documentos, sobre alguns documentos individuais, ou até mesmo sobre alguns componentes de um documentos, como um parágrafo. Com essa visualiza¸cão, podemos, por exemplo, analisar e entender como diferentes temas se relacionam. A Figura 3.12b mostra um exemplo da visualiza¸cão ThemeView.

O software InfoSky (Andrews et al., 2002) é um “sistema que permite aos usuários explorar interativamente grandes cole¸cões de documentos hierarquicamente estruturadas. Semelhante a um telescópio do mundo real, InfoSky emprega uma representa¸cão gráfica planar com diferentes n´ıveis de zoom. Documentos de conteúdo similar são colocados

1_{Antes, apenas SPIRE, agora, uma marca registrada chamada IN-SPIRE. Dispon´ıvel pelo Pacific} Northwest National Laboratory (http://in-spire.pnnl.gov/), acessado em 01/09/2014.

(a) Visualiza¸c˜ao Galaxy.

(b) Visualiza¸c˜ao ThemeView.

CAPÍTULO 3. VISUALIZAÇ ÃO 61

Figura 3.13: Software de visualiza¸c˜ao InfoSky.

próximos uns dos outros e exibidos como estrelas, enquanto grupos de documentos em um determinado n´ıvel na hierarquia são visualizados como pol´ıgonos do diagrama de Voronoi com pesos”. O pol´ıgono de cada grupo é calculado com base no centróide do grupo e sua área é definida de acordo com o número de documentos presentes no grupo. Cada estrela é posicionada no plano usando o algoritmo force-directed placement (Fruchterman and Reingold, 1991). A Figura 3.13 mostra um exemplo da visualiza¸cão Infosky. O painel `

a esquerda da janela exibe a hierarquia dos grupos de documentos dentro de pastas. Ao selecionar um grupo, essa região é ampliada, mostrando mais detalhes sobre o grupo e a pasta a que o grupo pertence expande seu conteúdo. Podemos ir ampliando até chegar ao último n´ıvel da hierarquia, mostrando apenas as estrelas e os documentos que elas representam no painel à esquerda.

Mais exemplos de sistemas que usam landscape para representar os dados são o VxIn- sight (Boyack et al., 2002) e o ThemeScape (Thomson Innovation, 2014). Um exemplo da visualiza¸cão gerada pelo ThemeScape é mostrado na Figura 3.14.

Tory realizou dois estudos (Tory et al., 2007, 2009) comparando proje¸cões de pontos no plano, com o uso de landscape 2D e com o uso de landscape 3D, a fim de comparar qual desses 3 tipos de visualiza¸cões apresenta melhores resultados para determinadas tarefas. Landscape 2D é quando ao invés de usar a terceira dimensão como altura para representar alguma caracter´ıstica dos dados, como densidade, adota-se uma escala de cores, chamada de curva de n´ıvel ou linhas de contorno. Para a coloriza¸cão, seja dos pontos ou do landscape, também é avaliado se é melhor usar uma escala de cores ou uma escala de cinza. Apesar de alguns autores, como Chalmers (1993), reivindicarem que abordagens landscape são mais fáceis de serem memorizadas por parecerem com o nosso cotidiano, faltam mais testes emp´ıricos para afirmar se essa hipótese é verdadeira e para quais casos

Figura 3.14: Software de visualiza¸c˜ao ThemeScape.

a abordagem landscape ´e melhor recomendada que simplesmente pontos no plano (Tory et al., 2009).

Em Tory et al. (2007), foi avaliado qual dos 3 tipos de visualiza¸cão é melhor (tanto em velocidade como em precisão) para estimar o número de pontos (numerosidade) de uma cor espec´ıfica dentro de uma área espacial. Os resultados mostraram que apenas a proje¸cão dos pontos no plano foi substancialmente mais efetiva que as abordagens landscape. Comparando as duas abordagens landscape, a abordagem 2D se mostrou melhor que a 3D, portanto, pouco ou nenhum benef´ıcio foi encontrado usando redundância de informa¸cão, ou seja, empregando-se cor e altura ou escala de cinza e altura para representar o landscape. Para a coloriza¸cão, a escala de cores se mostrou melhor que a escala de cinza tanto para a representa¸cão apenas por pontos como para os landscapes.

Em Tory et al. (2009), são realizados testes de memória visual para responder as seguintes perguntas: Qual abordagem é melhor para memorizar, landscape ou pontos? Para landscape, usar redundantemente cor e altura para codificar os dados melhora a memória em compara¸cão a usar somente cor? A resposta para essas perguntas é que a melhor abordagem é a que usa apenas pontos no plano, assim como em Tory et al. (2007). Quanto aos dois tipos de landscape, para tarefas relacionadas à memória, por exemplo, tarefas que envolvem bastante compara¸cão mental e entendimento das diferen¸cas em alto n´ıvel entre várias visualiza¸cões, a abordagem 3D mostrou melhores resultados.

Tory et al. (2009) conclu´ıram que, de acordo com o seu trabalho e citando também Tory et al. (2007) e Fabrikant (2000), a abordagem baseada apenas em pontos se mostrou igual ou superior que landscape para a maioria das opera¸cões mentais que foram estudadas, com uma poss´ıvel exce¸cão para julgamento de densidade. Landscapes 3D que usam apenas a altura, sem usar uma escala de cor correspondente à altura se mostraram, de longe, os

CAPÍTULO 3. VISUALIZAÇ ÃO 63

menos efetivos (Tory et al., 2007). Portanto, a menos que haja alguma raz˜ao para usar landscape, deve-se preferir usar pontos no plano (Tory et al., 2009).

Cap´ıtulo

4

Metodologia

Neste cap´ıtulo apresentamos as ferramentas utilizadas e os trabalhos realizados neste mestrado. Desenvolvemos trˆes t´ecnicas de agrupamento:

• No Seed Growing, o usuário escolhe alguns pontos como sementes. Então, a região de cada ponto-semente vai crescendo até que todos os demais pontos sejam inclu´ıdos em alguma região.

• No Voronoi Clustering, o usuário escolhe um valor e todas as células Voronoi vizinhas que têm distância menor ou igual a esse valor são inseridas no mesmo grupo. • No Segmentation, pontos vizinhos que têm um atributo em comum, escolhido pelo

usu´ario, s˜ao inseridos no mesmo grupo.

Também implementamos sub-clustering, ou agrupamento em n´ıveis, no qual cada grupo pode ser dividido em novos grupos. Para cada grupo e subgrupo criados, adicionamos a op¸cão de extrair os tópicos mais relevantes, possibilitando uma visualiza¸cão multi-escala. Implementamos duas técnicas de heatmap, uma por densidade, na qual os pontos recebem um valor proporcional à densidade no seu local, e outra por frequência dos termos, na qual um ponto recebe um valor proporcional à quantidade dos termos in- formados pelo usuário. Também geramos uma superf´ıcie 3D, usando a terceira dimensão para mapear algum atributo dos dados. De acordo com o atributo escolhido pelo usuário a superf´ıcie muda dinamicamente possibilitando uma vizualiza¸cão mais interativa. Para dar mais subs´ıdios à explora¸cão dos dados adicionamos explora¸cão de landscape com tex- tura, que é capaz de dar uma visão geral do conjunto e ajuda a conduzir o usuário na explora¸cão.

A Figura 4.1 ilustra a metodologia aplicada em nosso projeto. Como podemos obser- var, a metodologia segue o pipeline proposto por Card et al. (1999). As se¸c˜oes seguintes explicam cada passo da metodologia proposta.

4.1 Materiais

O nosso trabalho foi desenvolvido usando o VisPipeline, descrito na Se¸c˜ao 3.3.2, e foi inclu´ıdo na ferramenta.

CAP´ITULO 4. METODOLOGIA 65

Figura 4.1: Exemplo de agrupamentos em n´ıveis.

Outros programas usados no projeto foram: SOMPAK 3.1 (Kohonen et al., 1996) para proje¸cão dos dados usando a técnica Self-Organizing Map (SOM) (Kohonen et al., 2001); pacote de programas MCL (van Dongen, 2000) para agrupamento dos dados usando a técnica MCL; para gerar as arestas do diagrama de Voronoi usamos o pacote Simple Vo- ronoi (Humphreys, 2010), que usa o algoritmo de Fortune (1986). Para gerar a superf´ıcie 3D usamos o framework Jzy3d (Pernollet, 2009).

O trabalho foi desenvolvido usando um computador com Windows 7/64 bits, proces- sador Intel Core i5 com 2,4 GHz e mem´oria RAM de 4 GB.

No documento Visualização de informação através de metáforas geográficas (páginas 54-65)