Representa¸c˜ ao dos Dados e o Pipeline de Visualiza¸c˜ ao

Seja um conjunto de dados, que são chamados de itens, indiv´ıduos ou instâncias. Esse conjunto também é chamado de corpus (no caso de textos) ou cole¸cão de dados. Os itens, por sua vez, contêm um conjunto de valores ou propriedades, chamados de atributos. Considerando cada atributo dos dados como uma dimensão, se temos m atributos, cada instância de dado pode ser interpretada como um vetor de m dimensões em um espa¸co m-dimensional. Em determinados conjuntos de dados, os atributos já vêm com dimensões expl´ıcitas (tabelados), por exemplo, em um recenseamento, os atributos podem ser: nome, sexo, idade, profissão, etc. Mas na maioria das vezes é necessário extrair os atributos dos dados usando algum método. Em conjuntos de textos, por exemplo, podemos considerar as palavras do texto como atributos. O problema de visualiza¸cão de informa¸cão pode ser definido, então, da seguinte maneira: representar dados, atributos e rela¸cões entre eles, permitindo extrair conhecimento e informa¸cão útil.

Os dados podem ser classificados da seguinte maneira (Keim, 2002, Shneiderman, 1996):

• Uni-, bi- ou tridimensionais, como valores medidos no espa¸co geográfico. Geral- mente relacionados à visualiza¸cão cient´ıfica;

CAPÍTULO 3. VISUALIZAÇ ÃO 45

• Multidimensionais, como tabelas de banco de dados. Cada coluna é considerada uma dimensão, e cada linha é considerada um vetor. Geralmente os dados não pos- suem dimensões ou não vêm tabelados, mas podem ser extra´ıdas caracter´ısticas deles para formar suas dimensões, por exemplo, técnicas de extra¸cão de caracter´ısticas de imagens (bag-of-visual features, Yang et al. (2007)), de textos (bag-of-words, Salton (1991)) ou de músicas (Fuinaga and McEnnis, 2006);

• Grafos e hierarquias, como uma rede de computadores ou uma árvore genealógica; • Algoritmos e software, tipos de dados que têm atra´ıdo a aten¸cão na área de visualiza¸cão, em que técnicas eficientes podem ajudar a depurar e entender programas, códigos e sistemas de software.

Um processo de visualiza¸cão come¸ca desde a escolha e tratamento dos dados e vai até a representa¸cão visual desses dados. Podemos estabelecer um pipeline resumindo os principais passos realizados na visualiza¸cão. A Figura 3.2 ilustra um pipeline.

Figura 3.2: Pipeline de Visualiza¸c˜ao de Informa¸c˜ao (Card et al., 1999).

Apesar desse pipeline sugerir que o conjunto de dados passe por todo o fluxo de etapas, não é obrigatório seguir cada uma, podendo, dependendo do método utilizado, pular determinada etapa. Por exemplo, os dados já podem vir tabelados, ou a técnica de mapeamento visual pode utilizar os dados brutos como eles vêm. A seguir apresentamos um exemplo de fluxo que passa por todas as etapas.

Dados brutos são os dados como o encontramos quando produzidos, sem um formato pré-definido capaz de ser processado por ferramentas de processamento automático, par- ticularmente, os softwares de visualiza¸cão (Mazza, 2009). Como exemplo, um corpus de textos retirado de um repositório, ou um conjunto de imagens. Precisamos, então, de processá-los de alguma forma, etapa essa transforma¸cões de dados. Tabela de dados é a representa¸cão estruturada dos dados já processados. Normalmente a transforma¸cão de um conjunto de dados brutos para dados tabelados consiste em transformar os dados em vetores no espa¸co multidimensional. Como essa representa¸cão vetorial é estritamente matemática, fica fácil fazer cálculos e analisar os dados de maneira automática através de algoritmos. Na representa¸cão vetorial de textos, cada vetor representa um texto, e cada dimensão do vetor representa uma palavra presente no conjunto. O valor contido em uma dimensão do vetor significa a quantidade de vezes que a palavra relacionada

(a) Quatro poss´ıveis tipos de elementos gr´aficos.

(b) Cinco principais propriedades gr´aficas.

Figura 3.3: Tipos de estruturas visuais (Mazza, 2009).

aquela dimensão contém no texto relacionado àquele vetor. Isso é conhecido como Mo- delo Espa¸co-Vetorial do Texto (Salton, 1991). Na representa¸cão vetorial de imagens, são usados extratores de caracter´ısticas das imagens (Torres and Falcão, 2006), como filtros de Gabor (1947), que são algoritmos que procuram identificar atributos visuais, como cor, forma, textura, e transformá-los em atributos numéricos.

A partir da tabela de dados uma ferramenta de visualiza¸cão consegue criar a representa¸cão visual (estrutura visual ) dos dados, através do processo chamado mapeamento visual. Card et al. (1999) definem três poss´ıveis estruturas visuais:

1. Substrato espacial. Considerando um plano cartesiano, quantos eixos serão exi- bidos (1, 2 ou 3) e qual a interpreta¸cão dada ao eixos: quantitativa, quando uma métrica é associada a cada eixo, ordinal, quando os valores nos eixos são ordenados de acordo com a ordem dos dados, ou nominal, sem uma ordem intr´ınseca.

2. Elementos gr´aficos. Tudo o que ´e vis´ıvel no espa¸co. Existem quatro poss´ıvel tipos de elementos, ilustrados na Figura 3.3a.

3. Propriedades gráficas. Propriedades dos elementos gráficos captadas por nossos olho. São independentes da posi¸cão ocupada pelos elementos gráficos no substrato espacial. As propriedades gráficas mais comuns são tamanho, orienta¸cão, cor, textura e forma, ilustradas na Figura 3.3b.

Por exemplo, para um corpus, o mapeamento visual pode ser uma proje¸cão multidimensional dos vetores de textos. A estrutura visual resultante é um plano bidimensional onde cada ponto no plano representa um texto. A etapa da transforma¸cão da visão é a etapa mais interativa. O usuário analisará os dados e poderá modificar a estrutura visual de várias formas, gerando visões. Essas visões o auxiliarão a realizar suas tarefas. Uma

CAPÍTULO 3. VISUALIZAÇ ÃO 47

Figura 3.4: Visualiza¸c˜oes baseadas nos atributos dos dados. Matriz de scat- terplots. Fonte: SAS-Institute-Inc (http://support.sas.com/documentation/ cdl/en/grstatproc/62603/HTML/default/viewer.htm#a003155769.htm), acessado em 01/09/2014.

forma de transforma¸cão da visão pode ser aplicar uma técnica de agrupamento (cluste- ring), representando cada grupo (cluster ) com uma cor diferente. Como tarefa, o usuário pode querer coletar um grupo de textos relacionados ao mesmo assunto. É interessante notar que em todas as etapas da visualiza¸cão o usuário pode (ou até mesmo necessita) interagir com todo o processo.

No documento Visualização de informação através de metáforas geográficas (páginas 44-47)