Seja um conjunto de dados, que s˜ao chamados de itens, indiv´ıduos ou instˆancias. Esse conjunto tamb´em ´e chamado de corpus (no caso de textos) ou cole¸c˜ao de dados. Os itens, por sua vez, contˆem um conjunto de valores ou propriedades, chamados de atributos. Considerando cada atributo dos dados como uma dimens˜ao, se temos m atributos, cada instˆancia de dado pode ser interpretada como um vetor de m dimens˜oes em um espa¸co m-dimensional. Em determinados conjuntos de dados, os atributos j´a vˆem com dimens˜oes expl´ıcitas (tabelados), por exemplo, em um recenseamento, os atributos podem ser: nome, sexo, idade, profiss˜ao, etc. Mas na maioria das vezes ´e necess´ario extrair os atributos dos dados usando algum m´etodo. Em conjuntos de textos, por exemplo, podemos considerar as palavras do texto como atributos. O problema de visualiza¸c˜ao de informa¸c˜ao pode ser definido, ent˜ao, da seguinte maneira: representar dados, atributos e rela¸c˜oes entre eles, permitindo extrair conhecimento e informa¸c˜ao ´util.
Os dados podem ser classificados da seguinte maneira (Keim, 2002, Shneiderman, 1996):
• Uni-, bi- ou tridimensionais, como valores medidos no espa¸co geogr´afico. Geral- mente relacionados `a visualiza¸c˜ao cient´ıfica;
CAP´ITULO 3. VISUALIZAC¸ ˜AO 45
• Multidimensionais, como tabelas de banco de dados. Cada coluna ´e considerada uma dimens˜ao, e cada linha ´e considerada um vetor. Geralmente os dados n˜ao pos- suem dimens˜oes ou n˜ao vˆem tabelados, mas podem ser extra´ıdas caracter´ısticas deles para formar suas dimens˜oes, por exemplo, t´ecnicas de extra¸c˜ao de caracter´ısticas de imagens (bag-of-visual features, Yang et al. (2007)), de textos (bag-of-words, Salton (1991)) ou de m´usicas (Fuinaga and McEnnis, 2006);
• Grafos e hierarquias, como uma rede de computadores ou uma ´arvore geneal´ogica; • Algoritmos e software, tipos de dados que tˆem atra´ıdo a aten¸c˜ao na ´area de visu- aliza¸c˜ao, em que t´ecnicas eficientes podem ajudar a depurar e entender programas, c´odigos e sistemas de software.
Um processo de visualiza¸c˜ao come¸ca desde a escolha e tratamento dos dados e vai at´e a representa¸c˜ao visual desses dados. Podemos estabelecer um pipeline resumindo os principais passos realizados na visualiza¸c˜ao. A Figura 3.2 ilustra um pipeline.
Figura 3.2: Pipeline de Visualiza¸c˜ao de Informa¸c˜ao (Card et al., 1999).
Apesar desse pipeline sugerir que o conjunto de dados passe por todo o fluxo de etapas, n˜ao ´e obrigat´orio seguir cada uma, podendo, dependendo do m´etodo utilizado, pular determinada etapa. Por exemplo, os dados j´a podem vir tabelados, ou a t´ecnica de mapeamento visual pode utilizar os dados brutos como eles vˆem. A seguir apresentamos um exemplo de fluxo que passa por todas as etapas.
Dados brutos s˜ao os dados como o encontramos quando produzidos, sem um formato pr´e-definido capaz de ser processado por ferramentas de processamento autom´atico, par- ticularmente, os softwares de visualiza¸c˜ao (Mazza, 2009). Como exemplo, um corpus de textos retirado de um reposit´orio, ou um conjunto de imagens. Precisamos, ent˜ao, de process´a-los de alguma forma, etapa essa transforma¸c˜oes de dados. Tabela de dados ´e a representa¸c˜ao estruturada dos dados j´a processados. Normalmente a transforma¸c˜ao de um conjunto de dados brutos para dados tabelados consiste em transformar os dados em vetores no espa¸co multidimensional. Como essa representa¸c˜ao vetorial ´e estritamente matem´atica, fica f´acil fazer c´alculos e analisar os dados de maneira autom´atica atrav´es de algoritmos. Na representa¸c˜ao vetorial de textos, cada vetor representa um texto, e cada dimens˜ao do vetor representa uma palavra presente no conjunto. O valor contido em uma dimens˜ao do vetor significa a quantidade de vezes que a palavra relacionada
(a) Quatro poss´ıveis tipos de elemen- tos gr´aficos.
(b) Cinco principais propriedades gr´aficas.
Figura 3.3: Tipos de estruturas visuais (Mazza, 2009).
`
aquela dimens˜ao cont´em no texto relacionado `aquele vetor. Isso ´e conhecido como Mo- delo Espa¸co-Vetorial do Texto (Salton, 1991). Na representa¸c˜ao vetorial de imagens, s˜ao usados extratores de caracter´ısticas das imagens (Torres and Falc˜ao, 2006), como filtros de Gabor (1947), que s˜ao algoritmos que procuram identificar atributos visuais, como cor, forma, textura, e transform´a-los em atributos num´ericos.
A partir da tabela de dados uma ferramenta de visualiza¸c˜ao consegue criar a repre- senta¸c˜ao visual (estrutura visual ) dos dados, atrav´es do processo chamado mapeamento visual. Card et al. (1999) definem trˆes poss´ıveis estruturas visuais:
1. Substrato espacial. Considerando um plano cartesiano, quantos eixos ser˜ao exi- bidos (1, 2 ou 3) e qual a interpreta¸c˜ao dada ao eixos: quantitativa, quando uma m´etrica ´e associada a cada eixo, ordinal, quando os valores nos eixos s˜ao ordenados de acordo com a ordem dos dados, ou nominal, sem uma ordem intr´ınseca.
2. Elementos gr´aficos. Tudo o que ´e vis´ıvel no espa¸co. Existem quatro poss´ıvel tipos de elementos, ilustrados na Figura 3.3a.
3. Propriedades gr´aficas. Propriedades dos elementos gr´aficos captadas por nossos olho. S˜ao independentes da posi¸c˜ao ocupada pelos elementos gr´aficos no substrato espacial. As propriedades gr´aficas mais comuns s˜ao tamanho, orienta¸c˜ao, cor, tex- tura e forma, ilustradas na Figura 3.3b.
Por exemplo, para um corpus, o mapeamento visual pode ser uma proje¸c˜ao multidi- mensional dos vetores de textos. A estrutura visual resultante ´e um plano bidimensional onde cada ponto no plano representa um texto. A etapa da transforma¸c˜ao da vis˜ao ´e a etapa mais interativa. O usu´ario analisar´a os dados e poder´a modificar a estrutura visual de v´arias formas, gerando vis˜oes. Essas vis˜oes o auxiliar˜ao a realizar suas tarefas. Uma
CAP´ITULO 3. VISUALIZAC¸ ˜AO 47
Figura 3.4: Visualiza¸c˜oes baseadas nos atributos dos dados. Matriz de scat- terplots. Fonte: SAS-Institute-Inc (http://support.sas.com/documentation/ cdl/en/grstatproc/62603/HTML/default/viewer.htm#a003155769.htm), acessado em 01/09/2014.
forma de transforma¸c˜ao da vis˜ao pode ser aplicar uma t´ecnica de agrupamento (cluste- ring), representando cada grupo (cluster ) com uma cor diferente. Como tarefa, o usu´ario pode querer coletar um grupo de textos relacionados ao mesmo assunto. ´E interessante notar que em todas as etapas da visualiza¸c˜ao o usu´ario pode (ou at´e mesmo necessita) interagir com todo o processo.