• Nenhum resultado encontrado

Visualiza¸c˜ ao e Minera¸c˜ ao de Dados

5.3 T´ ecnicas de Minera¸c˜ ao e Visualiza¸c˜ ao de Dados

Nesta Se¸c˜ao, s˜ao apresentadas t´ecnicas de visualiza¸c˜ao e minera¸c˜ao de dados que foram objeto de investiga¸c˜ao e posteriormente utilizadas nesta pesquisa. S˜ao enfocadas t´ecnicas aplic´aveis ao dom´ınio temporal dos dados de monitoramento (observa¸c˜oes a cada minuto), bem como ao dom´ınio espacial (localiza¸c˜ao das esta¸c˜oes e proje¸c˜oes dos pierce points).

Uma das visualiza¸c˜oes mais antigas, que tamb´em pode ser considerada uma das mais utilizadas ´e o gr´afico de dispers˜ao. Os gr´aficos de dispers˜ao (scatterplots ou xy-plots) s˜ao baseados no sistema de coordenadas Cartesiano: duas vari´aveis s˜ao plotadas – uma sobre o eixo x e outra sobre o eixo y; pode-se explorar o uso de cores, de s´ımbolos e tamanho dos s´ımbolos. O sucesso dos mesmos se deve `a habilidade do ser humano em julgar a posi¸c˜ao de atributos em um espa¸co delimitado. Este tipo de visualiza¸c˜ao ´e essencial para an´alise explorat´oria dos dados (WARD; GRINSTEIN; KEIM, 2010; REIMANN et al., 2008).

Um tipo peculiar de gr´afico de dispers˜ao representa o tempo em seu eixo x. Esta representa¸c˜ao pode ser utilizada em representa¸c˜oes pontos, linhas ou ambos. Desta forma, tem-se que o eixo vertical representa o atributo mapeado, e o eixo das abcissas representa o tempo. Nas representa¸c˜ao com linhas, os atributos s˜ao ligados por retas ou curvas suaves (FEW, 2008; REIMANN et al., 2008). Um exemplo com linhas e pontos ´e apresentado na Figura 31, onde o valor da vari´avel pH ao longo dos meses de um ano.

Figura 31: Representa¸c˜ao temporal atrav´es de gr´aficos de dispers˜ao. Fonte: Reimann et al. (2008).

A Figura 32 apresenta duas abordagens para representa¸c˜ao de m´ultiplas s´eries tempo- rais. A primeira (acima na Figura 32) apresenta as s´eries em m´ultiplas linhas; no entanto, as linhas se tornam pequenas e os padr˜oes perdem os seus detalhes (FEW, 2008). A segunda (abaixo na Figura 32), apresenta as s´eries em diferentes cores; trata-se de uma alternativa plaus´ıvel, mas observa-se que pode causar sobreposi¸c˜ao (WARD; GRINSTEIN; KEIM, 2010).

Figura 32: Tentativa de representa¸c˜ao de diversas s´eries na tela. Adaptada de Few (2008) e Ward, Grinstein e Keim (2010).

Uma alternativa para a representa¸c˜ao de m´ultiplas s´eries temporais de maneira si- multˆanea ´e a utiliza¸c˜ao dos horizon charts. Tais gr´aficos combinam posi¸c˜ao e cores a fim de aumentar a percep¸c˜ao: as posi¸c˜oes s˜ao mais eficientes na identifica¸c˜ao de varia¸c˜oes de pequena escala, enquanto as cores permitem a identifica¸c˜ao de varia¸c˜oes em larga escala. A motiva¸c˜ao dos horizon charts parte do princ´ıpio da eficiˆencia da representa¸c˜ao da s´erie temporal de uma vari´avel do que um gr´afico de linha, onde o eixo das abcissas representa o tempo, e a vari´avel est´a representada no eixo das coordenadas (FEW, 2008; BOSTOCK, 2012).

A proposta dos horizon charts ´e apresentada na Figura 33. Partindo-se de uma representa¸c˜ao simplificada (a), s˜ao utilizadas cores para distinguir valores negativos de positivos (b). As diferen¸cas em magnitude s˜ao representadas nas intensidades: cores mais

intensas s˜ao utilizadas para os valores de magnitude maior, e cores menos intensas para os de magnitude menor (tanto positivos, quanto negativos). Em seguida, os valores negativos ocupam o mesmo espa¸co vertical que os valores positivos, sendo distinguidos pelas cores (c). Por fim, os valores pertencentes `as bandas mais intensas s˜ao colapsados para as bandas menos intensas (d). Desta forma, ao t´ermino do processo, tem-se maior espa¸co vertical livre, o qual pode ser utilizado para representar mais s´eries temporais na mesma tela (FEW, 2008).

Figura 33: Forma¸c˜ao dos horizon charts. Adaptada de Few (2008).

Bostock (2012) inclui uma representa¸c˜ao adicional, a qual ´e apresentada na Figura 34. Partindo-se dos horizon charts habituais (a), os valores negativos s˜ao invertidos sobre o eixo (b).

Figura 34: Forma¸c˜ao dos horizon charts. Adaptada de Bostock (2012).

Na Figura 35 ´e apresentado um exemplo com dados que representam a porcentagem de varia¸c˜ao das a¸c˜oes de 19 empresas em um per´ıodo superior a trˆes anos. ´E poss´ıvel

observar, dentre outros aspectos, comportamentos no mercado que afetaram v´arias a¸c˜oes simultaneamente (BOSTOCK, 2012).

Figura 35: Representa¸c˜ao de v´arias s´eries temporais com horizon charts. Fonte: Bostock (2012).

Para explora¸c˜ao dos atributos espaciais, os mapas s˜ao certamente a melhor estrat´egia. Shimabukuro et al. (2004) apresenta uma abordagem de m´ultiplas vis˜oes para o dom´ınio espa¸co-temporal, a qual ´e apresentada na Figura 36. Os mapas s˜ao utilizados para repre- senta¸c˜ao espacial, onde marcadores geogr´aficos, como pontos ou c´ırculos, s˜ao utilizados para representar elementos de interesse sobre o mesmo; a cor e a forma dos marcadores permitem identificar um ou mais atributos de interesse (Figura 36 `a esquerda). Para o dom´ınio temporal, s˜ao utilizadas representa¸c˜oes baseadas em pixels (pixel-based ) que per- mitem a visualiza¸c˜ao de atributos em diferentes escalas de tempo, como di´aria, mensal ou anual. O valor dos atributos de interesse ´e mapeado na cor dos pixels, enquanto a varia¸c˜ao temporal ´e representada na posi¸c˜ao dos mesmos (Figura 36 `a direita). A imagem se refere a uma entidade espacial, cada coluna representa um ano e cada linha representa um determinado mˆes.

Figura 36: Representa¸c˜ao espa¸co-temporal com mapas e pixel-based. Fonte: Shimabukuro et al. (2004).

Wijk e Selow (1999) apresentam a t´ecnica Calendar View (vis˜ao de calend´ario), que combina visualiza¸c˜ao e an´alise cluster de s´eries temporais. Primeiramente, s˜ao formados os clusters utilizando-se algum algoritmo para tal finalidade. Em seguida, os resultados s˜ao exibidos em um calend´ario (observa-se o uso de uma met´afora visual ao se empregar um calend´ario (MULLER; SCHUMANN, 2003)). A Figura 37 apresenta esta t´ecnica.

`

A esquerda, a vis˜ao de calend´ario, onde as cores dos dias s˜ao atribu´ıdas de acordo com a classe pertencente. Observa-se que os dias da semana s˜ao dispostos horizontalmente. Ap´os a sele¸c˜ao de meses, dias ou classes de interesse, os valores associados s˜ao exibidos `a direita.

Figura 37: Calendar view representando a quantidade de funcion´arios dentro de uma empresa. Fonte: Wijk e Selow (1999).

Lin et al. (2003) apresentam uma rela¸c˜ao de abordagens representativas aplic´aveis a s´eries temporais. Esta rela¸c˜ao inclui Wavelets, Transformada de Fourier, dentre outras abordagens. Uma abordagem denominada Symbolic Aggregation Approximation (SAX - Aproxima¸c˜ao por Agrega¸c˜ao Simb´olica) ´e introduzida, a qual possibilita a redu¸c˜ao de dimensionalidade e de volume de dados atrav´es de uma representa¸c˜ao baseada em s´ımbolos (LIN et al., 2003; LIN et al., 2004).

Primeiramente, a s´erie temporal ´e reduzida de n dimens˜oes para w dimens˜oes. Esta redu¸c˜ao ´e realizada atrav´es da t´ecnica Piecewise Aggregation Approximation (PAA - Apro- xima¸c˜ao por Agrega¸c˜ao Seccionada). A t´ecnica PAA consiste em representar uma s´erie temporal de dimens˜ao n atrav´es de w vetores lineares. Cada vetor ´e constitu´ıdo por um valor constante. Primeiramente, a s´erie temporal de dimens˜ao n ´e dividida em w frames (ou segmentos) de tamanho fixo. Em seguida, o valor m´edio dos valores contidos em cada frame ´e calculado, e o valor resultante se torna a representa¸c˜ao reduzida destes dados (LIN et al., 2003; KEOGH et al., 2001). Esta representa¸c˜ao reduzida ´e apresentada na Figura 38.

Figura 38: Redu¸c˜ao de dimensionalidade com a t´ecnica PAA. Adaptada de Lin et al. (2003).

Observa-se na Figura 38, que uma sequˆencia de tamanho 128 (C) foi reduzida para oito dimens˜oes ( ¯C). Lin et al. (2003) destaca que antes da aplica¸c˜ao da redu¸c˜ao com

a t´ecnica PAA, os dados s˜ao normalizados para se ter m´edia 0 e desvio-padr˜ao 1, desta forma, pode-se comparar s´eries temporais de diferentes amplitudes. No entanto, para o caso espec´ıfico onde varia¸c˜oes de amplitude s˜ao importantes – como neste projeto – esta etapa pode ser descartada.

Ap´os a realiza¸c˜ao da representa¸c˜ao PAA, s´ımbolos s˜ao atribu´ıdos aos vetores repre- sentativos de acordo com sua continˆencia em intervalos delimitados por breakpoints pr´e- determinados. Um exemplo ´e apresentado na Figura 39, na qual a s´erie temporal foi convertida para a sequˆencia simb´olica “acdcbdba”; foram utilizados trˆes breakpoints e

quatro s´ımbolos, os quais permitiram transformar uma s´erie temporal de mil dimens˜oes em uma representa¸c˜ao de oito s´ımbolos.

Figura 39: Convers˜ao de uma s´erie temporal em uma representa¸c˜ao simb´olica com SAX. Fonte: Lin et al. (2004).

Destaca-se que para o manejamento de s´eries temporais muito longas, ´e conveniente que se recorra a janelas deslizantes (sliding windows). A Figura 40 apresenta o princ´ıpio, onde uma s´erie T de comprimento 128 ´e decomposta sucessivamente em janelas deslizantes (Ci) de tamanho n = 16, as quais percorrem sucessivamente toda a s´erie temporal.

Figura 40: Aplica¸c˜ao de janelas deslizantes. Fonte: Lin et al. (2003).

Pode-se optar pela determina¸c˜ao de um passo entre as janelas, caracter´ıstica que relaciona o ganho em eficiˆencia e o grau de generaliza¸c˜ao. Com maior passo entre janelas, menos dados s˜ao processados, implicando em melhor tempo de resposta; no entanto, aumenta-se o grau de generaliza¸c˜ao dos resultados, j´a que nem todas as janelas poss´ıveis s˜ao analisadas.

Com a aplica¸c˜ao da t´ecnica SAX, t´ecnicas de visualiza¸c˜ao podem ser aplicadas so- bre a representa¸c˜ao simb´olica reduzida para melhor representa¸c˜ao dos resultados. Uma abordagem est´a presente no software VizTree (LIN et al., 2004), na qual os resultados da

representa¸c˜ao SAX s˜ao visualizados em uma ´arvore. Nesta ´arvore, a espessura dos ramos determina a frequˆencia de ocorrˆencia de certos padr˜oes: os mais recorrentes s˜ao repre- sentados por ramos mais espessos, enquanto os menos recorrentes s˜ao representados por ramos mais finos. Tal representa¸c˜ao permite a identifica¸c˜ao de padr˜oes frequentes e pa- dr˜oes anˆomalos (raros) com eficiˆencia. Um exemplo ´e apresentado na Figura 41. Em (a), a s´erie temporal original ´e apresentada. Em (b) define-se as configura¸c˜oes para gera¸c˜ao da representa¸c˜ao SAX, cujo resultado ´e representado pela ´arvore em (c). Ao selecionar um ramo espec´ıfico em (c), uma visualiza¸c˜ao detalhada da ´arvore ´e apresentada em (d), enquanto em (e) o mesmo detalhe ´e apresentado para s´erie original.

6

Concep¸c˜ao e desenvolvimento de uma ferramenta para

minera¸c˜ao e visualiza¸c˜ao de dados: ISMR Query Tool

Diversas eram as dificuldades encontradas em lidar com a massiva quantidade de dados da Rede CIGALA/CALIBRA. Embora os dados estivessem organizados em um reposit´orio central, esfor¸co consider´avel era necess´ario para manipul´a-los. Sem as caracter´ısticas providas pela visualiza¸c˜ao, o usu´ario teria que agrupar dados manualmente para ent˜ao produzir tabelas, gr´aficos, ou mapas, o que exige esfor¸co consider´avel.

Neste contexto, teve in´ıcio a concep¸c˜ao e o desenvolvimento da ISMR Query Tool: um software cient´ıfico com objetivos de agregar as informa¸c˜oes de monitoramento das esta¸c˜oes da rede e prover mecanismos para an´alise dos dados. A estrat´egia adotada consiste em combinar t´ecnicas de visualiza¸c˜ao e de minera¸c˜ao de dados, as quais permitem a an´alise explorat´oria e o apoio na descoberta de conhecimento.

Algumas vers˜oes da ferramenta foram desenvolvidas ao longo da Pesquisa, as quais foram disponibilizadas atrav´es do portal que re´une as informa¸c˜oes sobre os Projetos CIGALA e CALIBRA na FCT/UNESP (UNIVERSIDADE ESTADUAL PAULISTA - CAMPUS PRESIDENTE PRUDENTE, 2013). Desta forma, membros dos Projetos CI- GALA e CALIBRA, alunos da FCT/UNESP, demais pesquisadores do GEGE, bem como membros de institui¸c˜oes parceiras, podem usufruir de uma infraestrutura de an´alise que complementa a infraestrutura de monitoramento constitu´ıda pela rede de esta¸c˜oes.

6.1

Da Infraestrutura de Monitoramento para a In-