RESULTADOS EXPERIMENTAIS
5.3 Sumariza¸ c˜ ao das Amostras
Foi realizado um experimento a fim de comparar as amostras dos dados antes e ap´os serem sumarizadas. Esta sumariza¸c˜ao consiste em condensar v´arias amostras em apenas uma,
conforme o passar do tempo, a fim de permitir que os dados possam ser mantidos por um per´ıodo maior de tempo. Este experimento consistiu em gerar um grafo com os dados sem sumariza¸c˜ao, e ap´os os dados serem sumarizados, ger´a-lo novamente, comparando assim tanto os grafos em si quanto os grupos de nodos selecionados a partir deles. Neste experimento foi utilizado o limiar de 0.1s em todos os grafos gerados. Os per´ıodos de tempo utilizados foram de 1 hora e 1 dia.
Para avaliar a sumariza¸c˜ao de hora em hora, foram gerados grafos com o per´ıodo de uma hora, utilizando os dados crus do monitoramento. Ap´os estes dados serem sumariza-dos, foram gerados novamente os grafos para os mesmos per´ıodos. Por exemplo, gera-se um grafo correspondente ao per´ıodo das 12:00 at´e 12:59, com os dados sem sumariza¸c˜ao, e depois que os dados correspondentes a este per´ıodo forem sumarizados, gera-se novamente um grafo deste mesmo per´ıodo (das 12:00 as 12:59).
Para avaliar a sumariza¸c˜ao di´aria, foram gerados grafos com o per´ıodo de um dia, utilizando os dados sumarizados em horas. Ap´os estes dados serem sumarizados em apenas um valor representando o dia todo, foram gerados novamente os grafos para os mesmos per´ıodos. Por exemplo, gera-se um grafo correspondente ao per´ıodo das 00:00 at´e 23:59, com os dados de hora em hora, e depois que os dados correspondentes a este per´ıodo forem sumarizados, gera-se novamente um grafo deste mesmo per´ıodo (das 00:00 as 23:59).
Em cada grafo gerado foram selecionados nodos das seguintes formas: CE com 12 segundos de execu¸c˜ao, SM GM sem quantidade m´ınima de nodos e M GM com m´ınimo de 200 nodos. Assim, comparou-se os grupos de nodos selecionados no grafo gerado antes da sumariza¸c˜ao, com os selecionados no grafo gerado ap´os a sumariza¸c˜ao. As arestas dos grafos tamb´em foram comparadas da mesma forma.
A tabela 5.12 mostra os resultados para os grafos de uma hora. Cada linha mostra uma compara¸c˜ao entre um par de grafos: um gerado antes da sumariza¸c˜ao, e outro depois. A primeira coluna da tabela indica o per´ıodo do par de grafos sendo comparado. A segunda coluna indica o total de nodos selecionados com a estrat´egia da CE com 12 segundos de execu¸c˜ao no grafo gerado sem sumariza¸c˜ao, e quantos destes nodos tamb´em foram
selecionados no grafo gerado ap´os a sumariza¸c˜ao, com a mesma estrat´egia. A terceira coluna mostra o mesmo resultado, mas para a estrat´egia SM GM, enquanto a quarta coluna mostra este resultado utilizando a estrat´egiaM GM com m´ınimo de 200 nodos. A
´
ultima coluna da tabela mostra a porcentagem de arestas do grafo gerado sem sumariza¸c˜ao que mantiveram-se no grafo gerado ap´os a sumariza¸c˜ao. Na primeira linha, por exemplo, o per´ıodo foi das 16:00 at´e as 16:59 do dia 09/03/2011. Uma Clique Est´avel de tamanho 69 foi selecionada no grafo gerado sem sumariza¸c˜ao, e destes 69, 48 nodos tamb´em foram selecionados no grafo gerado ap´os a sumariza¸c˜ao dos dados. O Subgrafo com Maior Grau M´ınimo encontrado no primeiro grafo teve 131 nodos, dos quais 129 tamb´em estavam presentes no subgrafo selecionados no segundo grafo. Dos 203 nodos selecionados com a estrat´egia M GM, 190 tamb´em foram selecionados com a mesma estrat´egia no grafo gerado ap´os a sumariza¸c˜ao. 94% das arestas do primeiro grafo tamb´em estavam presentes no segundo grafo.
Per´ıodo CE SMGM MGM Arestas
09/03/2011, 16:00 at´e 16:59 48 / 69 129 / 131 190 / 203 94%
09/03/2011, 17:00 at´e 17:59 60 / 80 141 / 148 186 / 201 94%
11/03/2011, 12:00 at´e 12:59 51 / 78 131 / 137 187 / 204 95%
11/03/2011, 13:00 at´e 13:59 47 / 85 129 / 136 185 / 200 94%
Tabela 5.12: Sumariza¸c˜ao de hora em hora.
A tabela 5.13 mostra os resultados para os grafos de um dia. Na primeira linha, por exemplo, o per´ıodo foi das 00:00 at´e as 23:59 do dia 08/03/2011. Uma Clique Est´avel de tamanho 66 foi selecionada no grafo gerado sem sumariza¸c˜ao, e destes 66, 52 nodos tamb´em foram selecionados no grafo gerado ap´os a sumariza¸c˜ao dos dados. O Subgrafo com Maior Grau M´ınimo encontrado no primeiro grafo teve 117 nodos, dos quais 108 tamb´em estavam presentes no subgrafo selecionado no segundo grafo. Dos 201 nodos selecionados com a estrat´egia M GM, 190 tamb´em foram selecionados com a mesma es-trat´egia no grafo gerado ap´os a sumariza¸c˜ao. 81% das arestas do primeiro grafo tamb´em estavam presentes no segundo grafo.
Per´ıodo CE SMGM MGM Arestas
08/03/2011, 00:00 at´e 23:59 52 / 66 108 / 117 190 / 201 81%
09/03/2011, 00:00 at´e 23:59 46 / 67 103 / 129 185 / 202 82%
10/03/2011, 00:00 at´e 23:59 50 / 62 103 / 122 181 / 200 79%
11/03/2011, 00:00 at´e 23:59 46 / 61 102 / 122 185 / 200 80%
Tabela 5.13: Sumariza¸c˜ao di´aria.
Observa-se que a perda de informa¸c˜ao com a sumariza¸c˜ao dos dados no per´ıodo de 1 hora foi pequena, j´a que 94%, em m´edia, das arestas mantiveram-se ap´os a sumariza¸c˜ao dos dados. Al´em disso, grande parte dos nodos selecionados nos grafos gerados antes da sumariza¸c˜ao, tamb´em foram selecionados nos grafos gerados ap´os a sumariza¸c˜ao. J´a na sumariza¸c˜ao dos dados referentes ao per´ıodo de um dia a perda foi maior: em m´edia 80%
das arestas mantiveram-se ap´os a sumariza¸c˜ao. Mesmo com a perda maior, boa parte dos nodos selecionados antes da sumariza¸c˜ao tamb´em foram selecionados ap´os. A diferen¸ca entre a sumariza¸c˜ao de uma hora e de um dia ´e que, na sumariza¸c˜ao de uma hora, ´e feita uma m´edia de 12 valores (um valor a cada 5 minutos), e na sumariza¸c˜ao de um dia, ´e feita uma m´edia de 24 valores (um para cada hora do dia), tendo-se assim uma perda maior.