• Nenhum resultado encontrado

A representatividade, como discriminado na seção 3.5, é alcançada por intermédio de um ferramental estatístico composto pelo teste de hipótese ANOVA, o valor absoluto do erro relativo, a contagem de outliers e as medidas de tendência central, representados, respectivamente por bRanova, bRvaer, bRcount e bRcentral. A função chamada na linha 25 do Algoritmo 1 é apresentada no Algoritmo 5.

Algoritmo 5: Análise de representatividade

Entrada: V′ – Dados pseudo-reais com outliers

Entrada: V′′ – Dados pseudo-reais após remoção de outliers

Entrada: Vs – Dados pseudo-reais sem outliers

Saída: Análise de representatividade dos resultados

1 início 2 Danova← bRanova(Vs , V′′, V); 3 Dvaer ← bRvaer(Vs , V′′, V); 4 Dcount← bRcount(Vs , V′′, V); 5 Dcentral← bRcentral(Vs , V′′, V); 6 fim

Como é possível observar, todos os testes de representatividade recebem como parâmetro Vs

, V′′ , V′

4.5. Considerações parciais 33

contaminação, o conjunto de dados contaminado e por fim, o conjunto de dados após a remoção das anomalias. V′′ foi utilizado para exibir como os outliers podem com- prometer as decisões tomadas por uma aplicação. Os valores de D serão acumulados 600 vezes, para avaliar a representatividade dos dados após a remoção dos outliers, conforme descrito na seção 4.1.

Para calcular o resultado da regra bRanova, utilizou-se a função var.test() do pacote stats, que recebe como parâmetro os conjuntos de dados que se deseja comparar. O teste F é utilizado para comparar a variância entre os conjuntos. A aceitação da hipótese nula é válida para um p-valor acima de 0, 05, indicando a inexistência de diferenças significativas entre os agrupamentos de dados analisados.

O valor absoluto do erro relativo, bRvaer, é obtido por intermédio de manipulações algébricas, como destacado na seção 3.5. Este teste verifica a existência de diferenças significativas entre os conjuntos de dados analisados. É importante relembrar que apenas o maior erro será considerado.

O teste bRcount é bastante simples, e foi obtido com o uso do seguinte processo: Durante a contaminação do conjunto de dados Vs, guardamos a quantidade de ruídos inseridos, e comparamos este valor com a quantidade de outliers encontrados pelos métodos Ψ.

O teste bRcentral consideram três testes, a média aritmética simples, profundamente afetada pelos outliers, a mediana e a média truncada, que sofrem menor interferência das anomalias. As funções utilizadas no cálculo das medidas de tendência central fazem parte do pacote base do software R. A média aritmética é calculada com o comando mean(), a mediana é com a aplicação da função median() e a média truncada é obtida por intermédio do comando mean(). As duas primeiras medidas recebem como parâmetro o conjunto de dados que se deseja analisar. Já a terceira medida, a média truncada, é calculada com a mesma função que define a média aritmética, porém a diferença está nos parâmetros informados, já que a última necessita de um valor de poda, que em nosso caso é igual a 0, 1 ou seja, 10%. A média aritmética é calculada da mesma forma, porém, o valor de poda é igual a zero.

Os algoritmos (funções) do R não foram apresentados, pois, eles já foram testados e validados antes de serem disponibilizados como parte do software.

4.5

Considerações parciais

Esse capítulo discorreu sobre o processo de implementação da caracterização da detec- ção de outliers redes de sensores que contemplam a presença de outliers. Para isso,

34 Capítulo 4. Processo de simulação apresentamos um pseudo-código que permite a reprodução dos resultados alcançados neste trabalho. Toda a simulação foi executada no software estatístico R, e todos os pa- cotes utilizados foram aqui discriminados. O capítulo seguinte apresenta os resultados encontrados em nossas avaliações.

Capítulo 5

Resultados

Este capítulo, apresenta os resultados da utilização da caracterização das redes de sensores que consideram dados com outliers. Discutimos a metodologia utilizada nas simulações e apresentamos o resultado da aplicação dos métodos descritos no capítulo anterior, considerando a avaliação da representatividade dos dados após a aplicação das técnicas para detecção dos outliers (Ψ). Com isso, foi possível tomar as decisões

b

D, baseadas nas regras R, conforme descrito no capítulo 3.

5.1

Metodologia

Como mencionado nos capítulos anteriores, os resultados da distância de Mahalanobis ao quadrado (MD2) são considerados outliers se seu valor exceder um certo quantil da distribuição qui-quadrado. Em nossas simulações utilizamos o padrão empregado pelos métodos, e o quantil foi definido como 0, 975. Assim, os resultados obtidos com métodos baseados nos estimadores MVE e MCD são considerados outliers se RD2 > χ2

p;0,975, onde RD2 indica a distância de Mahalanobis Robusta. Os resultados para o método MED são considerados outliers se o seu valor for maior do que a média dos valores encontrados.

Utilizamos dados pseudo-reais submetidos a um pré-processamento. Os dados correspondem a 19 variáveis que são derivadas de observações de fenômenos ambientais reais. Estavam disponíveis 72 amostras destes fenômenos que correspondem à média de quatro horas de observação.

Para obtermos os dados pseudo-reais Vs, consideramos que o número de dados simulados varia em cada intervalo de acordo com os seguintes fatores, {10, 20, 30, 40, 50}, resultando em um número total de amostras por variável igual a |Vs

i| = {720, 1.440, 2.160, 2.880, 3.600}, com 0 < i ≤ p, lembrando que partimos de 72 35

36 Capítulo 5. Resultados médias de quatro horas de precipitações para cada variável. Considerando o número de variáveis (p) e o tamanho das amostras (n), o conjunto de dados (Vs) terá os seguintes tamanhos {19 × 720, 19 × 1.440, 19 × 2.160, 19 × 2.880, 19 × 3.600}.

Os ruídos são inseridos com auxílio de dados gerados a partir de uma Distribuição de Bernoulli com probabilidade igual a 0, 1. Os parâmetros utilizados nas simulações são apresentados na tabela 5.1.

Tabela 5.1. Parâmetros da simulação

Parâmetros Valores

Número de variáveis (p) 19 Tamanho da amostra real 72

Amostras pseudo-reais (n) 720, 1.440, 2.160, 2.880, 3.600 Probabilidade de contaminação 10.00%

Fator de multiplicação 210

Replicações 600

5.2

Valor absoluto do erro relativo

Nessa seção apresentaremos a avaliação das regras baseadas no valor absoluto do erro relativo, representadas por bRvaer. Conforme descrito na seção 3.6, este teste avalia a existência de diferenças entre a média dos conjunto antes da inserção dos outliers e após a remoção dos mesmos, representados respectivamente por Vs e V. De acordo com a descrição presente na seção 3.3, o valor absoluto do erro relativo é calculado para todas as variáveis de cada amostra, e apenas o maior valor será considerado.

Os resultados obtidos estão ilustrados na figura 5.1, onde o eixo x indica o ta- manho da amostra, e o eixo y indica o bRvaer. As curvas dos dados com ruídos e dos resultados da aplicação do MED não estão visíveis, pois o erro encontrado ultrapassa os 50%. Considerando o conjunto de dados utilizando a distribuição Normal, com 3.600 amostras. Nesta situação o erro encontrado para os dados com ruídos e para o resultado da aplicação do MED são, respectivamente, 11.395, 10 ± 48, 72 e 10.221, 88 ± 196, 95. Assim, para manter a legibilidade do gráfico, estas curvas foram omitidas. Os elevados erros do MED indicam que ele não conseguiu remover todos os outliers inseridos, e isso inviabiliza sua utilização em nossas aplicações. Por não conseguir remover todos os outliers, os valores de bRvaer para o MED e para os dados com ruídos são similares.

Nas figuras 5.1a e 5.1b são apresentados, respectivamente, os resultados do valor absoluto do erro relativo para as distribuições Normal e Skew-Normal. Nestes cenários,

5.2. Valor absoluto do erro relativo 37

Número de observações multivariadas

Valor absoluto do erro relativo (%)

MVE MCD AQ MCD DD 720 1440 2160 2880 3600 0 5 10 15 20 (a) Normal

Número de observações multivariadas

Valor absoluto do erro relativo (%)

MVE MCD AQ MCD DD 720 1440 2160 2880 3600 0 5 10 15 20 (b) Skew-Normal

Número de observações multivariadas

Valor absoluto do erro relativo (%)

MVE MCD AQ MCD DD 720 1440 2160 2880 3600 0 5 10 15 20 (c) T-Student

38 Capítulo 5. Resultados o valor máximo encontrado para o erro foi de 6%, considerando os conjuntos com 720 amostras. O melhor resultado foi encontrado em conjuntos com 3.600 amostras, onde o erro é inferior a 3%. Na figura 5.1c estão os resultados da distribuição T-Student, onde o pior resultado foi observado em um conjunto com 720 amostras, com um erro igual 17, 2%. O melhor resultado foi encontrado em um conjunto de amostra com 3.600 elementos, onde o erro é inferior a 6, 7%. Estes resultados demonstram que as decisões bD baseadas na regra bRvaer podem ser tomadas satisfatoriamente já que o erro demonstrado pode ser tolerado por grande parte das aplicações.

As tabelas 5.2, 5.3 e 5.4 foram inseridas para facilitar a leitura dos gráficos apre- sentados na figura 5.1, uma vez que os resultados são muito próximos ao se considerar os métodos MVE, MCD-AQ e MCD-DD. A letra K está presente junto a alguns valores e indica o fator de multiplicação 103.

O resultado do valor absoluto do erro relativo para a distribuição Normal é apre- sentado na tabela 5.2. Os resultados idênticos para o MVE, o MCD-AQ e o MCD-DD indicam que estes métodos conseguiram remover satisfatoriamente os outliers inseridos. Já o erro apresentado é decorrente da diferença nos tamanhos dos dados originais (sem outleirs), e os dados após a remoção dos mesmos. Como o MED não conseguiu ex- trair todos os outliers, os valores encontrados por este método são muito próximos dos valores encontrados para os dados com ruídos.

Tabela 5.2. bRvar com distribuição Normal

Método n= 720 n= 1 .440 n= 2.160 n= 2.880 n= 3.600 Ruído 12,76K ± 126,91 12,07K ± 84,43 11,75K ± 67,22 11,50K ± 59,74 11,39K ± 48,72 MVE 5,99 ± 0,08 4,24 ± 0,06 3,43 ± 0,04 3,03 ± 0,04 2,67 ± 0,04 MCD-AQ 5,99 ± 0,08 4,24 ± 0,06 3,43 ± 0,04 3,03 ± 0,04 2,67 ± 0,04 MCD-DD 5,99 ± 0,08 4,24 ± 0,06 3,43 ± 0,04 3,03 ± 0,04 2,67 ± 0,04 MED 7,81K ± 230,78 8,50K ± 243,92 9,23K ± 243,12 9,64K ± 235,14 10,22K ± 196,95

As tabelas 5.3 e 5.4 apresentam respectivamente os resultados do valor absoluto do erro relativo para as distribuições Skew-Normal e T-Student. Como pode ser ob- servado, o erro apresentado para os dois cenários é tolerável para grande parte das aplicações, considerando os métodos MVE e MCD. Novamente os resultados do MED são insatisfatórios, isso ocorre porque este método não conseguiu reconhecer todos os ruídos inseridos. Nestas tabelas é possível notar que o valor do erro encontrado para o MED é muito próximo dos valores encontrados ao se considerar os dados com ruídos.

A distribuição T-Student, tabela 5.4, apresenta erros mais elevados, isso ocorre devido a maior dispersão dos dados nos conjuntos. As distribuições T-Student e Skew- Normal foram utilizadas para simular a imprecisão dos dados coletados por uma rede de sensores, que nem sempre representam de forma satisfatória o fenômeno monitorado.

Documentos relacionados