• Nenhum resultado encontrado

apenas uma pequena quantidade de outliers. Isso ocorre devido à forma com que o este método classifica os outliers, ou seja, os autovalores e autovetores são calculados desconsiderando a amostra atualmente analisada, e como temos uma grande quantidade de dados, e com valores muito próximos, isso afeta o resultado. Conforme descrito no trabalho de Gao et al. [2005], o valor do MED pode ser uma medida profundamente influenciada por oultiers, sempre que existirem outliers na direção próxima ao primeiro autovetor da matriz de covariância, causando mudanças no primeiro autovalor.

5.6

Resumo dos resultados

Os experimentos mostraram que, com a utilização do MVE e do MCD a representa- tividade dos dados pode ser mantida. Ou seja, não existem diferenças significativas entre o conjunto de dados original, Vs, e o conjunto de dados reconstruídos, V. Na presença de grandes volumes de dados o MED mostrou comportamento insatisfatório. Isso indica que a técnica não é apropriada para aplicações em redes de sensores que consideram os cenários aqui apresentados.

Na seção 5.2 apresentamos os resultados da aplicação do valor absoluto do erro relativo, representando as regras bRvaer. Neste cenário, o erro máximo encontrado foi de 17, 2%, com a distribuição T-Student, onde o processo de contaminação é mais acentuado devido à maior dispersão dos dados. Considerando as distribuições Normal e Skew-Normal, o maior erro encontrado foi 6%. Esta taxa de erro pode ser tolerada pela grande parte das aplicações.

A seção 5.3 discorre sobre a aplicação das regras bRanova, i.e., análise de variância. Esta medida avalia a presença de diferenças significativas entre os conjuntos de dados analisados. Os resultados demonstraram que a hipótese nula é aceita tanto para o MVE quanto para o MCD, uma vez que o p-valor ficou acima de 0, 05, comprovando que estes métodos mantiveram a representatividade do conjunto de dados após a remoção dos outliers. O MED não conseguiu remover todos os ruídos inseridos, e isso impactou na rejeição da hipótese nula.

O teste seguinte avaliou as medidas de tendência central bRcentral. Esta medida compara as medidas de tendência central entre o conjunto de dados original Vs e o conjunto de dados após a reconstrução dos dados V. Conforme descrito na seção 5.4, os valores encontrados para o MVE e MCD são suficientes para comprovar a represen- tatividade do conjunto V. Por outro lado, o MED não conseguiu identificar todos os outliers inseridos, e isso provocou uma grande diferença nas medidas de tendência cen- tral. Estes resultados indicam que o MED não conseguiu manter a representatividade

44 Capítulo 5. Resultados do conjunto de dados V.

Por fim, na seção 5.5, avaliamos a regra bRcount, que avalia a taxa de detecção dos outliers inseridos. Com esta medida é possível identificar a presença de falsos positivos e falsos negativos, respectivamente quando dados normais são classificados como outliers e quando os outliers são classificados como normais. Novamente, neste cenário o MVE e o MCD obtiveram os melhores resultados, identificando todos os ruídos inseridos. Este teste comprova a baixa taxa de detecção do MED. Isso ocorre devido à forma com que o este método classifica os outliers, ou seja, os autovalores e autovetores são calculados desconsiderando a amostra atualmente analisada, e como temos uma grande quantidade de dados, e com valores muito próximos, isso afeta o resultado.

Outro fator importante e que será fruto de trabalhos futuros é a complexidade dos algoritmos e o tempo de execução dos mesmos. No próximo capítulo apresentaremos a conclusão e futuros direcionamentos do trabalho.

Capítulo 6

Conclusão

As redes de sensores sem fios são formadas por dispositivos compactos e autônomos, com capacidade de sensoriamento, processamento e comunicação. O principal obje- tivo desta rede é o envio de informações do ambiente monitorado a um observador externo. Contudo, devido à complexidade em que estas redes operam, i.e., utilização em ambiente não controlado, e limitações dos nós sensores, os dados coletados podem conter erros, que são considerados outliers. Estes outliers podem impedir ou invalidar a tomada de decisões D, por parte das aplicações, conforme explicitado no capítulo 3. Neste trabalho utilizamos três métodos gerais, MCD, MVE e MED, para detectar outliers em dados multivariados provenientes de uma rede de sensores.

Inicialmente utilizamos dados reais derivados do monitoramento da qualidade do ar, extraídos do trabalho de Albuquerque [2007]. Contudo, o conjunto não era sufici- ente para representar uma rede de sensores, e por isso eles foram simulados, mantendo a média e covariância do conjunto original. Esta simulação é que nos permite repre- sentar o cenário das redes de sensores. Consideramos que o fenômeno monitorado tem comportamento Normal, e utilizamos as distribuições Skew-Normal e T-Student para representar a imprecisão inerente de uma rede de sensores, que nem sempre representa de maneira ideal o ambiente monitorado. Também consideramos a presença de ruí- dos nos dados, estas anomalias foram inseridas com o auxílio de uma distribuição de Bernoulli com probabilidade igual a 0, 1. A geração da contaminação segue o mesmo processo da geração dos dados sem ruídos, porém, multiplicando a média por um fator igual a 210.

É importante enfatizar que o ponto chave deste trabalho é a caracterização do ambiente de monitoramento de uma rede de sensores que contempla a presença de outliers. Esta caracterização é útil para projetistas de rede que necessitam trabalhar em tal cenário. A caracterização é apresentada no capítulo 3.

46 Capítulo 6. Conclusão De acordo com Aquino et al. [2012], é necessário que o sink realize algum tipo de reconstrução afim de tomar decisões sobre o fenômeno estudado. Assim, as regras bR sobre V, o conjunto de dados após a aplicação dos métodos para detecção de outliers Ψ, levarão a tomadas de decisões bD, que devem ser tão próximas quanto possível das decisões D, que seriam tomadas sobre o conjunto de dados original Vs. No nosso caso, nenhum processo de reconstrução foi aplicado após a remoção de outliers, deixamos essa atividade como trabalho futuro. No entanto, um aspecto fundamental a ser analisado é o impacto desta tomada de decisão sobre o fenômeno estuado. A avaliação do impacto da caracterização da detecção de outliers Ψ pode ser realizada em comparação ao conjunto de dados original Vs.

Para realizar esta avaliação de impacto, utilizamos um ferramental estatístico composto pelos seguintes testes: o valor absoluto do erro relativo, representado pela regra bRvaer. Esta medida realiza uma comparação entre as médias do conjunto ori- ginal Vs e a média dos conjuntos após a aplicação dos métodos para a detecção de outliers, V. O teste de hipótese análise de variância, ANOVA, é a próxima avaliação considerada. Ele é representado pela regra bRanova, e identifica a existência de diferenças significativas entre as médias de Vs e V. Um p-valor acima de 0, 05 é suficiente para aceitação da hipótese nula, H0, indicando a inexistência de diferenças significativas entre os conjuntos analisados1. Também utilizamos como regra de decisão as medidas de tendência central, bRcentral. Neste teste consideramos a média, mediana e média truncada. Por fim, realizamos a contagem de outliers, bRcount, que avalia se todos os ruídos inseridos foram encontrados. Devemos ressaltar que apenas o maior erro foi considerado para as regras bRvaer e bRcentral.

Os experimentos mostraram que, com a utilização do MVE e do MCD a represen- tatividade dos dados pode ser mantida. Ou seja, não existem diferenças significativas entre a média do conjunto de dados antes da contaminação, Vs, e a média do conjunto de dados reconstruídos, V. Na presença de grandes volumes de dados o MED mos- trou comportamento insatisfatório. Isso indica que a técnica não é apropriada para aplicações em redes de sensores que consideram os cenários aqui apresentados. Isso ocorre devido à forma como este método classifica os outliers, ou seja, os autovalores e autovetores são calculados desconsiderando a amostra atualmente analisada, e como temos uma grande quantidade de dados, e com valores muito próximos, isso afeta o resultado.

Considerando as regras bRvaer, o erro máximo encontrado foi de 17, 2%, com a distribuição T-Student, onde o processo de contaminação é mais acentuado devido à maior dispersão dos dados. Considerando as distribuições Normal e Skew-Normal, o maior erro encontrado foi 6%. Esta taxa de erro pode ser tolerada pela grande parte

47 das aplicações.

A aplicação das regras bRanova, mostraram que a hipótese nula é aceita tanto para o MVE quanto para o MCD, uma vez que o p-valor ficou acima de 0, 05, comprovando que estes métodos mantiveram a representatividade do conjunto de dados após a remoção dos outliers. O MED não conseguiu remover todos os ruídos inseridos, e isso impactou na rejeição da hipótese nula.

O teste seguinte avaliou as medidas de tendência central bRcentral. Esta medida compara as medidas de tendência central entre o conjunto de dados original Vs e o conjunto de dados após a reconstrução dos dados V. Conforme descrito na seção 5.4, os valores encontrados para o MVE e MCD são suficientes para comprovar a represen- tatividade do conjunto V. Por outro lado, o MED não conseguiu identificar todos os outliers inseridos, e isso provocou uma grande diferença nas medidas de tendência cen- tral. Estes resultados indicam que o MED não conseguiu manter a representatividade do conjunto de dados V.

Por fim, na seção 5.5 avaliamos a regra bRcount, que avaliou a taxa de detecção dos outliers inseridos. Com esta medida foi possível identificar a presença de falsos positivos e falsos negativos, respectivamente quando dados normais são classificados como outliers e quando os outliers são classificados como normais. Novamente, neste cenário o MVE e o MCD obtiveram os melhores resultados, identificando todos os ruídos inseridos. Este teste comprova a baixa taxa de detecção do MED.

Os resultados apresentados neste trabalho apontam a necessidade de se identificar os outliers em conjuntos de dados provenientes das redes de sensores, uma vez que estes dados podem impedir ou invalidar as tomadas de decisões. Outro fator importante e que será fruto de trabalhos futuros é a complexidade dos algoritmos e o tempo de execução dos mesmos.

Devemos destacar como as principais contribuições deste trabalho a caracteriza- ção da detecção de outliers em dados multivariados provenientes das redes de sensores; a verificação da eficácia de técnicas tradicionais em dados oriundos do sensoriamento; a adaptação e a caracterização de dados multivariados reais para o problema de detecção de outliers em redes de sensores e; a verificação da robustez de técnicas tradicionais aplicadas à dados reais em redes de sensores. Como resultado acadêmico, obtivemos a publicação do artigo "Detecção de Outliers Multivariados em Redes de Sensores" [Va- ladares et al., 2012], nos anais do XLIV Simpósio Brasileiro de Pesquisa Operacional. Como destacado na seção 2.3, a maior parte dos estudos existentes leva em con- sideração os dados sensoriados univariados ou bivariados. Além disso, estes trabalhos consideram a correlação espacial e temporal entre os dados dos nós vizinhos, e despre- zam a correlação entre os dados coletados por cada nó sensor, o que eleva a comple-

48 Capítulo 6. Conclusão xidade computacional. Considerando o panorama geral, em nosso trabalho realizamos a detecção de outliers locais, e exploramos a correlação entre os dados do sensor. Ou- tro aspecto importante, além da caracterização do problema de detecção de outliers em redes de sensores, é a garantia de representatividade do conjunto de dados após a remoção de anomalias, uma vez que os demais trabalhos não se preocupam com tal análise.

Como trabalho futuro, planejamos unir as técnicas aqui apresentadas com al- goritmos para redução de dados. Estes algoritmos executam uma amostragem sobre conjuntos de dados multivariados, e seu objetivo é reduzir o volume de dados enviados até o sink, porém, mantendo a representatividade e correlação do conjunto original. Esperamos que a aplicação das técnicas aqui apresentadas torne robusta a redução de dados frente à presença de outliers, podendo inclusive facilitar a classificação de eventos provenientes desta rede.

Neste trabalho consideramos outliers locais, mas em trabalhos futuros, os algo- ritmos apresentados podem ser utilizados para a detecção de outliers distribuídos, ou seja, considerando a combinação de dados de mais de um nó da rede, aproveitando as- sim, a correlação espacial dos dados. Pretendemos também avaliar se a autocorrelação dos dados causa alguma interferência nas análises aqui realizadas. Também deixamos como sugestão de trabalhos futuros a variação do nível de ruídos inseridos.

Referências Bibliográficas

Akyildiz, I.; Su, W.; Sankarasubramaniam, Y. & Cayirci, E. (2002). A survey on sensor networks. IEEE Communications Magazine, 40(8):102 – 114.

Alameddine, I.; Kenney, M. A.; Gosnell, R. J. & Reckhow, K. H. (2010). Robust multi- variate outlier detection methods for environmental data. Journal of Environmental Engineering, 136(11):1299–1304.

Albuquerque, E. L. (2007). Compostos orgânicos voláteis na atmosfera urbana da região metropolitana de São Paulo. Thesi, Faculdade de Engenharia Química, Universidade Estadual de Campinas, Campinas, SP, Brazil.

Aquino, A. L. L. (2008). Redução de dados em redes de sensores sem fio baseada em stream de dados. Tese de Doutorado, Departamento de Ciência da Computação, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil.

Aquino, A. L. L.; Figueiredo, C. M. S.; Nakamura, E. F.; Buriol, L. S.; Loureiro, A. A. F.; Fernandes, A. O. & Junior, C. N. C. (2007). Data stream based algorithms for wireless sensor network applications. Em 21st IEEE International Conference on Advanced Information Networking and Applications, Niagara Falls, Canada.

Aquino, A. L. L.; Junior, O. S.; Frery, A. C.; Albuquerque, E. L. & Mini, R. A. F. (2012). Musa: Multivariate sampling algorithm for wireless sensor networks. IEEE Transactions on Computers (Print), 99:1--1.

Aquino, A. L. L. & Silva Filho, P. R. (2012). Notas em matemática Aplicada - Redução de dados em redes de sensores sem fio. Sociedade Brasileira de Matemática Aplicada e Computacional. ISBN 9788582150115.

Arampatzis, T.; Lygeros, J. & Manesis, S. (2005). A survey of applications of wireless sensors and wireless sensor networks. Em XIII IEEE International Symposium on, Mediterrean Conference on Control and Automation, Hawaii, USA.

50 Referências Bibliográficas Bahrepour, M.; Zhang, Y.; Meratnia, N. & Havinga, P. (2009). Use of event de- tection approaches for outlier detection in wireless sensor networks. Em The 5th International Conference on Intelligent Sensors, Sensor Networks and Information Processing, ISSNIP, Proceedings of Symposium on Theoretical and Practical Aspects of Large-scale Wireless Sensor Networks, Melbourne, Australia.

Barnett, V. & Lewis, T. (1994). Outliers in statistical data. Wiley series in probability and mathematical statistics: Applied probability and statistics. Wiley & Sons. ISBN 9780471930945.

Becker, R.; Chambers, J. & Wilks, A. (1988). The new S language: a programming environment for data analysis and graphics. Wadsworth & Brooks/Cole computer science series. Wadsworth & Brooks/Cole Advanced Books & Software.

Boos, D. D. & Nychka, D. (2012). Rlab: Functions and Datasets Required for ST370 class. R package version 2.15.1.

Bustos, O. H. & Frery, A. C. (1992). Reporting monte carlo results in statistics: suggestions and an example. Revista de la Sociedad Chilena de Estadstica, 9(2):46-- 95.

Chandola, V.; Banerjee, A. & Kumar, V. (2009). Anomaly detection: A survey. ACM Computing Surveys, 41:1--58.

Chen, M.; Know, T. & Choi, Y. (2006). Energy-efficient differentiated directed diffusion (eddd) in wireless sensor networks. Computer Communications, 29(2):231--245. Estrin, D.; Girod, L.; Pottie, G. & Srivastava, M. (2001). Instrumenting the world

with wireless sensor networks. Em 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, Salt Lake City, Utah, USA.

Estrin, D.; Govindan, R.; Heidemann, J. & Kumar, S. (1999). Next century challen- ges: Scalable coordination in sensor networks. Em 5th ACM/IEEE International Conference on Mobile Computing and Networks, Seattle, Washington, USA.

Filzmoser, P.; Garrett, R. G. & Reimann, C. (2005). Multivariate outlier detection in exploration geochemistry. Computer Geoscience, 31:579--587.

Filzmoser, P. & Gschwandtner, M. (2012). mvoutlier: Multivariate outlier detection based on robust methods. R package version 1.9.8.

Referências Bibliográficas 51

Frery, A. C.; Ramos, H.; Alencar-Neto, J. & Nakamura, E. (2008). Error estimation in wireless sensor networks. Em 23rd ACM symposium on Applied computing, New York, NY, USA.

Gao, S.; Li, G. & Wang, D. (2005). A new approach for detecting multivariate outliers. Communications in Statistics - Theory and Methods, 34(8):1857–1865.

Hawkins, D. M. (1980). Identification of outliers / D.M. Hawkins. Chapman and Hall, London; New York. ISBN 041221900.

Hazewinkel, M. (1990). Encyclopaedia of Mathematics (6). Number v.10 in Ency- clopaedia of Mathematics: An Updated and Annotated Translation of the Soviet "Mathematical Encyclopaedia". Lob-opt. Springer.

Hothorn, T.; Bretz, F. & Genz, A. (2001). On multivariate t and gauss probabilities in r. R News, pp. 27 -- 29.

Jain, R. K. (1991). The art of computer systems performance analysis: techniques for experimental design, measurement, simulation, and modeling. Wiley professional computing. Wiley. ISBN 9780471503361.

Loureiro, A. A. F.; Nogueira, J. M. S.; Ruiz, L. B.; de Freitas Mini, R. A.; Nakamura, E. F. & Figueiredo, C. M. S. (2003). Redes de sensores sem fio (tutorial). Em XXI Simpósio Brasileiro de Redes de Computadores, Natal, Brasil.

Pottie, G. J. & Kaiser, W. J. (2000). Wireless integrated network sensors. Communi- cations of the ACM, 43(5):51--58.

R Development Core Team (2012). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3- 900051-07-0.

Rajasegarar, S.; Bezdek, J. C.; Leckie, C. & Palaniswami, M. (2010). Elliptical anoma- lies in wireless sensor networks. ACM Transactions on Sensor Network, 6(1):1--28. Ripley, B. (2009). Stochastic Simulation. Wiley Series in Probability and Statistics.

Wiley. ISBN 9780470317389.

Rousseeuw, P. J. & Driessen, K. V. (1999). A fast algorithm for the minimum covariance determinant estimator. Technometrics, 41(3):212--223.

Rousseeuw, P. J. & Zomeren, B. C. V. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85(411):633–639.

52 Referências Bibliográficas Royer, E. & Toh, C.-K. (1999). A review of current routing protocols for ad hoc mobile

wireless networks. IEEE Personal Communications, 6(2):46 –55.

Ruiz, L. B.; Correia, L. H. A.; Vieira, L. F. M.; Macedo, D. F.; Nakamura, E. F.; Fi- gueiredo, C. M. S.; Vieira, M. A. M.; Bechelane, E. H.; Camara, D.; Loureiro, A. A.; Nogueira, J. M. S.; da Silva Jr., D. C. & Fernandes, A. O. (2004). Arquiteturas para redes de sensores sem fio. Em XXII Simpósio Brasileiro de Redes de Computadores, Gramado, RS - Brazil.

Santana Giroldo, F. R. & Barroso, L. P. (2008). Alguns métodos robustos para de- tectar outliers multivariados. Dissertação de mestrado, Instituto de Matemática e Estatística - Universidade de São Paulo - IME-USP.

Santini, S. & Romer, K. (2006). An adaptive strategy for quality-based data reduction in wireless sensor networks. Em 3rd International Conference on Networked Sensing Systems, Chicago, USA.

Sheng, B.; Li, Q.; Mao, W. & Jin, W. (2007). Outlier detection in sensor networks. Em 8th ACM international symposium on Mobile ad hoc networking and computing, New York, NY, USA.

Skvarenina, J.; Mindas, J.; Holecy, J. & Tucek, J. (2004). An analysis of the meteoro- logical conditions during two largest forest fire events in the slovak paradise national park. Journal of Meteorology, 7(1):167–171.

Thomson, N. (1993). Understanding anova the apl way. Em APL ’93 International Conference on Array-Programming Languages, pp. 295--303, New York, NY, USA. Tilak, S.; Abu-Ghazaleh, N. B. & Heinzelman, W. (2002). A taxonomy of wireless

micro-sensor network models. SIGMOBILE Mobile Computing and Communications Review, 6(2):28--36.

Valadares, F. G.; Aquino, A. L. L. & Pereira Jr, A. R. (2012). Detecção de outleirs multivariados em redes de sensores. Em XLIV Simpósio Brasileiro de Pesquisa Ope- racional, Rio de Janeiro, RJ, Brasil.

Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. Springer, New York, fourth edição. ISBN 0-387-95457-0.

Wuertz, D.; many others & see the SOURCE file (2012). fMultivar: Multivariate Market Analysis. R package version 2152.77.

Referências Bibliográficas 53

Yang, Z. & Liu, Y. (2012). Understanding node localizability of wireless ad hoc and sensor networks. IEEE Transactions on Mobile Computing, 11(8):1249–1260. Zhang, Y.; Meratnia, N. & Havinga, P. (2010). Outlier detection techniques for wireless

sensor networks: A survey. IEEE Communications Surveys Tutorials, 12(2):159 – 170.

Documentos relacionados