Redução de dados em redes de sensores sem fio baseada em stream de dados

(1)

REDUC

¸ ˜

AO DE DADOS EM REDES DE

SENSORES SEM FIO BASEADA EM STREAM

DE DADOS

Belo Horizonte

(2)

REDUC

¸ ˜

AO DE DADOS EM REDES DE

SENSORES SEM FIO BASEADA EM STREAM

DE DADOS

Tese apresentada ao Curso de P ós-Graduaç ão em Ci ência da Computaç ão da Universidade Federal de Minas Gerais como requisito parcial para a obtenç ão do grau de Doutor em Ci ência da Computaç ão.

Orientador:

Prof. Dr. Ant ˆonio Ot ´avio Fernandes

UNIVERSIDADE FEDERAL DE MINAS GERAIS

P ÓS-GRADUAÇ ÃO EM CIENCIA DAˆ COMPUTAÇ ÃO

Belo Horizonte

(3)

ANDR ´

E LUIZ LINS DE AQUINO

REDUC

¸ ˜

AO DE DADOS EM REDES DE SENSORES SEM FIO

BASEADA EM STREAM DE DADOS

Tese defendida e aprovada pela banca examinadora constitu´ıda pelos(as) Senho-res(as):

Prof. Dr. Ant ˆonio Ot ´avio Fernandes – Orientador Universidade Federal de Minas Gerais

Prof. Dr. Djamel Fawzi Hadj Sadok Universidade Federal de Pernambuco

Profa. Dra. Luciana Salete Buriol Universidade Federal do Rio Grande do Sul

Dr. Eduardo Freire Nakamura

Fundaç ão Centro de An álise, Pesquisa e Inovaç ão Tecnol ógica

Prof. Dr. Ant ˆonio Alfredo Ferreira Loureiro Universidade Federal de Minas Gerais

Prof. Dr. Claudionor Jos ´e Nunes Coelho Jr. Universidade Federal de Minas Gerais

(4)

(5)

A Deus,

A mim,

Aos meus pais,

Ao meu amor e

(6)

(7)

poss´ıveis.

(8)

(9)

O

mundo ao nosso redor possui uma variedade de fen ômenos que podem ser des-critos por algumas grandezas como temperatura, press ão e umidade, que po-dem ser monitorados por dispositivos com poder de sensoriamento, processamento e comunicaç ão. O conjunto desses dispositivos, trabalhando de forma cooperativa, é conhecido como rede de sensores sem fio. Cada um desses dispositivos, chama-dos n ó sensor, tem a capacidade de monitorar um ou mais fen ômenos e report á-los, atrav és de uma comunicaç ão sem fio, para um n ó especial chamado de sorvedouro.

Essas redes, devido às caracter´ısticas da aplicaç ão, possuem restriç ões de energia, tempo de resposta e largura de banda. Especificamente no que diz respeito à largura de banda, enviar grandes quantidades de dados pode ser problem ático pela quanti-dade de n ós que acessar ão o meio, causando atraso demasiado no tempo de resposta e, assim, invalidando os dados. Devido a essas restriç ões, é necess ário adotar-se al-guma estrat égia para o tratamento dos dados a fim de reduzir ou selecionar apenas os dados mais relevantes para a aplicaç ão.

Os fen ômenos monitorados geram dados com algumas caracter´ısticas (online, impre-ciso, com ru´ıdo e de tamanho moderado, i.e., grandes o suficiente para n ão poderem ser processados facilmente), que nos leva a defini-los comostreamde dados. Para tal tipo de dados, encontramos algumas t écnicas, como amostragem, histograma, janela deslizante e rascunho, que nos permitem efetuar o processamento e a reduç ão do conjunto de grandezas que representam os fen ômenos monitorados, de tal forma que os gastos na rede possam ser reduzidos.

Com isso, o problema geral tratado no nosso trabalho é efetuar a reduç ão de dados em redes de sensores sem fio baseada nas t écnicas destreamde dados de tal forma que seja poss´ıvel economizar os recursos da rede sem comprometer a representati-vidade dos fen ômenos monitorados. Como soluç ão é proposta uma arquitetura para reduç ão nas aplicaç ões gerais, que possui uma API de reduç ão baseada nas t écnicas

destreamde dados. Al ém disso, utilizamos essa arquitetura para modelar aplicaç ões

que necessitam efetuar a reduç ão no momento do sensoriamento, atrav és de um n ó agregador, e durante o roteamento.

Os resultados revelam que é poss´ıvel utilizar a nossa soluç ão para as diferentes aplicaç ões modeladas, uma vez que foi poss´ıvel economizar recursos da rede sem perder a representatividade dos fen ômenos monitorados. Especificamente, quando a arquitetura foi integrada à fase de roteamento em aplicaç ões de tempo real vimos atrav és dos resultados que na maioria dos cen ários é poss´ıvel atender aos prazos exigidos pela aplicaç ão e ainda assim manter a representatividade dos fen ômenos monitorados.

Palavras-chave: Redes de sensores sem fio, reduc¸ ˜ao de dados e algoritmos de

(10)

(11)

I

N the world there are a variety of phenomena, such as temperature, pressure, and humidity, which can be monitored by specific sensor devices with processing and communication power. These devices, working cooperatively, are known as wireless sensor networks. Each sensor node can monitor and report some phenomena to a special node called sink node, using a wireless communication.

Despite their potential applications, wireless sensor networks have particular features imposed by resource restrictions, such as low computational power, reduced bandwidth and especially limited power source. Specifically, when we have a lot of data to be sent, the reduced bandwidth problem is increased since more nodes will try to access the wireless medium generating a packet delay. Thus, some data reduction is necessary where only the data relevant to the application is used.

In wireless sensor networks, the monitored phenomena have data stream characteris-tics (online, imprecise, with noise, and of moderate size). To process a data stream there are some techniques such as sampling, histogram, sliding windows, and sketch. This techniques allow the data processing and reducing where the network require-ments, like energy consumption and packet delay.

Thus, the general problem treated here is the stream-based data reduction in wireless sensor networks so the network resources are saved, but at the same time we are interested to have a minimum data quality that represents the monitored phenomena. Our solution, proposed for this problem is a generic architecture that can be applied to general applications. This architecture has an API that allows to apply data reduction techniques to stream-based applications in wireless sensor networks. We use this architecture to model some applications that need to reduce the data at the sensor nodes, cluster heads, or routing nodes.

The results show that it is possible to use our solution in general applications, leading to reduction in both energy consumption and packet delay without loosing the data repre-sentativeness. Furthermore, when the architecture is integrated to the routing phase on real-time applications the results show that it is possible to achieve the deadline and keep the information quality about the monitored phenomena.

(12)

(13)

1 Pseudo-c ´odigo do algoritmo de amostragem. . . 62

2 Pseudo-c ´odigo do algoritmo de rascunho. . . 65

3 Pseudo-c ódigo do algoritmo de reduç ão para dados multivariados . . . . 66

(14)

(15)

1 Tipos de redes sem fio. . . 32

2 Estrutura do n ´o sensor com os quatro componentes principais e os tr ˆes

componentes opcionais. . . 32

3 Estrutura de uma rede de sensores considerando n ão s ó o n ó sensor

mas tamb ´em os demais elementos b ´asicos. . . 33

4 T ´ecnica de janela deslizante para o tratamento dostreamde dados. . . 40

5 T ´ecnica de amostragem para o tratamento dostreamde dados. . . 40

6 Informac¸ ˜oes extra´ıdas do stream de dados pelos algoritmos de rascu-nho e histograma. . . 41

7 Funç ão da distribuiç ão acumulada para 256 valores. . . 44

8 Representaç ão de um sistema de uma rede de sensores onde é

mos-trado o comportamento ideal (N _→V∗_→_D∗_{), sensoriado (}N _→V∗_→ V _→_D_{) e reduzido (}N _→V∗_→V _→V′_→_D′_{). . . .} ₄₉

9 Onde utilizar a reduc¸ ˜ao de dados. . . 53

10 Arquitetura OGK. . . 58

11 Passos utilizados para o processamento dostream no algoritmo

OGK-amostragem. . . 61

OGK-rascunho. . . 64

OGK-multivar. . . 66

OGK-or ´aculo. . . 68

15 Avaliaç ão do comportamento da rede, considerando a m édia de energia

(16)

17 Avaliac¸ ˜ao do comportamento dos dados reduzidos, considerando o erro

m ´edio ao aplicar a regraR′_dist sobre os dados univariados. . . 78

m ´edio ao aplicar a regraR′_val sobre os dados univariados. . . 79

19 Avaliaç ão do comportamento da rede, considerando a m édia de energia

consumida na rede ao reduzir dados multivariados. . . 84

20 Avaliaç ão do comportamento da rede, considerando a m édia do atraso

dostreamao reduzir dados multivariados. . . 84

m ´edio ao avaliar a regraR′_val sobre os dados multivariados com diferen-tes tamanhos do item stream. . . 86

m ´edio ao aplicar a regraR′_val sobre os dados multivariados com diferen-tes n ´umero de sensores. . . 87

23 Topologias de rede consideradas nas aplicac¸ ˜oes gerais. . . 90

24 Avaliaç ão do comportamento da rede, considerando a m édia da energia

consumida na rede ao reduzir dados nos n ´os l´ıderes. . . 96

25 Avaliaç ão do comportamento da rede, considerando a m édia do atraso

do pacote ao reduzir dados nos n ´os l´ıderes. . . 98

26 Cen ário I: Valores m´ınimos para os prazos exigidos pelas aplicaç ões. . 107

27 Cen ´ario I: Atrasos identificados ao utilizar a metade dos prazos

supor-tados pela rede. . . 108

28 Cen ´ario I: Atrasos identificados ao utilizar atrasos gerados pelos n ´os

roteadores. . . 110

29 Cen ário II: Valores m´ınimos para os prazos exigidos pelas aplicaç ões. . 112

30 Cen ´ario II: Atrasos identificados ao utilizar a metade dos prazos

(17)

32 Cen ´ario II: Atrasos identificados ao utilizar atrasos gerados pelos n ´os

roteadores. . . 115

33 Cen ´ario II: Erros identificados ao utilizar atrasos gerados pelos n ´os

(18)

(19)

1 Par âmetros de simulaç ão para reduç ão de dados univariados. . . 74

2 Par âmetros de simulaç ão para reduç ão de dados multivariados. . . 83

3 Erro m édio em porcentagem da reduç ão de dados multivariados

utili-zando a soluc¸ ˜ao OGK. . . 87

4 Raz ˜ao de bits transmitidos numa rede com 1024 n ´os. . . 93

5 Raz ˜ao de bits transmitidos numa rede com 160 n ´os. . . 93

6 Par âmetros de simulaç ão para reduç ão de dados nas redes hier árquicas. 95

7 Par âmetros de simulaç ão para reduç ão de dados nas aplicaç ões de

tempo real. . . 106

8 Cen ário I: Valores m´ınimos para os prazos exigidos pelas aplicaç ões. . 107

9 Cen ´ario I: Atrasos identificados ao utilizar a metade dos prazos

10 Cen ´ario I: Raz ˜ao entre os atrasos identificados e os prazos exigidos

pela aplicac¸ ˜ao. . . 108

11 Cen ´ario I: Porcentagem dos dados recebidos pelo sorvedouro, ao

utili-zar a metade dos prazos suportados pela rede. . . 109

12 Cen ´ario I: Erro do teste KS identificado ao utilizar a metade dos prazos

suportados pela rede. . . 109

13 Cen ´ario I: Erro identificado nos valores dos dados ao utilizar a metade

dos prazos suportados pela rede. . . 109

14 Cen ´ario I: Atrasos identificados ao utilizar atrasos gerados pelos n ´os

roteadores. . . 110

15 Cen ´ario I: Porcentagem dos dados recebidos pelo sorvedouro ao utilizar

(20)

17 Cen ´ario I: Erro nos valores dos dados identificado ao utilizar atrasos

gerados pelos n ´os roteadores. . . 111

18 Cen ário II: Valores m´ınimos para os prazos exigidos pelas aplicaç ões. . 112

19 Cen ´ario II: Atrasos identificados ao utilizar a metade dos prazos

20 Cen ´ario II: Raz ˜ao entre os atrasos identificados e os prazos exigidos

pela aplicac¸ ˜ao. . . 114

21 Cen ´ario II: Atrasos identificados ao utilizar atrasos gerados pelos n ´os

(21)

1 INTRODUC¸ ˜AO 27

1.1 Motivac¸ ˜ao . . . 28

1.2 Descriç ão do problema, objetivos e contribuiç ões . . . 29

1.3 Organizac¸ ˜ao do trabalho . . . 30

2 FUNDAMENTOS TE ´ORICOS E TRABALHOS RELACIONADOS 31 2.1 Redes de sensores sem fio . . . 31

2.2 Algoritmos de streamde dados . . . 38

2.3 An ´alise de componentes principais e estudo da qualidade dos dados reduzidos . . . 41

2.3.1 An ´alise de componentes principais - PCA . . . 41

2.3.2 Qualidade dos dados reduzidos . . . 43

2.4 Trabalhos relacionados . . . 44

2.4.1 Streamde dados em redes de sensores . . . 44

2.4.2 Soluc¸ ˜oes para o processamento dos dados monitorados em re-des de sensores . . . 45

2.4.3 Redes de sensores sem fio hier ´arquicas . . . 46

2.4.4 Soluc¸ ˜oes de roteamento em redes de sensores . . . 47

2.4.5 Aplicac¸ ˜oes de tempo real em redes de sensores . . . 47

(22)

4.2.1 OGK-amostragem . . . 61

4.2.2 OGK-rascunho . . . 64

4.2.3 OGK-multivar . . . 65

4.2.4 OGK-or ´aculo . . . 67

4.3 Conclus ˜oes parciais . . . 68

5 REDUC¸ ˜AO DE DADOS NO SENSORIAMENTO 71

5.1 Reduc¸ ˜ao de dados univariados . . . 71

5.1.1 Avaliac¸ ˜ao do comportamento da rede . . . 73

5.1.2 Avaliac¸ ˜ao do comportamento dos dados reduzidos . . . 76

5.1.3 Comportamento da rede vs. comportamento dos dados reduzidos 79

5.2 Reduc¸ ˜ao de dados multivariados . . . 81

5.2.1 Avaliac¸ ˜ao do comportamento da rede . . . 82

5.2.2 Avaliac¸ ˜ao do comportamento dos dados reduzidos . . . 85

5.2.3 Comportamento da rede vs. comportamento dos dados reduzidos 87

5.2.4 Conclus ˜oes parciais . . . 88

6 REDUÇ ÃO DE DADOS EM REDES HIER ÁRQUICAS 89

6.1 Caracterizaç ão da reduç ão em redes hier árquicas . . . 89

6.2 Avaliac¸ ˜ao do comportamento da rede . . . 93

7 REDUÇ ÃO DE DADOS EM APLICAÇ ÕES DE TEMPO REAL 101

7.1 Caracterizaç ão da reduç ão em aplicaç ões de tempo real . . . 101

7.2 Avaliaç ão do comportamento da soluç ão OGK em aplicaç ões de tempo

real . . . 104

(23)

(24)

(25)

PUBLICAC

¸ ˜

OES

A

seguir, é apresentada a lista de publicaç ões obtidas durante o doutorado. As publicaç ões relacionadas diretamente a esta tese est ão marcadas com um

aste-risco (*).

1. AQUINO, A. L. L.; CABRAL, R. da S.; FERNANDES, A. O. Um algoritmo de

reduç ão de dados para aplicaç ões de tempo real em redes de sensores sem fio.

In: 26st Brazilian Symposium on Computer Networks (SBRC’08). Rio de Janeiro,

Brazil: SBC, 2008. (*)

2. AQUINO, A. L. L. et al. Sensor stream reduction for clustered wireless sensor

networks. In: 23rd ACM Symposium on Applied Computing 2008 (SAC’08). For-taleza, Brazil: ACM, 2008. p. 2052–2056. (*)

3. ANDRADE, A. V. et al. Analysis of selection and crossover methods used by

genetic algorithm-based heuristic to solve the lsp allocation problem in mpls

networks under capacity constraints. In: International Conference on

Enginee-ring Optimization (EngOpt’08). Rio de Janeiro, Brazil: Springer, 2008. p. 1–15.

4. AQUINO, A. L. L. et al. Data stream based algorithms for wireless sensor network

applications. In: 21st IEEE International Conference on Advanced Information

Networking and Applications (AINA’07). Niagara Falls, Canada: IEEE Computer

Society, 2007. p. 869–876. (*)

5. AQUINO, A. L. L. et al. A sampling data stream algorithm for wireless sensor

networks. In: IEEE International Conference on Communications (ICC’07). Glas-gow, Scotland: IEEE Computer Society, 2007. p. 3207–3212. (*)

6. AQUINO, A. L. L. et al. On the use data reduction algorithms for real-time

wire-less sensor networks. In: IEEE Symposium On Computers and Communications

(ISCC’07). Aveiro, Potugal: IEEE Computer Society, 2007. p. 583–588. (*)

7. FIGUEIREDO, C. M. S. et al. Um esquema de gerenciamento para redes de

(26)

Symposium on Computer Networks (SBRC’07). Bel ´em, PA, Brazil: SBC, 2007.

p. 1–12.

8. GUIDONI, D. L. et al. Sistemas do tipo eixo-raio aplicados `a redes de sensores

sem fio modeladas como redes small world. In: 39th Brazilian Symposium on

Operational Research (SBPO’07). Fortaleza, CE, Brasil: SOBRAPO, 2007. p.

1–12.

9. ARTIGUENAVE, F. et al. The tropical biominer project: Mining old sources for

new drugs. OMICS: A Journal of Integrative Biology, v. 9, n. 2, p. 30–138, June 2005.

10. MENEZES, G. C. et al. Uma abordagem paralela para os problemas de cobertura

e conectividade em redes de sensores sem fio. In: 37th Brazilian Symposium on

Operational Research (SBPO’05). Gramado, RS, Brasil: SOBRAPO, 2005. p.

(27)

1 INTRODUC

¸ ˜

AO

“D ˆeem-me uma alavanca e um ponto de apoio e eu levantarei o mundo.” (Arquimedes)

O

mundo ao nosso redor possui uma variedade de fen ˆomenos que podem ser descritos por algumas grandezas, como temperatura, press ˜ao e umidade, que

podem ser monitorados por dispositivos com poder de sensoriamento, processamento

e comunicaç ão. O conjunto desses dispositivos, trabalhando de forma cooperativa, é

conhecido como rede de sensores sem fio (ESTRIN et al., 1999; AKYILDIZ et al.,

2002; TILAK; ABU-GHAZALEH; HEINZELMAN, 2002; ARAMPATZIS; LYGEROS;

MA-NESIS, 2005). Essas redes podem ter, al ´em de n ´os sensores, elementos atuadores

que interferem no meio monitorado, um ou mais sorvedouros que recebem os dados

e os processam e os gateways que s ão respons áveis pela comunicaç ão da rede de sensores com outras redes.

Cada n ´o sensor tem a capacidade de monitorar um ou mais fen ˆomenos. Os dados que

representam esses fen ˆomenos monitorados podem ser classificados como:

univaria-dos ou multivariaunivaria-dos. Daunivaria-dos univariaunivaria-dos representam um ´unico conjunto de valores

de um mesmo fen ˆomeno. Por exemplo, os dados monitorados por um n ´o que possui

apenas um sensor de temperatura. J ´a os dados multivariados representam mais de

um conjunto de valores de um mesmo fen ˆomeno ou mais de um fen ˆomeno. Por

exem-plo, os dados recebidos por um n ´o respons ´avel por processar os dados monitorados

por um conjunto de n ´os que possuem apenas um sensor de temperatura, ou os

da-dos monitorada-dos por um n ´o que possui simultaneamente os sensores de temperatura,

press ˜ao e umidade.

Os fen ômenos monitorados s ão reportados, atrav és de uma comunicaç ão sem fio

ad-hoc (ROYER; TOH, 1999), para o sorvedouro. Essa comunicaç ão, devido às

ca-racter´ısticas da aplicaç ão, possui restriç ões de energia, tempo de resposta e largura

de banda. Especificamente no que diz respeito `a largura de banda, enviar grandes

quantidades de dados pode ser problem ático pela quantidade de n ós que ter ão que

acessar o meio, podendo causar atraso demasiado no tempo de resposta e, assim,

(28)

seu tempo de vida. Devido a essas restriç ões, é necess ário adotar alguma estrat égia

para o tratamento dos dados a fim de reduzir ou selecionar apenas os dados mais

relevantes que representam o fen ˆomeno monitorado. Dentre as diversas abordagens

para reduc¸ ˜ao de dados em redes de sensores sem fio pode-se destacar:

• A agregaç ão de dados que efetua a reduç ão dos dados sensoriados seguindo alguma m étrica exigida pela aplicaç ão. Tem como objetivo principal diminuir o

tr ´afego na rede independente da qualidade dos dados reduzidos

(KRISHANA-MACHARI; ESTRIN; WICKER, 2002; ZHU; PAPAVASSILIOU, 2004; SANTINI;

ROMER, 2006).

• A t ´ecnica de amostragem adaptativa que, ao longo do tempo de vida da rede, modifica a forma de sensoriamento com o objetivo de propagar apenas a

informa-ç ão mais relevante para a aplicainforma-ç ão. Caso os dados possuam caracter´ısticas

dis-tintas essa t écnica apresentar á um n´ıvel de reduç ão baixo (MARBINI; SACKS,

2003; GANESAN et al., 2004; CHEN; KNOW; CHOI, 2006).

• A reduç ão de dados multivariados que utiliza m étodos para estimar o compor-tamento dos dados multivariados, como sua correlaç ão, permitindo que apenas

as diferenças, na correlaç ão dos dados observadas ao longo do tempo, sejam

propagadas at ´e o sorvedouro (SEO; KANG; RYU, 2005; LI; ZHANG, 2006).

1.1 Motivac¸ ˜ao

No contexto de redes de sensores sem fio, existem fen ˆomenos monitorados que

ge-ram dados com algumas caracter´ısticas que nos leva a defini-los como stream de

dados (HENZINGER; RAQHAVAN; RAJAGOPALAN, 1998; BABCOCK et al., 2002;

ELNAHRAWY, 2003; GOLAB; OZSU, 2003; MUTHUKRISHNAN, 2005). As

carac-ter´ısticas gerais de umstreamde dados tradicional é que ele é obtido de formaonline, pois é processado no momento da sua recepç ão; é ilimitado, pois o fen ômeno

mo-nitorado est ´a constantemente gerando dados; e a ordem de chegada n ˜ao pode ser

controlada. No entanto, ao utilizarmosstreamde dados para representar os dados de sensoriamento, devemos considerar as diferenc¸as entrestream de sensoriamento e o

stream tradicional. O stream de sensoriamento representa um conjunto de amostras

de uma determinada populaç ão, é impreciso, com ru´ıdo e de tamanho moderado. J á o

(29)

erros e com tamanho exageradamente grande, i.e., grandes o suficiente para n ˜ao

po-derem ser processados (ELNAHRAWY, 2003). Por convenc¸ ˜ao utilizaremos em nosso

texto apenas o termostreamde dados para representar osstream de sensoriamento.

Para possibilitar a utilizaç ão das informaç ões presentes nostreamde dados, por parte das aplicaç ões, existe uma classe espec´ıfica de algoritmos, chamada de algoritmos

destream de dados. Esses algoritmos podem ser baseados em diferentes t ´ecnicas,

como por exemplo, amostragem, histograma, janela deslizante e rascunho

(MUTHU-KRISHNAN, 2005). A aplicaç ão de cada uma dessas t écnicas resulta na geraç ão de

dados aproximados aos originais, onde a fidelidade dos dados aproximados depende

da forma de como os dados s ˜ao processados.

1.2 Descriç ão do problema, objetivos e contribuiç ões

O problema geral tratado neste trabalho é efetuar a reduç ão de dados em redes de

sensores sem fio. A reduç ão é baseada nas t écnicas destreamde dados de tal forma que seja poss´ıvel economizar os recursos da rede sem comprometer a

representativi-dade dos fen ˆomenos monitorados. Com isso, o objetivo principal ´e mostrar que essas

t écnicas podem ser aplicadas a reduç ões em redes de sensores. Para isso, foi

pro-posta uma arquitetura para reduç ão de dados juntamente com uma API de reduç ão

que pode ser aplicada a diferentes cen ´arios nessas redes. Al ´em disso, aplicamos a

nossa arquitetura em diferentes momentos em que é poss´ıvel efetuar a reduç ão de

dados. Assim, as principais contribuiç ão deste trabalho s ão:

• Uma arquitetura para reduc¸ ˜ao de dados, chamada OGK –On a Good Knowledge

(Sobre um bom conhecimento), que utiliza o conhecimento a respeito dostream

de dados para escolher a soluç ão de reduç ão mais apropriada. Essa

arquite-tura pode ser utilizada em diversos cen ários e aplicaç ões de redes de sensores

desde que os dados tenham caracter´ısticas destream.

• A disponibilizaç ão da API-OGK de reduç ão utilizada para dar suporte a nossa arquitetura e que possibilita a reduç ão de dados nas redes de sensores, desde

simples reduç ões no momento do sensoriamento at é reduç ões habilitadas de

forma aut ônoma pela aplicaç ão.

(30)

dispon´ıveis na API s ão utilizados para efetuar tal reduç ão. Especificamente, para

a reduç ão de dados atrav és de um n ó agregador, utilizamos uma formulaç ão

matem ática para comprovar que a utilizaç ão de n ós agregadores atrav és de uma

rede hier árquica é mais eficiente do que propagar as informaç ões monitoradas

atrav ´es de uma rede plana.

• A utilizaç ão da arquitetura OGK, embutida no roteamento, para reduzir os dados quando os prazos das aplicaç ões de tempo real n ão puderem ser atendidos.

Al ém disso, elaboramos uma formulaç ão matem ática para estimar o quanto o

dado deve ser reduzido no momento do roteamento.

Os resultados, apresentados ao longo dos pr ´oximos cap´ıtulos, revelam que ´e poss´ıvel

utilizar a nossa soluç ão para as diferentes aplicaç ões modeladas, por exemplo,

aplica-ç ões gerais em redes planas e hier árquicas e cen ários com exig ências de tempo

real. Em todas as aplicac¸ ˜oes estudadas foi poss´ıvel economizar recursos da rede

(cerca de 90% de economia nos melhores casos) sem perder a representatividade dos

fen ˆomenos monitorados (um erro m ´aximo de 20% nos piores casos). Especificamente,

quando a arquitetura foi integrada à fase de roteamento em aplicaç ões de tempo real

vimos atrav ´es dos resultados que na maioria dos cen ´arios foi poss´ıvel atender aos

prazos exigidos pela aplicaç ão, uma vez que consideramos aplicaç ões de tempo real

soft, e ainda assim manter a representatividade dos fen ˆomenos monitorados.

1.3 Organizac¸ ˜ao do trabalho

Este trabalho segue com o cap´ıtulo 2 onde discutimos os principais conceitos

utiliza-dos e apresentamos alguns trabalhos relacionautiliza-dos. No cap´ıtulo 3, apresentamos o

problema de reduç ão de dados baseada em stream de dados para redes de senso-res sem fio. No cap´ıtulo 4, mostramos a arquitetura para reduç ão de dados baseada

em stream de dados e apresentaremos os algoritmos propostos para dar suporte a

arquitetura. Nos cap´ıtulos 5, 6 e 7, falamos, respectivamente, das considerac¸ ˜oes e

cen ários utilizados para o caso de reduç ão no momento do sensoriamento, atrav és

de um n ó agregador e no momento do roteamento para dar suporte a aplicaç ões de

(31)

2 FUNDAMENTOS TE ´

ORICOS E

TRABALHOS RELACIONADOS

“A ci ência, como um todo, n ão é nada mais do que um refina-mento do pensar di ário.” (Albert Einstein)

E

STE cap´ıtulo tem por objetivo apresentar os conceitos b ásicos necess ários para um bom entendimento deste trabalho. Tais conceitos est ão relacionados a redes

de sensores sem fio, astream de dados, ao m étodo estat´ıstico utilizado na reduç ão

de dados multivariados e aos mecanismos para a an ´alise da qualidade dos dados

quando reduzidos. Apresentamos apenas os conceitos mais gerais deixando aspectos

espec´ıficos para serem explicados e referenciados quando necess ´ario. Al ´em disso, ao

fim do cap´ıtulo apontamos alguns dos trabalhos relacionados.

2.1 Redes de sensores sem fio

Inicialmente, para melhor contextualizar as redes de sensores no ambiente sem fio,

consideramos as redes estruturadas e ad-hoc. Em relaç ão às redes estruturadas temos que elas possuem n ós subordinados a uma estaç ão base respons ável pela

comunicaç ão entre os elementos da rede (figura 1(a)). J á as redesad-hoc (ROYER;

TOH, 1999) n ão utilizam uma estaç ão base para prover a comunicaç ão entre os

ele-mentos da rede, pois a comunicaç ão é feita utilizando os n ós que est ão entre a origem

e o destino (figura 1(b)). Com isso, para as redes de sensores sem fio temos que elas

possuem a forma de comunicac¸ ˜ao como as redesad-hoc com o objetivo de propagar

os dados sensoriados para um elemento externo a rede (figura 1(c)).

Com isso, podemos apresentar as redes de sensores como sendo redes formadas

por dispositivos compactos e aut ˆonomos, chamados de n ´os sensores, que coletam

dados do ambiente e os processam localmente, ou de forma cooperativa entre n ´os

vi-zinhos. No final, a informaç ão processada pode ser enviada para o usu ário. Devido ao

seu tamanho os n ós sensores possuem uma arquitetura simples e com limitaç ões de

(32)

(a) Rede estruturada. (b) Rede n ˜ao estruturada. (c) Rede de sensores.

FIGURA 1 – Tipos de redes sem fio.

uma unidade perceptiva que pode possuir alguns sensores e um conversor de sinais

anal ´ogicos para digitais (ADC); uma unidade de processamento com mem ´oria e

pro-cessador; um transceptor; e uma fonte de energia que geralmente n ão é renov ável.

Al ´em disso, de forma opcional podem existir elementos que complementam a

estru-tura dos sensores, como sistema de localizac¸ ˜ao, mecanismo de mobilidade e gerador

de energia. A estrutura b ´asica de um n ´o sensor com os principais componentes pode

ser visto na figura 2.

Fonte de energia

Transceptor Processador

Memória Sensor

ADC

Mecanismo para mobilidade Sistema de

localização

Gerador

FIGURA 2 – Estrutura do n ´o sensor com os quatro componentes principais e os tr ˆes componentes opcionais.

No entanto, uma rede de sensores pode ter outros tr ês elementos b ásicos: os n ós

atuadores que possuem a funç ão de atuar ou interferir no meio onde est ão inseridos,

a fim de corrigir falhas e/ou controlar o objeto monitorado; os sorvedouros ou n ´os

de monitorac¸ ˜ao que recebem os dados e os processam de forma a extrair alguma

informaç ão útil para o usu ário; e os n ós gateways que s ão respons áveis por prover a comunicaç ão da rede de sensores com outras redes de computadores. Esses tr ês

elementos b ´asicos, bem como a estrutura t´ıpica de uma rede de sensores, podem

ser vistos na figura 3. ´E importante destacar que esses elementos n ˜ao precisam ser

fisicamente distintos. Por exemplo, o sorvedouro e o gateway podem ser o mesmo dispositivo.

(33)

Gateway

Observador

Nó sensor

Nó sorvedouro

Dados sensoriados

FIGURA 3 – Estrutura de uma rede de sensores considerando n ão s ó o n ó sensor mas tamb ém os demais elementos b ásicos.

forma com que os n ós s ão dispostos numa área de sensoriamento e a forma com

que os fen ômenos s ão monitorados pode-se fazer uma distinç ão entre os diferentes

tipos de redes de sensores existentes. Com isso, as redes de sensores podem ser

classificadas como: hier ´arquica se ela possui agrupamentos de n ´os, onde existe um

l´ıder que representa cada agrupamento, caso contr ´ario a rede ´e considerada plana;

homog ênea se os n ós possuem a mesma configuraç ão dehardware, caso contr ário a rede é considerada heterog ênea; sim étrica se todos os n ós possuem o mesmo raio de

comunicaç ão, caso contr ário a rede é considerada assim étrica; cont´ınua se os dados

coletados s ˜ao enviados continuamente ou programada se os dados s ˜ao enviados

obe-decendo a programac¸ ˜ao previamente estabelecida; dirigida a eventos se a rede envia

dados apenas quando ocorre algum evento ou sob demanda quando a rede permite a

consulta parcial ou total dos dados aos n ´os (TILAK; ABU-GHAZALEH; HEINZELMAN,

2002).

Como as redes de sensores possuem capacidade de sensoriamento e

processa-mento distribu´ıdo elas podem ser utilizadas em uma grande variedade de aplicac¸ ˜oes,

como por exemplo aplicaç ões m édicas, industriais, militares, meio ambiente e

agro-pecu ´aria (ESTRIN et al., 1999; POTTIE; KAISER, 2000; ESTRIN et al., 2001; SHEN;

WANG; SUN, 2004; ARAMPATZIS; LYGEROS; MANESIS, 2005; DIAMOND; CERUTI,

2007; FLAMMINI et al., 2007). Essas aplicaç ões podem ter um car áter de

monito-ramento onde apenas dados do ambiente s ão coletados ou um car áter de atuaç ão

onde ocorre intervenc¸ ˜ao no meio monitorado (LINS et al., 2003a, 2003b). De forma

geral, podemos considerar tr ês n´ıveis de granularidade nas aplicaç ões em redes de

sensores:

• As aplicaç ões de sensoriamento que dizem respeito à obtenç ão, ao processa-mento e ao trataprocessa-mento dos dados monitorados antes deles sa´ırem do n ó sensor.

Nesse caso, para obter um ganho global na rede a aplicac¸ ˜ao pode processar

(34)

• Os mecanismos de infraestrutura que s ˜ao respons ´aveis por garantir o bom fun-cionamento da rede para que os dados monitorados possam ser entregues

sa-tisfatoriamente ao sorvedouro. Nesse caso, se necess ´ario, a rede deve se

auto-configurar para garantir a qualidade da informaç ão passada para o usu ário.

• As aplicaç ões para o usu ário onde a rede tem por objetivo prover informaç ões de sensoriamento para algum usu ário externo à rede levando em conta suas

necessidades. Nesse caso, a aplicac¸ ˜ao considera todos os recursos da rede

para servir ao usu ário, inclusive a aplicaç ão de sensoriamento e a infraestrutura.

Com o objetivo de melhor contextualizar os diferentes n´ıveis de granularidade de uma

aplicaç ão em redes de sensores, a seguir aprofundaremos um pouco mais a discuss ão

em relac¸ ˜ao a esses n´ıveis.

As redes de sensores sem fio possuem restriç ões de recursos que aliadas às

neces-sidades das aplicac¸ ˜oes tornam o projeto dessas redes complexo. Nesse contexto,

existem diversas linhas de pesquisa que tratam problemas relacionados com o

pro-jeto dessas redes, como a auto-organizac¸ ˜ao (SCHURGERS et al., 2002; CHEN et al.,

2002; FIGUEIREDO et al., 2005) e o gerenciamento de recursos (ZHAO; GOVINDAN;

ESTRIN, 2002; RUIZ; NOGUEIRA; LOUREIRO, 2003; ZHAO; GOVINDAN; ESTRIN,

2003; GOUSSEVSKAIA et al., 2005).

Por tratarem de um tipo espec´ıfico de redes ad-hoc e serem utilizadas em ambi-entes hostis com condic¸ ˜oes imprevis´ıveis, as redes de sensores devem ser

auto-configur áveis, adapt áveis e possuir um gerenciamento escal ável. Devido às

carac-ter´ısticas da aplicac¸ ˜ao de sensoriamento, as redes de sensores possuem um

mo-delo centrado nos dados (KRISHANAMACHARI; ESTRIN; WICKER, 2002;

INTANA-GONWIWAT et al., 2003), pois o objetivo dessas redes é levar a informaç ão sensoriada

para um ponto fora da rede. Essa caracter´ıstica permite a integraç ão das operaç ões

da camada de sensoriamento com a camada de rede, oferecendo soluc¸ ˜oes mais

efi-cientes.

Fatores relacionados com as caracter´ısticas da rede, tipos e configurac¸ ˜oes dos

sen-sores influenciam diretamente no desenvolvimento das aplicac¸ ˜oes de sensoriamento.

Considerando essas caracter´ısticas pode-se classificar as aplicac¸ ˜oes de

sensoria-mento em:

(35)

é-processa-mento nos dados deixando as operaç ões mais elaboradas para serem

execu-tadas em outros elementos da rede com maior poder de processamento. Esse

pr é-processamento é necess ário, pois o grande volume de dados sensoriados,

se enviados sem nenhum tratamento, pode consumir a energia dos n ´os e

com-prometer os objetivos da rede.

• Consulta, onde os dados s ão enviados apenas quando requisitados por algum elemento externo à rede. Nesse caso, o n ó sensor deve executar algum

pro-cessamento sobre os dados de tal forma que apenas o resultado desse

proces-samento seja guardado para ser enviado quando solicitado. Isso ocorre, pois o

armazenamento de todos os dados sensoriados pode ser muito caro para o n ´o,

se as consultas n ˜ao forem freq ¨uentes.

Para o tratamento dos dados, nas aplicac¸ ˜oes de monitoramento podemos utilizar

t écnicas como agregaç ão de dados (KRISHANAMACHARI; ESTRIN; WICKER, 2002;

ZHAO; GOVINDAN; ESTRIN, 2003; DASGUPTA; KALPAKIS; NAMJOSHI, 2003), fus ˜ao

de dados (DURRANT-WHYTE, 1988; BROOKS; IYENGAR, 1997; LUO; YIH; SU,

2002; NAKAMURA; LOUREIRO; FRERY, 2007) ou stream de dados, como apre-sentado neste trabalho. Para as aplicaç ões de consultas, a rede é vista como um

grande banco de dados onde operaç ões sobre os dados s ão calculadas internamente

na rede (ABADI et al., 2004; MADDEN et al., 2005). Essa ´e a abordagem tradicional

para utilizac¸ ˜ao destreamde dados em redes de sensores.

De acordo com Loureiro et al. (2003), as redes de sensores sem fio possuem cinco

fun-cionalidades b ásicas: o estabelecimento que consiste na configuraç ão inicial da rede;

a manutenç ão que consiste na adaptaç ão da rede às mudanças de configuraç ões

que surgem ao longo do tempo; o sensoriamento que trata da coleta de dados

so-bre o ambiente; o processamento dos dados a serem enviados para o sorvedouro; e

a comunicaç ão que é respons ável pelo envio desses dados. Discutiremos de forma

mais detalhada apenas as funcionalidades de estabelecimento e manutenc¸ ˜ao, mais

especificamente a tarefa de roteamento por estar diretamente relacionada ao

meca-nismo de infraestrutura explorado neste trabalho.

O estabelecimento de uma rede de sensores basicamente envolve a deposic¸ ˜ao dos

n ós na área a ser monitorada e na formaç ão da rede. Essa fase ocorre antes do

senso-riamento, e assim, os n ós podem realizar tarefas de controle de densidade, formaç ão

de agrupamentos e montagem da estrutura de roteamento. Ap ´os o estabelecimento

(36)

tempo de vida da rede. Segundo Loureiro et al. (2003): “O objetivo da manutenç ão é

prolongar o tempo de vida da rede, reduzir a imprevisibilidade e atender aos requisitos

da aplicaç ão, pois ao longo do tempo alguns n ós atingem n´ıveis de energia que

po-dem restringir de forma parcial ou total sua capacidade”. Todas as tarefas realizadas

para o estabelecimento da rede devem ser repetidas durante a manutenc¸ ˜ao, seja

pe-riodicamente ou na ocorr ência de um determinado evento. Essa decis ão depender á

do objetivo da aplicac¸ ˜ao.

Uma das tarefas que ´e considerada tanto na fase de estabelecimento como na fase de

manutenç ão é a montagem da estrutura de roteamento. Uma abordagem bastante

uti-lizada em redes de sensores para essa tarefa ´e o roteamento baseado em ´arvore cuja

montagem consiste em configurar os n ´os da rede para que eles saibam para qual

vizi-nho enviar suas informac¸ ˜oes sensoriadas (FIGUEIREDO et al., 2005; NAKAMURA et

al., 2005). Basicamente um algoritmo de roteamento baseado em ´arvore ´e composto

pelas seguintes fases:

• Construç ão da árvore que é baseada em alguns requisitos de rede ou da aplica-ç ão. É constru´ıda, via inundaç ão†_{do sorvedouro para os n ós. ´}_{E nesse momento}

que as informaç ões da aplicaç ão s ão passadas para os n ós sensores.

• Encaminhamento onde os dados sensoriados pelos n ós fontes s ão encaminha-dos para o sorvedouro. Nessa fase os n ós encaminham os daencaminha-dos sensoriaencaminha-dos,

atrav és da árvore, at é o sorvedouro.

• Reconstruç ão da árvore, em alguns casos, é necess ário reconstruir a árvore pois a topologia da rede pode mudar por falha, desligamento ou esgotamento da

energia dos n ós. A estrat égia de reconstruç ão pode ser feita de forma pr ó-ativa

ou reativa, dependendo do gerenciamento da rede.

Como as redes de sensores s ão centradas nos dados, possivelmente, a informaç ão

presente nos dados ´e importante nas decis ˜oes da camada de roteamento. Caso a

rede tenha restriç ões de energia e atraso, a identificaç ão de dados redundantes na

camada de roteamento pode habilitar reduc¸ ˜oes ou descarte desses dados, ou ainda,

caminhos de roteamento alternativos dentro da rede podem ser utilizados para

entre-gar dados com maior prioridade.

As aplicaç ões para o usu ário em redes de sensores, normalmente, apenas utilizam

a infraestrutura da rede para obter informaç ões do fen ômeno monitorado. Contudo

(37)

existem aplicaç ões que o simples envio das informaç ões sensoriadas n ão é suficiente

e aspectos relacionados com tempo de resposta s ˜ao fundamentais (CHAN; KI; NGAN,

2005; LU et al., 2002). Alguns exemplos dessas aplicaç ões com exig ência de prazos

s ão: aplicaç ões militares que necessitam efetuar a coleta dos dados e atuaç ão no

ambiente monitorado em tempo real; aplicaç ões de segurança que utilizam sensores

ac ´usticos e de v´ıdeo para detectar movimentos e soar algum alarme num intervalo

de tempo bem pequeno; e aplicaç ões para detecç ão em tempo real de bio-ataques

que utilizam sensores para identificar a presenc¸a de elementos biol ´ogicos no corpo

humano ou no ambiente.

Em sistemas embutidos de tempo real tradicional, o prazo da tarefa ´e um ponto cr´ıtico

a ser considerado (tempo real hard). Algoritmos de escalonamento s ˜ao desenvol-vidos para reduzir ou evitar a perda dos prazos, seja estatisticamente ou

dinamica-mente. Em um ambiente din âmico, o mecanismo de controle de admiss ão aceitar á

ou rejeitar á a tarefa baseado na restriç ão de tempo e de outros recursos do sistema.

O projeto dessas aplicaç ões, é mais complexo, pois é concebido para ambientes

es-pec´ıficos (CHAN; KI; NGAN, 2005). Em redes de sensores é comum haver aplicaç ões

de tempo realsoft, pois o ambiente n ão é controlado. A aplicaç ão normalmente usa m étodos probabil´ısticos para tratar o dado e n ão tem confirmaç ão na comunicaç ão.

Esses aspectos tornam o uso de tempo real hard em redes de sensores bem mais dif´ıcil. Por convenç ão, utilizaremos o termo “aplicaç ões de tempo real” ao inv és de

tempo realsoft em redes de sensores.

Considerando as aplicaç ões de tempo real em redes de sensores, utilizar uma soluç ão

que garanta a priori o atendimento dos prazos ´e bem mais dif´ıcil, como dito acima,

devido as caracter´ısticas dessas redes. No entanto, podemos utilizar soluc¸ ˜oes

apro-ximadas que identificam dentro da rede o momento em que os dados n ˜ao podem ser

entregues a tempo, exigindo que algum processamento nos dados seja feito, de tal

forma que alguma informaç ão útil possa chegar para o usu ário dentro dos prazos

exi-gidos. No projeto de um sistema de tempo real para rede de sensores, n ´os devemos

conhecer o comportamento do atraso do envio dos dados para cada soluc¸ ˜ao de uma

dada aplicaç ão e, com isso, aplicar a melhor soluç ão de processamento dos dados

(38)

2.2 Algoritmos de

stream

de dados

Recentemente temos observado um forte crescimento da classe de aplicac¸ ˜oes

data-intensive, onde a melhor forma de modelar o dado n ˜ao ´e como um dado persistente

mas como um stream de dados. Alguns exemplos de dados dessas aplicaç ões s ão:

medidas de rede, registros de chamadas telef ônicas, p áginas web visitadas e dados sensoriados. Comparando stream de dados com dados convencionais, temos que o dado pertencente ao stream chega de forma online, o sistema n ão tem controle na ordem de chegada dos elementos a serem processados, o stream é ilimitado e, a

partir do momento que ele é processado, ele é descartado e apenas a informaç ão

processada ´e armazenada.

Streamde dados foi definido pela primeira vez por Henzinger, Raqhavan e

Rajagopa-lan (1998) como “uma seq ¨uencia de pontos ordenadosV1, . . . ,Vn que devem ser

aces-sados em ordem e que podem ser lidos uma vez ou um pequeno n ´umero de vezes.

Cada leitura é chamada de pass”. Nesse contexto, existem diferentes modelos que descrevem ostreamde dados. Considere ostream de entradaV1,V2, . . .chegando de forma seq üencial, item por item. Essestreamdescreve o sinalV∗_{, que é uma funç ão}

unidimensionalV∗_:_[₁_{. . .}N_]_→R_{. Os modelos s ˜ao diferenciados na forma como os}_V_i_’s

descrevemV∗_{(MUTHUKRISHNAN, 2005). Com isso, temos os seguintes modelos:}

• Time series onde, cada Vi=V∗[i], ou seja, os elementos s ão seq üenciais n ão

possuindo relac¸ ˜ao ente si.

• Cash register onde, cadaVicorresponde a um incremento paraV∗[j]. Considere

Vi = (j,Ii), Ii ≥0 e V_i∗[j] =V_i₋∗₁[j] +Ii, onde o V_i∗ ´e o estado do sinal ap ´os a

mediç ão doi- ésimo termo dostream. Em outras palavras, cada eventoIi possui

uma relac¸ ˜ao com um elemento jque reflete no sinal V∗_.

• Turnstile onde, cada Vi corresponde a uma atualizac¸ ˜ao para V∗[j]. Considere

Vi= (j,Yi)e V_i∗[j] =V_i₋∗₁[j] +Yi, ondeV_i∗ é o estado do sinal ap ós a mediç ão do

i- ´esimo termo dostream eYi pode ser positivo ou negativo. Em outras palavras,

cada eventoYi possui uma relac¸ ˜ao com um elemento j que reflete no sinal V∗,

sendo essa relaç ão de inserç ão ou remoç ão.

Atrav ´es desses modelos, precisamos processar o sinalV∗_{em diferentes momentos do}

stream. Normalmente para obtermos informaç ões sobre ostream, é feito um

(39)

dos itens, mineraç ão dostream,joinse consultas em janelas. Para permitir a avaliaç ão

de soluç ões eficientes sobre esses processamentos é necess ário considerar as

se-guintes medidas de desempenho: tempo de processamento por item Vi do stream,

espac¸o para o armazenamento do itemVi e tempo computacional para computar as

func¸ ˜oes sobreV∗_{. Um fator importante, apenas considerado no contexto de redes de}

sensores, é a comunicaç ão, ou seja, a quantidade de itens de V∗ _{que precisam}

tra-fegar na rede. Essas m ´etricas devem ser levadas em conta, devido `as caracter´ısticas

dostream de dados que exige uma grande capacidade computacional.

De forma geral, alguns princ´ıpios podem ser aplicados ao stream de dados para ob-termos sistemas mais eficientes. Por exemplo, processamento e armazenamento

pa-ralelo, amostragem dos dados para controlar a taxa de transmiss ão ou a utilizaç ão de

m étodos de filtragem e agregaç ão assim que o dado é recebido, deixando c álculos

mais complexos no momento que o dado for utilizado, envolvendo menor volume de

dados. Nessa direç ão existem alguns algoritmos de aproximaç ão com o objetivo de

reduzir o volume dos dados ao selecionar apenas amostras significativas ou ao

rea-lizarem an ´alises dos dados (DATAR; MUTHUKRISHNAN, 2002; MUTHUKRISHNAN,

2005). Dentre os diversos tipos de algoritmos destreamde dados destacamos: janela deslizante, amostragem, rascunho e histograma (BABCOCK et al., 2002), sendo

es-ses os algoritmos que nos baseamos para algumas das soluc¸ ˜oes apresentadas neste

trabalho.

Os algoritmos de janela deslizante consistem em manter uma janela de dados mais

atual, respeitando um tamanho espec´ıfico de janela. Esses algoritmos de aproximac¸ ˜ao

t êm v árias vantagens como, por exemplo, s ão determin´ısticos e possuem um f ácil

entendimento, pois seus m étodos de aproximaç ão s ão claros e o usu ário do sistema

pode confiar nos dados aproximados produzidos. O mais importante ´e que esses

algoritmos enfatizam os dados mais recentes, onde na maioria das aplicac¸ ˜oes reais,

s ˜ao mais importantes que os dados antigos. Por exemplo, na figura 4 um item do dado

chega a cada intervalot e expira em um tempot+N, ondeN ´e o tamanho da janela e, conseq ¨uentemente, a quantidade de dados a ser enviada ou processada (BABCOCK

et al., 2002).

Os algoritmos de amostragem e rascunho consistem em abandonar a id ´eia de fazer

um processamento em cada elemento do dado que chega, aplicando algum tipo de

amostragem e resumo dos dados. Geralmente as amostras utilizadas s ˜ao suficientes

para representar o dado original, como apresentado na figura 5. Os algoritmos de

(40)

. . . . 2 7 1 6 5 8 ? ? ?

t + N t

Dado Recente Dado

Passado

Dado Futuro Stream:

FIGURA 4 – T ´ecnica de janela deslizante para o tratamento dostream de dados.

freq ü ência dos dados, como ilustrado na parte inferior da figura 6. Essas informaç ões

s ˜ao utilizadas para inferir propriedades a respeito do total dos dados, por ´em a escolha

da melhor informaç ão para compor o resumo depende da aplicaç ão (BABCOCK et al.,

2002).

9 3 5 2 7 1 6 5 8 4 Stream:

10 Elementos

9 5 1 8 Amostra:

9 5 1 8

FIGURA 5 – T ´ecnica de amostragem para o tratamento dostreamde dados.

Algoritmos baseados em histograma s ão utilizados para capturar uma distribuiç ão do

conjunto dos dados, ou seja, os dados s ão analisados e acumulados em relaç ão ao

seu tipo, de tal forma que apenas um dado dessa distribuic¸ ˜ao seja armazenado. Um

histograma é constru´ıdo atrav és da utilizaç ão de uma regra de particionamento na

distribuiç ão dos dados formando conjuntos distintos que s ão as colunas. Nas colunas

est ão armazenadas as aproximaç ões das freq ü ências de ocorr ência dos valores mais

comuns. Sobre cada valor do atributo na coluna ´e assumido que algum valor entre o

menor e o maior elemento pode ocorrer. Na pr ática as colunas guardam a informaç ão

do total de ocorr ˆencias, o menor e maior valor ocorrido para cada dimens ˜ao e o

n úmero de valores distintos (IOANNIDIS; POOSALA, 1999). As informaç ões que

comp ˜oem um histograma s ˜ao ilustradas na figura 6. Uma caracter´ıstica importante

desses algoritmos é que os histogramas s ão constru´ıdos emO(n), sendono n úmero de elementos do stream, lendo os dados de forma online sem a necessidade de ar-mazen á-los.

Como dito anteriormente, existe uma forte relaç ão entre stream de dados e redes de sensores. Por ém os algoritmos de stream tradicionais n ão podem ser aplicados

di-retamente em redes de sensores devido `as diferenc¸as encontradas entre o stream

(41)

Stream:

min = 1, max = 100, intevalo = 10 Dados:

1 1000

. . . 5%8% 6%

10%

6% 10%

FIGURA 6 – Informac¸ ˜oes extra´ıdas dostreamde dados pelos algoritmos de rascunho e histograma.

ao se projetar algoritmos de stream de dados para as redes de sensores (ELNAH-RAWY, 2003).

2.3 An ´alise de componentes principais e estudo da

qua-lidade dos dados reduzidos

Neste trabalho utilizamos, para diferentes fins, duas importantes ferramentas

estat´ısti-cas: an álise de componentes principais para auxiliar na reduç ão de dados

multivari-ados; e o teste Kolmogorov-Smirnov para avaliar a qualidade dos dados reduzidos.

Ambos os mecanismos ser ˜ao detalhados a seguir.

2.3.1 An ´alise de componentes principais - PCA

A transformac¸ ˜ao de componentes principais†_{(KRZANOWSKI, 1995; JACKSON, 2003),}

tamb ém conhecida como transformaç ão de Karhunen-Lo ève, é uma das

ferramen-tas mais poderosas para o tratamento de dados multivariados. É uma transformaç ão

entre espac¸os γ-dimensionais, derivada da matriz de covari ˆancia dos dados de

en-trada gerando um novo conjunto de dados, de modo que cada valor resultante ´e uma

combinaç ão linear dos valores originais. O n úmero de componentes principais é igual

ao n ´umero de dimens ˜oes dos dados originais e esses podem ser ordenados de acordo

com a sua vari ˆancia. Com isso, o primeiro e ´ultimo componentes principais devem ter

a maior e a menor vari ˆancia, respectivamente.

A propriedade mais importante do novo conjunto de dados gerado pelo PCA ´e que os

dados n ão apresentam correlaç ão (JACKSON, 2003), garantindo dessa forma que n ão

haja redund ˆancia entre os dados e que seja obtido um novo conjunto de dados com

†_{An álise de componentes principais é abreviada na literatura como PCA do ingl ês}_Principal

(42)

propriedades para an álise multivariada. A transformaç ão de componentes principais

pode ser descrita nas seguintes etapas:

1. Calcular Σ, a matriz de covari ância dos dados (vamos supor que ela é definida positiva pois estamos tratando de vari âncias).

2. DecomporΣnos autovetoresU e autovaloresλ. Essa matriz ser á diagonaliz ável uma vez que a matriz de covari ância é definida positiva (KRZANOWSKI, 1995).

3. Calcular o novo conjunto de dados, multiplicando o valor de cada vari ´avel pela

matriz dos autovetores.

Os autovalores representam o comprimento dos eixos dos componentes principais

do conjunto de dados e s ˜ao medidos na unidade da vari ˆancia. Associado a cada

autovalor, existe um vetor de m ´odulo unit ´ario chamado autovetor. Os elementos de

cada autovetor s ão fatores de ponderaç ão que definem a contribuiç ão da vari ável da

matriz de dados original para um componente principal, numa combinac¸ ˜ao linear. Os

autovetores representam as direc¸ ˜oes dos eixos das componentes principais.

O m ´etodo de componentes principais pode ser formulado da seguinte forma: dada

uma matriz de dados originaisV, com s vari áveis correlacionadas, aplicar PCA con-siste em calcular a matrizC, que possuisvari áveis n ão correlacionadas, de forma que cada componente principal ser á calculado por

Ci=u′i[V−V], (2.1)

onde para cada1_≤i_≤s,ui= (ui,1, . . . ,ui,s) ´e o autovetorida matriz de covari ˆancia dos

dadosV.

Outra propriedade importante do PCA é que a equaç ão (2.1) pode ser invertida

res-taurando as vari áveis originais em funç ão dos componentes principais. Para isso

utili-zamos

V =V+U C, (2.2)

devido aU ser ortonormal (WINTERLE; STEINBRUCH, 1987), temosU−1=U′; com isso, dada a matrizC, os dados originaisV podem ser unicamente determinados pela equac¸ ˜ao (2.2).

No contexto do nosso trabalho o PCA ´e utilizado para classificar os dados

multivari-ados, de tal forma que escolhemos apenas os dados mais correlacionados para

(43)

2.3.2 Qualidade dos dados reduzidos

Ao efetuarmos a reduç ão dos dados é importante avaliar o quanto o dado reduzido

representa o dado original. Nessa direç ão, duas an álises foram realizadas no nosso

trabalho: a aproximaç ão entre as distribuiç ões de freq ü ência dos dados originais e

amostrados; e a discrep ˆancia entre os valores originais e amostrados.

Para a avaliaç ão da aproximaç ão entre as distribuiç ões de freq ü ência dos dados

ori-ginais e amostrados utilizamos o teste de Kolmogorov-Smirnov (teste KS) (SIEGEL;

CASTELLAN, 1988; RESCHENHOFER, 1997). Esse teste avalia se duas amostrasV

eV′t êm distribuiç ões similares n ão exigindo que as amostras sigam a distribuiç ão nor-mal, ou seja, caso os valores amostrados sigam outra distribuiç ão este teste tamb ém

pode ser utilizado. O teste KS ´e descrito a seguir:

1. Construir a distribuiç ão acumuladaFn dos dois gruposV eV′usando a mesma classe para ambas as distribuiç ões.

2. Determinar as diferenças acumuladas para cada ponto da distribuiç ão e

consi-derar a maior das diferenc¸as (Dmax).

3. Computar o valor cr´ıtico,

Dcrit =y

p

(_|V_|+_|V′_|)/_|V_||V′_|

ondey ´e um valor tabulado e representa o n´ıvel de signific ˆancia do teste.

4. As amostras seguem a mesma distribuic¸ ˜ao se

Dmax ≤Dcrit. (2.3)

Apenas como ilustraç ão, considere a figura 7 que apresenta a comparaç ão entre as

distribuiç ões de freq ü ência acumulada, com _|V_|=256 e _|V′_|=_{log_|V_|,_|V_|/2_}† onde

V′ _⊂V. Em ambos os casos, atrav és do teste KS, temos que V′ segue a mesma distribuiç ão deV.

Como o teste KS apenas identifica se duas amostras seguem a mesma distribuiç ão, é

importante avaliar se os conjuntosV eV′possuem a m édia de seus valores pr óximos. Para isso podemos calcular a maior dist ância entre V e os valores do intervalo de confiançaIC= [vin f;vsup]deV. Os passos para essa avaliaç ão s ão descritos a seguir:

†_{Em todo o trabalho, ao utilizarmos}_log_{x, estaremos sempre nos referindo ao logaritmo de}_x_{na base}

(44)

0.40 0.45 0.50 0.55 0.60 0.65 0.70

0.0

0.4

0.8

Função distribuição acumulada − |V| vs. log |V|

x

Fn(x)

(a) Comparando com log dos dados.

0.40 0.45 0.50 0.55 0.60 0.65 0.70

0.0

0.4

0.8

Função distribuição acumulada − |V| vs. |V|/2

x

Fn(x)

(b) Comparando com a metade dos dados.

FIGURA 7 – Funç ão da distribuiç ão acumulada para 256 valores.

1. Obter a m ´edia dos valores dos dados reduzidos e originais, que s ˜ao

respectiva-menteV eV′.

2. Calcular o intervalo de confianc¸aICcom confianc¸a de 95% paraV′.

3. Calcular o valor absoluto da maior diferenc¸a entreV eIC

ε =max_{|vin f −V|,|vsup−V|}. (2.4)

Essas duas an ´alises s ˜ao utilizadas no nosso trabalho com o objetivo de identificar

o comportamento dos fen ˆomenos monitorados e reportados pelos sensores ap ´os

al-guma reduc¸ ˜ao ser efetuada.

2.4 Trabalhos relacionados

Os trabalhos relacionados est ˜ao agrupados nos seguintes t ´opicos: algoritmos de

stream de dados; stream de dados em redes de sensores; soluc¸ ˜oes alternativas

ao processamento do stream; soluç ões de roteamento em redes de sensores; e aplicaç ões de tempo real em redes de sensores.

2.4.1 Stream

de dados em redes de sensores

Considerando apenas os estudos relacionados aos algoritmos de stream de dados,

esses est ˜ao quase sempre voltados a estabelecer limites inferiores para a classe

(45)

e espac¸o (ALON; MATIAS; SZEGEDY, 1996; HENZINGER; RAQHAVAN;

RAJAGO-PALAN, 1998; IOANNIDIS; POOSALA, 1999; DATAR et al., 2002; CORMODE et

al., 2003; GUHA et al., 2003; MUTHUKRISHNAN, 2005; AL-KATEB; LEE; WANG,

2007; LIAN; CHEN, 2008; ALTIPARMAK; TUNCEL; FERHATOSMANOGLU, 2008).

Existem propostas que apresentam aplicac¸ ˜oes de stream de dados para resolver

problemas espec´ıficos modelados usando algoritmos de stream de dados (INDYK, 1999; BAR-YOSSEFF; KUMAR; SIVAKUMAR, 2002; CHARIKAR; CHEN;

FARACH-COLTON, 2002; DATAR; MUTHUKRISHNAN, 2002; BURIOL et al., 2005, 2006b, 2006a;

AKCAN; BRONNIMANN, 2007; NASRAOUI et al., 2008; CAMMERT et al., 2008). No

entanto, ao considerarmos a utilizaç ão dos algoritmos destream de dados em redes de sensores, em alguns casos, é feita uma abstraç ão da rede, ao utilizar uma camada

de software chamada de Data Stream Management System (DSMS). O problema a

ser resolvido com essas aplicaç ões é de como responder às consultas efetuadas pelo

usu ´ario (BABCOCK et al., 2002; GEHRKE; MADDEN, 2004; ABADI et al., 2004;

MAD-DEN et al., 2005; ROHM; SCHOLZ; GABER, 2007; XU; TANG; LEE, 2008). Algumas

propostas usam ostream para extrair informac¸ ˜oes de gerenciamento da rede de

sen-sores, tais como energia, agrupamento e localizaç ão de n ós (BABU; SUBRAMANIAN;

WIDOM, 2001; LEDLIE; NG; HOLLAND, 2005; PHUNG; GABER; ROHM, 2007). O

que diferencia esses trabalhos do nosso ´e que al ´em de estarmos utilizando os

algorit-mos destreamde dados como parte integrante das redes de sensores, utilizamos as

informaç ões extra´ıdas dostreampara auxiliar a infraestrutura da rede, no nosso caso o roteamento, o que n ão é considerado nesses trabalhos.

2.4.2 Soluc¸ ˜oes para o processamento dos dados monitorados em

redes de sensores

Para o problema de reduç ão de dados e manutenç ão de qualidade do dado em

re-des de sensores existem trabalhos que prop õem a utilizaç ão de amostragem

adap-tativa, ou seja, `a medida que o fen ˆomeno monitorado se modifica, a forma de

amos-tragem se adapta para obter dados mais precisos. Al ´em disso, existem trabalhos

que observam os dados objetivando identificar dados correlacionados e eliminar

re-dund ˆancia (MARBINI; SACKS, 2003; JAIN; CHANG, 2004; GANESAN et al., 2004;

WILLETT; MARTIN; NOWAK, 2004; CHEN; KNOW; CHOI, 2006; ALIPPI et al., 2007;

GEDIK; LIU; YU, 2007; YUEN; LIANG; LI, 2008). Tamb ´em existem trabalhos que

fa-zem fus ão, compress ão, correlaç ão, reduç ão de dados ou agregaç ão, normalmente

(46)

economi-zar recursos da rede, como energia, tempo de resposta e perda de pacotes

(KRISHA-NAMACHARI; ESTRIN; WICKER, 2002; DASGUPTA; KALPAKIS; NAMJOSHI, 2003;

ZHAO; GOVINDAN; ESTRIN, 2003; ZHU; PAPAVASSILIOU, 2004; SANTINI; ROMER,

2006; BROWN; SREENAN, 2007; KIM; PARK; CHO, 2007; NAKAMURA; LOUREIRO;

FRERY, 2007; ZHENG; BARTON, 2007; GUITTON; SKORDYLIS; TRIGONI, 2007;

YUEN; LIANG; LI, 2008; YU; KRISHNAMACHARI; PRASANNA, 2008). Al ´em disso,

existem t écnicas para reduç ão de dados multivariados que utilizam m étodos para

es-timar o comportamento do dado a ser sensoriado e envia apenas as diferenc¸as

ob-servadas ao longo do tempo (SEO; KANG; RYU, 2005; LI; ZHANG, 2006; SCHIZAS;

GIANNAKIS; LUO, 2007; CVEJIC; BULL; CANAGARAJAH, 2007). O que diferencia

esses trabalhos do nosso é que essas propostas, n ão s ão baseadas nas t écnicas de

streamde dados, apesar de n ˜ao terem dispon´ıveis todos os dados para o seu

proces-samento.

2.4.3 Redes de sensores sem fio hier ´arquicas

Existem v árias soluç ões para os diversos problemas de agrupamentos em redes de

sensores que podem ser vistos em diversossurveysda ´area (POTTIE; KAISER, 2000; AKYILDIZ et al., 2002; LOUREIRO et al., 2003). No entanto, de forma geral as

soluç ões est ão relacionadas a melhorar o desempenho da rede atrav és da utilizaç ão

de agrupamentos ou encontrar a melhor maneira de montar o agrupamento de acordo

com o interesse da aplicac¸ ˜ao (KRISHNA et al., 1997; BASAGNI, 1999; BANERJEE;

KHULLER, 2001; KARAATA, 2006; VLAJIC; XIA, 2006; CHANG; LIN; CHEN, 2006;

YADAV; YADAV; VARMA, 2007; SOLTAN; MALEKI; PEDRAM, 2007; MUDUNDI; ALI,

2007; REIS et al., 2007; LIAN; NAIK; AGNEW, 2007). Al ´em disso, existem algumas

soluç ões que utilizam agrupamentos na rede com o objetivo de atender às

necessida-des das aplicaç ões fazendo reduç ão, agregaç ão e o processamento dos dados

(HEIN-ZELMAN; CHANDRAKASAN; BALAKRISHNAN, 2000; PHAM; KIM; MOH, 2004; LEE;

CHUNG, 2005; CHEN; LIESTMAN; LIU, 2006; GAO et al., 2007; LIU; WU; PEI, 2007).

O que diferencia esses trabalhos do nosso é que essas propostas n ão s ão baseadas

(47)

2.4.4 Soluc¸ ˜oes de roteamento em redes de sensores

V árias soluç ões para os problemas de roteamento em redes de sensores podem ser

vistos em algunssurveysda área (ESTRIN et al., 1999; ROYER; TOH, 1999; ESTRIN et al., 2001; LUO; LIU; DAS, 2007). Enfatizamos apenas às soluç ões relacionadas

com roteamento em ´arvores pois foi a t ´ecnica abordada neste trabalho. Sabemos

que as soluç ões, para o problema de roteamento, podem ser reativas ou pr ó-ativas,

onde as árvores s ão montadas levando em consideraç ão aspectos da rede como

vizi-nho mais pr ´oximo ou vizivizi-nho com mais energia residual (HEINZELMAN; KULIK;

BA-LAKRISHNAN, 1999; SOHRABI et al., 2000; INTANAGONWIWAT et al., 2003;

HEI-DEMANN; SILVA; ESTRIN, 2003; FIGUEIREDO et al., 2005; VASS; VIDACS, 2007;

ZHANG; MA; YANG, 2008). Como as redes de sensores s ˜ao centradas nos dados,

é importante que as soluç ões de roteamento levem em consideraç ão aspectos dos dados. Por ém boa parte dessas soluç ões desconsideram o dado sensoriado para

montar a ´arvore de roteamento e nenhuma delas consideram t ´ecnicas de stream de

dados. O que diferencia esses trabalhos do nosso é que utilizamos as informaç ões

contidas no stream para tomar decis ˜oes na camada de roteamento como o objetivo de reduzir os dados.

2.4.5 Aplicac¸ ˜oes de tempo real em redes de sensores

As pesquisas relacionadas com aplicac¸ ˜oes de tempo real em redes de sensores, no

geral, est ão voltadas a arquiteturas e modelos matem áticos para aplicaç ões gerais (LU

et al., 2002; HE et al., 2003; LI; SHENOY; RAMAMRITHAM, 2004; CHAN; KI; NGAN,

2005; ZHOU; XIONG; LIN, 2007; AFONSO et al., 2007). No entanto, ´e poss´ıvel

encon-trar algumas soluç ões, de roteamento e/ou aplicaç ão, direcionadas para aplicaç ões

espec´ıficas (PENG et al., 2007; PAN et al., 2007; LI; GU; ZHAO, 2007). Essas

propos-tas consideram os prazos e a energia, como principais m ´etricas a serem estudadas.

Isso ocorre porque os prazos s ão importantes em aplicaç ões de tempo real e energia

é um recurso n ão renov ável em redes de sensores, necessitando de uma atenç ão especial. O que diferencia esses trabalhos do nosso é que efetuamos de formaonline

simult âneas reduç ões permitindo que a rede possa atender aos prazos exigidos pela

(48)

(49)

3 PROBLEMA DE REDUC

¸ ˜

AO DE DADOS

EM REDES DE SENSORES SEM FIO

“Aprender sem pensar ´e trabalho perdido.” (Conf ´ucio)

C

OMO discutido anteriormente, as redes de sensores sem fio consistem de dispo-sitivos de sensoriamento aut ˆonomos que trabalham de forma distribu´ıda e

coope-rativa com o objetivo de monitorar condic¸ ˜oes f´ısicas ou ambientais, tais como

tempe-ratura, som, vibraç ões, press ão, movimento ou poluiç ão (ROMER; MATTERN, 2004).

Tais sistemas f´ısicos ou ambientais podem ser representados pelo diagrama mostrado

na figura 8, ondeN _{denota o ambiente e o processo a ser medido,}_F _{´e o fen ˆomeno de}

interesse, comV∗ _{seu dom´ınio espaço-temporal. Se uma observaç ão foi completada}

sem problemas, teremos um conjunto de regras (R∗) ideais para tomada de decis ˜oes ideais (D∗). De acordo com essas caracter´ısticas n ´os consideramos V∗ _o _stream _de

dados.

D∗

N V∗ V _D

V′ _D′

w

F

u

R∗

w

S

w

R

u

Ψ

w

R′

FIGURA 8 – Representaç ão de um sistema de uma rede de sensores onde é mostrado o comportamento ideal (N _→V∗_→_D∗_{), sensoriado (}N _→V∗_→V _→_D_{) e reduzido}

(N _→V∗_→V _→V′_→_D′_).

Ao inv és de uma situaç ão ideal, temos um conjunto de s sensores, S= (S1, . . . ,Ss),

monitorando um fen ˆomeno e produzindo conjuntos de amostras no dom´ınio V_i_{, com}

1_≤i_≤s; todos os poss´ıveis conjuntos do dom´ınio s ˜ao denotados porV _{= (}V₁_{, . . . ,}V_s₎_.