• Nenhum resultado encontrado

Amostragem de dados em redes de sensores baseada em Teoria da Informac¸˜ao

2. Materiais e M´etodos

2.1. Teoria da Informac¸˜ao

Bandt e Pompe (Bandt and Pompe. 2002) desenvolveram um m´etodo que “naturalmente” determina a sequˆencia de s´ımbolos adequada dos valores da s´erie temporal, sem suposic¸˜oes adicionais do modelo. Eles determinam as partic¸˜oes adequadas do espac¸o-estado recorrendo a uma comparac¸˜ao adequada entre os valores das s´eries vizinhas. Para qualquer s´erie, eles procuram certos padr˜oes ordinais de ordem D. Da freq¨uˆencia de ocorrˆencia do s´ımbolo, deduzem uma distribuic¸˜ao de probabilidade de permutac¸˜ao. As vantagens do m´etodo de Bandt e Pompe residem em (a) sua simplicidade, (b) o processo de c´alculo associado extremamente r´apido, (c) sua robustez e (d) sua invariˆancia com respeito a transformac¸˜oes mon´otonas n˜ao-lineares.

A ´unica condic¸˜ao para a aplicabilidade da metodologia Bandt-Pompe ´e uma suposic¸˜ao estacion´aria muito fraca, isto ´e, para k = D, a probabilidade de xt<xt+kn˜ao deve depender de t. A distribuic¸˜ao

de probabilidade P ´e obtida uma vez que fixamos a dimens˜ao de incorporac¸˜ao D e esse parˆametro de- sempenha um papel importante para a avaliac¸˜ao da distribuic¸˜ao de probabilidade apropriada, uma vez que D determina o n´umero de estados acess´ıveis D!, portanto, o comprimento T da s´erie temporal deve satisfazer a condic¸˜ao T � D! a fim de obter estat´ısticas confi´aveis.

A Entropia cl´assica de Shannon [Shannon. 1948] mede a desordem de um sistema, considerando a probabilidade do sistema apresentar um estado k. Dada uma func¸˜ao de probabilidade P = {pk: k =

1,...,M} sobre M valores, a medida de informac¸˜ao logar´ıtmica de Shannon ´e dada por: S(P) = −

M

k

pκlogpκ

Essa medida ´e relacionada com a informac¸˜ao associada ao processo f´ısico descrito por P. Se S[P] = 0, ent˜ao o conhecimento sobre o fenˆomeno descrito pela distribuic¸˜ao de probabilidade ´e m´aximo e os poss´ıveis resultados podem ser previstos com absoluta certeza. Por outro lado, o conhecimento ´e m´ınimo para uma distribuic¸˜ao uniforme, como por exemplo, uma s´erie constante. O valor da Entropia de Shannon normalizada (Hs∈ [0,1]) ´e

Hs[P] = S[P]/Smax

com Smax=S[Pe] =ln N e Pe={1/N,...,1/N} ´e a distribuic¸˜ao uniforme.

O conceito de Complexidade Estat´ıstica foi introduzido por L´opez et al. (Lopez-Ruiz et al. 1995) e depois modificado por Lamberti et al. (Lamberti et al. 2004). O desequil´ıbrio do sistema na mecˆanica estat´ıstica ´e medido atrav´es do divergente de Jenson-Shannon dado por

QJS = Q0{S[(P + Pe)/2] − S[P]/2 − S[Pe]/2}

onde Q0´e constante de normalizac¸˜ao (0 ≤ Q0≤ 1) dada por

Q0=−2.{(N + 1N ).log(N + 1) − 2.log(2N) + log(N)} −1

A Complexidade Estat´ıstica C mede o desequil´ıbrio do sistema baseado no conte´udo da informac¸˜ao descrita pela distribuic¸˜ao de probabilidade P e sua Entropia S, sendo definida como o produto do diver- gente Q pela entropia normalizada H (Rosso et al. 2007):

CJS[P] = HS[P].QJS[P,Pe]

A Complexidade de um sistema ´e nula em duas situac¸˜oes opostas extremas: no conhecimento perfeito ou na aleatoriedade completa. Qualquer tipo de sistema se situar´a entre essas configurac¸˜oes extremas.

O plano de causalidade entropia-complexidade ´e definido como o diagrama bidimensional obtido pela plotagem da complexidade estat´ıstica da permutac¸˜ao (eixo vertical) versus a entropia de permutac¸˜ao (eixo horizontal) para um dado sistema (Rosso et al. 2007). O termo “causalidade” lembra o fato de que as correlac¸˜oes temporais entre as amostras sucessivas s˜ao levadas em considerac¸˜ao atrav´es do PDF- Bandt-Pompe usado para estimar ambos os quantificadores da Teoria da Informac¸˜ao.

2.2. Experimento

Com o prop´osito de encontrar o per´ıodo mais adequado para efetuar coleta em um conjunto de informac¸˜oes, desenvolvemos um algoritmo que, utilizando teoria da informac¸˜ao, determina esse valor a partir de um conjunto de dados previamente armazenado, com per´ıodo de coleta de 1 segundo. Inicial- mente, assumimos o comportamento ideal do fenˆomeno segundo o modelo

N→ V∗P → k,R

onde N denota o ambiente, P ´e o fenˆomeno avaliado e V ∗ ´e o dom´ınio espac¸o-temporal. Ent˜ao, temos um algoritmo R que estabalece regras para se encontrar o per´ıodo de amostragem ideal K.

variac¸˜ao na dinˆamica do sistema. Esse Ponto de Corte ´e determinado a partir de intervalos de estabilidade do sistema nos eixos de Entropia e Complexidade, os quais est˜ao centrados nos valores de Entropia de Shannon S e Complexidade Estat´ıstica C que foram calculados para a entrada de tamanho T . Os limites esquerdo e direito s˜ao calculados utilizando um raio de 6% de distˆancia dos valores de S e C, ou seja, o limite esquerdo do intervalo de estabilidade de S ´e 6% menor que a Entropia calculada, enquanto o limite direito ´e 6% maior. De maneira anal´oga, constru´ımos o intervalo de estabilidade de C.

Ap´os a construc¸˜ao do Ponto de Corte, ´e poss´ıvel fazer uma an´alise do restante do conjunto de dados ainda n˜ao avaliados e, a partir deles, determinar o per´ıodo mais adequado de amostragem.

Como o tamanho do vetor de entrada a ser avaliado pelo m´etodo de Bandt And Pompe deve ser cons- tante, ent˜ao o tamanho do bloco de dados selecionado do conjunto V deve ser diretamente proporcional ao per´ıodo de amostragem, por exemplo, se o per´ıodo testado for de 8 segundos, ent˜ao o bloco deve ter tamanho 8T , j´a que T ´e o tamanho do bloco de entrada inicial. A fim de determinar o intervalo de amostragem mais adequado buscando utilizar o menor conjunto de dados poss´ıvel, determinamos que os valores investigados deveriam crescer exponencialmente, utilizando potˆencias de base 2, pois, dessa forma, encontraremos de maneira mais r´apida e econˆomica o valor m´aximo para o intervalo de amostra- gem que ´e capaz de conservar a dinˆamica do sistema. Assim, podemos generalizar o intervalo de dados que vai estar associado a uma amostragemα, onde α ´e uma potˆencia de 2 maior que 1, sendo dado pelas equac¸˜oes:

(1) In´icio : 1 + T.α/2−1

i=0 2 i

(2) Final : In´icio − 1 + T.α

Para determinar se um determinado valor de amostragem se adequa a dinˆamica do sistema, ou seja, a coleta de dados feita segundo esse intervalo conserva o comportamento do fenˆomeno, basta efetuar o c´alculo da Entropia de Shannon S e da Complexidade Estat´ıstica C e avaliar se o par ordenado (S,C) respeita as condic¸˜oes determinadas pelo Ponto de Corte de complexidade m´axima.

Esse procedimento ´e repetido, aumentando o per´ıodo de amostragem exponencialmente, at´e que um valor testado n˜ao respeite as condic¸˜oes estabelecidas pelo Ponto de Corte, o que significa que a coleta feito segundo esse per´ıodo n˜ao ´e capaz de avaliar a dinˆamica do fenˆomeno P e portanto, o per´ıodo mais adequado de amostragem para o conjunto de entrada avaliado ´e dado pelo ´ultimo valor que respeitou as condic¸˜oes do Ponto de Corte.

Em seguida, a fim de avaliar se o valor encontrado ´e capaz de preservar a dinˆamica de todo nosso conjunto de dados, efetuamos processo an´alogo ao descrito anteriormente. Entretanto, desta vez o tama- nho de bloco de entrada ´e constante e ´e dado pelo produto entre T , que ´e o tamanho do amostra inicial do conjunto de dados, e o per´ıodo calculado na etapa anterior. Caso o valor n˜ao respeite os limites do Ponto de Corte, decrementa-se uma unidade do intervalo de amostragem e repete-se o processo, at´e que toda a base de dados seja avaliada e dessa forma, o per´ıodo mais adequado de amostragem ´e determinado.

3. Resultados e Discuss˜ao

Neste trabalho, foi utilizado um conjunto de dados coletados por um sensor do modelo MICAz (mi- caz datasheet-t), o qual pode atuar no monitoramento de temperatura, press˜ao, umidade, luminosidade e acelerac¸˜ao. Para avaliar nosso algoritmo, adotamos os dados de temperatura como parˆametro, em uma base que possui 779.037 coletas que foram realizadas em intervalos de 1 em 1 segundo, durante exatos 9 dias 23 minutos e 57 segundos.

Inicialmente, tomamos um bloco de entrada de tamanho T = 1800, o que representa 30 minutos de coleta de dados j´a que o intervalo adotado para montar nossa base foi de 1 segundo. Com T = 1800, tomamos o parˆametro D = 4, respeitando a condic¸˜ao de que T � D!, j´a que 1800 � 4! = 24.

Utilizando esse conjunto de entrada, foram efetuados os c´alculos da Entropia de Shannon S e da Complexidade Estat´ıstica C e o resultado foi plotado no plano S x C, tamb´em conhecido como plano de causalidade Complexidade-Entropia, mostrado na figura 1.

Obtivemos 0.703967236715 e 0.250448719024 como resultados para Entropia e Complexidade, res- pectivamente, e a partir desses valores foi contru´ıdo o Ponto de corte de complexidade m´axima. Os intervalos de estabilidade foram criados utilizando um raio de 6%, como descrito anteriormente, e seus limites encontram-se na tabela 1. Al´em disso, o Ponto de Corte de complexidade m´axima pode ser visto na figura 1.

Figura 1:Plano de corte da Complexidade m´axima Tabela 1:Intervalos de Estabilidade

Intervalos de Estabilidade Valor M´ınimo Valor M´aximo

Entropia 0.661729202512 0.746205270918

Complexidade 0.235421795883 0.265475642166

Em seguida, como o bloco referente aos 1800 primeiros dados coletados j´a havia sido utilizado com o prop´osito de determinar o Plano de corte de complexidade m´axima, ent˜ao nosso algoritmo inicia ava- liando o bloco de dados de tamanho 3600, j´a que o intervalo de amostragem testado ser´a de 2 segundos, que incorpora as coletas de n´umero 1801 a 5400, valores que podem ser determinados utilizando as equac¸˜oes (1) e (2).

Efetuando esse algoritmo, encontramos o intervalo mais adequado de amostragem de 64 segundos para nosso conjunto de dados. Ao testarmos com o intervalo de 128 segundos, houve uma variac¸˜ao brusca da dinˆamica do sistema, determinada pela an´alise utilizando o Ponto de corte de complexidade m´axima, como mostrado na figura 2, juntamente com os pares ordenados referentes as demais amostragens, estes dentro da regi˜ao determinada pelo Ponto de corte.

Os valores encontrados para a Entropia de Shannon e Complexidade Estat´ıstica calculados para cada intervalo de amostragem s˜ao apresentados na tabela 2.

Figura 2: Pares ordenados de todas as avaliac¸˜oes realizadas

Tabela 2:Resultados de todas as avaliac¸˜oes realizadas

Intervalo Entropia Complexidade

1 0.703967236715 0.250448719024 2 0.714874000516 0.238466122828 4 0.696397684435 0.244456878163 8 0.689182409468 0.25223652103 16 0.716034250358 0.247977780606 32 0.725948153183 0.235919498945 64 0.716873676818 0.236542262573 128 0.726076560476 0.234652136216

O ´ultimo passo ´e avaliar se o valor encontrado ´e capaz de preservar a dinˆamica de todo nosso conjunto de dados, fazendo processo semelhante ao utilizado anteriormente. Desta vez o tamanho de bloco de entrada ´e constante e dado por 64.T = 64.1800 = 115200, o equivalente `a 32 horas. Ap´os realizarmos esse novo montante de avaliac¸˜oes, constatamos que o intervalo mais adequado de amostragem para nosso conjunto de dados n˜ao sofreu alterac¸˜ao, permanecendo em 64 segundos.

4. Conclus˜ao

Na abordagem de Teoria da Informac¸˜ao apresentada, desenvolvemos um m´etodo para encontrar o intervalo de amostragem mais adequado que se baseia nas seguintes etapas: Avaliac¸˜ao de uma porc¸˜ao do conjunto de dados utilizando intervalo de 1 segundo, a fim de determinar o comportamento mais pr´oximo possivel do fenˆomeno segundo os parˆametros de Entropia de Shannon S e Complexidade Estat´ıstica C; construc¸˜ao dos intervalos de estabilidade e a partir deles foi criado o Ponto de Corte de Complexidade m´axima, delimitador que indica que a dinˆamica do sistema se assemelha ao seu comportamento real; estudo do conjunto de dados para determinar o valor procurado, utilizando o Ponto de Corte como re- ferˆencia para a avaliac¸˜ao dos resultados de entropia e complexidade encontrados; o ´ultimo passo ´e avaliar se o intervalo encontrado no passo anterior ´e realmente v´alido para todo o conjunto de dados armaze- nados. Em caso negativo, ele ´e decrementado de uma unidade e a avaliac¸˜ao ´e refeita, utilizando as informac¸˜oes que ainda n˜ao haviam sido estudadas.

A identificac¸˜ao desse intervalo utilizando ´e de grande relevˆancia para evitar problemas com a trans- miss˜ao de grandes volumes de conjuntos de dados, al´em de prover uma economia de energia dos sen- sores operados por bateria, j´a que eles efetuar˜ao uma quantidade menor de coletas e transmiss˜ao de dados. Embora o intervalo entre as coletas seja maior, os parˆametros de teoria da informac¸˜ao utilizados garantem-nos que nos intervalos em que o sensor n˜ao efetuou coleta de dados, as mudanc¸as de dinˆamica da temperatura n˜ao iriam prover informac¸˜oes relevantes sobre o comportamento do fenˆomeno no ambi- ente N.

Dentre os planos para trabalhos futuros, desejamos utilizar esse algoritmo atuando em tempo real, de modo a dinamizar o funcionamento dos sensores, al´em de efetuar tais avaliac¸˜oes em v´arios fenˆomenos do ambiente simultaneamente.

5. Agradecimentos

Os autores desejam agradecer ao CNPq, FAPEAL, FAPESP e `a SEFAZ pelo aux´ılio financeiro for- necido, e `a UFAL por disponibilizar a estrutura f´ısica utilizada para desenvolver este trabalho.

6. Referˆencias

I. F. AKYILDIZ, W. SU, Y. SANKARASUBRAMANIAM, E. CYIRCI, Wireless sensor networks: a survey,Computer Networks, v.38 (4) (2002), p. 393–422.

K. CURRAN, J. KNOX, Disruption tolerant networking,Computer and Information Science 1 (1) (2008), p. 69–71.

R. C. SHAH, S. ROY, S. JAIN, W. BRUNETTE,Data mules: modeling and analysis of a three-tier architecture for sparse sensor networks, Ad Hoc Networks 1 (2003), p. 215–233.

S. JAIN, M. CHAWLA, Survey of buffer management policies for delay tolerant networks,The Journal of Engineering 2014 (6) (2014) 7.

C. BANDT and B. POMPE,Phys. Rev. Lett. 88, 174102 (2002).

LOPEZ-RUIZ, R., MANCINI, H. L., and CALBET, X. (1995). A statistical measure of complexity. Physics Letters A, 209(5-6) : 321–326.

MEMSIC.MICAz - Wireless measurement system. Dispon´ıvel em:

http://www.memsic.com/userfiles/files/Datasheets/WSN/micaz datasheet t.pdf. Acesso em: 04 marc¸o. 2018.

SHANNON, C. E. (1948). A Mathematical Theory of Communication.Bell system technical journal, 27.

LAMBERTI, P., MARTIN, M., PLASTINO, A., and ROSSO, O. (2004). Intensive entropic nontriviality measure.Physica A: Statistical Mechanics and its Applications, 334(1) : 119–131. ROSSO, O., LARRONDO, H., MARTIN, M., PLASTINO, A., and FUENTES, M.(2007). Distinguishing noise from chaos.Physical review letters, 99(15):154102.

WILCOX, R. (2005). Kolmogorov–Smirnov Test.In Encyclopedia of Biostatistics (eds P. Armitage and T. Colton).

DEPARTMENT OF PHYSICS - ILLINOIS STATE UNIVERSITY.Absolute and Relative Error. Dispon´ıvel em: http://www2.phy.ilstu.edu/ wenning/slh/Absolute%20Relative%20Error.pdf. Acesso em: 23 maio. 2018

Mapa perceptual para hierarquização das universidades públicas da região