Series temporais – aspectos computacionais

Nesta seção 2.2 é apresentada uma revisão sobre o uso de series temporais no processo de mineração de dados. Assim, consiste em um método amplamente explorado e consolidado, contendo pacotes computacionais e vasta coleção de trabalhos que apresentam abordagens e aplicações. Em tal contexto, o trabalho de ZHAO (2013) trata processo de mineração de dados, incluindo as series temporais, a partir de um conjunto de ferramentas e aplicações em linguagem R^®7. Valendo-se da

5 Robert Solow, prêmio Nobel de economia 1987

6 Essa frase consta em artigo publicado no New York Times Book Review, de 12 de julho de

1987, denominado “We’d Better Watch Out”.

7 https://www.r-project.org>.

mesma linguagem, MONTERO; VILAR (2014) exploram o processo com séries temporais Self-Labeled, trazendo assim o conceito de cluster e as teorias que suportam o aprendizado de máquina ou Machine learning (ML). Por sua vez, GONZÁLEZ; BERGMEIR (2017) exploraram, de modo empírico, as series com a mesma característica Self-Labeled, com uma vasta coleção de amostras e múltiplas linguagens, aplicando à tecnologia. Tendo-se em vista a importância do tema para este trabalho, além das obras supracitadas, foram observados trabalhos que apresentam os fundamentos necessário para aprimorar o estudo das series temporais: uma ampla revisão sobre os avanços obtidos em estudos e publicações que tratam do uso de series temporais e também dois estudos que exploram o uso de medidas de similaridade como base para identificação de clusters.

AGHABOZORGI; SEYED SHIRKHORSHIDI; YING WAH (2015) fizeram uma revisão sistemática das pesquisas que abordam o uso de series-temporais, no período entre 2006 e 2015, em particular, os aspectos computacionais aplicados nos processos de agrupamento (clustering) e classificação de grandes volumes de dados.

Observaram a amplitude de aplicações em diversas áreas do conhecimento, tendo em vista revelar padrões, ou seja: concordância em sequências, detecção de anomalias, indexação, agrupamento, sistemas de informação, classificação, visualização, segmentação, análise de tendências, sumarização e previsões.

Possibilitaram assim a análise e a geração de informação relevante a partir de complexos volumes de dados. Diante de grandes volumes de dados, o processo de classificação supervisionado se torna complexo e, nesse contexto, o agrupamento não supervisionado é capaz de solucionar o processo pela redução no volume dos mesmos. Esses autores fazem uma exposição dos quatro principais componentes do processo de agrupamento de dados do seguinte modo:

• Representação - a escolha do método apropriado de representação é considerada como determinante no processo e seu efeito observado na eficiência e acurácia da solução.

• Similaridade ou medida de distâncias - ao se comparar distâncias medidas entre duas sequências de dados, o que é altamente intuitivo,

os resultados em geral são realçados. Isso ocorre porque algumas distâncias são altamente sensíveis a distorções.

• Protótipos de agrupamento - um dos grandes desafios que afetam a acurácia nos agrupamentos são os protótipos, compreendidos como a melhor representação do agrupamento, o que leva a uma baixa performance dos algoritmos e, consequentemente, baixa qualidade dos clusters.

• Agrupamento - o método deve ser avaliado e validado observando-se o processo de agrupamento adotado, aqui apresentados em seis grandes grupos de algoritmos: "Partitioning", "Hierarchical", "Grid-based", "Model-"Grid-based", "Density-based clustering" e "Multi-step clustering".

Uma outra abordagem indicada no mesmo trabalho é o agrupamento de séries que tem em comum um "ruído de informação", ou seja, aquelas que podem ser caracterizadas a partir de determinadas peculiaridades. O potencial de obtenção de um tipo alternativo de agrupamento é apresentado como exemplo de abordagem apropriada para extração de uma propriedade específica. Em geral, os grupos são identificados e/ou formados por objetos com máxima similaridades intra-grupo e mínima similaridade extra-grupo. As similaridades são, por sua vez, obtidas a partir da análise estruturada dos dados das séries temporais.

Tendo em vista uma aplicação específica ZHOU (2015) estudou o agrupamento de séries-temporais com múltiplas distâncias, uma combinação de series que não possuem mesma resolução temporal, valendo-se do algoritmo Dynamic Time Warp (DTW)⁸ em um processo de aprendizado semi-supervisionado.

Demonstrou através de seus experimentos que uma única distância não é capaz de melhorar significativamente a performance no processo de agrupamento em dados espectrais. Aponta que o processo de incorporação de novas medidas de similaridade

8 In time series analysis, dynamic time warping (DTW) is an algorithm for measuring similarity

between two temporal sequences which may vary in time or speed

aumenta a eficiência do aprendizado, pois cada nova métrica representa um conhecimento adicional sobre a sequência estudada, revelando assim cada nova métrica adicionada como uma restrição de entrada incorporadas. Conclui, a partir dos vários testes feitos em uma coleção ampla de amostras disponíveis, que seu método supera significativamente medidas únicas como forma de agrupamento.

Utilizando o mesmo algoritmo (DTW) VAUGHAN; GABRYS (2016) combinaram e compararam trajetórias de séries temporais multivariadas para avaliar a performance e aptidão de usuários em treinamentos feitos com simuladores baseados em realidade virtual. Sua aplicação do algoritmo atende a dois propósitos distintos, (i) possibilita a comparação de duas trajetórias distintas via medidas de similaridade e, também, (ii) a combinação de duas ou mais trajetórias para gerar uma média que representa o conjunto observado. Trabalharam com 200 amostras, sendo 100 obtidas pela operação feita por experts e outros 100 obtidos a partir do modelo de simulação. Os dados são séries temporais multivariadas, o que inclui múltiplas dimensões combinadas, medidas de força e pressão. Conclui que a performance obtida com esta abordagem é superior, se comparada ao método convencional, o qual se vale da média linear, ou seja, demonstra que o uso de DTW propicia benefícios na qualificação dos processos de treinamento via simuladores baseados em realidade virtual.

Assim sendo, devido à versatilidade e à robustez, conclui-se pelo uso desta técnica para abordar o tema proposto. Com isso, foi feita a condução dos estudos a partir das séries temporais obtidas com sensoriamento remoto e, a partir dela, desenvolver um processo de identificação das áreas dedicadas à produção de culturas sazonais (pixel a pixel), pois se trata de uma classificação geral visando colocar em evidência os arranjos produtivos e fazer monitoramento da dinâmica espectral que revela a atividade. De forma geral, a partir dos trabalhos e artigos apresentados neste estudo, observou-se que o processo de classificação de imagens passa a ser validado a partir de dados temporais.

2.2.1 Sensoriamento Remoto

Esta seção 2.2.1 apresenta o sensoriamento remoto, a captação de informações acerca de um objeto ou fenômeno investigado mediante a obtenção de dados sem o contato direto entre os sensores e o objeto ou fenômeno em si. O processo baseia-se no mesmo princípio que permite observar a vegetação e avaliar suas propriedades, isto é, a sensibilidade das plantas (explorado na seção 2.2.3) aos diferentes comprimentos de onda do espectro eletromagnético (explorado na seção 2.2.2), "A luz refletida pelas plantas interage com a retina dos olhos e um sinal é enviado ao cérebro onde a informação é analisada", conforme é descrito por JONES;

VAUGHAN (2010). No sensoriamento remoto são utilizados sensores espectrais artificiais (explorado na seção 2.2.4) sensíveis a comprimentos de onda do espectro eletromagnético (EM) além da faixa visível. Esta expansão nos possibilita observar características da superfície terrestre e a partir de sua sensibilidade a cada comprimentos de onda o monitoramento dos recursos e ambientes em larga escala (LILLESAND; KIEFER; CHIPMAN, 2015).Tendo-se a experiência acumulada nos vários anos dedicados ao monitoramento de áreas agrícolas e, por outro lado, o fato de se valer de modernas tecnologias em seus processos, a equipe do USDA (BAILEY; BORYAN, 2010) e, em particular do National Agricultural Statistics Service (NASS), descreve que o monitoramento ou sensoriamento remoto de áreas agrícolas deve apresentar o suporte de três componentes fundamentais: a) informações acuradas sobre a produção real para uso no treinamento dos classificadores e assim validar as interpretações, a fim de obter resultados confiáveis; b) uma fonte de dados e imagens que contemple custos, cobertura espacial, temporalidade, faixa espectral e radiometria com resoluções adequadas, como também é destacado por HATFIELD et al. (2008) e; c) uma infraestrutura física de armazenamento e processamento de dados.

Quanto à expansão no uso das novas tecnologias, ASSAD et al. (2013)}

ressaltam que as tecnologias de suporte ao mapeamento por imagem para monitoramento da produção agrícola passam a obter mais relevância somente à medida que a metodologia de identificação das culturas específicas também passa a obter mais precisão e o processo de interpretação das imagens se torna mais

eficiente em termos de processamento. Observa ainda que o processo deve ser habilitado para acomodar um conjunto de fatores, cuja característica principal é a variabilidade no tempo e no espaço. Conforme EERENS et al. (2014)}, esta abordagem demanda uso de sistemas adaptativos capazes de manipular uma base de dados complexa e volumosa, de modo a possibilitar velocidade e versatilidade requeridas para a análise.

Portanto, o sensoriamento remoto de áreas agrícolas possui uma caracterização específica, como citado nesta secção, conforme o objetivo pré-estabelecido. Os parâmetros das especificações são definidos em conformidade com o cada objetivo, seja a observação de uma cobertura ou o monitoramento de uma dinâmica, ou ainda, no monitoramento e gestão de práticas ligadas ao manejo (por exemplo: a avaliação de estádio fenológico de plantas, a administração de insumos, o gerenciamento de processos de mecanização como a irrigação), dentre outros aspectos (GUIJARRO et al., 2011; MULYONO et al., 2013). Este conjunto leva a concluir pela necessidade de um sistema capaz de extrair informações a partir de múltiplas plataformas e sensores existentes, ou seja, pela proposta de um sistema computacional para monitoramento do ambiente de produção agrícola. Em particular, neste estudo e com tal finalidade, optou-se pelo uso de dados do (IBGE, 2020) e pelo sensor MODIS (MODerate-resolution Imaging Spectrometer) cujo objetivo é o monitoramento das atividades industriais e agropecuárias e a avaliação do impacto no ambiente (MODIS, 2020; ANDERSON, 2003). Desta forma é possível obter dados atuais sobre produção agrícola e imagens históricas sobre índices vegetativos (VI - Vegetative Index) e estádios fenológicos das plantas. Com esta base de dados é possível ter uma cobertura nacional e representar de forma consistente informações sobre culturas e ambientes (WALDNER et al., 2016; C. ANGEL; ASHA, 2015;

CARVALHO et al., 2009).

2.2.2 Espectro Eletromagnético

O EM pode ser comparado a uma régua contendo os diferentes comprimentos de onda na qual a maior quantidade de energia está nos raios gamma (𝛾) e raios X, amplamente usados em medicina e testes não destrutivos e, no outro extremo da mesma escala, ondas com comprimentos superiores a 1mm, que são transparentes para a atmosfera e usadas para transmissão de dados em radiodifusão, TV, celular, etc. A faixa visível do espectro, Photosynthetically Active Region (PAR), encontra-se na parte intermediária com comprimento de onda entre 350nm e 740nm e, a seguir, a faixa conhecida como infravermelho próximo (NIR), comprimento de onda entre 780nm e 1500nm, constituindo, pois, as faixas de interesse deste trabalho.

De modo geral, as fronteiras entre as faixas não são muito rígidas, devendo-se ter em mente a existência de faixas de transição entre si e, por essa razão, algumas diferenças nos valores em diferentes fontes (JONES; VAUGHAN, 2010). A título de ilustração, podemos observar a Figura 1 – Espectro Eletromagnético, temos a representação gráfica dos comprimentos de onda ao longo do espectro e respectivas faixas ou bandas, a escala com a caracterização conforme NISCHAN et al. (2003), GA SHAW (2003), KESHAVA (2003) e HATFIELD et al. (2008):

Nos sensores as imagens são, essencialmente, obtidas, transmitidas, tratadas e armazenadas observando-se as propriedades do espectro eletromagnético. Considerando-se a função plenóptica que representa o conjunto de

Figura 1 – Espectro Eletromagnético

propriedades e características da imagem. Na Equação 1, são aplicados os filtros aos dados colhidos e feitas as correções necessárias pixel a pixel até o registro do dado respectivo de cada posição, como proposto por ADELSON; BERGEN (1991). Assim sendo, temos:

em que (I) representa a energia refletida em uma determinada posição (𝑟), com comprimento de onda (𝜆), resolução temporal (𝑡), do ângulo (𝜃), polarização (𝑃), e resolução espacial (𝑛). Na caracterização dos produtos e sub-produtos do sensor MODIS, do mesmo modo, os parâmetros das imagens são validados e o grau de precisão é descrito para cada um dos atributos, conforme LATORRE et al. (2003) e DIDAN; MUNOZ; HUETE (2015), detalhado na Seção 2.2.4.

2.2.3 Fotossensibilidade das Plantas

No caso das plantas, a conversão de luz em energia química armazenável é função da quantidade de clorofila (Chl) disponível nas folhas, em particular clorofilas

"a" e "b", as quais revelam o nível de atividade foliar que é compatível com o seu estágio de evolução fenológico, vegetativo ou reprodutivo. Do mesmo modo, são reveladas anomalias bióticas⁹ e/ou abióticas¹⁰, representando as relações existentes que permitem o equilíbrio do ecossistema ao longo do ciclo. Os estudos que relacionaram as características morfológicas das plantas com suas respectivas propriedades espectrais possibilitaram a conexão entre o físico e o virtual ao revelar sua assinatura espectral, como podemos observar no gráfico contido na Figura 2 - , função da quantidade de clorofila na folha e respectivos comprimentos de onda ao longo do ciclo da planta (HATFIELD et al., 2008).

9 A estrutura e o funcionamento das comunidades vivas

10 Os elementos físicos e químicos do ambiente

Equação 1

Numericamente o resultado é obtido com base na quantidade de energia refletida/absorvida, Equação 2, e expressa a partir do comprimento da onda (𝜆), portanto:

onde Ei = Energia incidente, Er = Energia refletida, Ea = Energia absorvida, Et = Energia transmitida. Por sua vez, a refletância (𝜌_!) é igual à razão entre a energia incidente e a energia refletida, dada pela Equação 3.

Figura 2 - Reflectância

Equação 2

Equação 3

Sendo a onda do Espectro Eletromagnético (𝑐) constante (3 x 10⁸ m/seg) no espectro, o comprimento de onda (𝜆) é obtido em função da frequência (𝑓), conforme Equação 4, abaixo:

Portanto, o monitoramento por imagem espectral ou sensoriamento remoto, baseia-se em um processo sofisticado de processamento de imagens na extração de informações a partir da propriedade de refletância das superfícies sob a incidência do espectro eletromagnético nos comprimentos de onda (𝜆) entre 0,4µm e 3,0µm, o que inclui a faixa visível (0,400µm a 0,670µm), o NIR (Near Infrared) 0,780 µm a 1,500µm e SWIR (Short Wave Infrared) 1,500 a 3,000µm (SHAW; BURKE, 2003). A técnica que foi originalmente desenvolvida para distinguir materiais é representada por um valor padronizado entre -1 e 1 que caracteriza a fração refletida pela superfície.

2.2.4 Sensores Espectrais

O conjunto de técnicas desenvolvidas com o objetivo de capturar dados da superfície com esta tecnologia é amplo. Neste trabalho são apresentadas aquelas aplicáveis a sensores acoplados a satélites artificiais e, em tal contexto, é feita uma caracterização segundo o objetivo específico. Considerando o objetivo deste trabalho, trata-se da caracterização de um conjunto de parâmetro específicos observados, sendo: a) a resolução espacial que é medida em metros (m) referindo-se à medida da lateral de um polígono quadrado, constituindo-referindo-se a menor unidade de área capturada pelo sensor, o chamado pixel; b) a cada pixel é atribuído o valor da medição espectral, definida como resolução espectral, a qual esta relacionada ao comprimento de onda eletromagnética (𝜆) capturada pelo sensor e, (𝑐) a periodicidade de leitura é determinada pela frequência orbital, ou seja, a frequência

Equação 4

com que a área é visualizada. Em geral, os sensores são composições sensíveis a diferentes comprimentos de ondas ao longo do espectro eletromagnético, inclusive com sobreposição entre eles possibilitando a geração de imagem multiespectral (LATORRE et al., 2003b).

Neste trabalho são utilizados dados do banco de imagens do sensor MODIS, definido originalmente assim:

"MODIS core mission, standard VI products include the normalize difference vegetation index (NDVI) and the enhanced vegetation index (EVI) to effectively characterize biophysical/

biochemical states and processes from vegetated surfaces.

There exists a complete, global time series record of 6 VI products from each of the Terra and Aqua MODIS sensors, at varying spatial (250m, 1km, 0.05 degree) and temporal (16-day, monthly) resolutions to meet the needs of the research and application communities. The VI products are validated with accuracies depicted by a pixel reliability flag and with globally averaged uncertainties of 0.015 units}” MODIS (2020).

Assim sendo, visando extrair informação relevante a partir do acervo disponível, em particular, os seguintes produtos foram selecionados: Normalized difference Vegetation Index (NDVI), Enhanced Vegetation Index (EVI), Leaf Area Index (LAI), e RGB (RED, GREEN, BLUE) dos satélites Terra e Aqua, com resolução espacial de (𝑛 = 250m e 1000m) (0.05 graus) e resolução temporal (𝑡) de 8 dias como combinação dos satélites Terra e Acqua. Nestas condições é possível ter acuracidade de informação no monitoramento em áreas com mais de 20ha. As resoluções são validadas com precisões representadas por um sinalizador de confiabilidade de pixel e com incertezas médias globais de 0,015 unidades (LATORRE et al., 2003a;

WALDNER et al., 2016; DIDAN; MUNOZ; HUETE, 2015).

2.2.5 Desafios do Processo

Em si, o processo traz uma série de desafios inerentes e o conhecimento dos limitantes contribui na especificação e para robustez da solução. Um dos maiores desafios encontrados no monitoramento via imagem multi-temporal é a filtragem¹¹, o que pode deformar a informação e/ou mascarar características fenológicas das plantas. Com objetivo de minimizar erros de interpretação são desenvolvidas técnicas de combinação de imagens de diferentes satélites com mesmo sensor (ANDRADE;

LEIVAS; GOMES, 2013), o que possibilita ampliação do número de amostras, ampliando a qualidade da composição. O resultado se mostra favorável no monitoramento da agricultura com melhoria significativa na representação dos ciclos agrícolas.

Um outro desafio relevante é a capacidade de automatizar tarefas, daí surge a necessidade de fontes para validação contínua. Desta forma, o uso de informações de contexto, inclusão de outras informações e texturas específicas da região que estejam geo-referenciadas e que passam a compor o processo de identificação, e a formação de bases de dados com múltiplas fontes representam o estado da arte em termos de pesquisa (CAI et al., 2018; CHEN; HUANG; XU, 2017; HUANG et al., 2013).

Para obtenção da informação desejada e convergência nos resultados, as imagens devem ser classificadas de forma conveniente e é preciso identificar padrões fenológicos de plantas que estão passiveis de alteração em função de tratamentos locais específicos (exemplo: período de plantio, cultivar, entre outros) além dos aspectos relacionados a padrões edafoclimáticos, ou seja, condições de clima e solo, respectivamente (C. ANGEL; ASHA, 2015).

11 O processo de filtragem tem o objetivo de eliminar interferências causadas pela existência

de nuvens, portanto geração de uma nova imagem geralmente chamada de “composição de máximo valor” ou “imagem síntese”.

3 TRABALHOS RELACIONADOS

No documento UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E COMPUTAÇÃO MÁRCIO AURÉLIO SOARES SANTOS (páginas 26-38)