• Nenhum resultado encontrado

Análise de Uma Metodologia Para Preenchimento de Valores Faltantes em Dados de Precipitação, Para o Estado do Paraná

N/A
N/A
Protected

Academic year: 2021

Share "Análise de Uma Metodologia Para Preenchimento de Valores Faltantes em Dados de Precipitação, Para o Estado do Paraná"

Copied!
6
0
0

Texto

(1)

Rafael Aldighieri Moraesa*; Christiano Luna Arraesa

Análise de Uma Metodologia Para Preenchimento de Valores Faltantes em Dados de

Precipitação, Para o Estado do Paraná

Analysis of a Methodology for Recovery of Missing Values in Precipitation Data for the

Parana State

aUniversidade Estadual de Campinas, SP, Brasil *E-mail: rafagricola@gmail.com

Resumo

A disponibilidade de dados meteorológicos para dada região segue como essencial para estudos climáticos, agrícolas, dentre outros. Porém, devido a problemas de medição nas estações meteorológicas, estes dados nem sempre estão disponíveis ao longo do tempo, criando muitos valores faltantes e falhos. Uma vez que a aplicação de metodologias de substituição de valores faltantes em regiões homogêneas espacialmente pode ser mais viável do que utilizar toda a base de dados de forma heterogênea,, avaliou-se uma metodologia para preenchimentos de valores faltantes para o Estado do Paraná, a partir de dados decendiais de precipitação do modelo global ECMWF, para o ano de 2008. Foram criados dois grupos, um que considerasse toda a base de dados e outro que aplicasse a técnica k-means para separação dos dados em clusters. Destes, foram omitidos 1% dos dados e substituídos através das técnicas de kNN, Regressão e Redes Neurais utilizando o software Weka. Verificou-se que ao substituir os valores faltantes no grupo, considerando toda baVerificou-se de dados e o grupo dos clusters, não houve diferença significativa (com R² maior que 0,90). Assim, nas condições estabelecidas de 1% de dados faltantes, a aplicação desta metodologia não é necessária para o Estado do Paraná.

Palavras-chave: Chuva. Dados Faltantes. Cluster. Mineração de Dados.

Abstract

The availability of meteorological data for a given region is essential for climate and agriculture studies. However, these data are not always available over time due to measurement problems in weather stations, which leads to produce missing and failed values. Once certain methodologies applied for the replacement of missing values in spatially homogeneous regions is better than using the full database in a heterogeneous manner, we evaluated a methodology for replacing missing data values of dekadal precipitation from ECMWF global model in Parana state for the year 2008. We created two groups, one considering all database and other applying the k-means technique to create clusters. Of these, 1% was omitted from the data base and then replaced by techniques of kNN, Regression and Neural Networks using the Weka software. It was found that replacing missing values and considering the whole database and only clusters, there was no significant difference (R² greater than 0.90), so the use of this methodology is not necessary for the Parana state.

Keywords: Rain. Missing Data. Clustering. Data Mining.

1 Introdução

Atualmente a disponibilidade de dados meteorológicos, assim como a variabilidade de informações, tem aumentado nos últimos anos no Brasil (BRASIL, 2006). Entretanto, a presença de dados faltantes nas séries de dados é um problema que normalmente ocorre, limitando diversos estudos nesta área. As origens de tais problemas são diversas, mas estão principalmente relacionadas ao mau funcionamento dos equipamentos e à falta de observadores (GARCIA et al., 2006).

Kalteh e Hjorth (2009) afirmam que em geral, o problema de dados faltantes é obstáculo em séries temporais e principalmente em dados de precipitação pluvial, no qual a modelagem de processos como escoamento superficial é seriamente comprometida. Com o objetivo de reconstruir séries climatológicas de precipitação mensal acumulada, Lucio et al. (2006) utilizou redes neurais artificiais, obtendo resultados satisfatórios. Santos e Lucio (2010), com objetivo semelhante, utilizando redes neurais para imputação de dados

climatológicos faltantes, produziram resultados regulares e consistentes.

Diversas instituições e organizações possuem sistemas complexos e sofisticados, os quais integram dados de satélites (imageadores e não imageadores), dados de radar, dados de modelos matemáticos e dados observados, em modelos regionais e globais com o objetivo de gerar e espacializar estimativas de variáveis meteorológicas (DEPPE et al., 2007).

Um exemplo de modelo global é o ECMWF - European Centre for Medium-Range Weather Forecast, cujos dados são disponibilizados gratuitamente através do banco de dados meteorológicos do Joint Research Centre - JRC, centro de pesquisas da Comissão Européia. Dessa forma, além de maior representatividade, há ausência de valores faltantes. Todavia, estes são dados estimados e podem conter erros, porém, segundo Mine (2006), os modelos são importantes para previsão hidrológica e a resolução é eficiente para diversos propósitos.

(2)

Muitas metodologias podem ser aplicadas para substituição de valores faltantes, desde simplesmente substituir pela média até utilizar algoritmos complexos como, por exemplo, redes neurais (FUJIKAWA; HO, 2002; LI et al., 2005; MARCH, 2003; ROSSELLA; BARCA; PASSARELLA, 2008). Assim, substituindo os valores faltantes em determinados bancos de dados com acurácia e precisão significativos, os resultados obtidos em determinados estudos, principalmente na área meteorológica, tornam-se mais representativos.

Em relação precipitação pluvial Nimer (1979 apud SOUZA, 2006), também salienta que o Estado do Paraná, assim como a região Sul como um todo, é uma das regiões cuja distribuição espacial deste fenômeno no ano se faz de forma mais uniforme. Portanto, o trabalho tem como objetivo comparar se a aplicação de determinadas metodologias para a substituição de valores faltantes em regiões homogêneas espacialmente é melhor que a utilização de toda a base de dados de forma heterogênea, para o estado do Paraná. 2 Material e Métodos

O Estado do Paraná localiza-se no Sul do Brasil (nas latitudes de 22º29’33”S e 26º42’59”S, e longitudes de 48º02’24”W e 54º37’38”W) que inclui uma área de 201.000

km². O Estado encontra-se em uma região de transição entre o clima tropical e subtropical, com frequentes passagens, durante o inverno, de intensas frentes frias, chegando a alcançar temperaturas muito baixas (NEGRÃO, 2008).

O estudo foi realizado utilizando dados de precipitação gerados pelo modelo global ECMWF - European Centre for Medium-Range Weather Forecast para o ano de 2008, dividido em decêndios. Desse modo, foram utilizados 36 decêndios, correspondendo ao ano de 2008, e 176 pixels, distribuídos de forma a cobrir todo o Estado do Paraná, totalizando em 6336 dados. Estes são disponibilizados gratuitamente através do banco de dados meteorológicos do Joint Research Centre (JRC), centro de pesquisas da Comissão Européia.

Com resolução espacial de 0,5º (grau) de latitude e longitude, as informações meteorológicas são disponibilizados em formato de imagem. A utilização dos dados simulados pelo ECMWF apresenta grandes vantagens em relação aos provenientes de estações meteorológicas, como rapidez na obtenção (em tempo quase real), cobertura para toda a superfície terrestre e ausência de valores faltantes. Na Figura 1, é apresentado um mapa da distribuição pluviométrica sobre o Estado do Paraná, proveniente de imagem decendial do modelo do ECMWF.

Figura 1: Representação da precipitação espacialmente distribuída entre os pixels gerados pelo modelo global

ECMWF sobre o Estado do Paraná

As etapas do trabalho são apresentadas no fluxograma a seguir (Figura 2). Como início da metodologia de substituição dos valores faltantes, utilizando toda a base de dados, foi aplicada a metodologia de clusterização, disponibilizada no programa Weka 3.4 (HALL et al., 2009), conhecida como

Expectativa-Maximização (EM) para definir o número de clusters. Assim, este algoritmo divide de forma automática, o grupo de dados em um número de clusters ou grupos que julgar correto. Após aplicação, o conjunto de dados foi dividido em seis grupos.

(3)

A divisão em seis grupos foi inspirada no mapa de precipitação média anual para o Estado do Paraná disponibilizado pelo Instituto Agronômico do Paraná - IAPAR. Este possui seis divisões de intervalos de precipitação média acumulada de 200 milímetros para o Estado distribuído espacialmente, de acordo com a Figura 3.

Figura 3: Mapa de precipitação anual média disponibilizado pelo

IAPAR

distâncias dos centróides de cada cluster, foi fornecido o valor para o número de clusters igual a seis. Após a saída dos dados (Figura 4), verifica-se que os clusters apresentaram divisões próximas das observadas, disponibilizadas pelo IAPAR.

Figura 4: Mapa representado seis clusters de precipitação

separados pela metodologia k-means, sobre os Estado do Paraná

Fonte: Adaptado de IAPAR (2009).

Portanto, depois de definido o número de clusters, utilizando a metodologia k-means, disponibilizado no Weka 3.4, onde separa o grupo de dados baseando-se nas

A partir da geração dos seis clusters pela metodologia k-means, foi feita a retirada de 63 valores de forma aleatória, ou seja, 1% dos dados divididos de forma estratificada (Tabela 1). Estes dados foram ocultados de cada arquivo dos seis clusters, utilizando a ferramenta de amostragem do Microsoft Excel e plotados em seis diferentes planilhas contendo sua data, endereço de posição (linha x coluna) e seu valor original.

Tabela 1: Distribuição dos 63 dados omitidos de forma

estratificada para cada cluster.

Cluster Total (176)Divisão do % do Total Divisão dos 63 Pontos

Cluster 1 26 pixels 14,77% 9 pontos Cluster 2 30 pixels 17,05% 11 pontos Cluster 3 27 pixels 15,34% 10 pontos Cluster 4 34 pixels 19,32% 11 pontos Cluster 5 30 pixels 17,05% 11 pontos Cluster 6 29 pixels 16,48% 10 pontos

Do mesmo modo, foi construída uma planilha contendo os valores faltantes (1%), porém representando todos os dados em conjunto (6336 pixels) em ordem crescente, conforme Figura 5. Estes valores faltantes foram os mesmos obtidos nos clusters, porém, utilizando todos os valores em apenas uma planilha.

(4)

Figura 5: Distribuição dos pixels em ordem crescente, sobre o Estado do Paraná.

Após a organização dos dados, foram aplicadas as metodologias de substituição de valores para todas as planilhas, sendo seis para cada um dos clusters de forma individual e uma considerando todos os valores em conjunto. As metodologias aplicadas foram: vizinho mais próximo (k-NN) com k = 1 e 5, regressão e redes neurais; todas disponibilizadas no programa Weka 3.4.

A metodologia k-NN (k-Nearest Neighbor), conhecida como k-vizinho mais próximo é um classificador chamado de “preguiçoso”, pois a cada processamento leva em consideração toda a base de dados. Quando os atributos são nominais, é chamado de k-vizinhos mais próximo e quando são numéricos, é feita uma regressão com pesos locais. Assim, o k-NN considera os dados mais próximos (k) para classificar um novo dado ou um dado faltante.

Já a regressão utiliza uma regressão linear para as predições, onde o modelo é construído a partir dos dados disponíveis no atributo. A rede neural funciona de forma a imitar o cérebro animal, onde os neurônios se organizam por meio da construção de conexões conforme a experiência para executar tarefas mais facilmente. Desse modo, ao aplicar a um conjunto de dados as redes neurais, ele irá construir um modelo que possui entrada e saída baseada em pesos intermediários que são alterados até que o algoritmo julgue que os pesos são ideais e equilibrados. Apesar de obter ótimas respostas, as desvantagens são o tempo de processamento que é lento (tempo maior que as outras metodologias), pois é analisado todo banco de dados, e os pesos atribuídos entre a entrada e saída de dados são desconhecidos ou não é possível determiná-los.

Após a geração dos valores faltantes, foram criados dois conjuntos de dados, sendo um o resultado obtido pelas

metodologias utilizando todo o conjunto de dados com os valores observados e o outro da união dos clusters, sendo que a substituição dos valores faltantes foi feita por grupo.

Com o objetivo de comparar os resultados simulados com os dados que foram omitidos, ditos como observados, foi determinado o coeficiente de determinação (R²), o erro absoluto médio (MAE) e o viés médio (MBE).

Já o MAE mede a magnitude média dos erros em um conjunto de predições de forma absoluta, ou seja, sem considerar as direções deles. Este possui a seguinte fórmula:

(1)

onde,

n = número de elementos;

ei = diferença entre valor observado e predito

O MBE indica o viés médio do modelo, isto é, se está subestimando ou superestimando a predição. Possui a seguinte forma:

(2)

3 Resultados e Discussão

Após os resultados obtidos, verificou-se que de acordo com as estatísticas aplicadas (Tabela 2), não houve diferença significativa entre substituir os dados faltantes utilizando todo

=

= − n i i

e

n

1 1

MAE

=

= − n i i

e

n

1 1

MBE

(5)

banco de dados (todo o Estado do Paraná) ou separando-os em clusters (regiões homogêneas) antes de sua execução. Percebe-se também que as metodologias apresentaram um ótimo coeficiente de determinação, maior que 0,90, sendo que o modelo de redes neurais foi o melhor modelo de substituição de valores faltantes, seguido de regressão linear e k-NN.

Tabela 2: Avaliação estatística obtida a partir dos dados omitidos

(observados) e os dados substituídos (estimados) para as metodologias de kNN (vizinho mais próximo com k igual a 1 e 5), regressão linear e redes neurais, utilizando o MAE (erro absoluto médio), MBE (viés médio) e R² (coeficiente de determinação), considerando todo banco de dados e os dados separados em clusters.

Metodologia Dados - Todos Dados – Clusters MAE MBE MAE MBE

kNN=1 5.80 -0.24 0.9144 6.26 0.33 0.9023 kNN=5 5.58 0.38 0.9133 6.11 0.81 0.9143 Regressão Linear 4.47 0.21 0.9607 3.81 1.12 0.9667 Redes Neurais 3.76 0.16 0.9728 2.49 -0.13 0.9856 Esta boa resposta dos modelos durante a substituição dos valores se deve a fatores como, por exemplo, a homogeneidade da precipitação no Estado do Paraná em 2008. Outro fator foi que, ao considerar toda a base de dados, a ordem dos pixels foi crescente de oeste para leste, ou seja, muitos pontos a serem substituídos possuíam estações próximas, fazendo com que o erro diminuísse e a diferença entre os clusters fosse menor.

A Figura 6 e 7 mostra a disposição dos dados observados e preditos ou estimados de forma gráfica, onde é possível verificar que os dados estão bem próximos da reta de regressão, tanto para todo o conjunto de dados como para o banco de dados separado em clusters, apresentando uma boa estimativa.

Figura 6: Gráfico de dispersão considerando todo banco de

dados para substituição de valores faltantes e suas respectivas equações, valores do coeficiente de deternimação (R²) e nome da metodologia y = 0,9098x + 3,5821 R² = 0,9144 kNN(k=1) y = 0,9739x + 1,3167 R² = 0,9607 Regressão y = 0,9919x + 0,5055 R² = 0,9728 Redes Neurais y = 0,8973x + 4,7313 R² = 0,9133 kNN (k=5) 0 20 40 60 80 100 120 140 160 180 0 20 40 60 80 100 120 140 160 180 Es tim ad o Observado

KNN(k=1) Regressão Redes Neurais KNN(k=5)

y = 0,9098x + 3,5821 R² = 0,9023 kNN(k=1) y = 0,9739x + 1,3167 R² = 0,9667 Regressão y = 0,9919x + 0,5055 R² = 0,9856 Redes Neurais y = 0.9074x + 4.7279 R2 = 0.9143 kNN (k=5) 0 20 40 60 80 100 120 140 160 180 0 20 40 60 80 100 120 140 160 180 Es tim ad o Observado

KNN(k=1) Regressão Redes Neurais KNN(k=5)

Figura 7: Gráfico de dispersão considerando o banco de dados

dividido em clusters para substituição de valores faltantes e suas respectivas equações, valores do coeficiente de deternimação (R²) e nome da metodologia

4 Conclusão

Assim, a partir dos resultados observados, pode-se afirmar que, ao substituir dados faltantes de precipitação para o Estado do Paraná, a execução prévia da clusterização não é necessária, podendo-se utilizar os dados disponíveis, independentemente da localização. Possivelmente isto se deve à distribuição homogênea das chuvas no Estado do Paraná. Além disso, todas as metodologias aplicadas para substituição de dados faltantes apresentaram resultados bastante satisfatórios.

Sugere-se a aplicação desta metodologia para outros conjuntos de dados agrometeorológicos, com uma base maior de valores e amostras de dados faltantes maiores que 1%. Este pode ser obtido se o processo de retirada de amostras e a execução de planilhas com valores faltantes forem automatizados computacionalmente.

Referências

BRASIL. Ministério da Agricultura, Pecuária e Abastecimento, 2006. Disponível em: <http://extranet.agricultura.gov.br/pubacs_ cons/!ap_detalhe_noticia_cons_web?p_id_publicacao=8045>. Acesso em: 27 nov. 2009.

DEPPE, F. et al. Comparação de estimativas de precipitação com dados observados (Estações Meteorológicas). In: SIMPÓSIO BRASILEIRO DE SENSORIAMENTO REMOTO, 13., 2007, Florianópolis/SC. Anais... São José dos Campos: INPE, v.1, p.3319-3326, 2007.

FUJIKAWA, Y.; HO, T. Cluster-based algorithms for dealing with missing values. In: PROCEEDINGS OF ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING, 6th Pacific- Asia Conference, (PAKDD), p.535-548, 2002.

GARCIA, B.I.L. et al. Filling in missing rainfall data in the Andes Region of Venezuela, based on a cluster analysis approach. Revista Brasileira de Agrometeorologia, Piracicaba, v.14, n.2, p.225-233, 2006.

IAPAR - Instituto Agronômico do Paraná, 2009. Disponível em: <http://www.iapar.br/modules/conteudo/conteudo. php?conteudo=595>. Acesso em: 27 nov. 2009.

KALTEH, A.M.; HJORTH, P. Imputation of Missing values in precipitation-runoff process database. Journal of Hydrology Research, v.40, n.4, p. 420-432, 2009.

(6)

LI, D. et al. Dealing with missing data: Algorithms based on fuzzy sets and rough sets theories. Transactions on Rough Sets IV, p.37-57, 2005.

LUCIO, P.S. et al. Reconstrução de séries meteorológicas via redes neurais artificiais. In: CONGRESSO BRASILEIRO DE METEOROLOGIA, 14. Florianópolis, 2006. Anais... Florianopolis, 2006.

MARCH, R. SAS. CONFERENCE PROCEEDINGS: SouthEast SAS® Users Group, 2003-09-22/2003-09-24, St. Pete Beach, Florida. Disponível em: <http://analytics.ncsu.edu/sesug/2003/ SD16-March.pdf>. Acesso em: 27 nov. 2009.

HALL, M. et al. The WEKA Data Mining Software: an Update; SIGKDD Explorations, v.11, n.1. 2009. Disponível em: <http:// www.cs.waikato.ac.nz/ml/weka/>. Acesso em: 30 out. 2009. MINE, M.R.M. Estado atual do conhecimento sobre a variabilidade espacial e temporal da chuva. UNOPAR Científica, Ciência Exatas e Tecnológicas, v.5, p.5-12, 2006.

NEGRÃO, G.N. Análise fractual climática (1987-2007) e suas implicações na saúde, no município de Maringá, Paraná. In: EPCT - ENCONTRO DE PRODUÇÃO CIENTÍFICA E TECNOLÓGICA,3., 2008, Campo Mourão. Anais... Campo Mourão: Fecilcam, 2008, p.48-49, 2008.

ROSSELLA, P. L.; BARCA, E.; PASSARELLA, G. A methodology for treating missing data applied to daily rainfall data in the Candelaro River Basin (Italy). Environmental Monitoring and Assessment, v.160, n.1/4, p.1-22, 2008.

SANTOS, C.A.S.; LUCIO, P.S. Stock-weather: um modelo estocástico para a geração de séries climatológicas via redes neurais artificiais - o caso dos modelos univariados. In: CONGRESSO BRASILEIRO DE METEOROLOGIA, 16., Belem, 2010. Anais... Belem: CBMET, 2010.

SOUZA, P. Estudo da variabilidade da precipitação no Estado do Paraná associado à anomalia da TSM no oceano Pacífico. 72f. Dissertação (Mestrado em Geografia) – Universidade Estadual de Maringá, Maringá, 2006.

Referências

Documentos relacionados

Para analisar as Componentes de Gestão foram utilizadas questões referentes à forma como o visitante considera as condições da ilha no momento da realização do

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

 São TADs representados através de listas sequenciais.. (fixas) ou encadeadas (dinâmicas), em que a seguinte regra deve

função recursiva, mais recursos de memória são necessários para executar o programa, o que pode torná-lo lento ou. computacionalmente

 Caminho simples que contém todas as arestas do grafo (e,. consequentemente, todos os

Os supercondutores magnéticos, volantes de inércia e os condensadores são apropriados para aplicações que necessitam de grande potência de saída em pouca

Em relação aos conhecimentos de saúde oral constatou-se que pais/encarregados de educação e crianças estão informados sobre a presença, ou não, de dentes cariados, bem como,

São considerados custos e despesas ambientais, o valor dos insumos, mão- de-obra, amortização de equipamentos e instalações necessários ao processo de preservação, proteção