• Nenhum resultado encontrado

Detection of spatial pattern by the randomization test

N/A
N/A
Protected

Academic year: 2021

Share "Detection of spatial pattern by the randomization test"

Copied!
5
0
0

Texto

(1)

Detecção do padrão espacial através do teste de aleatorização

Denise Nunes Viola

1

e Everton Coimbra de Araujo

2

1

Doutora, UFBA–Universidade Federal da Bahia/Departamento de Estatística. Av. Adhemar de Barros, s/n, Ondina, CEP: 40170-110 - Salvador, BA - Brasil, e-mail: viola@ufba.br.

2

Doutorando em Engenharia Agrícola, UNIOESTE-Universidade Estadual do Oeste do Paraná, Brasil e professor da Universidade Tecnológica Federal do Paraná, Campus, e-mail: everton@utfpr.edu.br.

Resumo – Em muitas situações é de interesse do pesquisador verificar a existência de padrão espacial em diferentes áreas do conhecimento. Na área agronômica, a Estatística Espacial é de grande importância econômica, pois permite a aplicação mais racional de inseticidas na lavoura e melhoria na distribuição da adubagem do solo. Uma maneira de analisar dados com dependência espacial é através da geoestatística. O método mais utilizado em Geoestatística para verificar a dependência espacial é o semivariograma, porém, este nem sempre pode ser empregado, pois exige alguns pressupostos que nem sempre são atendidos. Quando os pressupostos não são atendidos, uma alternativa é utilizar uma adaptação do Teste de Aleatorização de Mantel. Os testes de aleatorização são indicados para pequenas amostras e/ou quando estas não são aleatórias. No teste de aleatorização, é comparado o valor de uma estatística observada para os dados originais com os valores desta estatística após a aleatorização das observações e o p-valor é dado pela proporção de vezes que a estatística dos dados aleatorizados foi maior ou igual à estatística obtida com os dados originais. Para verificar a eficiência do teste de aleatorização foram utilizados dois conjuntos de dados, utilizando geoestatística e outro utilizando dados de área. No primeiro caso, foi simulado um conjunto de dados em uma área 1x1km2 e com dependência espacial. No segundo caso, foi utilizado um conjunto de dados referente à produtividade da soja na safra de 2001/2002 em 48 municipios da região Oeste do Estado do Paraná. A matriz das distâncias da localização de coleta dos dados foi aleatorizada 10.000 vezes para obter o p-valor. Em ambos os casos foram confirmados os resultados esperados, ou seja, no primeiro caso foi confirmada a existência de padrão espacial e no segundo caso foi confirmada a existência de padrão espacial aleatório.

Palavras-chave:semivariograma; geoestatística; dados de área.

Detection of spatial pattern by the randomization test

Abstract - In many situations the researcher´s interest is verifying the existence of spatial pattern in different areas of knowledge. In agronomy, the Spatial Statistics have big economic importance because it allows more rational application of insecticides in the cultivation and improvement at the distribution of fertilizer in the soil. One way to analyze the spatial dependence data is using geostatistic. The most common method used in geostatistic to determine the spatial pattern is the semivariogram, but this can not always be used because it requires some assumptions that are not always found. When the assumptions are not found, an alternative is use an adaptation of the Mantel Randomization Test. The randomization tests are indicated for small samples or when the samples are not random. In the randomization test is compared the value of a observed statistic for the original data with the values of this statistic after randomization the observations and the p-value is given by the proportion of times that the randomized data statistic was greater than or equal to the statistics obtained with the original data. To verify the efficiency of the randomization test it was used two data sets, one was used geostatistic and another was used area data. In the first case it was simulated the data set in an 1x1km2 area with spatial dependence. In the second case, it was used a data set for soybean yield in the 2001/2002 season in 48 counties of the western region in the State of Paraná. The matrix of distances from the location of data collection was randomized 10,000 times to get the p-value. In both cases was confirmed the expected result, in the first case, the existence of spatial pattern was confirmed and in the second case, the existence of a random spatial pattern was confirmed.

(2)

Os dados espaciais estão presentes em diversas áreas do conhecimento, dentre elas, nas ciências agrárias, que pode ser tomada como exemplo a distribuição espacial de insetos, a qual é importante para aplicação racional de pesticidas e na agricultura de precisão, em que a distribuição espacial pode auxiliar na melhoria da distribuição da adubagem no solo e no uso de diversos insumos. Geralmente a distribuição no espaço não tem sido considerada nos estudos amostrais, sendo escassa literatura a esse respeito. Para detectar os padrões espaciais são necessárias técnicas especiais de análise estatística. As técnicas convencionais de análise estatística, geralmente, têm como base amostras independentes e identicamente distribuídas, o que não acontece em dados com estrutura de dependência espacial, pois as amostras são correlacionadas. Nos dados que apresentam evidência de distribuição espacial, as observações vizinhas são mais semelhantes do que as distantes. Uma vez identificada a existência de padrão espacial, as análises convencionais não podem ser aplicadas.

É comum o pesquisador utilizar o semivariograma para verificar a existência de dependência espacial, porém este nem sempre pode ser usado. Uma alternativa para identificar a existência de padrão espacial é utilizar uma adaptação do teste de alatorização de Mantel (1967).

O objetivo desse trabalho é estudar a eficiência do teste de aleatorização para identificar a existência de padrão espacial e, quando for possível, comparar os resultados obtidos com o semivariograma e o envelope simulado.

Material e Métodos

Para a realização deste trabalho foram utilizados dois conjuntos de dados. No primeiro caso, foi simulado um conjunto de dados em uma área 1x1km2, com dependência espacial e alcance 0,75km. Este conjunto foi gerado com o uso do pacote GeoR do software R. No segundo caso, foi utilizado um conjunto de dados referente à produtividade da soja na safra de 2001/2002 em 48 municipios da região Oeste do Estado do Paraná. As coordenadas utilizadas foram baseadas no centróide do polígono de cada município. A matriz das distâncias da localização de coleta dos dados foi aleatorizada 10.000 vezes para obter o p-valor.

O método mais utilizado em Geoestatística para verificar a existência de dependência espacial é o semivariograma. A construção do semivariograma experimental é obtida considerando as diferenças entre dois pontos georreferenciados no espaço e separados por uma distância h (ORTIZ, 2002, OLIVEIRA, 2003; PILON, 2004). Depois de feito o semivariograma o pesquisador deve fazer o gráfico do envelope simulado. Os limites do envelope são obtidos aleatorizando-se a ordem da posição das observações e considerando-se a variável resposta fixa. Após fazer um grande número de aleatorizações calculam-considerando-se os limites do semivariograma e, caso exista algum ponto fora desses, é uma evidência da existência de padrão espacial.

A utilização do semivariograma exige alguns pressupostos, que nem sempre são atendidos. Como alternativa, pode-se utilizar uma adaptação do teste de aleatorização de Mantel (1967). Esse teste permite estudar, a partir da configuração dos pontos observados, a existência de padrão espacial e tem como base a comparação de duas matrizes de distâncias, verificando se existe correlação entre estas matrizes (VIOLA, 2007).

Com o teste de aleatorização pode-se verificar se certo padrão nos dados existe, ou seja, sob a hipótese nula todas as possíveis ordens para os dados têm a mesma chance de ocorrer (MANLY, 2006). As principais vantagens em se utilizar o teste de aleatorização é que este pode ser aplicado em amostras pequenas e/ou não aleatórias. A principal desvantagem é que seu resultado não pode ser generalizado para a população.

Quando a hipótese nula no teste de aleatorização é verdadeira, todas as possíveis ordens para os dados têm a mesma chance de ocorrer. Para aplicar este teste, considere o valor eo de uma estatística E. A seguir,

deve-se fazer um grande número de aleatorizações. Estas aleatorizações são obtidas reordenando aleatoriamente os dados. Após aleatorizar os dados, deve-se calcular a estatística eAi para cada umas das

i-ésimas aleatorizações. Os valores de eAi geram uma aproximação por simulação da distribuição amostral de

E. Para a conclusão do teste, utiliza-se o p-valor que é dado pela proporção dos valores eAi que são maiores

do que ou iguais a eo. Por exemplo, se p-valor<0,05, conclui-se que existe evidência de que a hipótese nula

não seja verdadeira ao nível de 5% de significância (MANLY, 2006; VIOLA, 2007). Neste trabalho, a estatística eo utilizada foi o coeficiente de correlação obtido por uma adaptação do teste de aleatorização

proposto por Mantel (1967).

Para utilizar a adaptação do teste de aleatorização de Mantel (1967), considere duas matrizes, A e B, em que ambas são simétricas e têm dimensões nxn. Os elementos das duas matrizes são obtidos considerando as distâncias da localização das observações e das respostas, respectivamente, ou seja,

(3)









0

...

...

...

...

...

...

0

...

0

=

e

0

...

...

...

...

...

...

0

...

0

=

2 1 2 21 1 21 2 1 2 21 1 21 n n n n n n n n

b

b

b

b

b

b

B

a

a

a

a

a

a

A

, em que

a

ij

=

(x

1i

x

1j

)

2

+

(x

2i

x

2j

)

2 , 2

)

z

(z

=

b

ij i

j , X=(x1, x2) são as coordenadas cartesianas e Z é o vetor de respostas.

A estatística teste (eo) é obtida através do coeficiente de correlação de Pearson entre os elementos

correspondentes das matrizes A e B, ou seja,

2 < 2 < 2 < 2 < < < <

)

(

)

(

=

ij j i ij j i ij j i ij j i ij j i ij j i ij ij j i

b

b

m

a

a

m

b

a

b

a

m

r

, que produz

o valor eo quando calculada para os valores observados. A seguir permutam-se linhas e colunas de uma

das matrizes, um número grande de vezes, e obtêm-se os valores da estatística dos dados aleatorizados (eAi).

As hipoteses testadas são: Ho: Existe padrão espacial aleatório versus Ha: Existe padrão espacial não

aleatório.

Resultados e Discussão

No primeiro conjunto de dados, referente a simulação dos dados a coordenada X1 variou de 0,066 à

0,991 km e X2 variou de 0,017 à 0,984 km. A distância entre os pontos amostrados variou de 0,018 a

1,168km. Observa-se ainda que a resposta variou de -0,968 a 1,472, com média de 0,072, sendo que 50% destas estava abaixo de 0,092 com um desvio padrão de 0,600.

Figura 1. Gráfico de pontos (1a) e envelope simulado (1b) para o conjuto de dados gerado com alcance de 0,75km.

Analisando a Figura 1, observa-se que, aparentemente existe dependência espacial entre os dados, uma vez que as cores encontram-se aglomeradas (Figura 1a). Isto é confirmado pelo envelope simulado (Figura 1b), no qual aparecem alguns pontos fora dos limites. Para confirmar este resultado, foi feito o teste de aleatorização. Após repetir o teste de aleatorização 10.000 vezes, obteve-se p-valor=0,002, rejeitando-se a hipótese nula de existência de padrão espacial não aleatório e confirmando os resultados observados na Figura 1, ou seja, existe padrão espacial não aleatório.

(4)

os pontos amostrados variou de 0,057 a 1,645 (UTM/SAD69). Observa-se ainda que o valor da produtividade variou de 2.500 a 3.700 kg ha-1, sendo que 50% desta variável está entre 2.994 e 3.278 kg ha

-1

com um desvio padrão de 259,146 t/ha-1.

Figura 2. Gráfico de pontos para a produtividade de soja na safra 2001/2002 nos Municípios do Oeste do Paraná.

Analisando o gráfico de pontos da produtividade da soja (Figura 2), observa-se que, aparentemente não existe dependência espacial entre os dados. Para confirmar este resultado, foi realizado o teste de aleatorização. Após repetir o teste de aleatorização 10.000 vezes, obteve-se p-valor=0,5131, não rejeitando a hipótese nula de padrão espacial aleatório, confirmando os resultados observados 2, ou seja, existe padrão espacial aleatório. Isto pode ter sido causado pela distância entre as localizações das coletas dos dados, ou seja, pela distância entre os municípios.

Conclusão

No primeiro conjunto de dados (conjunto de dados simulados), tanto o envelope simulado quanto a adaptação do teste de aleatorização confirmaram a existência de padrão espacial não aleatório. No segundo caso (produtividade de soja) foi verificada a existência de padrão espacial aleatório. Com isto, pode-se observar que o teste de aleatorização confirmou os resultados esperados. Estudos adicionais estão sendo feitos para verificar a eficiência deste teste em outras situações.

Referências

MANLY, B. F. J. Randomization, Bootstrap and Monte Carlo Methods in Biology. Florida: Chapman & Hall, 2006, 460p.

MANTEL, B. F. J. The detection of disease clustering and a generalised regression approach. Cancer Research, Philadelphia, v. 27, p.209-220. 1967.

OLIVEIRA, M.C. N. Métodos de estimação de parâmetros em modelos geoestatísticos com diferentes estruturas de covariâncias: uma aplicação ao teor de cálcio no solo. 2003. 140f. Tese (Doutorado em Estatística e Experimentação Agronômica) – Departamento de Ciências Exatas, Escola Superior de Agricultura “Luiz de Queiroz” da Universidade de São Paulo, Piracicaba – SP.

ORTIZ, G. C. Aplicação de métodos geoestatísticos para identificar a magnitude e a estrutura da variabilidade espacial de variáveis físicas do solo. 2002. 75f. Dissertação (Mestrado em Estatística e Experimentação Agronômica) – Departamento de Ciências Exatas, Escola Superior de Agricultura “Luiz de Queiroz” da Universidade de São Paulo, Piracicaba – SP.

PILON, A. A. Métodos para incorporação da dependência especial na análise de dados experimentais. 2004. 137f. Dissertação (Mestrado em Estatística e Experimentação Agronômica) – Departamento de Ciências Exatas, Escola Superior de Agricultura “Luiz de Queiroz” da Universidade de São Paulo, Piracicaba – SP.

(5)

RIBEIRO JUNIOR, P. J.; DIGGLE, P. J. GeoR: a package for geostatistical analysis using the R software, R-NEWS, v.1, p.14-18, 2001.

VIOLA, D. N. Detecção e modelagem de padrão espacial em dados binários e de contagem. 2007. 118f. Tese (Doutorado em Estatística e Experimentação Agronômica) – Departamento de Ciências Exatas, Escola Superior de Agricultura “Luiz de Queiroz” da Universidade de São Paulo, Piracicaba – SP.,

Referências

Documentos relacionados

No entanto, expressões de identidade não são banidas da linguagem com sentido apenas porque a identidade não é uma relação objetiva, mas porque enunciados de identi- dade

Resumo: Esta pesquisa teve como objetivo pesquisar os trabalhos acadêmicos existentes que remetem ao tema das relações de trabalho acerca de pessoas identificadas como

Na realidade, é possível demonstrar que para qualquer sistema sempre existe um ponto do espaço, o CENTRO DE MASSA, que ao se deslocar gera uma curva (trajetória do centro de

Observar o sucesso na escolaridade entre os alunos das famílias de classes escolarizadas não muda a realidade do ensino das escolas públicas, nem serve de parâmetro para justificar

Os roedores (Rattus norvergicus, Rattus rattus e Mus musculus) são os principais responsáveis pela contaminação do ambiente por leptospiras, pois são portadores

Use a auto hipnose para se libertar dos seus medos e fobias. A auto A auto sabotagem é sabotagem é uma constante uma constante em sua em sua vida? Sempre vida? Sempre que você

A Seqüência de Três Níveis oferece um quadro mais amplo de uma situação e pode ser útil para fazer perguntas a respeito da situação de pessoas que não estão fisicamente

servidores, software, equipamento de rede, etc, clientes da IaaS essencialmente alugam estes recursos como um serviço terceirizado completo...