IX A AUTO VALIDAÇÃO UMA PODEROSA FERRAMENTA

Desde o começo deste trabalho têm-se discutido métodos ideais de estimativa de valores em locais não medidos, usando-se informações contidas na maneira como os dados disponíveis variam no espaço. Isso implica, necessariamente, na formulação de hipóteses de estacionaridade, seguida do cálculo do semivariograma e semivariograma cruzado, aos quais se deve ajustar um modelo. Em toda essa seqüência, existe sempre um certo grau de incerteza sobre as hipóteses assumidas ou sobre os parâmetros ajustados aos modelos. Essa incerteza é o erro da estimativa, o qual pode ser avaliado usando o procedimento de autovalidação comumente chamado de “jack- knifing”. Resumidamente, esse procedimento envolve a estimativa de cada ponto medido "fazendo de conta" que ele não existe, durante a sua estimativa. Há necessidade absoluta de se "fazer de conta" que o valor que está sendo estimado não existe porque, senão, a solução do sistema de krigagem fornecerá o peso associado a ele com valor unitário (λ=1) e todos os outros pesos iguais a zero. A razão para isso é que a krigagem é um interpolador exato, passando exatamente pelo ponto medido, quando este é usado no cálculo. Porém, quando se "faz de conta" que o valor não existe, ele será estimado normalmente como se fosse ponto perdido, levando em conta a variabilidade espacial local expressa nas primeiras distâncias no semivariograma. Então, quando se executa o “jack-knifing”, está se perguntando "se a krigagem for mesmo representativa da variabilidade, e se as hipóteses assumidas forem verdadeiras", então como é seu desempenho para estimar valores conhecidos?

As possíveis respostas a essa pergunta podem ser esclarecidas pela execução de um ou mais dos procedimentos descritos a seguir. Detalhes e embasamento teórico desse procedimento podem ser encontrados em Journel & Huijbregts (1978).

1. O gráfico 1:1 - Medido vs Estimado

Se, para cada um dos N locais onde se tem um valor medido Z(xi), se estimar um valor pela krigagem (ou co-krigagem), Z*(xi), então poder-se-á fazer um gráfico dos valores pareados de Z(xi) e, Z*(xi) e calcular a regressão linear entre eles. A regressão será então:

(120)

* i

Z ( x ) = a + b Z( x )

onde A é a interseção, B é o coeficiente angular da reta e r2 é o coeficiente de correlação entre Z*(xi) e Z(xi).

Assim, se a estimativa (Z*(xi)) fosse idêntica ao valor medido (Z(xi)), então A seria nulo, B e r2 seriam iguais à unidade (1,0), e o gráfico de Z(xi) vs Z*(xi) seria uma série de pontos na linha 1:1. À medida que os valores de A aumentam de 0 (zero) para valores positivos, isso indica que estimador Z*(xi) está superestimando valores pequenos de Z(xi) e subestimando valores grandes. À medida que A decresce de 0 (zero) para valores negativos, o contrário acontece. Este último caso, porém, não é comum.

Desse modo, a qualidade da estimativa pode ser medida pelo julgamento desses parâmetros.

2. O erro absoluto

Uma vez que se tem o conjunto de N valores medidos e estimados, Z(xi) e Z*(xi), pode- se definir o erro absoluto como:

i ₍₁₂₁₎

EA( x ) = Z ( x ) - Z( x )i * i

Aplicando-se as condições de não tendência (31) e de variância mínima (32), nos erros absolutos, pode-se dizer que:

EA = E {EA( x )} = E { Z ( x ) - Z( x )} = 0i * i i ₍₁₂₂₎ e mínima = } ) ) x Z( - ) x ( Z {( E = ) EA VAR( * _i _i 2 ₍₁₂₃₎

Se estas condições não forem satisfeitas, alguma das condições previamente assumidas estará sendo violada. Porém, a equação (123) é bastante difícil de ser verificada, porque o conceito de ser mínimo torna-se subjetivo quando não se tem uma referência. O procedimento seguinte pode contribuir nesse sentido.

3. O erro reduzido

Lembrando que no cálculo dos valores estimados, Z*(xi), sempre se tem a variância da estimativa, σ2

k(xi), então pode-se definir o erro reduzido como:

ER( x ) = ( Z ( x ) - Z( x )) /i ( x )

i i σk i ₍₁₂₄₎

A divisão pela raiz quadrada da variância da estimativa faz com que os ER(xi) sejam sem dimensão e que, por isso, as condições de não tendência e de variância mínima requeiram que:

ER = E {ER( x )} = E {( Z ( x ) - Z( x )) /i ( x )} = 0 * i i σk i ₍₁₂₅₎ e VAR( ER ) = E {( Z ( x ) - Z( x )) /* i i k( x ) } = 10 2 σ ₍₁₂₆₎

Essas propriedades fazem desse tipo de erro uma ferramenta valiosa e de fácil uso nas aplicações de geoestatística. O fato de terem valores ideais fixos em 0 (zero) e 1 (um), e de serem sem dimensão, facilita seu julgamento e estudo, e também permite sua comparação com outras situações expressas em unidades diferentes.

4. Os exemplos

O quadro 2 apresenta os resultados do "jack-knifing" para nitrogênio-Oakley. Esses valores foram calculados assumindo-se que o semivariograma para nitrogênio-Oakley, mostrado na figura 6b, não mudaria cada vez que se eliminasse um valor medido para se efetuar sua estimativa. Esses cálculos são feitos usando-se número de vizinhos crescentes, no caso, de 4 até 24, para se verificar também qual o número ideal de vizinhos a serem usados na krigagem. O julgamento desses resultados deve ser feito de uma maneira global, examinando-se todos os parâmetros. Os valores ideais procurados são: a=0, b=1, r2=1, média do erro absoluto=0, variância do erro absoluto=mínimo, média do erro reduzido=0, variância do erro reduzido=1. Assim, pode- se notar que a vizinhança que proporcionou os melhores parâmetros é a de 8 vizinhos, embora os erros reduzidos estejam longe dos valores ideais. Situação bastante semelhante pode ser observada nos resultados referentes a carbono-Oakley, mostrados no quadro 3. Um fato notório no quadro 2

é que os erros absolutos médios são negativos, embora todos pequenos, da ordem de 10-3. Isso significa dizer que a krigagem, usando os parâmetros dos semivariogramas adotados, em média, subestima os valores. Outro fato é que os coeficientes de correlação, R2, são ligeiramente baixos, da ordem de 0,6, o que significa que o gráfico 1:1 dos valores medidos versus estimados tem um grande espalhamento em torno da regressão. É provável que existam valores extremamente pequenos ou extremamente grandes, o que pode estar perturbando a regressão. Isso pode ser notado pela distribuição de freqüências, a qual parece aproximar-se da lognormal, como indicam os coeficientes de simetria e curtose para nitrogênio-Oakley no quadro 1. Isso pode também ser a causa dos valores bastante baixos das variâncias dos erros reduzidos, os quais deveriam ser 1.

X - CONCLUSÕES

As técnicas mostradas neste trabalho permitem concluir que é possível melhorar significativamente a profundidade e a precisão da análise dos dados quando se aplica a geoestatística. Muitos aspectos particulares dos dados ficariam escondidos se não fosse o uso de semivariogramas mostrando, por exemplo, a tendência parabólica nos dados do solo de Davis. Informações como essas não são mostradas quando se usam apenas parâmetros clássicos como médias e variâncias. Nesse sentido, a geoestatística deve ser adotada como rotina em análises de dados, para possibilitar maior precisão científica nas recomendações.

No documento GEOESTATÍSTICA EM ESTUDOS DE VARIABILIDADE ESPACIAL DO SOLO 1. Sidney R. Vieira 2 (páginas 43-46)