Avaliação Estatística e Propagação de Erros

3.2. GEOPROCESSAMENTO APLICADO

3.2.4. Avaliação Estatística e Propagação de Erros

Para se tomar conhecimento de fenômenos estudados, a coleta de dados é essencial. Muitas vezes, a variável observada possui diferentes realizações, assumindo certo grau de variabilidade, o qual pode depender dos mecanismos de coleta ou até mesmo da natureza estocástica dos dados (PAULINO e SOARES, 2004).

Na área de informações espaciais, por exemplo, tem-se, corriqueiramente, a coleta de distâncias e ângulos entre pontos de referência e pontos temáticos. Para um maior controle de qualidade, busca-se obter várias medições dessas mesmas grandezas, assumindo-se um valor médio para ambas.

Neste contexto, a variabilidade, possivelmente, é causada pelos mecanismos de coleta. A calibração dos instrumentos é fator dominante e sua inexistência pode causar o que se chama de erros sistemáticos. Muitas vezes, erros grosseiros – imperícia do

operador do instrumento – são considerados como inerentes aos erros sistemáticos (PAULINO e SOARES, 2004).

A variabilidade causada pela natureza dos dados se refere a medidas quantitativas de uma população estudada ou de uma amostra dessa população. Trazendo para o contexto do urbanismo, exemplificando a importância dos estudos de variabilidade, a leitura da cidade é uma das peças-chave para um eficaz processo de planejamento de políticas públicas, como aponta Nahas (2009). Uma das possíveis leituras é a distribuição da renda municipal, sendo muitas vezes obtidas a partir de censos demográficos.

Para garantir a preservação da identidade dos informantes do censo, geralmente tem-se a coleta e divulgação de resultados censitários em pequenas zonas intraurbanas (tema melhor abordado na seção 3.4.2.). Assim, a informação de renda da população é agregada nessas zonas, podendo-se ter a renda total ou a renda média da população residente em cada zona, mas nunca de cada residência desta zona. Este último é um exemplo prático de quando a variabilidade de um conjunto de dados depende da natureza estocástica do próprio dado.

Ressalta-se, no entanto, que essa natureza estocástica pode ser forçada pelo método de coleta, como no caso dos censos, e não exatamente pelas condições naturais do fenômeno estudado.

O trabalho aqui apresentado disserta sobre a coleta de dados agregados por zonas e sua influência nos processos de leitura da cidade, considerando que o método de coleta exerce papel importante na medida de variabilidade do fenômeno.

Independente de qual seja o gerador da variabilidade, em estatística, utilizam-se alguns indicadores da mesma. Destaca-se, para este trabalho, a variância e o coeficiente de variação.

A variância consiste na relação matemática entre a soma dos quadrados dos desvios em torno da média pela quantidade populacional e é representada pela Equação 8. Na verdade, esse é o conceito de variância populacional. Muitas vezes, torna-se impossível obter os valores de toda a população, partindo-se, então, para a variância amostral, conforme a Equação 9.

𝜎

₌

=1( − 𝜇)2

31 2

₌

=1( − )2 −1

(9) onde, 𝜎2_{é a variância populacional;} 𝜇 é a média populacional; 2_{é a variância amostral;} é a média amostral;

é o valor iésimo valor medido e; é o tamanho da população.

Em muitos casos, a variável de interesse é dependente da variável medida, existindo, portanto, um modelo matemático relacionando as duas grandezas, tal como =𝑓( ). Faz-se necessário também obter a variabilidade dos valores gerados por esse modelo. De outra forma, tem-se a necessidade de se conhecer a variância do valor Y.

Para tal determinação, utiliza-se a Lei da Propagação de Variâncias, a qual está presente em diversas áreas do conhecimento. Em informações espaciais, por exemplo, as coordenadas de pontos de interesse, obtidas por meio de levantamento de ângulos e distâncias – observações da topografia clássica – podem trazer consigo suas medidas de variabilidade em torno de uma média posicional.

Uma vez que as observações supracitadas podem ser obtidas com sua variância, é possível propagá-las de modo a encontrar a variância das coordenadas topográficas. Na verdade, seguindo essa ideia, a qualquer processo de obtenção de valores, através de modelos matemáticos que relacionam variáveis aleatórias independentes, pode ser atribuído o modelo de propagação de variâncias.

Paulino e Soares (2004) demonstram a obtenção genérica de uma função de propagação de variâncias. A Equação 10 apresenta o modelo para uma única variável, cabendo à Equação 11 a indicação genérica da função para duas variáveis.

𝜎

_{= [}_𝑓

′

= 𝜇 ]

_𝜎

2 ₍₁₀₎

𝜎

₌

𝜕𝑓 𝜕 1

|

𝜇 2

𝜎

1 2

₊

𝜕𝑓 𝜕 2

|

𝜇 2

𝜎

2 2

_{+ 2}

𝜕𝑓 𝜕 1

|

𝜇

𝜕𝑓 𝜕 1

|

𝜇

𝜎

1 2 (11)

32 onde,

𝜎

é a variância de Y;

𝑓

′

_{= 𝜇}

_e 𝜕𝑓

𝜕

|

𝜇 são as derivadas da função Y em x = μ;

𝜎

2 _{é a variância de x e;}

𝜎

1 2 é a covariância entre 1 e 2

.

A aplicação para modelos com mais de duas variáveis segue a mesma ideia, tomando-se o cuidado de se verificar as covariâncias entre elas. É certo, porém, que nem todas as aplicações possuem variáveis correlacionadas, simplificando, portanto, o modelo matemático.

Uma característica da variância é que sua unidade de medida é o quadrado da unidade de medida do fenômeno estudado. Por isso, muitas vezes, utiliza-se o desvio- padrão, sendo este a raiz quadrada da variância, tendo, portanto, a mesma unidade do fenômeno estudado.

De outro lado, o coeficiente de variação ( ) também mede o quanto houve de dispersão em torno de uma média. Sua diferença, no entanto, é que ele é adimensional, possuindo um caráter genérico, o qual permite a comparação entre as dispersões de diferentes fenômenos, com diferentes unidades de medidas, tal como níveis de renda e anos médios de estudos – variáveis censitárias.

Seu valor é dado pela divisão entre o desvio-padrão e o valor médio, conforme apresenta a Equação 12.

=

𝜎

𝜇 (12)

Um cuidado que se deve ter com o coeficiente de variação, em sua interpretação, é quanto ao valor médio estudado. Por exemplo, caso haja uma distribuição de valores tais quais a média seja o valor 5 e o desvio-padrão seja 2, ter-se-ia um maior que se a média fosse 80 com o mesmo desvio-padrão. Portanto, a variabilidade em torno da média foi a mesma, sendo, porém, a interpretação dos resultados diferente.

Deste modo, é certo afirmar que a análise da variabilidade de uma medida estatística deve ser feita a partir de um conjunto de parâmetros que a meçam, trazendo maior grau de informações quanto ao fenômeno em estudo.

No documento Proposta metodológica para redefinição de limites censitários a partir da estatística espacial e integração dos dados do censo ao cadastro territorial multifinalitário (páginas 42-46)

Avaliação Estatística e Propagação de Erros

3.2. GEOPROCESSAMENTO APLICADO

3.2.4. Avaliação Estatística e Propagação de Erros

𝜎

=

=

𝜎

= [𝑓

= 𝜇 ]

𝜎

𝜎

=

|

𝜎

+

|

𝜎

+ 2

|

|

𝜎

𝜎

𝑓

= 𝜇

|

𝜎

𝜎

.

=

₌

₌

_{= [}_𝑓

_𝜎

₌

₊

_{+ 2}

_{= 𝜇}