3.2. GEOPROCESSAMENTO APLICADO
3.2.4. Avaliação Estatística e Propagação de Erros
Para se tomar conhecimento de fenômenos estudados, a coleta de dados é essencial. Muitas vezes, a variável observada possui diferentes realizações, assumindo certo grau de variabilidade, o qual pode depender dos mecanismos de coleta ou até mesmo da natureza estocástica dos dados (PAULINO e SOARES, 2004).
Na área de informações espaciais, por exemplo, tem-se, corriqueiramente, a coleta de distâncias e ângulos entre pontos de referência e pontos temáticos. Para um maior controle de qualidade, busca-se obter várias medições dessas mesmas grandezas, assumindo-se um valor médio para ambas.
Neste contexto, a variabilidade, possivelmente, é causada pelos mecanismos de coleta. A calibração dos instrumentos é fator dominante e sua inexistência pode causar o que se chama de erros sistemáticos. Muitas vezes, erros grosseiros – imperícia do
30
operador do instrumento – são considerados como inerentes aos erros sistemáticos (PAULINO e SOARES, 2004).
A variabilidade causada pela natureza dos dados se refere a medidas quantitativas de uma população estudada ou de uma amostra dessa população. Trazendo para o contexto do urbanismo, exemplificando a importância dos estudos de variabilidade, a leitura da cidade é uma das peças-chave para um eficaz processo de planejamento de políticas públicas, como aponta Nahas (2009). Uma das possíveis leituras é a distribuição da renda municipal, sendo muitas vezes obtidas a partir de censos demográficos.
Para garantir a preservação da identidade dos informantes do censo, geralmente tem-se a coleta e divulgação de resultados censitários em pequenas zonas intraurbanas (tema melhor abordado na seção 3.4.2.). Assim, a informação de renda da população é agregada nessas zonas, podendo-se ter a renda total ou a renda média da população residente em cada zona, mas nunca de cada residência desta zona. Este último é um exemplo prático de quando a variabilidade de um conjunto de dados depende da natureza estocástica do próprio dado.
Ressalta-se, no entanto, que essa natureza estocástica pode ser forçada pelo método de coleta, como no caso dos censos, e não exatamente pelas condições naturais do fenômeno estudado.
O trabalho aqui apresentado disserta sobre a coleta de dados agregados por zonas e sua influência nos processos de leitura da cidade, considerando que o método de coleta exerce papel importante na medida de variabilidade do fenômeno.
Independente de qual seja o gerador da variabilidade, em estatística, utilizam-se alguns indicadores da mesma. Destaca-se, para este trabalho, a variância e o coeficiente de variação.
A variância consiste na relação matemática entre a soma dos quadrados dos desvios em torno da média pela quantidade populacional e é representada pela Equação 8. Na verdade, esse é o conceito de variância populacional. Muitas vezes, torna-se impossível obter os valores de toda a população, partindo-se, então, para a variância amostral, conforme a Equação 9.
𝜎
2=
=1( − 𝜇)231 2
=
=1( − )2 −1(9) onde, 𝜎2 é a variância populacional; 𝜇 é a média populacional; 2 é a variância amostral; é a média amostral;
é o valor iésimo valor medido e; é o tamanho da população.
Em muitos casos, a variável de interesse é dependente da variável medida, existindo, portanto, um modelo matemático relacionando as duas grandezas, tal como =𝑓( ). Faz-se necessário também obter a variabilidade dos valores gerados por esse modelo. De outra forma, tem-se a necessidade de se conhecer a variância do valor Y.
Para tal determinação, utiliza-se a Lei da Propagação de Variâncias, a qual está presente em diversas áreas do conhecimento. Em informações espaciais, por exemplo, as coordenadas de pontos de interesse, obtidas por meio de levantamento de ângulos e distâncias – observações da topografia clássica – podem trazer consigo suas medidas de variabilidade em torno de uma média posicional.
Uma vez que as observações supracitadas podem ser obtidas com sua variância, é possível propagá-las de modo a encontrar a variância das coordenadas topográficas. Na verdade, seguindo essa ideia, a qualquer processo de obtenção de valores, através de modelos matemáticos que relacionam variáveis aleatórias independentes, pode ser atribuído o modelo de propagação de variâncias.
Paulino e Soares (2004) demonstram a obtenção genérica de uma função de propagação de variâncias. A Equação 10 apresenta o modelo para uma única variável, cabendo à Equação 11 a indicação genérica da função para duas variáveis.
𝜎
2= [𝑓
′= 𝜇 ]
2𝜎
2 (10)𝜎
2=
𝜕𝑓 𝜕 1|
𝜇 2𝜎
1 2+
𝜕𝑓 𝜕 2|
𝜇 2𝜎
2 2+ 2
𝜕𝑓 𝜕 1|
𝜇𝜕𝑓 𝜕 1
|
𝜇𝜎
1 2 (11)32 onde,
𝜎
2é a variância de Y;
𝑓
′= 𝜇
e 𝜕𝑓𝜕
|
𝜇 são as derivadas da função Y em x = μ;𝜎
2 é a variância de x e;𝜎
1 2 é a covariância entre 1 e 2.
A aplicação para modelos com mais de duas variáveis segue a mesma ideia, tomando-se o cuidado de se verificar as covariâncias entre elas. É certo, porém, que nem todas as aplicações possuem variáveis correlacionadas, simplificando, portanto, o modelo matemático.
Uma característica da variância é que sua unidade de medida é o quadrado da unidade de medida do fenômeno estudado. Por isso, muitas vezes, utiliza-se o desvio- padrão, sendo este a raiz quadrada da variância, tendo, portanto, a mesma unidade do fenômeno estudado.
De outro lado, o coeficiente de variação ( ) também mede o quanto houve de dispersão em torno de uma média. Sua diferença, no entanto, é que ele é adimensional, possuindo um caráter genérico, o qual permite a comparação entre as dispersões de diferentes fenômenos, com diferentes unidades de medidas, tal como níveis de renda e anos médios de estudos – variáveis censitárias.
Seu valor é dado pela divisão entre o desvio-padrão e o valor médio, conforme apresenta a Equação 12.
=
𝜎𝜇 (12)
Um cuidado que se deve ter com o coeficiente de variação, em sua interpretação, é quanto ao valor médio estudado. Por exemplo, caso haja uma distribuição de valores tais quais a média seja o valor 5 e o desvio-padrão seja 2, ter-se-ia um maior que se a média fosse 80 com o mesmo desvio-padrão. Portanto, a variabilidade em torno da média foi a mesma, sendo, porém, a interpretação dos resultados diferente.
33
Deste modo, é certo afirmar que a análise da variabilidade de uma medida estatística deve ser feita a partir de um conjunto de parâmetros que a meçam, trazendo maior grau de informações quanto ao fenômeno em estudo.