CARTOGRAFIA TEMÁTICA: MÉTODOS DE CLASSIFICAÇÃO DOS DADOS GEOGRÁFICOS QUANTITATIVOS
NOTAS DE AULA
PROFA. MÔNICA M. S. DECANINI 2003
DPTO DE CARTOGRAFIA – FCT UNESP
CARTOGRAFIA TEMÁTICA: MÉTODOS DE CLASSIFICAÇÃO DOS DADOS GEOGRÁFICOS QUANTITATIVOS
Æ Um problema central para cartógrafos e geógra fos é o grande volume de dados para mapear.
Æ Há a necessidade de se fazer algum tipo de generalização e simplificação, portanto, o cartógrafo tem que resolver a questão da classificação dos dados .
Æ Os dados devem ser classificados (taxonomias ou formas de ordenação dos dados) para reduzir um grande número de indivíduos para um número menor de grupos visando facilitar a descrição e ilustração dos dados .
Æ Para isso necessita definir as classes a serem utilizadas;
Æ A Classificação facilita a interpretação da realidade que é extremamente complexa;
Æ Embora possa causar a perda de detalhes, torna a interpretação mais significativa e eficaz. TEM MAIOR PODER INTERPRETATIVO.
Æ A classificação é necessária devido a impraticabilidade de simbolizar e mapear cada indivíduo;
Æ Quando há uma variação muito pequena entre símbolos, pelas leis da percepção visual, a diferenciação é quase imperceptível, particularmente quando os símbolos são colocados no contexto do mapa, distanciados um dos outros:
Æ A classificação é um método que tem como propósito específico auxiliar na descoberta de relações espaciais.
LIMITE DA PERCEPÇÃO DA COR => 8 CORES
POR QUÊ ?
Æ O objetivo é agrupar os valores individuais de tal maneira que revele padrões espaciais que sirva aos propósitos temáticos dos usuários.
Æ A classificação pode ser numérica ou quantitativa
Æ Para o mapeamento quantitativo há um conjunto de métodos para estabelecer intervalos de classes.
MÉTODOS DE CLASSIFICAÇÃO DE DADOS GEOGRÁFICOS QUANTITATIVOS – MAPA COROPLÉTICO
• Os métodos de classificação de dados geográficos quantitativos são a melhor forma de planejar os intervalos de classes para os mapas coropléticos .
• É preciso considerar também que o sistema de intervalo de classes inclua um intervalo de dados sem classes sobrepostas, e refletir algumas divisões lógicas dos dados de modo a retratar o propósito do mapa.
• Se possível tem de haver relação matemática – lógica entre as classes (estatísticas). Alguns métodos comumente usados são:
1. Intervalos iguais (constante) 2. Quantis
3. Quebras Naturais:
• Otimização de Jenks- método analítico; 4. Desvio padrão (constante)
5. Média Aninhada (Calcula-se a Média e dividi-se em 2 classes => acima e abaixo da média, sucessivamente para cada uma delas faz -se o mesmo => 4 classes e depois =>8 classes)
SELEÇÃO DE INTERVALOS DE CLASSES (REGRAS) • As Classes não podem se sobrepor:
0 – 20 18 – 30 28 – 40
Errado
Obs: Os limites das classes devem ser bem definidos
• Os intervalos selecionados devem cobrir todos os dados, do mais baixo até o mais alto.
§ Nenhum valor deve começar com o valor que é igual ao maior valor da classe precedente. Exemplo:
• Há um limite quanto ao número de classes a serem representados no mapa coroplético. O olho humano consegue distinguir um número limitado de tons de cinza entre o branco e preto na escala cinza – acromática e de cores- cromática (cerca de oito cores ou tons de cinza).
DEFINIÇÃO DO NÚMERO DE CLASSES: MÉTODO DE STURGES
• Um método estatístico bastante utilizado para a definição do número de classes em uma série é o método de Sturges, que propõe a aplicação da seguinte fórmula:
Onde,
k corresponde ao número de classes
N corresponde ao número de elementos da série, da qual, para fins de mapeamento excluem-se os valores repetidos
k=1 + 3.33logN
Nunc a uma observação pode entrar em duas classes diferentes
00 – 05
05 – 10
10 – 15
00 – 04
05 – 09
10 – 14
00.0 – 4.9
05.0 – 9.9
10.0 – 14.9
00 – < 5
05 – < 1010 – < 20
Errado
Certo
Certo
Certo
• Se N ≤ 80 => Utilize k=1 + 3.33logN ou
N
• Se N > 80 => Utilize k=1 + 3.33logNUma vez definido o número de classes, aplica-se o método de intervalo iguais e demais métodos . O Desvio Padrão é simétrico (de ±1s a ± 3s ).
1. MÉTODO DE INTERVALOS IGUAIS (CONSTANTE) • Esse método atribui intervalos iguais para cada classe.
• O procedimento para obter o intervalo de classe é: 1. Calcular a amplitude dos dados (R):
Onde, H é o valor mais alto e L o mais baixo da série de observações .
2. Obter o valor do intervalo de classe (h):
Onde, k número de classes
3. Para obter os limites de classe, calcula-se:
Vantagens e Desvantagens
• Mapas que são classificados por este método, geralmente tem um senso intuitivo. Sua legenda tende a aparecer ordenadamente e contínua (Figura 1).
R = H – L
h = R/k
L + 1 .h = 1
olimite de classe => L – < L + 1.h
L + 2.h = 2
olimite de classe => L + 1.h – < L + 2.h
L + 3.h = 3 limite de classe => L + 2.h - < L + 3.h
L + 4.h = 4
olimite de classe => L + 3.h – < L + 4 .h
E assim, sucessivamente....
Intervalo de Classes 68% – <136% 136% – < 204% 204% – <272% 272% – 340%
Figura 1 – intervalos de classe pelo método de Intervalos Iguais
• Se as unidades de observação são iguais em tamanho e a distribuição numérica é retangular, muitos mapas parecerão organizados. Infelizmente, muitos histogramas não são retangulares.
• É um método fácil de calcular;
• O método de Intervalos Iguais não mostra detalhes e variações entre valores mais baixos (todos concentrados em uma só c lasse), em uma série que contém valores de amplitude grande;
• No método de Intervalos Iguais, por considerar intervalos fixos, pode ocorrer classe vazia, que apesar de existir na legenda não existe no cartograma;
• O método de Intervalos Iguais pode dividir as observações, de uma forma não correspondente a realidade, isto é, coloca uma quebra no meio de um agrupamento/cluster de um conjunto de valores (Figura 2).
Figura 2 – Intervalos Iguais - Quebra no meio de um agrupamento/cluster 1 2 3 4
68% 136% 204% 272% 340 %
2. MÉTODO DO QUANTIL
• O total do conjunto dos dados é subdividido em um número de classes, na qual cada uma tem o mesmo número de observações.
• Pode-se ter uma série de dados dividida em 4 classes (Quartil ou Desvio Quartílico = 25% dos dados em cada classe) até 100 (Percentis ).
• Se o conjunto dos dados tem, por exemplo, 20 valores e se quer trabalhar com quatro (04) classes, as primeiras 5 observações totais dos valores serão colocadas na primeira classe. O segundo grupo de 5 observações será colocado na Segunda classe, e assim por diante.
OBS: Deve-se sempre ordenar os dados para criar as classes.
• Para calcular o Quantil (com 4 classes é um Quartil)
• Conforme exemplo acima se tem os seguintes intervalos de classes (inteiros): 1, 2, 3, 10, 20, 3 0, 40, 60, 76, 77, 80, 90...
1 – 20 30 – 77
• Quando o resultado obtido não é inteiro, como no exemplo abaixo, faz-se uma aproximação (Slocum, 1999):
§ Coloca-se 13 observações na primeira classe e 14 na segunda classe , de tal forma que se tenha o total de 27 observações (aproximadamente 13.4 x 2)
• Excluem-se as repetições, i.e., as observações repetidas não são contadas.
Q = Número de observações / Número de classes
=>20/4 = 5 observações
Q = Número de observações / Número de classes
=>67/5 = 13.4 observações
Observações:
• Quando uma série apresenta disparidade de valores em alguns elementos, recomenda-se trabalhar com a amplitude útil, evitando-se a amplitude total. Reserva-se uma classe específica para os elementos díspares. Assim, o mapeamento representará mais satisfatoriamente a distribuição espacial das informações
• O método dos Quantis pode dividir de uma forma não correspondente a realidade, pois coloca uma quebra no meio de um agrupamento/cluster de um conjunto de valores.
• Diferente do Método de Intervalos Iguais, cria um vazio entre um intervalo e outro, dando uma impressão de descontinuidade.
3.MÉTODO DO D ESVIO -PADRÃO (CONSTANTE)
• Se o conjunto de dados se comporta como uma distribuição normal, os limites das classes podem ser estabelecidos pelo uso do valor do seu desvio-padrão.
• Os limites das classes são obtidos pelo:
1. cálculo da média e desvio-padrão da população n
2. determina-se os limites pela adição ou subtração do desvio padrão a média. • Normalmente não mais que seis classes são necessárias para levar
em conta a maioria dos valores na distribuição normal. INTERVALOS (
X
– 3σ ) – (X
- 2σ) Classe1 (X
– 2σ) – (X
– σ) Classe 2 (X
– σ ) –X
Classe 3X
– (X
+ σ ) Classe 4 (X
+ σ ) – (X
+ 2σ ) Classe 5 (X
+ 2σ) – (X
+ 3σ ) Classe 6• Este método produz class es de intervalos constantes, porque o desvio-padrão é imutável (simétrico).
• Alguns problemas de simbolização surgem com este método (Dent, 1993), uma vez que os limites das classes são organizados ao redor de um valor central, ao invés de crescer a partir de um valor mais baixo, como usualmente é feito (Figura 3).
Figura 3 : Alternativas de simbolização de classes obtidas pelo método do desvio padrão. Fonte: Dent, 1993
• Em (a), no intervalo de classes a importância visual de –3 a +3 é contínua. Contudo, devido à natureza bidirecional do desvio padrão, esse método de simbolização parece ter pouco apelo intuitivo .
• Em (b), maior importância é dada àqueles valores próximos da média, pois o valor mais escuro está próximo da média (ESCURO=>CLARO)..
• Em (c), maior importância é atribuída àqueles valores mais distantes da média (CLARO=> ESCURO).
• Portanto, deve-se adotar esquemas divergentes ou bipolares para se representar dados de natureza bi-direcional, como no exemplo da Figura 4.
(a)
(b)
Figura 4: Esquema divergente de cor
• O propósito do mapa ditará a escolha de um método de simbolização.
4. MÉTODO DA OTIMIZAÇÃO DE JENKS
• Esse método forma grupos que são homogêneos internamente e assegura a hete rogeneidade entre classes (TABELA 1).
• O procedimento de medida dessa técnica é chamado de Ajuste de Bondade ou Mellhor Ajuste de Variância (GVF = Goodness of Variance Fit):
1. Calcule o n. de classes. Faça um histograma ou um diagrama de frequência dos dados da série para agrupar as observações.
2. Compute a Média (
X
) do conjunto de dados e faz -se a soma dos Desvios Quadráticos de cada observação (xi) da série de dados.Onde, SDAM é o Desvio Quadrático da média da série de observações
3. Desenvolva os limites de classe da primeira iteração. Considere cada valor da série como uma classe, que é considerada a forma ideal. Calculam-se as Médias de cada classe (Zc).
x
• Calculam-se os Desvios Quadráticos de cada observação dentro da classe (xi - Zc). Faz -se a somatória da somatória:
Onde, SDCM é o Desvio Quadrático da Média das observações dentro da classe
• Na primeira iteração, a Média da classe é idêntica ao valor da classe, portanto, o Desvio Quadrático da Média da classe (SDCM ) é ZERO. 4. Compute o Ajuste de Bondade (GVF)
5. Observe que o valor de GVF para a primeira iteração é 1.0, pois o objetivo da iteração é maximizar o valor de GVF.
• Parte-se da situação ideal (não generalizada), pois obviamente em um mapa coroplético não se tem uma observação para cada classe, o que se pretende é agrupar as observações em classes, para poder representar graficamente, de uma forma eficaz e legível (já que o olho humano tem um limite na percepção das cores de no máximo 8 cores). • Portanto, na situação real, a solução de GVF deve ser menor que 1.0 ,
mas tendendo próximo a 1.0, ou seja, quanto mais próxima de 1.0, melhor o resultado. Quando não há melhora nesse valor, pára-se a iteração.
6. Repita os procedimentos acima até o valor de GVF não puder ser maximizado, i.é., aproximar-se do Valor 1.0.
GVF = (SDAM – SDCM) / SDAM
SDCM =
∑ ∑ (xi
- Z
c)
TABELA 1- MÉTODO DE CLASSIFICAÇÃO – OTIMIZAÇÃO DE JENKS
Fonte: Dent, 1993
REFERÊNCIAS BIBLIOGRÁFICAS
BOS, ES (1973) Cartographic Principles in Thematic Mapping. ITC, The Netherlands. DENT , D.B. (1993) Cartography: Thematic Map Design . WCB, England.
SLOCUM, T A (1999) Thematic Cartography and Visualization. Prentice Hall, New Jersey. RAMOS, C. da S. E SANCHEZ, M. C. (2000) Estudo Metodológico da Classificação de dados para Cartografia Temática. Geografia 25(2):23-52.