CONHECENDO O
ALGORITMO GARP
Adair Santa Catarina Curso de Informática Unioeste – Campus de Cascavel – PR
Roteiro
n
Introdução
n
Algoritmos Genéticos (AG)
n
GMS e DesktopGARP
n
Avaliação dos Modelos Ajustados
n
Problemas e Soluções no GMS
Introdução
n
GARP é parte de um sistema utilizado na
modelagem da distribuição potencial de
espécies biológicas a partir de dados raster
ambientais e biológicos (Stockwell, 1993).
Objetivos da Apresentação
n
Exibir um exemplo de Algoritmo Genético para
facilitar a compreensão do GARP;
n
Apresentar uma visão geral do GMS (GARP
Modelling System);
n
Mostrar um AG com representação explícita de
relacionamentos espaciais para modelagem
sócio-ambiental.
Roteiro
n
Introdução
n
Algoritmos Genéticos (AG)
n
GMS e DesktopGARP
n
Avaliação dos Modelos Ajustados
n
Problemas e Soluções no GMS
Algoritmos Genéticos (AG)
n
Algoritmos de busca que se utilizam do paradigma
genético/evolucionário (Holland, 1975);
n
Em 1983 o primeiro problema de otimização
resolvido com aplicação de AG (Goldberg, 1989);
n
Imitam processos observados na evolução natural
das espécies; bons indivíduos sobrevivem e se
reproduzem;
n
A evolução ocorre sobre indivíduos codificados em
cromossomos sob a forma de cadeias de bits – 0 e 1
– ou números reais;
n
Operadores: seleção, recombinação e mutação;
Algoritmos Genéticos (AG)
Gerar uma populaçãoEstimar a população
Parar Seleção
Cruzamento
Mutação
Estimação da nova população
Não
Sim Fim da busca?
Algoritmos Genéticos (AG) – Exemplo
n
Encontrar a cadeia de 20 bits com o maior
número de bits 1.
n
População inicial: 8 indivíduos aleatórios.
3 11 10 13 4 10 6 7 Fitness 11000000000000000001 10111010111000100101 10101000101001110110 11001110101011101101 00001000101000000100 11001010101010100101 00011000101010000010 11001000101000100100 População inicial 8 7 6 5 4 3 2 1 Ind. 10,9% 9,4% 15,6% 6,3% 20,3% 15,6% 17,2% 4,7%
Algoritmos Genéticos (AG) – Exemplo
n
Seleção: método da roleta;
¨ Sorteiam-se tantos números entre 0 e 100% quantos
forem os indivíduos na população;
¨ Através da distribuição de freqüência acumulada
localizam-se os indivíduos selecionados.
62,5 5 95,3 7 78,1 6 42,2 4 35,9 3 20,3 2 10,9 1 d.f.a. Indivíduo 5 6 5 1 7 6 3 Indivíduo 11001110101011101101 10101000101001110110 11001110101011101101 11001000101000100100 10111010111000100101 10101000101001110110 11001010101010100101 Cromossomo 55 53 71 4 92 66 31 Sorteio
Algoritmos Genéticos (AG) – Exemplo
n
Cruzamento:
¨ Diversos tipos de cruzamento à Um ponto aleatório.
¨ Taxa de cruzamento varia de 60 a 80%;
¨ Adotada = 80%. 11001010101010100101 11001110101011101101 10101000101001110110 11001110101011101101 11001000101000100100 10111010111000100101 10101000101001110110 11001010101010100101 Cromossomos pais 3 5 6 5 1 7 6 3 Indivíduo 11001010101010100101 11001110101011101101 10101000101011101101 11001110101001110110 11001010111000100101 10111000101000100100 10101000101001100101 11001010101010110110 Cromossomos filhos 27 81 37 50 Sorteio
Algoritmos Genéticos (AG) – Exemplo
n
Mutação:
¨ Taxa de mutação varia de 0,5% a 5%;
¨ Adotada = 2%. 11001010101010100101 11001110101011101101 10101000101011101101 11001110101001110110 11001010111000100101 10111000101000100100 10101000101001100101 11001010101010110110 Cromossomos filhos 11001110101010100101 11001110101011101101 10101000101011101111 11001110101001110110 11001100101000100100 11111010111000100101 10101000101001110110 11101010101010000101 Cromossomos (mutação) 8 7 6 5 4 3 2 1 Indivíduo
Algoritmos Genéticos (AG) – Exemplo
nApós a 1
ageração:
3 11 10 13 4 10 6 7 Fitness 11000000000000000001 10111010111000100101 10101000101001110110 11001110101011101101 00001000101000000100 11001010101010100101 00011000101010000010 11001000101000100100 População inicial 11001110101010100101 11001110101011101101 10101000101011101111 11001110101001110110 11001100101000100100 11111010111000100101 10101000101001110110 11101010101010000101 População 1a geração 8 7 6 5 4 3 2 1 Ind. 11 13 12 12 8 12 10 10 FitnessRoteiro
n
Introdução
n
Algoritmos Genéticos (AG)
n
GMS e DesktopGARP
n
Avaliação dos Modelos Ajustados
n
Problemas e Soluções no GMS
GMS
n
GARP Modelling System (Stockwell, 1993):
¨ Um AG para predição da distribuição potencial de espécies
biológicas a partir de dados raster ambientais e biológicos;
¨ Trabalha de forma automática e não-supervisionada;
¨ Robusto: testa diversas soluções e diversos modelos (regras); ¨ Maximiza a significância e a precisão de predição das regras.
GMS
n
Estrutura modular: 8 módulos (Batch)
¨ Rasteriz, presampl, initial, explain, verify, predict,
image, translat
n
Regras:
¨ Se A é verdade então B (inferência lógica)
¨ 4 tipos de regras:
n Atômicas, BIOCLIM, Faixas e Logísticas; n Exemplos:
¨ Se TANN = 23 e GEO = 4 então PRESENT
¨ Se TANN = (23, 29] e TNCM = (10, 16) e ... e TCLQ = (21, 23] e TWM
= (23, 30] então PRESENT
¨ Se GEO=(6, 244] e TMNE=(228, 1480] então ABSENT ¨ Se 0,1 – GEO * 0,1 + TMNE * 0,3 então ABSENT
GARP
n
Codificação das regras:
r1: Se TMIN = (5, 10] e TMED = (10, 22] e ELEV = (1, 2] então PRESENT r2: Se TMIN = (0, 15] e TMED = (0, 50] e ELEV = (0, 20] então ABSENT r3: Se TMIN * 0,80 + TMED * -0,2 + ELEV * 0,45 então ABSENT
GARP
nMecanismo evolutivo:
¨ Recombinação: n cruzamento e junção. ¨ Mutação: n aleatória e incremental. ¨ Seleção:n um número de melhores regras definido a priori
¨ Função de avaliação: n pYs pYs no n pYs no pXYs Sig − ⋅ ⋅ ⋅ − = 1
• Sig: valor de aptidão da regra (significância);
• pXYs: número de pontos amostrados que a regra prevê corretamente;
• no: número de pontos amostrados avaliados pela regra;
DesktopGARP
Roteiro
n
Introdução
n
Algoritmos Genéticos (AG)
n
GMS e DesktopGARP
n
Avaliação dos Modelos Ajustados
n
Problemas e Soluções no GMS
Avaliação dos Modelos Ajustados
n
Dados de treinamento e dados de teste;
nMatriz de confusão:
Presente
Ausente
Predição – Presente
A
B
Predição – Ausente
C
D
¨ B = erros por comissão
n Desconhecimento, fatores topológicos/biológicos, área
inadequada.
Seleção do Melhor Subconjunto Solução
n
GARP = algoritmo estocástico à gera diversos
modelos com os mesmos dados.
Índice de Comissão (% da área predita como presente)
Erro por Omissão (% de pontos amostrais fora da área predita ) 0 100 100
Índice de Comissão (% da área predita como presente)
Erro por Omissão (% de pontos amostrais fora da área predita ) 0 100 100
Índice de Comissão (% da área predita como presente)
Erro por Omissão
(% de
pontos
amostrais fora da área predita
) 0 100 100 ↑Omissão ↓Comissão Omissão nula ↑Comissão Omissão nula Sem Comissão Superajuste Distribuição da espécie na área
Índice de Comissão (% da área predita como presente)
Erro por Omissão
(% de
pontos
amostrais fora da área predita
) 0 100 100 ↑Omissão ↓Comissão ↑Omissão ↓Comissão Omissão nula ↑Comissão Omissão nula ↑Comissão Omissão nula Sem Comissão Superajuste Omissão nula Sem Comissão Superajuste Distribuição da espécie na área Distribuição da espécie na área
Seleção do Melhor Subconjunto Solução
n
Avaliação da qualidade do modelo ajustado (cont.)
Índice de Comissão (% da área predita como presente)
Erro por Omissão
(% de
pontos
amostrais fora da área predita
)
0 100
100
Índice de Comissão (% da área predita como presente)
Erro por Omissão
(% de
pontos
amostrais fora da área predita
)
0 100
100
Índice de Comissão (% da área predita como presente)
Erro por Omissão
(% de
pontos
amostrais fora da área predita
)
0 100
100
Índice de Comissão (% da área predita como presente)
Erro por Omissão
(% de
pontos
amostrais fora da área predita
) 0 100 100 Superpredição Melhores modelos Superajuste Mediana
Índice de Comissão (% da área predita como presente)
Erro por Omissão
(% de
pontos
amostrais fora da área predita
)
0 100
100
Índice de Comissão (% da área predita como presente)
Erro por Omissão
(% de
pontos
amostrais fora da área predita
) 0 100 100 Superpredição Melhores modelos Superajuste Mediana
Roteiro
n
Introdução
n
Algoritmos Genéticos (AG)
n
GMS e DesktopGARP
n
Avaliação dos Modelos Ajustados
n
Problemas e Soluções no GMS
Problemas e Soluções no GMS
n
4 classes lógicas de problemas:
¨ Preparação dos dados;
¨ Desenvolvimento do modelo;
¨ Aplicação do modelo;
Preparação dos Dados – Rasteriz
n
Utilizar todas as informações disponíveis: dados
categóricos e contínuos.
n
Não uniformidade da população:
¨ Deve-se à variação na escala dos dados: 100 km a
poucos metros;
¨ Um outlyer é mais importante que a amostragem em
duplicidade; dados próximos são absorvidos numa única célula;
¨ Rasteriz mapeia os dados para uma matriz, colocando os dados numa mesma escala.
Preparação dos Dados – Rasteriz
n
Diferentes tipos de dados:
¨ Rasteriz reconhece 3 tipos de dados diferentes: presença/ausência, categóricos, contínuos.
n Presença/ausência: Mais de um à Valor presença; n Categórico: Moda;
n Contínuo: Média.
Produzindo o Conjunto de Dados
n
Dados podem estar numa mesma escala, mas
não estão livres de padrões indesejados oriundos
do processo de amostragem.
n
Presampl gera dois conjunto de dados (train e
test) a partir dos dados produzidos por rasteriz.
n
Apenas dados de presença:
¨ Em herbários a maioria dos dados referem-se apenas
à presença da espécie;
¨ GARP cria o conceito de background
(pseudo-ausência) selecionando pontos aleatórios no espaço geográfico.
Produzindo o Conjunto de Dados
n
Proporções variáveis:
¨ A proporção de amostras de presença e ausência
refletem a escassez ou abundância da espécie;
¨ As métricas de avaliação da qualidade dos modelos
são afetadas quando as proporções de amostras estão próximas de 0 ou 1;
¨ Recomendação: manter o equilíbrio na amostragem
de dados de presença/ausência (50% a 50%);
¨ O desequilíbrio prejudica a comparação dos modelos
Produzindo o Conjunto de Dados
n
Poucos ou muitos dados:
¨ Muitos dados à aumento no tempo de computação
com poucos ganhos da precisão do modelo;
¨ Poucos dados à amostragem com reposição pode
comprometer pressupostos estatísticos como a independência.
Desenvolvimento do Modelo
n
Dois objetivos da modelagem: repetição e
precisão nos resultados.
n
Repetição:
¨ GARP é um algoritmo estocástico à difícil obter
repetição de resultados;
¨ Consumo de tempo para obter o resultados à Initial
à gera um modelo inicial usando estatísticas e
heurísticas que acelera o processo.
n
Precisão nos resultados:
¨ Não há consenso entre autores sobre a resposta das
espécies ao ambiente;
¨ GARP usa diferentes modelos de regras que podem
Aplicação do Modelo
n
Superajuste (Overfitting): o modelo ajusta-se
perfeitamente aos dados mas é muito pobre em
predição;
n
Um modelo com diversas regras pode apresentar
conflitos entre regras.
n
Overfitting:
¨ Repetidos testes de significância estatística num
subconjunto amostrado a partir de train (Explain)
elimina overfitting à Conclusão empírica (Stockwell, 1992);
Aplicação do Modelo
n
Conflito entre regras:
¨ Aplica-se a regra que apresenta maior precisão de
previsão à predict;
n Presente à P = probabilidade a posteriori; n Ausente à P = 1 – probabilidade a posteriori; n Gera transições abruptas nos mapas de saída;
¨ Suavização das transições:
n média entre probabilidade a posteriori da melhor regra
(presença) e o inverso da probabilidade a posteriori da melhor regra (ausência).;
¨ Quando nenhuma regra se aplica a área é dita
Avaliação do GMS
n
Duas formas de avaliar sistemas de modelagem:
¨ Demonstrar a validade do sistema em bases teóricas
usando a matemática e dados simulados;
¨ Através de experimentação empírica e comparação
dos resultados com sistemas alternativos.
n
A segunda opção foi escolhida: em uso desde
1995 por especialistas de todo o mundo, com as
mais diferentes espécies.
Avaliação do GMS
n
Sistema inovador:
¨ O sistema foi testado com uma gama variada de
espécies com dados fornecidos por especialistas que depois analisaram os resultados.
¨ Conclusão: erros devem-se mais ao problema da falta
de dados do que às limitações intrínsecas da tecnologia.
Roteiro
n
Introdução
n
Algoritmos Genéticos (AG)
n
GMS e DesktopGARP
n
Avaliação dos Modelos Ajustados
n
Problemas e Soluções no GMS
Spatial Aware Genetic Algorithm (SAGA)
n
AG são utilizados em diversas aplicações:
¨ GARP (Stockwell, 1993);
¨ Model Breeders (Openshaw, 1997).
n
Limitação destes AG:
Dependência
Espacial
(Lei de Tobler)
Não incorporam
relacionamentos
espaciais
Questões
n
É possível incorporar os relacionamentos
espaciais em AG utilizados na análise de dados
geográficos?
n
Os AG são capazes de operar sobre um modelo
generalizado de relacionamentos espaciais?
n
Os AG permitem quantificar o efeito dos
relacionamentos sobre as variáveis envolvidas
num fenômeno espacial?
n
Pode-se representar o conhecimento sobre as
influências, favoráveis ou não, oriundas de
formações naturais ou artificiais presentes na
região em estudo?
Objetivo
n
Incorporar aos AG, utilizados na modelagem de
fenômenos sócio-ambientais, uma estrutura de
representação explícita de relacionamentos
espaciais, através da qual pode-se inserir o
conhecimento sobre os elementos naturais e
artificiais presentes na região em estudo,
Estrutura do Cromossomo
∑
∑
= =
⋅
⋅
=
r j i n k k ijk ij iW
Weights
X
X
1 , 1 0ˆ
(
)
∑
=−
=
n i i iX
X
Fitness
1 2 0 0ˆ
Função de Avaliação
Considerações
n
Estrutura proposta é flexível:
¨ Layers à Polígonos ou matrizes;
¨ Modelos de regressão linear à Elemento é vizinho
de si mesmo e Wij = 1;
¨ Elemento de relevo divide o espaço em sub-regiões
à Wij = 0; ¨ Modelos quadráticos:
∑
∑
= = ⋅ ⋅ = r j i n k k ijk ij i W Weights X X 1 , 1 2 0 ˆ nLayers de pesos:
n Padrões podem indicar como as variáveis
independentes afetam a dependente considerando a componente espacial.
Referências Bibliográficas
n GOLDBERG, D. E. Genetic algorithms in search, optimization &
machine learning. Reading : Addison-Wesley, 1989.
n HOLLAND, J. H. Adaptation in natural and artificial systems. Ann
Arbor: University of Michigan Press, 1975.
n OPENSHAW, S.; OPENSHAW, C. Artificial intelligence in
geography. West Sussex : John Wiley & Sons, 1997.
n STOCKWELL, D. Machine learning and the problem of
prediction and explanation in ecological modelling. 1992. Tese
de Doutorado – Australian National University, Austrália.
n STOCKWELL, D.; PETERS, D. Spatial predictions using Genetic
Algorithm for Rule-set Production. 1993. Disponível em:
<biodi.sdsc.edu/Symbiotik/ Model/GARP/Doc/tutorial.html>. Acesso em: 01/05/2006.