Tópicos de Análise de Algoritmos

(1)

Tópicos de Análise de Algoritmos

Busca local:

algoritmo Metropolis e simulated annealing

Secs 12.1 e 12.2 do KT

(2)

Busca local

Problema de otimização combinatória:

conjunto deinstâncias para cada instânciaI,

um conjunto Sol(I)(não vazio) de soluções (viáveis) e uma funçãoval(S) para cada soluçãoS em Sol(I)

Objetivo: Dada uma instância I viável,

encontrar soluçãoS em Sol(I) tq val(S) é mínimo/máximo. Tipicamente Sol(I) tem tamanho exponencial.

Em uma busca local, adicionamos a noção devizinhança entre as soluções. Relações que vizinhançasimétricas.

(3)

Busca local

um conjunto Sol(I)(não vazio) de soluções (viáveis) e uma funçãoval(S) para cada soluçãoS em Sol(I) Objetivo: Dada uma instância I viável,

encontrar soluçãoS em Sol(I) tq val(S) é mínimo/máximo.

Tipicamente Sol(I) tem tamanho exponencial. Em uma busca local, adicionamos a

noção devizinhança entre as soluções. Relações que vizinhançasimétricas.

(4)

Busca local

Tipicamente Sol(I) tem tamanho exponencial.

Em uma busca local, adicionamos a noção devizinhança entre as soluções. Relações que vizinhançasimétricas.

(5)

Busca local

Em uma busca local, adicionamos a noção devizinhançaentre as soluções.

Relações que vizinhançasimétricas.

(6)

Busca local

Em uma busca local, adicionamos a noção devizinhançaentre as soluções.

Relações que vizinhançasimétricas.

(7)

Busca local

Algoritmo:

Começa com uma solução arbitráriaS.

Iterativamente muda para uma soluçãoS⁰ vizinha a S.

Durante o processo,guarda a melhor solução visitada. Pontos críticos:

I como definir a vizinhança de uma solução I como escolherS⁰ na vizinhança de S

Grafo cujo conjunto de vértices é Sol(I)e adjacência é dada pela relação de vizinhança entre as soluções. Algoritmo de busca local é um passeio neste grafo, que tenta alcançar uma boa solução.

(8)

Busca local

Algoritmo:

Durante o processo,guarda a melhor solução visitada.

Pontos críticos:

I como definir a vizinhança de uma solução I como escolherS⁰ na vizinhança de S

(9)

Busca local

Algoritmo:

Pontos críticos:

I como definir a vizinhança de uma solução

I como escolherS⁰ na vizinhança de S

(10)

Busca local

Algoritmo:

Pontos críticos:

I como definir a vizinhança de uma solução I como escolherS⁰ na vizinhança deS

(11)

Busca local

Algoritmo:

Pontos críticos:

I como definir a vizinhança de uma solução I como escolherS⁰ na vizinhança deS

Grafo cujo conjunto de vértices é Sol(I)e adjacência é dada pela relação de vizinhança entre as soluções.

Algoritmo de busca local é um passeio neste grafo, que tenta alcançar uma boa solução.

(12)

Cobertura por vértices

GrafoG = (V,E)

S ⊆V é cobertura por vérticesse

toda arestae emE tem pelo menos uma ponta em S.

Problema: Dado G,

encontrar cobertura por vértices detamanho mínimo. custoc(S)=|S|

Relação de vizinhança: S ∼S⁰ se S⁰ é obtido de S

S ∼S⁰ se adicionando-se ou removendo-se um vértice. Cada soluçãoS tem n vizinhos, onde n=|V|.

(13)

Cobertura por vértices

GrafoG = (V,E)

Problema: Dado G,

encontrar cobertura por vértices detamanho mínimo.

custoc(S)=|S|

Relação de vizinhança: S ∼S⁰ se S⁰ é obtido de S

S ∼S⁰ se adicionando-se ou removendo-se um vértice. Cada soluçãoS tem n vizinhos, onde n=|V|.

(14)

Cobertura por vértices

GrafoG = (V,E)

Problema: Dado G,

custoc(S)=|S| Relação de vizinhança:

S ∼S⁰ se S⁰ é obtido de S

S ∼S⁰ se adicionando-se ou removendo-se um vértice.

Cada soluçãoS tem n vizinhos, onde n=|V|.

(15)

Cobertura por vértices

GrafoG = (V,E)

Problema: Dado G,

custoc(S)=|S| Relação de vizinhança:

S ∼S⁰ se S⁰ é obtido de S

S ∼S⁰ se adicionando-se ou removendo-se um vértice.

Cada soluçãoS tem n vizinhos, onde n=|V|.

(16)

Algoritmo de busca local

Gradiente descendente

BUSCA-LOCAL(n,E) G = (V,E) onde V = [n]

1 S ←[n]

2 enquanto existe vizinho S⁰ deS

2 enquanto tq |S⁰|<|S|e S⁰ é cobertura faça

3 S ←S⁰

4 devolvaS

Exemplo 2: G é estrela de centrov

Se, ao final da primeira iteração,S 6=S \ {v}, o algoritmo termina comS ={v}, que é ótimo. Se, ao final da primeira iteração,S =S \ {v}, o algoritmo termina com esse ótimo local. O algoritmo pode se dar arbitrariamente mal.

(17)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS Exemplo 1: G = (V,∅)

S decresce um vértice de cada vez atéS =∅, que é ótimo.

(18)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS Exemplo 1: G = (V,∅)

S decresce um vértice de cada vez atéS =∅, que é ótimo.

(19)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS

(20)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS

Se, ao final da primeira iteração,S 6=S \ {v}, o algoritmo termina comS ={v}, que é ótimo.

(21)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS

Se, ao final da primeira iteração,S =S \ {v}, o algoritmo termina com esse ótimo local. O algoritmo pode se dar arbitrariamente mal.

(22)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS

Se, ao final da primeira iteração,S =S \ {v}, o algoritmo termina com esse ótimo local.

O algoritmo pode se dar arbitrariamente mal.

(23)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS

Se, ao final da primeira iteração,S =S \ {v}, o algoritmo termina com esse ótimo local.

O algoritmo pode se dar arbitrariamente mal.

(24)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS

Exemplo 3: G é um caminho com número ímpar de vértices

Solução ótima: conjunto de vértices pares Muitos mínimos locais.

(25)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS

Solução ótima: conjunto de vértices pares

(26)

Algoritmo de busca local

1 S ←[n]

3 S ←S⁰

4 devolvaS

(27)

Algoritmo Metropolis

Metropolis, Rosenbluth, Teller, e Teller (1953) Simulação de sistema físico

de acordo com mecânica estatística.

Função de Gibbs-Boltzmann: e^−E/(kT⁾,

ondeE é a energia, T é a temperatura e k é uma constante. Modelo: o sistema está num estado de energiaE

com probabilidade dada pela função de Gibbs-Boltzmann. ParaT fixo, a função decresce comE.

(Maior a chance de estar em um estado de menor energia.)

ParaT pequeno,

estado de menor energia é mais provável que estado de energia alta. ParaT grande, a diferença entre estas probabilidades é bem pequena.

(28)

Algoritmo Metropolis

ondeE é a energia, T é a temperatura e k é uma constante.

Modelo: o sistema está num estado de energiaE

com probabilidade dada pela função de Gibbs-Boltzmann. ParaT fixo, a função decresce comE.

ParaT pequeno,

(29)

Algoritmo Metropolis

com probabilidade dada pela função de Gibbs-Boltzmann.

ParaT fixo, a função decresce comE.

ParaT pequeno,

(30)

Algoritmo Metropolis

ParaT pequeno,

(31)

Algoritmo Metropolis

ParaT pequeno,

estado de menor energia é mais provável que estado de energia alta.

ParaT grande, a diferença entre estas probabilidades é bem pequena.

(32)

Algoritmo Metropolis

ParaT pequeno,

estado de menor energia é mais provável que estado de energia alta.

ParaT grande, a diferença entre estas probabilidades é bem pequena.

(33)

Algoritmo Metropolis

Objetivo: chegar a um estado de energia mínima.

Algoritmo Metropolis: para um dadoT

Comece em um estadoS.

A cada iteração, gere uma perturbação pequenaS⁰ deS. SeE(S⁰)≤E(S), mude para S⁰.

Senão seja∆(E) =E(S⁰)−E(S).

SenãoMude paraS⁰ com probabilidadee^{−∆(E)/(kT}⁾. SejaZ =P

Se^−E(S)/(kT).

Para um estadoS, seja f_S(t) a fração dost primeiros passos da simulação em que o algoritmo passa emS.

limt→∞f_S(t) = _Z¹ ·e^−E(S)/(kT⁾ com probabilidade indo para 1 Fica emS o tempo esperado.

(34)

Algoritmo Metropolis

SenãoMude paraS⁰ com probabilidadee^{−∆(E)/(kT}⁾.

SejaZ =P

Se^−E(S)/(kT).

(35)

Algoritmo Metropolis

Se^−E(S)/(kT⁾.

limt→∞f_S(t) = _Z¹ ·e^−E(S)/(kT⁾ com probabilidade indo para 1

Fica emS o tempo esperado.

(36)

Algoritmo Metropolis

Se^−E(S)/(kT⁾.

(37)

Metropolis para cobertura por vértices

Se, ao final da primeira iteração,S =S \ {v}...

com probabilidade positiva colocav de volta no S e, mais adiante, encontra a cobertura mínima! Exemplo 2: G = (V,∅)

QuandoS está grande,

tem boas chances doS diminuir. Mas quandoS fica pequeno,

tem boas chances de voltar a crescer e é difícil chegar emS =∅.

(38)

Metropolis para cobertura por vértices

com probabilidade positiva colocav de volta no S e, mais adiante, encontra a cobertura mínima!

Exemplo 2: G = (V,∅) QuandoS está grande,

tem boas chances doS diminuir. Mas quandoS fica pequeno,

(39)

Metropolis para cobertura por vértices

tem boas chances doS diminuir.

Mas quandoS fica pequeno,

(40)

Metropolis para cobertura por vértices

tem boas chances doS diminuir.

Mas quandoS fica pequeno,

(41)

Algoritmo Metropolis

SenãoMude paraS⁰ com probabilidadee^{−∆(E)/(kT}⁾.

Mas e a temperaturaT?

Qual é o papel e o efeito da temperatura?

(42)

Simulated Annealing

De volta ao sistema físico.

Annealing:

processo de cristalização em que o material é resfriado lentamente, para atingir o estado de energia mínima.

Material em altas temperaturas não cristaliza.

Se esfria rapidamente, cristaliza com muitas imperfeições. Simulated annealingimita este processo, ajustando as probabilidades de mudar para um estado de energia maior de acordo com um parâmetroT que diminui com o tempo. Em geral, não tem garantia de qualidade.

Em que velocidade diminuir oT?

(43)

Simulated Annealing

Annealing:

Se esfria rapidamente, cristaliza com muitas imperfeições. Simulated annealingimita este processo, ajustando as probabilidades de mudar para um estado de energia maior de acordo com um parâmetroT que diminui com o tempo. Em geral, não tem garantia de qualidade.

(44)

Simulated Annealing

Annealing:

Se esfria rapidamente, cristaliza com muitas imperfeições.

Simulated annealingimita este processo, ajustando as probabilidades de mudar para um estado de energia maior de acordo com um parâmetroT que diminui com o tempo. Em geral, não tem garantia de qualidade.

(45)

Simulated Annealing

Annealing:

Simulated annealingimita este processo, ajustando as probabilidades de mudar para um estado de energia maior de acordo com um parâmetroT que diminui com o tempo.

Em geral, não tem garantia de qualidade. Em que velocidade diminuir oT?

(46)

Simulated Annealing

Annealing:

Em geral, não tem garantia de qualidade.

(47)

Simulated Annealing

Annealing:

Em geral, não tem garantia de qualidade.

(48)

Redes neurais de Hopfield

Às vezes buscamos um ótimo local, não necessariamente global.

Rede neural de Hopfield:

grafoG = (V,E) com peso inteiro we em cada aresta e ∈E Configuração da rede: atribuição de um sinal+ ou− para cada nó O sinal que um nó escolhe é influenciado pelo sinal de seus vizinhos. Cada arestae representa um requisito:

se e tem peso positivo, os nós querem sinais opostos se e tem peso negativo, os nós querem ter o mesmo sinal

|w_e|representa a intensidade da dependência entre os extremos de e. Pode não existir configuração que satisfaça todos os requisitos. Pense num triângulo com as três arestas com peso 1.

(49)

Redes neurais de Hopfield

grafoG = (V,E) com peso inteiro we em cada aresta e ∈E

Configuração da rede: atribuição de um sinal+ ou− para cada nó O sinal que um nó escolhe é influenciado pelo sinal de seus vizinhos. Cada arestae representa um requisito:

(50)

Redes neurais de Hopfield

grafoG = (V,E) com peso inteiro we em cada aresta e ∈E Configuração da rede: atribuição de um sinal+ ou− para cada nó

O sinal que um nó escolhe é influenciado pelo sinal de seus vizinhos. Cada arestae representa um requisito:

(51)

Redes neurais de Hopfield

grafoG = (V,E) com peso inteiro we em cada aresta e ∈E Configuração da rede: atribuição de um sinal+ ou− para cada nó O sinal que um nó escolhe é influenciado pelo sinal de seus vizinhos.

Cada arestae representa um requisito:

(52)

Redes neurais de Hopfield

(53)

Redes neurais de Hopfield

|w_e|representa a intensidade da dependência entre os extremos de e.

Pode não existir configuração que satisfaça todos os requisitos. Pense num triângulo com as três arestas com peso 1.

(54)

Redes neurais de Hopfield

|w_e|representa a intensidade da dependência entre os extremos de e.

Pode não existir configuração que satisfaça todos os requisitos.

Pense num triângulo com as três arestas com peso 1.

(55)

Redes neurais de Hopfield

grafoG = (V,E) com peso inteiro w_e em cada aresta e ∈E Configuração da rede: atribuição de um sinal+ ou− para cada nó

Arestae =uv éboa seu e v respeitam seu requisito: sewe<0 entãosu =sv e se we>0 entãosu 6=sv

Senãoe é ruim.

Em outras palavras,e é boa sse w_es_us_v <0. Nóu está satisfeitose P

e boa|w_e|≥P

e ruim|w_e| Configurações estáveis: todos os nós estão satisfeitos. Sempre existe uma configuração estável?

(56)

Redes neurais de Hopfield

grafoG = (V,E) com peso inteiro w_e em cada aresta e ∈E Configuração da rede: atribuição de um sinal+ ou− para cada nó Arestae =uv éboa seu e v respeitam seu requisito:

sewe<0 entãosu =sv e sewe>0 entãosu 6=sv

Senãoe é ruim.

Em outras palavras,e é boa sse w_es_us_v <0. Nóu está satisfeitose P

e boa|w_e|≥P

(57)

Redes neurais de Hopfield

Senãoe é ruim.

Em outras palavras,e é boa sse w_es_us_v <0.

Nóu está satisfeitose P

e boa|w_e|≥P

(58)

Redes neurais de Hopfield

Senãoe é ruim.

e boa|w_e|≥P

e ruim|w_e|

Configurações estáveis: todos os nós estão satisfeitos. Sempre existe uma configuração estável?

(59)

Redes neurais de Hopfield

Senãoe é ruim.

e boa|w_e|≥P

e ruim|w_e| Configurações estáveis: todos os nós estão satisfeitos.

Sempre existe uma configuração estável?

(60)

Redes neurais de Hopfield

Senãoe é ruim.

e boa|w_e|≥P

e ruim|w_e| Configurações estáveis: todos os nós estão satisfeitos.

Sempre existe uma configuração estável?

(61)

Configurações estáveis

Configurações estáveis: todos os nós estão satisfeitos.

Por que o nome ’estável’ ?

Se um nó está insatisfeito, ele pode mudar seu sinal, e ficará satisfeito! Então numa configuração estável, nenhum nó quer mudar seu sinal. Note que, seu troca seu sinal,

então arestas boas incidentes au ficam ruins e arestas ruins tornam-se boas.

Teorema: Toda rede neural de Hopfield com n nós

tem uma configuração estável, e tal configuração pode ser encontrada em tempo polinomial emn e W =P

e|w_e|.

(62)

Configurações estáveis

Se um nó está insatisfeito, ele pode mudar seu sinal, e ficará satisfeito!

Então numa configuração estável, nenhum nó quer mudar seu sinal. Note que, seu troca seu sinal,

e|w_e|.

(63)

Configurações estáveis

Então numa configuração estável, nenhum nó quer mudar seu sinal.

Note que, seu troca seu sinal,

e|w_e|.

(64)

Configurações estáveis

e|w_e|.

(65)

Configurações estáveis

e|w_e|.

(66)

Aula que vem: dois exemplos

I Redes neurais de Hopfield:

Prova do teorema anterior usando busca local.

I Problema do corte máximo:

Um algoritmo de aproximação que usa busca local.