FLAVIA MESCKO FERNANDES VELOCIDADE DE CONVERGÊNCIA DE MÉTODOS DE OTIMIZAÇÃO IRRESTRITA

(1)

VELOCIDADE DE CONVERGÊNCIA DE MÉTODOS DE

OTIMIZAÇÃO IRRESTRITA

CURITIBA DEZEMBRO, 2010

(2)

VELOCIDADE DE CONVERGÊNCIA DE MÉTODOS DE

OTIMIZAÇÃO IRRESTRITA

Monografia apresentada como requisito parcial à obtenção do grau de Licenci-ado em Matemática, pelo Departamento de Matemática, Setor de Ciências exatas, Uni-versidade Federal do Paraná.

Orientador: Ademir Alves Ribeiro

Co-Orientadora: Elizabeth Wegner Karas

CURITIBA DEZEMBRO, 2010

(3)

FLAVIA MESCKO FERNANDES

VELOCIDADE DE CONVERGÊNCIA DE MÉTODOS DE

OTIMIZAÇÃO IRRESTRITA

Monografia apresentada como requisito parcial à obtenção do grau de Licenciado em Matemática, pelo Departamento de Matemática, Setor de Ciências exatas, Universidade Federal do Paraná, pela seguinte banca examinadora:

Prof Dr. Ademir Alves Ribeiro Universidade Federal do Paraná

Profa_{. Dra. Lucelina Batista dos Santos}

Universidade Federal do Paraná

(4)

A Deus,

Pelo dom da vida.

(5)

Agradeço primeiramente ao Senhor Jesus Cristo por mais uma importante etapa concluída. Agradeço também a minha família, pelo apoio e dedicação. Meus amigos do curso, pelo companheirismo e boas horas de estudo. Agradeço aos meus professores pelos conhecimentos que me transmitiram, ao professor Paulo Henrique e à profes-sora Elizabeth que me orientaram e auxiliaram em pesquisas no decorrer do curso. E agradeço especialmente ao professor Ademir, que com dedicação me orientou e me aju-dou na conclusão deste trabalho, pelo exemplo e lições que contribuiram para minha formação profissional.

(6)

Lista de Figuras . . . vi Resumo . . . viii 1 INTRODUÇÃO . . . 1 2 ESTUDO DE SEQUÊNCIAS . . . 3 2.1 Convergência de Sequências . . . 3 2.2 Número de Ouro . . . 7 2.3 Velocidade de Convergência . . . 8 3 MÉTODO DE CAUCHY . . . 11 3.1 Algoritmo de Cauchy . . . 11 3.2 Algoritmo . . . 12 3.3 Convergência Global . . . 13 3.4 Velocidade de Convergência . . . 14 4 MÉTODO DE NEWTON . . . 19

4.1 Método de Newton para Resolução de Equações . . . 19

4.2 Método de Newton para Otimização Irrestrita . . . 20

(7)

5.1 Busca Unidimensional . . . 27

5.2 Método da Seção Áurea - Busca exata . . . 28

5.3 Algoritmo . . . 34

5.4 Convergência do Método da Seção Áurea . . . 37

5.5 Velocidade de Convergência . . . 40

6 CONCLUSÃO . . . 41

Referências . . . 43

(8)

Figura 1 Termos da sequência (xk) na reta. . . 4

Figura 2 Termos da Sequência (xk) . . . 5

Figura 3 Passos do Algoritmo de Cauchy . . . 12

Figura 4 Passos do Algoritmo de Cauchy . . . 18

Figura 5 Uma iteração do Método de Newton para equações . . . 20

Figura 6 Uma iteração do Método de Newton . . . 22

Figura 7 Busca unidimensional exata . . . 27

Figura 8 Funções Unimodais . . . 28

Figura 9 Seção áurea . . . 29

Figura 10 Intervalo dividido em três partes iguais . . . 30

(9)

Figura 13 Análise da primeira etapa do algoritmo . . . 36

Figura 14 Análise do item (i) do teorema 5.7 . . . 37

Figura 15 Todos os intervalos [ak, bk] contém o minimizador da função quadrática. 39

(10)

Um conceito importante em Análise Matemática é o de convergência de uma sequência. Neste trabalho aprofundamos este estudo, analisando também a velocidade com que uma sequência converge. Concentramos nosso estudo em três velocidades de convergência: linear, superlinear e quadrática. Para isto consideramos uma nova se-quência: a sequência de erros definida pela diferença entre cada termo e o limite da sequência. Note que a sequência converge se e somente se a sequência de erros tende a zero. A motivação deste trabalho é a análise da convergência de métodos de otimização, visto que para fins práticos é fundamental que os algoritmos tenham uma convergência rápida. Discutimos alguns métodos clássicos para otimização irrestrita. O método de Cauchy que faz a cada iteração uma busca unidirecional na direção de máxima descida, ou seja, na direção oposta ao gradiente, tem convergência linear. O método de New-ton, por outro lado, minimiza, em cada iteração, a aproximação quadrática da função objetivo. Provamos que, se o ponto inicial estiver próximo de um minimizador, a se-quência gerada por este método converge superlinearmente. Além disso, se a Hessiana da função a ser minimizada for Lipschitz, então a convergência do método de Newton é quadrática. Nos métodos de busca unidirecional, precisamos minimizar uma função a partir de um certo ponto, segundo uma direção dada, que é a direção de busca. Este problema é equivalente a minimizar uma função real de uma variável, que pode ser resolvido por vários métodos. Um deles é o Método da Seção Áurea, que faz a mini-mização exata desta função. Apresentamos neste trabalho um estudo da convergência deste método, provando que é linear e cuja taxa é o número de ouro.

Palavras-chave: Velocidade de Convergência, Método de Cauchy, Método de Newton, Método da Seção Áurea.

(11)

1 INTRODUÇÃO

Em otimização a solução de um problema de minimizar uma função é obtida por meio de um processo iterativo. Consideramos um ponto inicial x0, obtemos um

ponto melhor x1, isto é, que diminui o valor da função objetivo e repetimos o processo

gerando uma sequência na qual a função objetivo decresce. Basicamente temos três aspectos concernentes aos métodos de otimização. O primeiro consiste na criação do algoritmo propriamente dito, que deve levar em conta a estrutura do problema e as propriedades satisfeitas pelas soluções, entre outras coisas. O segundo aspecto se refere as sequências geradas pelo algoritmo, onde a principal questão é se tais sequências realmente convergem para uma solução do problema. O terceiro ponto a ser considerado é a velocidade com que a sequência converge para uma solução, para fins práticos, não basta que esta seja convergente é preciso que uma aproximação do limite possa ser obtida em um tempo razoável. Deste modo, bons algoritmos são os que geram sequências que convergem rapidamente para uma solução.

Uma forma geral de construir um algoritmo consiste em escolher, a partir de cada ponto obtido, uma direção para dar o próximo passo. A direção escolhida no Algoritmo de Cauchy é a oposta ao grandiente, pois esta é a de maior decrescimento da função. Já o algoritmo de Newton minimiza, em cada iteração, a aproximação quadrática da função objetivo. Quando a direção de busca já é dada e precisamos mi-nimizar uma função a partir de um certo ponto, segundo esta direção, recaimos em um problema de minimizar uma função real de apenas uma variável. Um dos métodos que podem ser usados para resolver este problema é o Método da Seção Áurea, que faz a minimização exata desta função.

(12)

Este trabalho se organiza da seguinte forma: inicialmente são apresentados alguns conceitos de Análise que serão utilizados nos próximos capítulos. É feita uma revisão sobre convergência de sequências e velocidade de convergência.

O segundo e terceiro capítulos apresentam os algoritmos de Cauchy e de New-ton, além da análise da velocidade de convergência destes métodos.

Encerrando o trabalho com um estudo sobre o Método da Seção Áurea, abor-dado no quarto capítulo, bem como a análise das etapas deste algoritmo e sua velocidade de convergência, algumas das demonstrações apresentadas neste capítulo não foram en-contradas nas principais literaturas, portanto este estudo ocorreu de forma independente.

(13)

2 ESTUDO DE SEQUÊNCIAS

Neste capítulo apresentamos algumas definições básicas e alguns resultados de Análise relevantes para este trabalho. As principais referências deste capítulo são (LIMA, 1981b;RIBEIRO; KARAS, 2010).

2.1 Convergência de Sequências

Uma sequência em IRn é uma aplicação k ∈ IN 7→ xk _{∈ IR}n_{, definida no}

conjunto IN dos números naturais. Denotaremos uma sequência por (xk)k∈IN, ou

sim-plesmente por (xk). Por conveniência, consideramos que IN = {0, 1, 2, 3, . . .}.

Definição 2.1 Diz-se que o ponto a ∈ IRn é o limite da sequência (xk_{) quando, para}

todoε > 0 dado, é possível obter k0 ∈ IN tal que

k ≥ k0 ⇒ kxk− ak < ε.

Neste caso, também dizemos que a sequência (xk) converge para a e indicamos este fato porxk_{→ a ou lim}

k→∞x k_{= a.}

Vemos da definição anterior que o ponto a ∈ IRné o limite da sequência (xk) se para cada ε > 0, o conjunto IN1 = {k ∈ IN | kxk− ak ≥ ε} é finito, ou seja, fora da

bola B(a, ε) só poderão estar, no máximo, os termos x1_{, . . . , x}k0_.

Uma subsequência de (xk) é a restrição desta sequência a um subconjunto infinito IN0 = {k1 < k2 < . . . < ki < . . .} ⊂ IN. Equivalentemente, uma subsequência

(14)

de (xk_{) é uma sequência do tipo (x}k₎

k∈IN0 ou (xki)_i∈IN, onde (k_i)_i∈IN é uma sequência

crescente de inteiros positivos. Note que ki ≥ i, para todo i ∈ IN.

Teorema 2.2 Se uma sequência (xk) converge para um limite a, então toda subsequên-cia(xki_{) também converge para a.}

Demonstração. Dado ε > 0 existe um k0tal que para todo k > k0tem-se kxk− ak < ε.

Como os índices da subsequência formam um subconjunto infinito, existe entre eles um ki0 ≥ k0. Então para ki ≥ ki0 temos ki ≥ k0. Logo kx

ki_{− ak < ε.}

O limite de uma subsequência (xk)k∈IN0é chamado valor de aderência ou ponto

de acumulação da sequência (xk).

Exemplo 2.3 Considere a sequência xk_{= (−1)}k₊ 1

k + 1.

Sabemos que xk tem dois pontos de acumulação, os valores, 1 e −1, portanto não é convergente. Veja a figura a seguir.

Figura 1: Termos da sequência (xk) na reta.

Exemplo 2.4 Considere uma sequência (xk) ⊂ IR. Se xk→ a > 0 então existe k0 ∈ IN

tal que, parak ≥ k0tem-sexk≥

a 2. De fato, para ε = a

2, existe k0 tal que, k ≥ k0temos |x

k_{− a| <} a 2. Então, −a 2 < x k_{− a <} a 2 a 2 < x k _< 3a 2 Assim temos que, xk ≥ a

(15)

Figura 2: Termos da Sequência (xk)

Definição 2.5 Uma sequência (xk) ⊂ IRné limitada, quando o conjunto formado pelos seus elementos é limitado, ou seja, quando existe um número real M > 0 tal que kxk_{k ≤ M para todo k ∈ IN.}

Definição 2.6 Seja (xk) ⊂ IR uma sequência limitada. Definimos o limite inferior da sequência (xk_{) como seu menor ponto de acumulação e denotamos por lim inf x}k_.

Analogamente definimos o limite superior da sequência como seu maior ponto de acu-mulação e denotamos porlim sup xk_.

Exemplo 2.7

1. Sendo a sequência xk= (−1)k+ 1

k + 1, temos lim inf x

k _{= −1 e lim sup x}k _{= 1.}

2. E a sequência (xk_{) = (1, 2, 3, 1, 2, 3, . . .), temos lim inf x}k _{= 1 e lim sup x}k _{= 3.}

A seguir enunciaremos alguns resultados importantes da análise de convergênia de sequências. As demonstrações não apresentadas aqui podem ser encontradas em (LIMA, 1981a, 1981b).

Teorema 2.8 Toda sequência convergente é limitada.

Demonstração. Digamos que xk→ a. Para ε = 1, existe um k0tal que

k ≥ k0 ⇒ ||xk− a|| ≤ 1

Veja que

(16)

Desta forma, a partir do índice k0, a sequência é certamente limitada por 1 + ||a||.

Para englobarmos todos os termos da sequência, basta considerar M = max{||x1||, ||x2_{||, ..., ||x}k0_{||, 1 + ||a||}.}

Assim, ||xk|| ≤ M para todo k ∈ IN.

Teorema 2.9 Toda sequência (xk) ⊂ IR monótona limitada é convergente.

Demonstração. Seja (x1 ≤ x2 _{≤ x}3 _{≤ ... ≤ x}k _{≤ ...) uma sequência não decrescente}

limitada. Os outros casos são análogos. Como (xk) é limitada, o conjunto

X = {x1_{, x}2_{, x}3_{, ..., x}k_{, ...} possui supremo. Digamos sup X = a. Dado qualquer}

ε > 0, temos a − ε < a. Pela propriedade do supremo, existe algum k0 ∈ IN tal que

a − ε < xk. Como xk ≤ a para todo k ∈ IN, vemos que

k ≥ k0 ⇒ a − ε < xk≤ a < a + ε,

donde segue que xk_{→ a}

Teorema 2.10 Uma sequência limitada em IRn é convergente se, e somente se, possui um único ponto de acumulação.

Teorema 2.11 (Bolzano-Weierstrass) Toda sequência limitada em IRnpossui uma sub-sequência convergente.

Teorema 2.12 Seja (xk_{) ⊂ IR uma sequência monótona que possui uma subsequência}

convergente, digamosxk IN_{→ a. Então x}0 k _{→ a.}

Exemplo 2.13 Seja (xk_{) ⊂ IR definida por x}0 _{= 1 e x}k+1 ₌√_{1 + x}k_{. Temos}

xk= s 1 + r 1 + · · · + q 1 +√2. Afirmamos quexk _→ 1 ϕ, onde 1 ϕ = 1 +√5

(17)

com o Teorema 2.2, a subsequência (x ) também converge para o mesmo limite, isto é, xk+1 → ¯x. Então (xk+1− xk_{) → 0.}

O que resulta em

x −√1 + x = 0 ⇒ (x)2− x − 1 = 0

Portanto a sequência converge para x = 1 + √

5

2 .

2.2 Número de Ouro

O Número de Ouro é um número irracional misterioso e enigmático que nos surge numa infinidade de elementos da natureza na forma de uma razão, sendo consid-erada por muitos como uma oferta de Deus ao mundo. A designação adoptada para este número ϕ ≈ 0, 618, é a inicial do nome de Fídias que foi escultor e arquiteto encar-regado da construção do Pártenon, em Atenas.

A história deste enigmático número perde-se na antiguidade. Esta razão ou secção áurea aparece em muitas estátuas da antiguidade que apresentavam uma especial harmonia estética. A excelência dos desenhos de Leonardo Da Vinci (1452-1519), como a Monalisa e o Homem Vitruviano revelam os seus conhecimentos matemáticos bem como a utilização da razão áurea como garantia de uma perfeição, beleza e harmonia únicas.

(18)

2.3 Velocidade de Convergência

No contexto de otimização existe outro aspecto importante a ser analisado em uma sequência: a velocidade de convergência. Considere, por exemplo sequências

xk= 1 k + 5, y k ₌ 1 3k, w k ₌ 1 2k2 e z k₌ 1 22k

Vemos que todas elas convergem para 0, mas não com a mesma rapidez, con-forme sugere a tabela abaixo.

k 1 2 3 4 5 6

xk 0.1667 0.1429 0.1250 0.1111 0.1000 0.0909

yk 0.3333 0.1111 0.0370 0.0123 0.0041 0.0014

wk _0.5 _0.0625 _{0, 001953} _{1, 52 · 10}−5 _{2, 98 · 10}−8 _{1, 46 · 10}−11

zk _0.2500 _0.0625 _0.0030 _{1 · 10}−5 _{2 · 10}−10 _{5, 42 · 10}−20

Diante disto é conveniente estabelecer uma maneira de medir a velocidade de sequências convergentes. Considere então uma sequência (xk) ⊂ IRnconvergente para ¯

x ∈ IRn. Assim, ek= ||xk− ¯x|| → 0. O que faremos é avaliar como o erro tende a 0.

Observação: Ao longo deste trabalho utilizaremos a notação ||x|| para indicar a norma euclidiana de um vetor em IRn.

Definição 2.14 Dizemos que a sequência (xk) ⊂ IRn converge linearmente para x ∈¯ IRnquando existe uma constanter ∈ [0, 1) e um número k0 ∈ IN, tais que

||xk+1_{− ¯}_x||

||xk_{− ¯}_x|| ≤ r (2.1)

para todok ≥ k0

É importante ressaltar que a condição (2.1) implica que xk→ ¯x, pois

||xk0+p_{− ¯}_{x|| ≤ r}p_||xk0 _{− ¯}_x||,

(19)

• A sequência x =

k + 5 converge para 0, mas não linearmente. De fato, temos ||xk+1_|| ||xk_|| = k + 5 k + 6 → 1. • A sequência yk₌ 1

3k converge linearmente para 0, pois

||yk+1_|| ||yk_|| = 1 3. • As sequências wk ₌ 1 2k2 e z k ₌ 1

22k também convergem linearmente para 0.

Vejamos agora uma forma mais veloz de convergência.

Definição 2.15 A sequência (xk_{) ⊂ IR}n _{converge superlinearmente para} _{x ∈ IR}_¯ n

quando

||xk+1_{− ¯}_x||

||xk_{− ¯}_x|| → 0. (2.2)

Veja que a condição (2.2) também implica que xk→ ¯x.

Note que:

• yk_{não converge superlinearmente.}

• A sequência wk ₌ 1

2k2 converge superlinearmente para 0.

De fato, temos ||wk+1_|| ||wk_|| = 2k2 2(k+1)2 = 1 22k+1 → 0.

(20)

Outra forma de convergência, ainda mais rápida é dada abaixo.

Definição 2.16 Suponha que xk → x. A convergência é dita quadrática quando existe uma constanteM > 0, tal que

||xk+1_{− ¯}_x||

||xk_{− ¯}_x||2 ≤ M. (2.3)

É importante observar que apenas a condição (2.3) não implica que xk _{→ ¯}_x.

Note que:

• zk₌ 1

22k converge quadraticamente para 0, pois,

||zk+1_|| ||zk_|| = 1 22k+1 1 22k 2 = 22k_·21 22·2k = 2 0 _{= 1.}

• As demais não convergem quadraticamente. Por exemplo, note que wk = 1

2k2 não converge quadraticamente, pois,

||wk+1_|| ||wk_||2 = (2k2)2 2(k+1)2 = 22k2 2k2_+2k+1 = 2k2 22k+1 → ∞.

Logo não existe M > 0, tal que ||w

k+1_||

(21)

3 MÉTODO DE CAUCHY

Vamos agora discutir um dos métodos para resolver o problema de minimizar uma função em IRn. Algumas referências para este assunto são (MOTA, 2005;RIBEIRO; KARAS, 2010).

3.1 Algoritmo de Cauchy

Um dos métodos mais conhecidos para minimizar uma função é o método clás-sico do gradiente, também chamado método de Cauchy. Neste método, a direção de busca em cada iteração é o oposto do vetor gradiente da função objetivo no ponto cor-rente. A justificativa desta escolha se baseia no fato de que, dentre as direções ao longo das quais f decresce, a direção oposta ao gradiente é a de decrescimento mais acentu-ado. De fato, se d = −∇f (x) e v ∈ IRn é tal que ||v|| = ||d||, então calculando a derivada direcional de f em x na direção do vetor d, temos

∂f (x)

∂d = ∇f (x)

T_{d = −||∇f (x)||}2 _{= −||∇f (x)||||∇f (x)||}

Usando que || − ∇f (x)|| = ||∇f (x)|| e a desigualdade Cauchy-Schwarz, temos: −||∇f (x)||||∇f (x)|| = −||∇f (x)||||v|| ≤ ∇f (x)T_{v =} ∂f (x) ∂v . Portanto, ∂f (x) ∂d ≤ ∂f (x) ∂v .

(22)

3.2 Algoritmo

O Algoritmo de Cauchy faz uso da busca exata, que consiste em encontrar o minimizador da função a partir de um ponto ¯x e uma direção d.

Algoritmo 3.1 Algoritmo de Cauchy

Dado: x0 ∈ IRn

k = 0

REPITA enquanto ∇f (xk_{) 6= 0}

Defina dk = −∇f (xk)

Obtenha tk > 0 tal que f (xk+ tkdk) < f (xk)

Faça xk+1= xk+ tkdk

k = k + 1

A Figura 3 mostra 4 iterações do Algoritmo de Cauchy com a busca exata aplicado para minimizar uma função quadrática, onde as curvas de níveis desta função são elipses.

(23)

(dk+1)Tdk = −∇f (xk+1)Tdk= −f (xk+ tkdk)Tdk = −ϕ0(tk) = 0.

A outra propriedade se refere à convergência, que será discutida na próxima seção.

3.3 Convergência Global

Teorema 3.2 O Algoritmo de Cauchy, com o tamanho do passo tkcalculado pela busca

exata, é globalmente convergente, isto é, para qualquer sequência (xk_{) gerada pelo}

algoritmo, qualquer ponto de acumulaçãox é estacionário.¯

Sejam (xk) uma sequência gerada pelo algoritmo e ¯x um ponto de acumulação de (xk_{), digamos x}k IN_{→ ¯}0 _x.

Suponha por absurdo que ¯x não seja estacionário, isto é, ∇f (¯x) 6= 0.

Assim ¯d = −∇(¯x) é uma direção de descida o que garante a existência de ¯t > 0, tal que f (¯x + ¯t ¯d) < f (¯x). Considere h : IRn → IR dada por h(x) = f (x) − f (x − ¯t∇f (x)). Como h é contínua, pois f é diferenciável, temos que h(xk) IN

0

→ h(¯x). Chamamos h(¯x) = δ > 0. Logo temos que: h(xk) → δ. Assim, para todo k ∈ IN0, suficientemente grande temos que h(xk_{) ≥} δ

2, como vimos no Exemplo 2.4. Deste modo, como tk foi obtido pela busca exata, podemos concluir que

f (xk+1) = f (xk+ tkdk) ≤ f (xk+ ¯tdk) ≤ f (xk) − δ 2. Logo, f (xk) − f (xk+1) ≥ δ 2 (3.1)

para todo k ∈ IN0, suficientemente grande. Por outro lado pela continuidade de f , temos f (xk₎_{→ f (¯}IN0 _{x). Como a sequência (f (x}k₎₎

k∈IN é monótona decrescente pois temos que

(24)

3.4 Velocidade de Convergência

Os resultados mais importantes sobre a velocidade de convergência do algo-ritmo de Cauchy são revelados quando a função objetivo é quadrática. Vamos então considerar

f (x) = 1 2x

T_{Ax + b}T_{x + c}

com A ∈ IRn×n definida positiva, b ∈ IRne c ∈ IR. Assim f é convexa e tem um único minimizador ¯x, que é global e satisfaz

∇f (¯x) = A¯x + b.

Mostraremos agora que, usando a norma euclidiana, a sequência gerada pelo método de Cauchy com busca exata converge linearmente para ¯x, com taxa de con-vergênciaq1 − λ1

λn.

Primeiramente note que o passo ótimo é dado por tk= (dk₎T_dk (dk₎T_Adk. De fato, d dtf (x k_{+ td}k_{) = ∇f (x}k_{+ td}k_)dk = [A(xk+ tdk) + b]Tdk = [Axk+ b + Atdk]Tdk = [∇f (xk) + tAdk]Tdk = ∇f (xk)Tdk+ t(dk)TAdk

Como tké o passo ótimo temos: ∇f (xk)Tdk+ t(dk)TAdk = 0.

Então, tk =

−∇f (xk_)dk

(dk₎T_Adk =

(dk)Tdk (dk₎T_Adk.

(25)

f (x) =

2x Ax.

Lema 3.3 Dado x ∈ IRn,x 6= 0, considere d = −Ax. Então,

dT_d dT_Ad ≤ xT_Ax xT_A2_x. Demonstração. Temos xTAx = dT_A−1_{d e x}T_A2_{x = d}T_d. De fato,

• dT_A−1_{d = (−Ax)}T_A−1_{(−Ax) = −(x}T_)AT_A−1_{(−Ax) = x}T_Ax;

• dT_{d = (−Ax)}T_{(−Ax) = −(x}T_)AT_{(−Ax) = x}T_A2_x.

Portanto, dT_d dT_Ad xT_A2_x xT_Ax = (dT_d)2 (dT_Ad)(dT_A−1_d) (3.2)

Como A > 0, pela decomposição de Choleski, existe G ∈ IRn×n tal que A = GGT. Fazendo u = GTd e v = G−1d, temos que:

• uT_{v = (G}T_d)T_(G−1_{d) = d}T_GG−1_{d = d}T_d;

• uT_{u = (G}T_d)T_(GT_{d) = d}T_GGT_{d = d}T_Ad;

• vT_{v = (G}−1_d)T_(G−1_{d) = d}T_(G−1₎T_G−1_{d = d}T_A−1_d.

Pela desigualdade de Cauchy-Schwarz, temos (dT_d)2 (dT_Ad)(dT_A−1_d) = (uT_v)2 (uT_u)(vT_v) = | hu, vi |2 hu, ui hv, vi = | hu, vi |2 ||u||2_||v||2 ≤ 1.

Podemos concluir da equação (3.2) que: dTd dT_Ad

xTA2x

xT_Ax ≤ 1, (3.3)

(26)

Antes de enunciarmos o Teorema da Velocidade de Convergência do Algoritmo de Cauchy, vamos apresentar um resultado importante de matrizes simétricas, cuja de-monstração pode ser encontrada em (LEON, 1999).

Lema 3.4 Se A ∈ IRn×né uma matriz simétrica comλ1 eλnsendo o menor e o maior

autovalor, respectivamente, então

λ1||x||2 ≤ xTAx ≤ λn||x||2,

para todox ∈ IRn.

Teorema 3.5 Considere a função quadrática f (x) = 1 2x

T_Ax

e a sequência (xk_{) gerada pelo Algoritmo 3.1, com busca exata. Se γ =}

r 1 − λ1

λn

, então||xk+1_{|| ≤ γ||x}k_{||, para todo k ∈ IN.}

Demonstração. Como dk= −∇f (xk) = −Axk, temos:

||xk+1_||2 _{= (x}k_{+ t} kdk)T(xk+ tkdk) = (xk)Txk+ (xk)Ttkdk+ (dk)Ttkxk+ (dk)Tt2kd k = ||xk||2_{+ 2t} k(xk)Tdk+ (tk)2(dk)Tdk = ||xk||2_{+ 2t}

k(xk)T(−Axk) + (tk)2(−Axk)T(−Axk)

= ||xk||2− 2tk(xk)TAxk+ (tk)2(xk)TA2xk

Pelo Lema 3.3 temos que:

(dk₎T_dk

(dk₎T_Adk(x

(27)

(tk)2(xk)TA2xk = tk (d ) d (dk₎T_Adk(x k₎T_A2_xk_{≤ t} k(xk)TAxk. Assim, ||xk+1||2 = ||xk||2− 2tk(xk)TAxk+ (tk)2(xk)TA2xk≤ ||xk||2− tk(xk)TAxk.

Caso xk _{= 0 não há nada a fazer. Suponha então que x}k _{6= 0. Da relação}

anterior obtemos ||xk+1_||2 ||xk_||2 ≤ ||xk_||2_{− t} k(xk)TAxk ||xk_||2 = 1 − tk(xk)TAxk ||xk_||2 = 1 − (dk₎T_dk (dk₎T_Adk · (xk₎T_Axk (xk₎T_xk .(3.4)

Pelo Lema 3.4 temos

(dk₎T_dk (dk₎T_Adk ≥ 1 λn e (x k₎T_Axk (xk₎T_xk ≥ λ1.

Substituindo isto em (3.4), segue que

||xk+1_|| ||xk_|| 2 ≤ 1 − λ1 λn .

De acordo com a Definição 2.14, concluímos que a velocidade de convergência da sequência gerada pelo Algoritmo de Cauchy é linear, com taxa

r 1 − λ1

λn

(28)

O Teorema 3.5 tem uma interpretação geométrica interessante. As curvas de nível de f são elipsóides cuja excentricidade depende da diferença entre o maior e o menor autovalor de A. Se λ1 ≈ λn então as curvas de nível são quase esferas e a

convergência ocorre de forma mais veloz. Entretanto, se λ1 << λnos elipsóides ficam

muito excêntricos e a convergência se dá de forma lenta. Veja ilustração na Figura 4.

(29)

4 MÉTODO DE NEWTON

O método de Newton é uma das ferramentas mais importantes em otimização. Tanto o algoritmo básico quanto suas variantes são muito utilizados para minimização. Neste trabalho estudaremos o Método de Newton “puro”. Para isso utilizaremos as seguintes referências (FRIEDLANDER, ; IZMAILOV; SOLODOV, 2007; RIBEIRO; KARAS, 2010).

4.1 Método de Newton para Resolução de Equações

Considere F : IRn → IRn de classe C1 e o problema de resolver o sistema (normalmente não linear)

F (x) = 0.

Como na maioria das vezes não conseguimos resolvê-lo de forma direta, os proces-sos iterativos constituem a forma mais eficiente de lidar com tais situações. A idéia é aproximar F por seu polinômio de Taylor de primeira ordem. Dada uma estimativa ¯x, considere o sistema linear

F (¯x) + JF(¯x)(x − ¯x) = 0, (4.1)

onde JF representa a matriz jacobiana de F . Caso JF(¯x) seja inversível, o sistema (4.1)

pode ser resolvido, fornecendo

(30)

Isto corresponde a uma iteração do método de Newton para resolução de equações (veja a Figura 5).

Figura 5: Uma iteração do Método de Newton para equações

4.2 Método de Newton para Otimização Irrestrita

Agora consideremos o problema de minimização irrestrita

minf (x) e x ∈ IRn (4.2)

onde f : IRn → IR é uma função de classe C2_{. Os pontos estacionários deste problema}

são caracterizados pela equação ∇f (x) = 0. Vamos então aplicar a relação (4.1) para F : IRn→ IRndada por

F (x) = ∇f (x). Seja xk ∈ IRn

uma aproximação de um ponto estacionário ¯x do problema (4.2). A aproximação seguinte xk+1é computada como solução do sistema de equações lineares

∇f (xk_{) + ∇}2_{f (x}k_{)(x − x}k_{) = 0}

(4.3) em relação a x ∈ IRn. Supondo que ∇2_{f (x}k_{) seja não-singular para todo k, obtemos o}

esquema iterativo seguinte:

(31)

Com base na relação (4.4) podemos agora formalizar o método de Newton para minimizar a função f . Basicamente, temos três variantes do algoritmo. Uma delas é o método “puro”, onde não fazemos busca unidirecional e aceitamos o passo completo (tk = 1 para todo k ∈ IN). As outras duas fazem uso de busca (exata ou Armijo), que

podem ser encontradas em (RIBEIRO; KARAS, 2010).

Algoritmo 4.1 Newton Dado:x0 ∈ IRn

k = 0

REPITA enquanto∇f (xk_{) 6= 0}

Definadk _{= −(∇f (x}k₎₎−1_{∇f (x}k₎

Determine o tamanho do passotk> 0

Façaxk+1 = xk+ tkdk

k = k + 1

O Algoritmo de Newton pode não estar bem definido, caso a matriz Hessiana ∇2_{f (x}k_{) seja singular. Além disso mesmo que o passo d}k_{seja calculado, esta direção}

pode não ser de descida. Entretanto, se ∇2_{f (x}k_{) é definida positiva, então o passo d}k

está bem definido e é uma direção de descida.

O passo de Newton também pode ser obtido por uma abordagem diferente da que foi exposta acima. Para isso considere a aproximação de Taylor de segunda ordem de f , dada por

p(x) = f (xk) + ∇f (xk)T(x − xk) + 1 2(x − x

k

)T∇2f (xk)(x − xk)

Com o objetivo de minimizar p, fazemos

(32)

obtendo exatamente o passo dk_{do Algoritmo de Newton. (Veja a Figura 6).}

Esta última abordagem sugere que se o Método de Newton for aplicado em uma função quadrática, então basta uma iteração para resolver o problema. De fato, considere a quadrática f (x) = 1

2x

T_{Ax + b}T_{x + c. Dado x}0 _{∈ IR}n

, obtemos: d0 = −(∇2f (x0))−1∇f (x0) = −A−1(Ax0+ b) = −x0− A−1b.

Portanto, o minimizador x é obtido em um só passo, pois x1 = x0 + d0 = −A−1b = x.

Figura 6: Uma iteração do Método de Newton

4.4 Convergência

A direção de Newton pode não ser de descida, assim, não garantimos con-vergência global quando o problema a ser resolvido envolver uma função arbitrária. No entanto, para uma classe de funções convexas, podemos tirar conclusões positivas.

(33)

∇2_{f (x) > 0 e ||(∇}2_{f (x))}−1_{|| ≤ M ,}

para todox ∈ B(¯x, δ).

Demonstração. Seja λ > 0 o menor autovalor de ∇2f (¯x). Pela continuidade de ∇2_{f ,}

dado ε = λ

2 existe δ > 0 tal que

||∇2_{f (x) − ∇}2_{f (¯}_{x)|| ≤} λ

2, (4.5)

para todo x ∈ B(¯x, δ). Assim, dado d ∈ IRn, com ||d|| = 1, temos que

dT∇2_{f (x)d = d}T_∇2_{f (¯}_{x)d + d}T_[∇2_{f (x) − ∇}2_{f (¯}_x)]d _(4.6)

Note que, usando o Lema 3.4 temos que dT∇2_{f (x)d ≥ λ. Usando a desigualdade de}

Cauchy-Schwarz temos que,

dT[∇2f (x) − ∇2f (¯x)]d ≤ ||d||||∇2f (x) − ∇2f (¯x)||||d|| ≤ λ 2. Assim, da relação (4.6) concluímos que

dT∇2_{f (x)d ≥ λ −} λ

2 = λ 2,

provando que ∇2f (x) é definida positiva para todo x ∈ B(¯x, δ). Para provar a outra afirmação, considere x ∈ B(¯x, δ). Vamos denotar A = ∇2f (¯x) e B = ∇2f (x). Usando novamente o Lema 3.4, agora aplicado em A2_{, obtemos}

||Ad||2 _{= hAd, Adi = (Ad)}T_{Ad = d}T_At_{Ad = d}T_A2_{d ≥ λ}2_dT_{d = λ}2_||d||2

para todo d ∈ IRn. Portanto, usando a relação (4.5), concluímos que

||Bd|| = ||Ad + (B − A)d|| ≥ ||Ad|| − ||(B − A)d|| ≥ λ||d|| − λ 2||d|| =

λ 2||d||.

(34)

Considere agora y ∈ IRn, com ||y|| = 1. Aplicando a relação acima para d = B−1y, concluímos que 1 = ||y|| = ||BB−1y|| ≥ λ 2||B −1 y||. Mas ||B−1|| = sup x6=0 ||B−1_x|| ||x|| = supx6=0 B−1 x ||x|| ≤ 2 λ. Pela desigualdade acima, definindo M = 2

λ, segue que ||(∇2f (x))−1|| = ||B−1|| ≤ M,

completando a demonstração.

Lema 4.3 Sejam U ⊂ IRnaberto convexo eβ = sup

x,y∈U

||∇2_{f (x) − ∇}2_{f (y)||. Então}

||∇f (x) − ∇f (y) − ∇2_{f (y)(x − y)|| ≤ β||x − y||,}

para todox, y ∈ U .

Demonstração. Fixando y ∈ U , considere h(x) = ∇f (x) − ∇2_{f (y)x. Assim,}

||Jh(x)|| = ||∇2f (x) − ∇2f (y)|| ≤ β

para todo x ∈ U . Usando a Desigualdade do Valor Médio, obtemos

||∇f (x) − ∇f (y) − ∇2_{f (y)(x − y)|| = ||h(x) − h(y)|| ≤ β||x − y||,}

Lema 4.4 Sejam U ⊂ IRnaberto e convexo. Se∇2_{f é Lipschitz com constante L, então}

||∇f (x) − ∇f (y) − ∇2_{f (y)(x − y)|| ≤ L||x − y||}2_,

(35)

||Jh(z)|| = ||∇2f (z) − ∇2f (y)|| ≤ L||z − y|| ≤ L||x − y|| = β.

Usando a Desigualdade do Valor Médio, obtemos

||∇f (x) − ∇f (y) − ∇2_{f (y)(x − y)|| = ||h(x) − h(y)|| ≤ β||x − y|| = L||x − y||}2_,

Teorema 4.5 Seja f : IRn → IR de classe C2_{. Suponha que} _{x ∈ IR}_¯ n _{seja um}

min-imizador local de f ,com ∇2f (¯x) definida positiva. Então existe δ > 0 tal que se x0 ∈ B(¯x, δ), o Algoritmo de Newton, aplicado com tk = 1 para todo k ∈ IN, gera uma

sequência(xk_{) tal que:}

(i) ∇2_{f (x}k_{) é definida positiva, para todo k ∈ IN;}

(ii) (xk_{) converge superlinearmente para ¯}_x;

(iii) Se ∇2_{f é Lipschitz, então a convergência é quadrática.}

Demonstração. Sejam δ1 e M as constantes definidas no Lema 4.2 e U1 = B(¯x, δ1).

Assim, se xk _{∈ U}

1, o passo de Newton está bem definido e, como ∇f (¯x) = 0, vale

xk+1− ¯x = (∇2f (xk))−1(∇f (¯x) − ∇f (xk) − ∇2f (xk)(¯x − xk)). (4.7)

Pela continuidade de ∇2f , para ε = 1

4M, existe δ2 > 0 tal que

||∇2f (x) − ∇2f (x)|| ≤ 1 4M, para todo x ∈ B(x, δ2). Se y ∈ B(x, δ2), vale ||∇2_{f (y) − ∇}2_{f (x)|| ≤} 1 4M,

(36)

Então ||∇2_{f (x) − ∇}2_{f (y)|| = ||∇}2_{f (x) − ∇}2_{f (x) + ∇}2_{f (x) − ∇}2_{f (y)||} ≤ ||∇2_{f (x) − ∇}2_{f (x)|| + ||∇}2_{f (y) + ∇}2_{f (x)||} ≤ 1 4M + 1 4M = 1 2M Portanto sup x,y∈U ||∇2_{f (x) − ∇}2_{f (y)|| <} 1 2M, onde U = B(x, δ) e δ = min{δ1, δ2}. Pelos Lemas 4.2 e 4.3, concluímos que

||xk+1− ¯x|| ≤ ||(∇2f (xk))−1||||∇f (¯x)−∇f (xk)−∇2f (xk)(¯x−xk)|| ≤ M β||xk−x||.

Portanto

||xk+1_{− ¯}_{x|| ≤} 1

2||x

k_{− ¯}_x||.

Isto prova que a sequência (xk_{) está bem definida, que x}k _{∈ U , para todo k ∈ IN e}

que xk → ¯x, donde segue (i). Vejamos que a convergência é superlinear. Dado ε > 0, considere δ0 < δ tal que sup

x,y∈U

||∇2f (x) − ∇2f (y)|| < ε

M, onde U0 = B(¯x, δ0). Tome k0 ∈ IN tal que xk ∈ U0, para todo k ≥ k0. Aplicando novamente os Lemas 4.2 e 4.3 na

relação (4.7), obtemos

||xk+1_{− ¯}_{x|| ≤ ε||x}k_{− ¯}_x||,

provando assim (ii).

Finalmente, se ∇2_{f é Lipschitz, podemos usar os Lemas 4.2 e 4.4 em (4.7)}

para obter

||xk+1− ¯x|| ≤ M L||xk− ¯x||2,

(37)

5 MÉTODO DA SEÇÃO ÁUREA

Neste capítulo apresentamos a análise do Algoritmo da Seção Áurea e da sua velocidade de convergência. A referência (NOCEDAL; WRIGHT, 1999;RIBEIRO; KARAS, 2010) serão utilizadas para este estudo.

5.1 Busca Unidimensional

Dada f : IRn → IR, e um ponto ¯x ∈ IRn e uma direção de descida d ∈ IRn, queremos encontrar ¯t > 0 tal que

f (¯x + ¯td) < f (¯x).

(38)

Mais precisamente, temos que resolver o problema minimizar ϕ(t) = f (¯x + td) sujeito a t > 0.

Este problema é, em geral, difícil de se resolver de forma exata. Entretanto, para certas funções especiais, existem algoritmos para resolvê-lo. Por isto, vamos agora definir função unimodal, para a qual existem algoritmos para minimizá-la. Em seguida veremos o algoritmo da seção áurea, que encontra um ponto próximo de um minimizador com a precisão que se queira. (Conforme ilustrado na Figura 7).

5.2 Método da Seção Áurea - Busca exata

Ao aplicarmos o Método da Seção Áurea em funções unimodais obtemos re-sultados satisfatórios, por isso definiremos a seguir este tipo de função.

Definição 5.1 Uma função contínua ϕ : [0, ∞) → IR é dita unimodal quando admite um conjunto de minimizadores [t1, t2], é estritamente decrescente em [0, t1] e

estrita-mente crescente em[t2, ∞).

Veja os exemplos de funções unimodais a seguir e note que o intervalo de minimizadores [t1, t2] pode ser degenerado, como ilustrado no segundo gráfico.

x

1 x2 x1=x2

(39)

a u v b Figura 9: Seção áurea

Descrição do Algoritmo

Suponha que o minimizador de ϕ pertence ao intervalo [a, b] i) Considere a < u < v < b em [0, ∞)

ii) Se ϕ(u) < ϕ(v) então o trecho (v, b] não pode conter o minimizador e pode ser descartado.

iii) Se ϕ(u) ≥ ϕ(v) então o trecho [a, u) pode ser descartado. iv) Particione o intervalo que ficou e repita o processo.

Agora vamos analisar como o intervalo [a, b] deve ser particionado. A obtenção deste intervalo, que deve conter um minimizador de ϕ será tratada adiante. A estratégia mais natural é dividir o intervalo em três partes iguais, ou seja, definir

u = a + 1

3(b − a) e v = a + 2

3(b − a).

Desta forma descartamos 1

3 do intervalo a cada iteração, conforme ilustrado na Figura 10. Além disso, se o intervalo descartado for o (v, b], temos como novo intervalo [a+_{, b}+_{], onde a}+ _{= a e b}+ _{= v, mas não podemos utilizar o antigo ponto u, calculado}

(40)

na iteração anterior, o que é uma desvantagem.

a u v b

a+ u+ v+ b+

Figura 10: Intervalo dividido em três partes iguais

Uma outra estratégia é escolher u e v que dividem o segmento [a, b] na razão áurea, de acordo com a definição dada seguir.

Definição 5.2 Um ponto c divide o segmento [a, b] na razão áurea quando a razão entre o maior segmento e o segmento todo é igual à razão entre o menor e o maior dos segmentos. Tal razão é conhecida como o número de ouro e vale

√ 5 − 1

2 ≈ 0.618. Desta forma, temos que u e v devem satisfazer

b − u b − a = u − a b − u e v − a b − a = b − v v − a (5.1)

Considerando θ1 e θ2 tais que

u = a + θ1(b − a) e v = a + θ2(b − a) (5.2) Substituindo u em (5.1) temos: b − (a + θ1(b − a)) b − a = a + θ1(b − a) − a b − (a + θ1(b − a)) (b − a)(1 − θ1) b − a = θ1(b − a) (1 − θ1)(b − a)

Desta forma, obtemos:

1 − θ1 =

θ1

1 − θ1

(41)

θ2

Como u, v ∈ [a, b], encontramos θ1 =

3 −√5 2 ≈ 0, 382 e θ2 = √ 5 − 1 2 ≈ 0, 618. Das relações (5.3) e (5.4) temos: (1 − θ1)2 = θ1 (5.5) E, ainda (θ2)2 = 1 − θ2 (5.6)

Se α = 1 − θ1. Da relação (5.5), α2 = 1 − α. Então por (5.6), temos que α = θ2. Assim

apresentamos outras duas relações importantes:

(θ2)2 = θ1 e θ1+ θ2 = 1 (5.7)

Uma das vantagens da divisão na razão áurea em relação à divisão em três partes iguais é que descartamos mais de 38% do intervalo ao invés de 33, 33%. Outra vantagem, é que podemos aproveitar o ponto u ou v após termos descartado o intevalo [v, b] ou [a, u] na iteração anterior. Indicamos por [a+_{, b}+_{] o novo intervalo que será}

particionado pelos ponto u+ e v+. Conforme veremos no próximo resultado, o ponto v é aproveitado na próxima etapa e passa a ser u+ quando descartamos [a, u). Assim, o valor da função ϕ(v) é aproveitado para a próxima etapa.

(42)

Lema 5.3 Na seção áurea, se [a, u) é descartado então u+ _{= v.}

Demonstração. Como [a, u] foi descartado então a+ = u e b+_{= b. Logo, temos que:}

u+ = a++ θ1(b+− a+)

= u + θ1(b − u)

= a + θ1(b − a) + θ1(b − (a + θ1(b − a)))

= a + (2θ1− (θ1)2)(b − a)

Note que, da relação (5.7), temos (θ1)2 = 3θ1− 1. Então,

u+ = a + (2θ1− 3θ1+ 1)(b − a)

= a + (1 − θ1)(b − a)

= a + θ2(b − a) = v

A Figura 11 ilustra o Lema 5.3.

a u v b

a+ u+ v+ b+

(43)

Demonstração. Como (v, b] é descartado então a = a e b = v. Usando (5.2) e a relação (5.6) obtemos: v+ = a++ θ2(b+− a+) = a + θ2(v − a) = a + θ2(a + θ2(b − a) − a) = a + θ22(b − a) = a + θ1(b − a) = u

A Figura 12 a ilustra o Lema 5.4.

a u v b

a+ u+ v+ b+

Figura 12: Partição do intervalo [a, b]

Apresentamos agora o algoritmo da seção áurea, que tem duas fases. Na primeira, obtemos um intervalo [a, b] que contém um minimizador de ϕ. A idéia desta etapa é considerar um intervalo inicial [0, 2ρ], com ρ > 0, e ampliá-lo, deslocando para a direita, até que um crescimento de ϕ seja detectado.

Na segunda fase, o intervalo [a, b] é reduzido, por meio do descarte de subin-tervalos, até que reste um intervalo de tamanho suficiente para que uma precisão ε seja alcançada.

(44)

5.3 Algoritmo

Algoritmo 5.5 Seção Áurea

Dados ρ > 0; ε > 0

Fase 1: Obtenção do intervalo [a, b] a0 = 0, s0 = ρ e b0 = 2ρ k = 0 REPITA enquanto ϕ(bk) < ϕ(sk) ak+1 = sk, sk+1 = bke bk+1 = 2bk k = k + 1 a = ake b = bk

Fase 2: Obtenção de t ∈ [a, b] a0 = a, b0 = b u0 = a0+ θ1(b0− a0), v0 = a0+ θ2(b0− a0) k = 0 REPITA enquanto bk− ak > ε SE ϕ(uk) < ϕ(vk) ak+1 = ak, bk+1 = vk, uk+1 = ak+1+ θ1(bk+1− ak+1) SENÃO ak+1 = uk, bk+1 = bk, uk+1 = ak+1+ θ2(bk+1− ak+1) k = k + 1 Defina t = uk+ vk 2

Mas o algoritmo realmente funciona? Na primeira fase, após um número finito de etapas é possível encontrar um intervalo [a, b] que contém pelo menos um mini-mizador? Este é um resultado que será demonstrado no teorema a seguir.

(45)

ações.

Demonstração. Vejamos inicialmente que o loop da primeira fase é finito.

Suponha por absurdo que ϕ(bk_{) < ϕ(s}k_{), para todo k ∈ IN. Então s}k _{→ ∞, pois}

sk+1 _{= b}k _{= 2b}

k−1 = 2sk. Assim, existe k ∈ IN tal que sk ≥ t1. Como ϕ é unimodal,

ela é não decrescente em [t1, ∞). Logo ϕ(bk) ≥ ϕ(sk), uma contradição. Portanto, a

Fase 1 do algoritmo termina em um certo k ∈ IN. Resta ver que o intervalo obtido de fato contém um minimizador de ϕ. Temos dois casos a considerar.

(i) Caso sk _{< t}

1, temos bk > t2, pois do contrário teríamos ϕ(bk) < ϕ(sk).

Veja o primeiro gráfico na Figura 13. Assim,

[t1, t2] ⊂ [sk, bk] ⊂ [ak, bk].

(ii) Caso sk _{≥ t}

1, afirmamos que ak < t1 (veja o segundo gráfico na Figura

13). De fato, note que

ak= (

0, se k = 0

sk−1, caso contrário

.

Se fosse sk−1 ≥ t1, teríamos ϕ(bk−1) ≥ ϕ(sk−1) e a Fase 1 teria terminado na iteração

k − 1 ao invés da iteração k. Temos então ak _{< t}

1 ≤ sk < bk, o que implica que

(46)

Figura 13: Análise da primeira etapa do algoritmo

A seguir enuciaremos o teorema que analisa se na segunda fase do algoritmo ao descartar um dos intervalos aquele que sobrou contém um minimizador.

Teorema 5.7 Seja ϕ uma função unimodal.

(i) Se ϕ(v) ≤ ϕ(u) e o intervalo [a, u) é descartado, então o intervalo que sobrou [u, b] contém pelo menos um minimizador.

(ii) Se ϕ(v) > ϕ(u) e o intervalo (v, b] é descartado, então o intervalo que sobrou [a, v] contém pelo menos um minimizador.

Demonstração. Considere [t1, t2] o intervalo de minimizadores da Definição 5.1.

(i) Suponha por absurdo que não existe minimizador em (u, b], portanto, existe um mínimo t∗ ∈ [a, u). Note que t2 < u pois do contrário teríamos t2 > b e assim

[u, b] ⊂ [t∗, t2] ⊂ [t1, t2], o que é uma contradição, pois estamos supondo que não existe

minimizador em (u, b]. Veja ilustração na Figura 14. Como ϕ é unimodal, ou seja, é estritamente crescente em [t2, ∞), temos que t2 < u < v, implica em ϕ(u) < ϕ(v), o

(47)

assim [a, v] ⊂ [t1, t ] ⊂ [t1, t2], o que é uma contradição, pois estamos supondo que não

existe minimizador em [a, v]. Como ϕ é unimodal, ou seja, é estritamente decrescente em [0, t1], temos que u < v < t1, implica em ϕ(u) > ϕ(v), o que contradiz a hipótese.

Figura 14: Análise do item (i) do teorema 5.7

5.4 Convergência do Método da Seção Áurea

Antes de analisarmos a convergência do método, iremos enunciar um teorema auxiliar que prova a convergência do tamanho do intervalo [ak, bk] obtido na primeira

etapa que contém o minimizador da função.

Teorema 5.8 Seja [ak, bk] o intervalo obtido pelo algoritmo da seção áurea, então

bk− ak → 0.

Demonstração. Seja rk o tamanho do intervalo [ak, bk], ou seja, rk = bk− ak. Como

o Método da Seção Áurea descarta mais de 38% do intervalo [a0, b0], ou seja, descarta

θ1 =

3 −√5

2 ≈ 0.382, temos que b1 − a1 = r1 = r0 − θ1r0 = r0θ2. Repetindo o processo com o intervalo de cada iteração, temos:

b2− a2 = r2 = r0θ2− θ1(r0θ2) = r0θ2(1 − θ1) = r0(θ2)2

· · ·

(48)

Como r0 > 0 é uma constante e θ2 ∈ (0, 1), lim k→∞r0(θ2) k _{= r} 0 lim k→∞(θ2) k _{= 0.}

Concluímos, assim que bk− ak→ 0.

E as sequências (ak), (uk), (vk) e (bk) convergem? Como as sequências (ak) e

(bk) são monótonas, limitadas inferiormentes por a0 e superiormente por b0, de acordo

com o Teorema 2.9 estas sequências convergem. O próximo teorema estabelece a con-vergência para um minimizador de ϕ.

Teorema 5.9 Seja ϕ uma função unimodal conforme a Definição 5.1. Então as sequên-cias(ak), (uk), (vk) e (bk) convergem para um minimizador de ϕ em [t1, t2].

Demonstração. Como (ak) é não decrescente e limitada temos ak → a. Além disso, (bk)

é não crescente e limitada. Então bk→ b. Sabemos pelo Teorema 5.8 que ak− bk → 0,

mas ak− bk→ a − b. Logo, a = b = t.

Como ak _{≤ u}k _{≤ v}k_{≤ b}k_{, o teorema do confronto garante que}

uk→ ¯t e vk → ¯t.

Devemos agora provar que ¯t é um minimizador de ϕ. Seja rk um minimizador de ϕ

em [ak, bk]. Então, pelo Teorema do Confronto temos que rk → t. Como (rk) é uma

sequência de minimizadores da função ϕ que pertencem ao conjunto [t1, t2] e ainda,

rk → t, temos que t é ponto de acumulação de [t1, t2]. Mas [t1, t2] é fechado, logo

t ∈ [t1, t2].

Agora vejamos um caso particular de função unimodal. Considere que a função ϕ seja quadrática, ou seja, tenha apenas um minimizador t∗, assim t1 = t2 = t∗. Como

sugere a Figura 15, provaremos que o minimizador da função objetivo pertence a todo intervalo [ak, bk].

(49)

Figura 15: Todos os intervalos [ak, bk] contém o minimizador da função quadrática.

Teorema 5.10 Seja t∗ o minimizador da função quadrática, então t∗ ∈ [ak, bk], para

todo k.

Demonstração. Suponha que na primeira iteração do Método da Seção Áurea, [a0, u0)

foi descartado. (O outro caso é análogo) Pelo lema 5.3 temos que a1 = u0 e b1 = b0.

Assim, t∗ ∈ [a1, b1] ⊂ [a0, b0]. Aplicando o algoritmo sucessivamente, temos que

t∗ ∈ [an, bn] ⊂ [an−1, bn−1] ⊂ · · · ⊂ [a0, b0].

Assim temos que t∗ ∈ [ak, bk] para todo k ∈ IN.

Teorema 5.11 Seja (tk) a sequência definida por tk =

uk+ vk

2 =

ak+ bk

2 e t

∗ _o

minimizador da função quadrática. Entãotk → t∗.

Demonstração. De acordo com o Teorema 5.10 temos que bk− ak→ 0. E pelo Teorema

5.10 temos que t∗ ∈ [ak, bk], para todo k. Como (tk) ⊂ [ak, bk], concluímos que tk

(50)

5.5 Velocidade de Convergência

Provaremos que a velocidade de convergência da sequência bk é linear com

taxa de convergência igual ao número de ouro. Suponha que o intervalo (vk, bk] foi

descartado. Assim temos que ak+1 = ak, vk+1 = uke bk+1 = vk.

Teorema 5.12 As sequências (ak) e (bk) geradas pelo Algoritmo da Seção Áurea tem

convergência linear e a taxa de convergência éθ2, ou seja, ||bk+1 − t|| ≤ θ2||bk− t||

para todok ∈ IN.

Demonstração. Para simplificar a notação vamos suprimir o indice k. Considere a função g : [a, v] → IR, onde g(t) = vk− t

bk− t , temos que: g0(t) = (−1)(b − t) − (a + θ2(b − a) − t)(−1) (b − t)2 = −b + t + a + θ2(b − a) − t (b − t)2 = (b − a)(−1 + θ2) (b − t)2 = −θ1(b − a) (b − t)2 < 0

para todo t ∈ [a, v]. Como g0 é negativa, então g é decrescente.

Portanto

g(t) ≤ g(a) = v − a b − a =

a + θ2(b − a) − a

b − a = θ2, para todo t ∈ [a, v].

Em particular para t ∈ [a, v], temos que: ||bk+1− t||

||bk− t||

= vk− t bk− t

= g(t) ≤ θ2

Portanto a sequência (bk) gerada pelo algoritmo tem convergência linear e a taxa de

(51)

6 CONCLUSÃO

Neste trabalho, utilizamos alguns conceitos de Análise para introduzir o estudo de velocidade de convergência das sequências geradas pelos algoritmos clássicos de otimização irrestrita. Concentramos nosso estudo em três velocidades de convergência: linear, superlinear e quadrática.

Como para fins práticos é fundamental que os algoritmos tenham uma con-vergência rápida, discutimos alguns métodos clássicos para otimização irrestrita. O método de Cauchy que faz a cada iteração uma busca unidirecional na direção de maior decrescimento da função, ou seja, na direção oposta ao gradiente. A sequência gerada por este algoritmo tem convergência global e a velocidade de convergência linear. Se a função objetivo for de classe C2 e o ponto inicial estiver próximo de um minimizador, o método de Newton gera uma sequência que converge superlinearmente. Caso a Hes-siana da função a ser minimizada seja Lipschitz, então a convergência do método de Newton é quadrática. Concluindo assim, que o Algoritmo de Newton encontra o mini-mizador mais rapidamente que o Algoritmo de Cauchy.

Nos métodos de busca unidimensional, precisamos minimizar uma função a partir de um certo ponto, segundo uma direção dada, que é a direção de busca. Este problema é equivalente a minimizar uma função real de uma variável, um dos métodos que podem ser usados para resolver este problema é o Método da Seção Áurea, que faz a minimização exata desta função. Analisamos as etapas deste algoritmo, ou seja, se na primeira fase o algoritmo encontra o intervalo com pelo menos um minimizador, o que de fato ocorre, além de que ao descartar intervalos em cada iteração do algoritmo, o

(52)

intervalo que sobrou contém pelo menos um minimizador. Mostramos que o algoritmo realmente converge para um minimizador. E finalmente, demonstramos que a sequên-cia (ak) ou (bk) gerada pelo algoritmo converge linearmente, com taxa o número de

ouro. Realizamos o estudo deste capítulo com base nas literaturas já citadas ao longo do trabalho, mas os resultados demonstrados obtemos com um estudo independente.

(53)

Referências

FRIEDLANDER, A. Elementos de Programação Não-Linear. [S.l.]: Unicamp. IZMAILOV, A.; SOLODOV, M. Otimização: Métodos Computacionais. Rio de Janeiro: IMPA, 2007.

LEON, S. J. Álgebra Linear com Aplicações. Rio de Janeiro: [s.n.], 1999. LIMA, E. L. Curso de Análise, v 1. Rio de Janeiro, Brasil: IMPA, 1981. LIMA, E. L. Curso de Análise, v 2. Rio de Janeiro, Brasil: IMPA, 1981.

MOTA, A. M. Convergência de Algoritmos para Programação Não-linear. Brasil, 2005.

NOCEDAL, J.; WRIGHT, S. J. Numerical Optimization. [S.l.]: Springer-Verlag, 1999. (Springer Series in Operations Research).