UNIVERSIDADE FEDERAL DO PARAN Á Aline Cristiane Finkler APRENDIZAGEM DE M ÁQUINA APLICADA À PREVIS ÃO DOS MOVIMENTOS DO IBOVESPA Curitiba 2017

(1)

UNIVERSIDADE FEDERAL DO PARAN ´ A Aline Cristiane Finkler

APRENDIZAGEM DE M ´ AQUINA APLICADA ` A PREVIS ˜ AO DOS MOVIMENTOS DO IBOVESPA

Curitiba

2017

(2)

UNIVERSIDADE FEDERAL DO PARAN ´ A Aline Cristiane Finkler

APRENDIZAGEM DE M ´ AQUINA APLICADA ` A PREVIS ˜ AO DOS MOVIMENTOS DO IBOVESPA

Disserta¸c˜ ao de Mestrado apresentada ao Programa de P´ os-Gradua¸c˜ ao em Matem´ atica da Universidade Federal do Paran´ a, como requisito parcial ` a ob- ten¸c˜ ao do T´ıtulo de Mestre em Matem´ atica.

Orientador: Prof. Dr. Geovani Nunes Grapiglia.

Curitiba

2017

(3)

F499a Finkler, Aline Cristiane

Aprendizagem de máquina aplicada à previsão dos movimentos do Ibovespa / Aline Cristiane Finkler. – Curitiba, 2017 .

97 f. : il. color. ; 30 cm.

Dissertação - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós- Graduação em Matemática, 2017 .

Orientador: Geovani Nunes Grapiglia.

1. Indicadores Ibovespa. 2. Previsão dos Movimentos Ibovespa. 3. Estratégias de investimentos. I. Universidade Federal do Paraná. II. Grapiglia, Geovani Nunes. III. Título.

CDD: 511.66

(4)

(5)

Dedico este Mestrado ao meu noivo e ` a minha fam´ılia, pessoas que est˜ ao sempre ao meu

lado, me apoiando em todos os momentos.

(6)

Agradecimentos

Agrade¸co ao meu orientador Prof. Dr. Geovani Nunes Grapiglia, por aceitar me orientar neste trabalho, exercendo esta fun¸c˜ ao excelentemente, sem medir esfor¸cos para contribuir com minha forma¸c˜ ao acadˆ emica.

Aos incont´ aveis professores que fizeram parte da minha trajet´ oria de estudante. Desde aqueles que me ensinaram a ler e escrever, assim como as mais b´ asicas no¸c˜ oes matem´ aticas, at´ e os de n´ıvel universit´ ario. Cada um deles teve sua importˆ ancia para que eu chegasse at´ e aqui.

Aos professores Paulo Silva (Unicamp) e Lucas Pedroso (UFPR), por concordarem em participar da banca de avalia¸c˜ ao e acrescentarem enriquecedoras contribui¸c˜ oes ao trabalho.

Aos meus pais Gilberto e Noeli, por tudo o que fizeram por mim ao longo de minha vida. Agrade¸co infinitamente pelo apoio incondicional e pela incans´ avel dedica¸c˜ ao a mim durante todos estes anos.

Aos meus irm˜ aos, Ivan e Luana, por fazerem parte de minha vida, e me auxiliarem sempre que preciso.

Ao meu noivo Eduardo, por me apoiar e me incentivar em momentos dif´ıceis. Mais do que isso, agrade¸co por aguentar ficar ao meu lado nos piores momentos. Al´ em disso, obrigada pela disposi¸c˜ ao em me ajudar a crescer pessoal e profissionalmente.

A todos os amigos e familiares, por compreenderem minha ausˆ ` encia em certos mo- mentos.

A Deus, por estar sempre presente. `

Aos colegas, que foram prestativos em momentos de necessidade, e que contribu´ıram com um ambiente de estudos agrad´ avel.

Finalmente, ` a CAPES e Funda¸c˜ ao Arauc´ aria, pelo apoio financeiro concedido.

(7)

“Os computadores s˜ ao incrivelmente r´ apidos, precisos e burros;

os homens s˜ ao incrivelmente lentos, imprecisos e brilhantes;

juntos, seus poderes ultrapassam os limites da imagina¸ c˜ ao.”

Albert Einstein

(8)

Resumo

Neste trabalho investiga-se o uso de t´ ecnicas de Aprendizagem de M´ aquina para a previs˜ ao dos movimentos do Ibovespa, ´ındice que representa o desempenho geral das a¸c˜ oes negoci- adas na BM&FBovespa. Especificamente, s˜ ao considerados modelos de Regress˜ ao Linear, Regress˜ ao Log´ıstica, C-SVM e Redes Neurais Artificiais. A partir de dados hist´ oricos mensais do Ibovespa, esses modelos s˜ ao treinados para realizarem previs˜ oes bin´ arias sobre o ´ındice (de alta ou baixa), com horizontes de 1, 3, 6 e 12 meses. Nos testes realiza- dos, com o modelo C-SVM chega-se a uma taxa de acerto de 72,7% para previs˜ oes de 6 meses. Essa taxa ´ e melhorada para 78,8% usando-se um modelo que combina Regress˜ ao Linear, Regress˜ ao Log´ıstica e C-SVM. Tal modelo h´ıbrido ´ e ent˜ ao incorporado a uma es- trat´ egia de investimento com manuten¸c˜ ao semestral para negocia¸c˜ ao do fundo de ´ındices BOVA11, o qual busca replicar os movimentos do Ibovespa. Simula¸c˜ oes sugerem que essa estrat´ egia de investimento baseada em previs˜ oes ´ e capaz de fornecer retornos significati- vamente maiores do que aqueles obtidos com uma estrat´ egia simples conhecida como buy and hold. Esses resultados ilustram o grande potencial do uso de t´ ecnicas de aprendiza- gem de m´ aquina como suporte para a tomada de decis˜ oes de compra e venda em bolsas de valores. Al´ em disso, abordam-se aspectos te´ oricos referentes ` a alguns m´ etodos de oti- miza¸c˜ ao. Em particular, um estudo unificado de complexidade para m´ etodos de descida

´ e apresentado.

Palavras-chave: Otimiza¸ c˜ ao, Aprendizagem de M´ aquina, Ibovespa.

(9)

Abstract

This work investigates the use of Machine Learning models for predicting the movements of Ibovespa, which is the index that represents the overall performance of the stocks ne- gotiated in the BM&FBovespa. Specifically, the models considered are Linear Regression, Logistic Regression, C-SVM and Artificial Neural Networks. Using monthly data about Ibovespa, these models are trained to the task of predicting the index movements (up and down) for horizons of 1, 3, 6 and 12 months ahead. In the experiments performed, with a C-SVM it was possible to reach an accuracy of 72,7% for predictions 6 months ahead. This accuracy was improved up to 78,8% by using a suitable combination of Linear Regression, Logistic Regression and C-SVM. Then, this hybrid model was incorporated to a trading strategy for negotiation of index fund BOVA11, which tries to replicate the movements of Ibovespa. Numerical simulations suggest that this trading strategy based on forecasts is able to provide gains significantly higher than those obtained with a simple strategy known as buy and hold. These results illustrate the great potential of Machine Learning as support for trading decisions in the stock market. In addition, theoretical approaches to some optimization methods are discussed. In particular, a unified complexity study for descent methods is presented.

Keywords: Optimization, Machine Learning, Ibovespa.

(10)

Sum´ ario

Introdu¸ c˜ ao 15

1 No¸ c˜ oes de Otimiza¸ c˜ ao 17

1.1 Defini¸c˜ oes e Resultados B´ asicos . . . . 17

1.2 Dedu¸c˜ ao de M´ etodos de Descida . . . . 20

1.3 An´ alise Te´ orica de M´ etodos de Descida . . . . 24

1.3.1 Convergˆ encia Global e Complexidade de Pior-Caso . . . . 26

1.3.2 Taxas de Convergˆ encia e M´ etodos quase-Newton . . . . 36

1.4 M´ etodo do Gradiente Acelerado . . . . 40

2 Modelos de Aprendizagem de M´ aquina 45 2.1 Regress˜ ao Linear . . . . 45

2.2 Regress˜ ao Log´ıstica . . . . 50

2.3 M´ aquinas de Vetor Suporte . . . . 57

2.4 Redes Neurais Artificiais . . . . 61

3 Aprendizagem de M´ aquina e a previs˜ ao dos movimentos do Ibovespa 70 3.1 Previs˜ ao vista como problema de Classifica¸c˜ ao . . . . 71

3.2 Regress˜ ao Log´ıstica . . . . 72

3.3 C-SVM . . . . 73

3.4 Redes Neurais Artificiais . . . . 75

3.5 Regress˜ ao Linear . . . . 77

3.6 Combina¸c˜ ao de Modelos . . . . 79

4 Estrat´ egia de Investimento 82 4.1 Ibovespa e BOVA11 . . . . 82

4.2 Estrat´ egia de Investimento . . . . 83

4.3 Simula¸c˜ oes de Investimento . . . . 87

Conclus˜ ao 91

Referˆ encias 93

(11)

Anexos 96

(12)

Lista de Figuras

1.1 Interpreta¸c˜ ao geom´ etrica do M´ etodo de Newton. . . . 21

1.2 Exemplo de divergˆ encia do M´ etodo de Newton Puro. . . . 22

1.3 Espectro dos principais M´ etodos de Descida. . . . 40

2.1 Exemplo de Regress˜ ao Linear relacionando a distˆ ancia percorrida por um autom´ ovel com o consumo de combust´ıvel. . . . 47

2.2 Conjunto de dados e o respectivo plano que melhor ajusta tais dados. . . . 48

2.3 Exemplo de Regress˜ ao Log´ıstica. . . . 52

2.4 Gr´ afico da Fun¸c˜ ao Log´ıstica. . . . 53

2.5 Exemplo de erros de underfitting e overfitting. . . . 56

2.6 Hiperplano separador SVM. . . . 57

2.7 Fun¸c˜ oes para Regress˜ ao Log´ıstica e para SVM. . . . 58

2.8 Exemplos de conjuntos linearmente e n˜ ao linearmente separ´ aveis. . . . . . 61

2.9 Modelo de neurˆ onio biol´ ogico. . . . 62

2.10 Modelo de neurˆ onio artificial. . . . . 63

2.11 Representa¸c˜ ao de Rede Neural Feedforward Multicamadas. . . . 63

3.1 S´ erie Ibovespa. . . . . 70

3.2 Regress˜ ao Log´ıstica. . . . . 74

3.3 C-SVM. . . . 75

3.4 Redes Neurais. . . . . 76

3.5 Regress˜ ao Linear. . . . 78

3.6 Compara¸c˜ ao entre os modelos. . . . 79

3.7 Combina¸c˜ ao de Modelos. . . . 81

4.1 S´ erie hist´ orica BOVA11. . . . 83

4.2 Investimentos iniciados em 2009, nos meses de Janeiro (1); Fevereiro (2); Mar¸co (3); Abril (4); Maio (5); Junho (6). . . . 88

4.3 Investimentos iniciados em 2010, nos meses de Janeiro (1); Fevereiro (2); Mar¸co (3); Abril (4); Maio (5); Junho (6). . . . 89

4.4 Investimentos iniciados em 2013, nos meses de Janeiro (1); Fevereiro (2);

Mar¸co (3); Abril (4); Maio (5); Junho (6). . . . 90

(13)

Lista de Tabelas

3.1 Informa¸c˜ oes do conjunto de teste . . . . 72

3.2 Resultados - Regress˜ ao Log´ıstica . . . . 73

3.3 Resultados - C-SVM . . . . 75

3.4 Resultados - Redes Neurais . . . . 77

3.5 Resultados - Regress˜ ao Linear . . . . 78

3.6 Resultados para previs˜ ao de 6 meses . . . . 79

3.7 Resultados - Combina¸c˜ ao de modelos . . . . 80

4.1 Simula¸c˜ oes: per´ıodos com t´ ermino em Janeiro de 2017 . . . . 87

(14)

Abreviaturas

AM Aprendizagem de M´ aquina

BFGS “Broyden-Fletcher-Goldfarb-Shanno”

DFP “Davidon-Fletcher-Powell”

BM&FBovespa Bolsa de Valores, Mercados e Futuros de S˜ ao Paulo Ibovespa ´Indice Bovespa

ETF “Exchange Traded Fund” (Fundo de ´Indice de A¸ c˜ oes) CDI Certificado de Dep´ osito Interbanc´ ario

CDB Certificado de Dep´ osito Banc´ ario

LC Letra de Cˆ ambio

LCI Letra de Cr´ edito Imobili´ ario LCA Letra de Cr´ edito do Agroneg´ ocio RNA Rede Neural Artificial

SVM “Support Vector Machines” (M´ aquinas de Vetor Suporte) C-SVM M´ aquinas de Vetor Suporte com margens flex´ıveis

SEQ Soma dos Erros Quadr´ aticos

EC Entropia Cruzada

TA Taxa de Acerto

(15)

Nota¸ c˜ ao

N Conjunto dos n´ umeros naturais R Conjunto dos n´ umeros reais

R ++ N´ umeros reais estritamente positivos R ⁿ Espa¸ co euclidiano n-dimensional

R ^m×n Conjunto das matrizes reais com m linhas e n colunas

| · | Valor absoluto

k · k Norma euclidiana vetorial ou matricial ρ(X) Raio Espectral da matriz X

B(x, δ) Bola aberta de centro x e raio δ

d · e N´ umero inteiro imediatamente superior ao n´ umero real no argumento b · c N´ umero inteiro imediatamente inferior ao n´ umero real no argumento

∇f(x) Gradiente da fun¸ c˜ ao f no ponto x

∇ ² f (x) Matriz Hessiana da fun¸ c˜ ao f no ponto x J _F (x) Jacobiana da fun¸ c˜ ao F no ponto x λ _min (A) Menor autovalor de A (em m´ odulo) λ max (A) Maior autovalor de A (em m´ odulo) A ≥ 0 Matriz A sim´ etrica definida positiva A B B − A ≥ 0

cond(A) N´ umero de condi¸ c˜ ao da matriz A C ^k Derivadas at´ e ordem k cont´ınuas O(ε) M´ ultiplo de ε

I Matriz Identidade

proj x (y) Proje¸ c˜ ao ortogonal de y em x d(X, Y ) Distˆ ancia entre X e Y

x ⁽ⁱ⁾ Vetores em R ⁿ (entradas para os modelos de AM)

y ⁽ⁱ⁾ Valores em R (sa´ıdas para os modelos de AM)

(16)

Introdu¸ c˜ ao

A BM&FBovespa (Bolsa de Valores, Mercados e Futuros) ´ e a principal bolsa do Brasil, e uma das mais importantes da Am´ erica Latina. Por meio dela, ´ e poss´ıvel comprar e vender a¸c˜ oes, por meio eletrˆ onico. A negocia¸c˜ ao no mercado de a¸c˜ oes ´ e uma forma de investimento que vem se tornando cada vez mais popular no Brasil. No processo de tomada de decis˜ oes de compra e venda, s´ eries hist´ oricas dos pre¸cos das a¸c˜ oes est˜ ao entre as informa¸c˜ oes mais importantes para os investidores. Evidentemente, a possibilidade de se prever os movimentos do pre¸co de uma a¸c˜ ao (alta ou baixa) ´ e de grande interesse, uma vez que esse tipo de informa¸c˜ ao pode subsidiar decis˜ oes, tendo em vista a maximiza¸c˜ ao de lucros ou a minimiza¸c˜ ao de eventuais perdas decorrentes de oscila¸c˜ oes do mercado. No entanto, dado o car´ ater dinˆ amico dessas s´ eries temporais, a realiza¸c˜ ao de previs˜ oes desse tipo com alto grau de acerto ´ e uma tarefa extremamente dif´ıcil, gerando inclusive discuss˜ oes te´ oricas sobre a sua viabilidade. Esse comportamento ca´ otico ocorre pelo fato dos pre¸cos das a¸c˜ oes serem afetados por diversos fatores sociais, pol´ıticos e macro-econˆ omicos.

Recentemente, diversas t´ ecnicas de aprendizagem de m´ aquina tˆ em sido usadas com relativo sucesso na modelagem e previs˜ ao dos movimentos de pre¸cos em mercados de a¸c˜ oes. Por exemplo, Dai e Zhang [9] utilizaram Regress˜ ao Log´ıstica e M´ aquinas de Vetor Suporte (SVM, do inglˆ es Support Vector Machine) para obter previs˜ oes sobre uma ´ unica a¸c˜ ao do mercado norte americano, a 3M. Embora os resultados para previs˜ ao de curto prazo (com horizonte de 1 a 7 dias) n˜ ao tenham sido satisfat´ orios, para um horizonte de 44 dias eles conseguiram uma taxa de acerto de 79% utilizando SVM. Shen et al [26]

utilizaram como vari´ avel explicativa uma variedade de dados mundiais (tais como ´ındices de diversos mercados de a¸c˜ oes, cota¸c˜ oes de diferentes moedas, e ainda commodities como ouro e prata), e com um modelo SVM eles conseguiram prever os movimentos de alguns

´ındices do mercado norte-americano (como o NASDAQ e S&P500) com uma taxa de acerto

superior a 70% para o horizonte de 1 dia, e de at´ e 85% para o horizonte de 30 dias. Huang

et al [16] investigaram a eficiˆ encia da t´ ecnica SVM na previs˜ ao do movimento semanal

do ´ındice japonˆ es NIKKEI 225, comparando-a com outras t´ ecnicas de classifica¸c˜ ao, tais

como Redes Neurais Artificiais. Tamb´ em neste caso, individualmente o modelo SVM teve

performance superior, com taxa de acerto de 73% para previs˜ ao de 1 semana. No entanto,

com uma combina¸c˜ ao dos modelos eles obtiveram resultados ainda melhores, resultando

em uma taxa de acerto de 75%. Majumder et al [21] utilizaram Redes Neurais Artificiais

(17)

para previs˜ ao dos movimentos do ´ındice S&P CNX Nifty 50. Realizaram testes com diversas varia¸c˜ oes do modelo, obtendo uma taxa de acerto de 89.65%.

Motivada pela escassez de estudos desse gˆ enero sobre o mercado de a¸c˜ oes brasileiro, a presente disserta¸c˜ ao tem como objetivo a aplica¸c˜ ao de modelos de aprendizagem de m´ aquina para a previs˜ ao do Ibovespa, que ´ e o ´ındice da BM&FBovespa que busca in- dicar o desempenho geral das a¸c˜ oes registradas nessa bolsa de valores. Especificamente, s˜ ao considerados os modelos de Regress˜ ao Linear, Regress˜ ao Log´ıstica, C-SVM e Redes Neurais Artificiais. Com o objetivo de melhorar o desempenho nas previs˜ oes, a t´ ecnica de combina¸c˜ ao de modelos descrita em [16] tamb´ em ´ e investigada. Por fim, para ilustrar os potenciais ganhos decorrentes do uso desses modelos, v´ arias simula¸c˜ oes s˜ ao realizadas comparando-se uma estrat´ egia baseada em aprendizagem de m´ aquina com uma estrat´ egia simples do tipo buy and hold.

O restante do trabalho est´ a organizado da seguinte maneira. O Cap´ıtulo 1 apresenta

no¸c˜ oes b´ asicas de otimiza¸c˜ ao e tamb´ em uma descri¸c˜ ao dos m´ etodos de otimiza¸c˜ ao usados

para treinar os modelos abordados na disserta¸c˜ ao. Em particular, os m´ etodos de descida

s˜ ao apresentados de uma maneira unificada tendo como foco um estudo geral da comple-

xidade de pior-caso desses m´ etodos. O Cap´ıtulo 2 apresenta uma descri¸c˜ ao detalhada dos

modelos de aprendizagem de m´ aquina considerados. O Cap´ıtulo 3 reporta os resultados

de testes num´ ericos realizados na tentativa de se identificar o melhor modelo para a tarefa

de previs˜ ao do Ibovespa. Por fim, no Cap´ıtulo 4 investiga-se, por meio de simula¸c˜ oes, a

aplica¸c˜ ao do modelo mais eficiente descrito no Cap´ıtulo 3 como base para uma estrat´ egia

de investimento.

(18)

Cap´ıtulo 1

No¸ c˜ oes de Otimiza¸ c˜ ao

Este cap´ıtulo cont´ em no¸c˜ oes b´ asicas de otimiza¸c˜ ao, bem como uma breve descri¸c˜ ao dos m´ etodos utilizados para resolver os problemas abordados na disserta¸c˜ ao. As principais referˆ encias consideradas s˜ ao Ribeiro e Karas [25], Luenberger e Ye [19] e Nesterov [23].

1.1 Defini¸ c˜ oes e Resultados B´ asicos

Considere uma fun¸c˜ ao f : R ⁿ → R e um subconjunto Ω ⊂ R ⁿ . Defini¸ c˜ ao 1.1. Dado um ponto x ^∗ ∈ Ω,

(a) diz-se que x ^∗ ∈ Ω ´ e minimizador global de f em Ω quando f (x ^∗ ) ≤ f (x), ∀ x ∈ Ω;

(b) diz-se que x ^∗ ∈ Ω ´ e minimizador local de f em Ω quando existe δ > 0 tal que f (x ^∗ ) ≤ f(x), ∀ x ∈ B (x ^∗ , δ) ∩ Ω.

O problema de minimiza¸c˜ ao consiste em encontrar os minimizadores da fun¸c˜ ao f no conjunto Ω, e pode ser escrito como

min f(x)

s.a. x ∈ Ω. (1.1)

A fun¸c˜ ao f : R ⁿ → R ´ e denominada fun¸c˜ ao objetivo, e Ω ⊂ R ⁿ ´ e o conjunto vi´ avel.

Observa¸ c˜ ao 1.2. Todo problema de maximiza¸ c˜ ao max f (x)

s.a. x ∈ Ω

(1.2)

(19)

pode ser transformado em um problema de minimiza¸ c˜ ao equivalente min − f(x)

s.a. x ∈ Ω.

Ambos os problemas (1.1) e (1.2) s˜ ao referidos como problemas de otimiza¸c˜ ao. Quando Ω = R ⁿ , tem-se um problema de otimiza¸c˜ ao irrestrito ou sem restri¸c˜ oes. Quando Ω R ⁿ , tem-se um problema de otimiza¸c˜ ao com restri¸c˜ oes. Neste caso, Ω costuma ser da forma

Ω = (

x ∈ R ⁿ

r i (x) = 0, i = 1, . . . , p e

r _i (x) ≤ 0, i = p _e + 1, . . . , p )

,

onde p _e ≤ p s˜ ao inteiros n˜ ao negativos, e r _i : R ⁿ → R , para cada i = 1, . . . , p.

Os resultados abaixo fornecem condi¸c˜ oes suficientes para a existˆ encia de minimizadores globais.

Teorema 1.3 (Weierstrass). Sejam f : R ⁿ → R cont´ınua e Ω ⊂ R ⁿ compacto n˜ ao vazio.

Ent˜ ao existe minimizador global de f em Ω.

Demonstra¸ c˜ ao: Ver Teorema 2.2 em Ribeiro e Karas [25].

Corol´ ario 1.4. Seja f : R ⁿ → R cont´ınua e suponha que existe c ∈ R tal que o conjunto L = {x ∈ R ⁿ | f(x) ≤ c} ´ e compacto n˜ ao vazio. Ent˜ ao f tem um minimizador global.

Demonstra¸ c˜ ao: Ver Corol´ ario 2.3 em Ribeiro e Karas [25].

No caso de problemas de otimiza¸c˜ ao irrestritos, algumas condi¸c˜ oes devem ser satisfeitas para que um ponto x ^∗ ∈ R ⁿ seja minimizador.

Teorema 1.5 (Condi¸c˜ ao necess´ aria de 1 ^a ordem). Seja f : R ⁿ → R uma fun¸ c˜ ao dife- renci´ avel. Se x ^∗ ´ e minimizador local de f, ent˜ ao

∇f(x ^∗ ) = 0.

Demonstra¸ c˜ ao: Ver Teorema 2.9 em Ribeiro e Karas [25].

Defini¸ c˜ ao 1.6. Um ponto x ^∗ que satisfaz ∇f (x ^∗ ) = 0 ´ e chamado ponto cr´ıtico (ou esta- cion´ ario) da fun¸ c˜ ao f .

Segundo o Teorema 1.5, todo minimizador ´ e um ponto cr´ıtico. No entanto, a rec´ıproca nem sempre vale. Um caso importante onde todo ponto cr´ıtico ´ e minimizador global ocorre quando f ´ e uma fun¸c˜ ao convexa.

Defini¸ c˜ ao 1.7. Uma fun¸ c˜ ao f : R ⁿ → R ´ e convexa quando

f ((1 − t)x + ty) ≤ (1 − t)f (x) + tf (y),

(20)

para todos x, y ∈ R ⁿ e t ∈ (0, 1).

Quando a desigualdade acima ´ e estrita, dizemos que f ´ e estritamente convexa.

Teorema 1.8. Sejam f : R ⁿ → R diferenci´ avel. A fun¸ c˜ ao f ´ e convexa se, e somente se,

f(y) ≥ f (x) + ∇f(x) ^T (y − x), (1.3)

para todos x, y ∈ R ⁿ .

Demonstra¸ c˜ ao: Ver Teorema 3.13 em Ribeiro e Karas [25].

Corol´ ario 1.9. Se f : R ⁿ → R ´ e uma fun¸ c˜ ao convexa, qualquer ponto cr´ıtico ´ e minimi- zador global de f .

Demonstra¸ c˜ ao: Como f ´ e convexa, segue de (1.3) que

f (x) ≥ f (x ^∗ ) + ∇f (x ^∗ )(x − x ^∗ ) ≥ f (x ^∗ ), ∀x ∈ R ⁿ , pois ∇f (x ^∗ ) = 0.

Isto significa que para minimizar uma fun¸c˜ ao convexa f , basta encontrar um ponto cr´ıtico, ou seja, um ponto x ^∗ tal que ∇f(x ^∗ ) = 0. Por conta desse resultado, em otimiza¸c˜ ao

´ e extremamente importante identificar quando uma fun¸c˜ ao ´ e convexa. Nesse contexto, conv´ em revisar o conceito de matriz (semi)definida positiva.

Defini¸ c˜ ao 1.10. Uma matriz sim´ etrica A ∈ R ^n×n ´ e dita definida positiva quando x ^T Ax > 0

para todo x ∈ R ⁿ \ {0}. Neste caso, escreve-se A > 0.

Se

x ^T Ax ≥ 0

para todo x ∈ R ⁿ , diz-se que A ´ e semidefinida positiva, e denota-se por A ≥ 0.

Teorema 1.11. Seja f : R ⁿ → R uma fun¸ c˜ ao de classe C ² . Se ∇ ² f (x) ≥ 0 para todo x ∈ R ⁿ , ent˜ ao f ´ e convexa. A rec´ıproca tamb´ em ´ e v´ alida.

Demonstra¸ c˜ ao: Ver Teorema 3.16 em Ribeiro e Karas [25].

Considerando informa¸c˜ oes de segunda ordem da fun¸c˜ ao, tem-se a seguinte condi¸c˜ ao necess´ aria de otimalidade:

Teorema 1.12 (Condi¸c˜ ao necess´ aria de 2 ^a ordem). Seja f : R ⁿ → R uma fun¸ c˜ ao duas vezes diferenci´ avel. Se x ^∗ ´ e minimizador local de f , ent˜ ao

∇ ² f (x ^∗ ) ≥ 0.

(21)

Demonstra¸ c˜ ao: Ver Teorema 2.12 em Ribeiro e Karas [25].

Informa¸c˜ oes de segunda ordem tamb´ em permitem identificar quando um ponto cr´ıtico

´ e um minimizador local de f.

Teorema 1.13 (Condi¸c˜ ao suficiente de 2 ^a ordem). Seja f : R ⁿ → R uma fun¸ c˜ ao duas vezes diferenci´ avel. Se

∇f (x ^∗ ) = 0 e ∇ ² f(x ^∗ ) > 0, ent˜ ao x ^∗ ´ e minimizador local estrito de f .

Demonstra¸ c˜ ao: Ver Teorema 2.14 em Ribeiro e Karas [25].

Os resultados acima referentes a minimizadores podem ser facilmente adaptados para maximizadores. Entretanto, existem pontos cr´ıticos que n˜ ao s˜ ao nem maximizadores nem minimizadores.

Defini¸ c˜ ao 1.14. Seja f : R ⁿ → R uma fun¸ c˜ ao diferenci´ avel e x ¯ um ponto cr´ıtico de f.

Diz-se que x ¯ ´ e ponto de sela de f quando, para todo δ > 0, existem x, y ∈ B (¯ x, δ) tais que f(x) < f (¯ x) < f (y).

A identifica¸c˜ ao de pontos de sela pode ser feita a partir da no¸c˜ ao de matriz indefinida.

Defini¸ c˜ ao 1.15. Uma matriz sim´ etrica A ∈ R ^n×n ´ e dita indefinida quando existem x, y ∈ R ⁿ tais que

x ^T Ax < 0 < y ^T Ay.

Teorema 1.16. Seja f : R ⁿ → R uma fun¸ c˜ ao duas vezes diferenci´ avel no ponto esta- cion´ ario x. Se ¯ ∇ ² f(¯ x) ´ e indefinida, ent˜ ao x ¯ ´ e ponto de sela de f .

Demonstra¸ c˜ ao: Ver Teorema 2.16 em Ribeiro e Karas [25].

1.2 Dedu¸ c˜ ao de M´ etodos de Descida

Muitos problemas pr´ aticos podem ser reduzidos ` a busca por um vetor x ∈ R ⁿ tal que

F (x) = 0, (1.4)

onde F : R ⁿ → R ⁿ ´ e uma fun¸c˜ ao diferenci´ avel n˜ ao linear.

Na maioria das vezes, resolver tal problema de maneira direta ´ e muito complicado. Por isso, recorre-se a m´ etodos iterativos, os quais geram uma sequˆ encia (x k ) de aproxima¸c˜ oes.

Dada uma aproxima¸c˜ ao x k para a solu¸c˜ ao de (1.4), o ideal seria encontrar um passo d _k ∈ R ⁿ tal que

F (x _k + d _k ) = 0.

(22)

Ora, sendo F diferenci´ avel, tem-se que

F (x _k + d) = F (x _k ) + J _F (x _k )d + r(d), onde J _F (x _k ) ´ e a Jacobiana de F em x _k , e lim

kdk→0 r(d)

kdk = 0. Em particular, lim

kdk→0 r(d) = 0.

Assim, para kdk suficientemente pequena, obt´ em-se

F (x _k + d) ∼ = F (x _k ) + J _F (x _k )d. (1.5) A rela¸c˜ ao (1.5) sugere a busca por um passo d _k tal que

F (x _k ) + J _F (x _k )d _k = 0. (1.6) Se J F (x k ) ´ e n˜ ao singular, a solu¸c˜ ao de (1.6) ´ e

d _k = −J _F (x _k ) ⁻¹ F (x _k ).

Deste modo, obt´ em-se a seguinte regra para atualiza¸c˜ ao de x _k :

x _k+1 = x _k + d _k = x _k − J _F (x _k ) ⁻¹ F (x _k ). (1.7) O processo iterativo (1.7) ´ e conhecido como M´ etodo de Newton Puro.

A Figura 1.1 ilustra uma interpreta¸c˜ ao geom´ etrica do m´ etodo para n = 1, onde procura-se aproximar as ra´ızes de F (x) = 2x ² + x + 1. Neste caso, tem-se J _F (x) = F ⁰ (x).

Esta figura sugere que a sequˆ encia (x _k ) gerada pelo M´ etodo de Newton converge para uma solu¸c˜ ao x ^∗ do problema (1.4).

x

-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5

y

-5 0 5 10 15 20 25 30

x

^∗

x

3

x

2

x

1

x

0

F(x) = 2x

²

+ x − 1

Retas tangentes aos pontos (x

_i

, F(x

_i

)):

y = F(x

i

) + F

^′

(x

i

)(x − x

i

)

Figura 1.1: Interpreta¸c˜ ao geom´ etrica do M´ etodo de Newton.

O ponto x _k+1 ´ e resultado da interse¸c˜ ao da reta tangente ao gr´ afico de F no ponto

(x _k , F (x _k )) com o eixo x.

(23)

Infelizmente, se o ponto inicial x ₀ n˜ ao estiver suficientemente pr´ oximo de x ^∗ , a sequˆ encia (x _k ) gerada pelo M´ etodo de Newton Puro pode divergir. Por exemplo, considere a fun¸c˜ ao F : R → R dada por

F (x) = x

√ 1 + x ² .

Para essa fun¸c˜ ao, o M´ etodo de Newton diverge quando |x ₀ | ≥ 1. De fato, a solu¸c˜ ao de F (x) = 0 ´ e x ^∗ = 0, e

x _k+1 = x _k − F (x _k )

F ⁰ (x _k ) = x _k − x _k (1 + x ² _k ) ⁻

¹²

(1 + x ² _k ) ⁻

³²

= −x ³ _k .

Se |x ₀ | < 1, a sequˆ encia (x _k ) converge rapidamente para x ^∗ , uma vez que |x ³ _k | → 0. Se x ₀ = 1, tem-se x ₁ = −1 e x ₂ = x ₀ = 1, de modo que o m´ etodo entra num processo infinito, e nunca encontra a raiz x ^∗ = 0. Se |x ₀ | > 1, ent˜ ao |x _k | → ∞. Este exemplo est´ a ilustrado na Figura 1.2, onde x ₀ = 1 ´ e tomado como ponto inicial.

x

-3 -2 -1 0 1 2 3

y

-1 -0.5 0 0.5 1

x

^∗

^x

0

= x

2

= x

4

= . . . x

₁

= x

₃

= x

₅

= . . .

F(x) =

√^x 1+x²

y = F (x

0

) + F

^′

(x

0

)(x − x

0

)

y = F(x

1

) + F

^′

(x

1

)(x − x

1

)

Figura 1.2: Exemplo de divergˆ encia do M´ etodo de Newton Puro.

Uma forma de se contornar este problema ´ e o controle do tamanho do passo a partir de uma sequˆ encia (t _k ) ⊂ R ++ . Especificamente, o M´ etodo de Newton Puro ´ e modificado da seguinte maneira:

x _k+1 = x _k + t _k d _k = x _k − t _k J _F (x _k ) ⁻¹ F (x _k ). (1.8) O processo iterativo (1.8) ´ e conhecido como M´ etodo de Newton com Busca, pois ele de- pende da busca dos parˆ ametros t _k de modo a garantir a convergˆ encia do m´ etodo para qualquer ponto inicial x ₀ .

Por outro lado, mesmo no M´ etodo de Newton com Busca, J F (x k ) pode ser singular,

tornando a sequˆ encia (x _k ) mal-definida. Este problema pode ser evitado substituindo-

se J _F (x _k ) por uma matriz n˜ ao singular H _k ∈ R ^n×n . Para preservar as propriedades do

(24)

m´ etodo, ´ e interessante que tal matriz H _k seja uma aproxima¸c˜ ao de J _F (x _k ) t˜ ao boa quanto poss´ıvel. Denotando B _k = H _k ⁻¹ , a partir de (1.8) obt´ em-se o seguinte processo iterativo:

x _k+1 = x _k + t _k d _k , com d _k = −B _k F (x _k ). (1.9) Em otimiza¸c˜ ao suave irrestrita, dada uma fun¸c˜ ao f : R ⁿ → R , o objetivo ´ e encontrar um minimizador x ^∗ de f . Neste caso, sabe-se que se x ^∗ ´ e minimizador de f, ent˜ ao

∇f(x ^∗ ) = 0 (Teorema 1.5). Assim, na pr´ atica busca-se por uma solu¸c˜ ao da equa¸c˜ ao n˜ ao linear

∇f (x) = 0.

Para F (x) = ∇f (x), o esquema (1.9) se torna

x _k+1 = x _k + t _k d _k , com d _k = −B _k ∇f(x _k ). (1.10) Aqui, B _k atua como uma aproxima¸c˜ ao para ∇ ² f (x _k ) ⁻¹ , e geralmente considera-se B _k como sendo sim´ etrica e definida positiva. Quando f ´ e de classe C ² , segue do Teorema de Schwarz ¹ que ∇ ² f(x _k ) ∈ R ^n×n ´ e sim´ etrica. Isto justifica a simetria de B _k . O fato de B _k ser definida positiva ´ e motivado pela seguinte propriedade:

Teorema 1.17. Seja B uma matriz sim´ etrica e definida positiva. Se d = −B∇f (x), ent˜ ao

f (x + td) < f (x) (1.11)

para todo t suficientemente pequeno.

Observa¸ c˜ ao 1.18. Se d ∈ R ⁿ satisfaz (1.11), diz-se que d ´ e uma dire¸ c˜ ao de descida.

Para que uma dire¸ c˜ ao d seja de descida a partir de um ponto x, ´ e suficiente que se tenha d ^T ∇f(x) < 0 (Ver Teorema 4.2 em Ribeiro e Karas [25]).

Em raz˜ ao do Teorema 1.17, o m´ etodo (1.10) ser´ a chamado de M´ etodo Geral de Descida.

Este m´ etodo pode ser descrito da seguinte maneira:

1 Ver Teorema 4 do Cap´ıtulo 3.3 de Lima [17].

(25)

Algoritmo 1.1. M´ etodo de Descida

Passo 0: Dados x ₀ ∈ R ⁿ e B ₀ ∈ R ^n×n sim´ etrica e definida positiva, defina k = 0.

Passo 1: Se ∇f (x _k ) = 0, pare;

Passo 2: Calcule d _k = −B _k ∇f (x _k );

Passo 3: Calcule t _k > 0 tal que f (x _k + t _k d _k ) < f (x _k );

Passo 4: Defina x _k+1 = x _k + t _k d _k ;

Passo 5: Escolha B _k+1 sim´ etrica e definida positiva;

Passo 6: Defina k = k + 1 e volte ao Passo 1.

O c´ alculo de t _k no Passo 3 pode ser feito de diversas maneiras. Entre elas, destacam-se as seguintes:

• Busca Exata: consiste em tomar t _k como a solu¸c˜ ao do problema

t∈ min R

+

φ(t) = f(x + td). (1.12)

Mesmo sendo unidimensional, o problema (1.12) pode ser bastante complicado. Nes- tes casos, m´ etodos de busca inexata podem ser mais vi´ aveis.

• Busca Inexata de Goldstein-Armijo: consiste em encontrar um t _k > 0 de modo que haja uma redu¸c˜ ao no valor da fun¸c˜ ao na dire¸c˜ ao d k , sem necessidade de resolver o problema (1.12). Para isto, utiliza-se a regra

0 < −µ ₁ t _k ∇f(x _k ) ^T d _k ≤ f (x _k ) − f (x _k + t _k d _k ) ≤ −µ ₂ t _k ∇f (x _k ) ^T d _k , onde 0 < µ ₁ < µ ₂ < 1.

• Passo constante: consiste em fazer t k = t para todo k. Esta t´ ecnica costuma ser pouco eficiente, uma vez que o mesmo tamanho de passo deve garantir o decr´ escimo da fun¸c˜ ao na dire¸c˜ ao escolhida para qualquer ponto de partida, o que pode significar que o passo seja muito pequeno, tornando o algoritmo lento.

1.3 An´ alise Te´ orica de M´ etodos de Descida

Dado um problema de otimiza¸c˜ ao, uma solu¸c˜ ao x ^∗ do mesmo geralmente satisfaz uma

condi¸c˜ ao de criticalidade da forma µ(x ^∗ ) = 0, com µ(x) ≥ 0. Quando x satisfaz µ(x) = 0,

diz-se que x ´ e um ponto cr´ıtico do problema. No caso de um problema de minimiza¸c˜ ao

suave sem restri¸c˜ oes, a medida de criticalidade usual ´ e µ(x) = k∇f (x)k, onde f ´ e a

(26)

fun¸c˜ ao objetivo. Outra medida v´ alida, mas nem sempre vi´ avel de ser calculada, ´ e µ(x) = f(x) − f ^∗ , onde f ^∗ ´ e o valor m´ınimo de f .

Por conta da precis˜ ao finita dos computadores, implementa¸c˜ oes pr´ aticas de m´ etodos de otimiza¸c˜ ao n˜ ao utilizam a condi¸c˜ ao µ(x _k ) = 0 como crit´ erio de parada. Em vez disso, elas fazem uso da condi¸c˜ ao mais fraca

µ(x _k ) ≤ ε, (1.13)

onde ε > 0 ´ e uma tolerˆ ancia fixada a priori pelo usu´ ario. Para um m´ etodo iterativo de otimiza¸c˜ ao, ´ e extremamente desej´ avel que se tenha a garantia te´ orica de que o crit´ erio de parada (1.13) ser´ a satisfeito, independentemente da escolha do ponto inicial x ₀ . Essa propriedade ´ e conhecida como Convergˆ encia Global, e pode ser formalizada da seguinte maneira:

Defini¸ c˜ ao 1.19 (Convergˆ encia Global). Seja (x _k ) a sequˆ encia gerada por um m´ etodo iterativo de otimiza¸ c˜ ao M a partir de um ponto inicial arbitr´ ario x ₀ . Diz-se que o m´ etodo M ´ e globalmente convergente quando, dado ε > 0, existe ¯ k = ¯ k(ε, x ₀ ) ∈ N tal que µ(x k ¯ ) ≤ ε.

O exemplo de divergˆ encia do M´ etodo de Newton Puro descrito na Se¸c˜ ao 1.2 mostra que nem todo m´ etodo de otimiza¸c˜ ao ´ e globalmente convergente.

Apesar de ser uma propriedade importante, a convergˆ encia global n˜ ao diz muito sobre a eficiˆ encia de um m´ etodo de otimiza¸c˜ ao. Ela apenas garante que a execu¸c˜ ao do m´ etodo vai parar em algum momento. Obviamente, ´ e desej´ avel que o m´ etodo seja r´ apido, ou seja, que ele pare executando o menor n´ umero poss´ıvel de itera¸c˜ oes. Assim, para avaliar a eficiˆ encia ´ e interessante estimar o qu˜ ao grande ´ e o primeiro ¯ k para o qual µ(x ¯ k ) ≤ ε, isto

´ e, o n´ umero m´ aximo de itera¸c˜ oes que o m´ etodo precisa executar no pior caso at´ e que o crit´ erio (1.13) seja satisfeito. Fixado x ₀ , quanto menor for ε > 0, maior ser´ a ¯ k. Esse tipo de limitante superior sobre ¯ k caracteriza a Complexidade de Pior-Caso do m´ etodo.

Em geral, limitantes de complexidade s˜ ao da forma ¯ k ≤ O(ε ^−p ), com p ∈ {1, 1.5, 2}.

Mesmo para p = 1, se consideramos ε = 10 ⁻⁶ obtemos um limitante superior da ordem de um milh˜ ao de itera¸c˜ oes. Felizmente, na pr´ atica quase sempre ´ e poss´ıvel satisfazer o crit´ erio de parada (1.13) com um n´ umero de itera¸c˜ oes muito menor que o n´ umero previsto pela an´ alise de complexidade.

Uma outra medida de eficiˆ encia, menos pessimista, ´ e a Taxa de Convergˆ encia.

A an´ alise da taxa de convergˆ encia permite avaliar a velocidade de convergˆ encia das sequˆ encias geradas por um m´ etodo quando as suas iteradas est˜ ao suficientemente pr´ oximas de uma solu¸c˜ ao do problema. A defini¸c˜ ao a seguir apresenta caracteriza¸c˜ oes para a taxa de convergˆ encia de uma sequˆ encia.

Defini¸ c˜ ao 1.20. Seja (x _k ) uma sequˆ encia que converge para x ^∗ , com x _k 6= x ^∗ , para todo

k. Diz-se que a convergˆ encia de (x _k ) ´ e:

(27)

• Linear, com taxa de convergˆ encia r, quando

k→∞ lim

kx _k+1 − x ^∗ k

kx _k − x ^∗ k = r < 1;

• Superlinear, quando

k→∞ lim

kx k+1 − x ^∗ k kx _k − x ^∗ k = 0;

• Sublinear, quando

k→∞ lim

kx _k+1 − x ^∗ k kx _k − x ^∗ k = 1;

• de ordem p > 1, quando

k→∞ lim

kx _k+1 − x ^∗ k kx _k − x ^∗ k ^p < ∞;

Quando p = 2, diz-se que a convergˆ encia ´ e quadr´ atica.

Observa¸ c˜ ao 1.21. Quanto maior a ordem de convergˆ encia das sequˆ encias geradas por um m´ etodo, mais r´ apido ele tende a ser. Assim, ´ e prefer´ıvel um m´ etodo com convergˆ encia quadr´ atica do que linear, por exemplo.

A seguir, o Algoritmo 1.1 ´ e analisado tendo como foco esses trˆ es aspectos fundamentais:

Convergˆ encia Global, Complexidade de Pior-Caso e Taxas de Convergˆ encia.

1.3.1 Convergˆ encia Global e Complexidade de Pior-Caso

S˜ ao discutidas agora a ordem de complexidade e a convergˆ encia global do M´ etodo de Descida descrito no Algoritmo 1.1.

Defini¸ c˜ ao 1.22. Uma fun¸ c˜ ao f : X ⊂ R ⁿ → R ^m ´ e Lipschitziana se existe uma constante L > 0 tal que

kf (x) − f (y)k ≤ L kx − yk , para todos x, y ∈ X. Neste caso, diz-se que f ´ e L-Lipschitz.

Considere as seguintes hip´ oteses:

(H1) f : R ⁿ → R ´ e diferenci´ avel, e ∇f : R ⁿ → R ⁿ ´ e L-Lipschitz.

(H2) Existem constantes positivas c ₀ ≤ c ₁ tais que, para todo k, B _k ´ e sim´ etrica, e c ₀ I B _k c ₁ I.

Observa¸ c˜ ao 1.23. Note que (H2) implica que λ _min (B _k ) ≥ c ₀ e kB _k k = λ _max (B _k ) ≤ c ₁ ,

para todo k.

(28)

Lema 1.24. Suponha que (H1) e (H2) sejam satisfeitas. Dado x ₀ ∈ R ⁿ , seja (x _k ) ⊂ R ⁿ a sequˆ encia gerada pelo Algoritmo 1.1 a partir de x ₀ . Ent˜ ao, para todo k

f (x k ) − f (x k+1 ) ≥ t k

c 0 − Lc ² ₁ 2 t k

k∇f (x k )k ² . (1.14)

Demonstra¸ c˜ ao: Como ∇f ´ e L-Lipschitz, sabe-se que ² f (y) − f (x) − ∇f (x) ^T (y − x)

≤ L

2 ky − xk ² , ∀ x, y ∈ R ⁿ . (1.15) Fazendo y = x _k+1 e x = x _k , tem-se

f (x _k+1 ) − f(x _k ) − ∇f (x _k ) ^T (x _k+1 − x _k ) ≤ L

2 kx _k+1 − x _k k ² . (1.16) Observe que

∇f (x _k ) ^T (x _k+1 − x _k ) = −t _k ∇f(x _k ) ^T B _k ∇f(x _k )

≤ −t _k λ _min (B _k ) k∇f (x _k )k ² (1.17) Por outro lado,

L

2 kx _k+1 − x _k k ² = L

2 kt _k B _k ∇f (x _k )k ²

≤ L

2 t ² _k kB _k k ² k∇f(x _k )k ²

≤ L

2 t ² _k (λ _max (B _k )) ² k∇f (x _k )k ²

(1.18)

Combinando (1.16), (1.17) e (1.18), tem-se que f (x _k+1 ) − f (x _k ) ≤ L

2 t ² _k (λ _max (B _k )) ² k∇f(x _k )k ² − t _k λ _min (B _k ) k∇f(x _k )k ²

= −t k

λ min (B k ) − L

2 (λ max (B k )) ² t k

k∇f(x k )k ² . Logo,

f (x _k ) − f (x _k+1 ) ≥ t _k

λ _min (B _k ) − L

2 (λ _max (B _k )) ² t _k

k∇f (x _k )k ²

≥ t _k

c ₀ − L 2 c ² ₁ t _k

k∇f (x _k )k ² .

Observa¸ c˜ ao 1.25. A melhor estimativa que se pode obter para a desigualdade (1.14) ´ e f (x _k ) − f (x _k+1 ) ≥ 1

2L

λ _min (B _k ) λ _max (B _k )

2 k∇f (x _k )k ² ≥ 1 2L

c ² ₀

c ² ₁ k∇f (x _k )k ² .

2 Ver Lema 1.2.3 em Nesterov [23].

(29)

De fato, defina

h(t) = t

c ₀ − L 2 c ² ₁ t

.

Ao maximizar a fun¸ c˜ ao h (o que ´ e equivalente a minimizar −h), obt´ em-se o maior va- lor que a fun¸ c˜ ao h : R → R pode assumir. Como −h(t) ´ e uma fun¸ c˜ ao convexa, seu minimizador ´ e solu¸ c˜ ao da equa¸ c˜ ao

−h ⁰ (t) = Lc ² ₁ t − c ₀ = 0.

Portanto, tem-se que

t ^∗ = c ₀ Lc ² ₁

´ e maximizador de h, e consequentemente

h(t ^∗ ) = c ² ₀ 2Lc ² ₁

´ e o m´ aximo de h.

Observa¸ c˜ ao 1.26. Note que a estimativa de decr´ escimo da fun¸ c˜ ao f na k-´ esima itera¸ c˜ ao est´ a relacionada com o n´ umero de condi¸ c˜ ao da matriz B _k . Como

f (x _k ) − f (x _k+1 ) ≥ 1 2L

λ min (B k ) λ _max (B _k )

2 k∇f (x _k )k ² = 1

2L (cond(B _k )) ⁻² k∇f (x _k )k , tem-se que quanto menor o n´ umero de condi¸ c˜ ao da matriz B _k , maior tende a ser o decr´ escimo de f.

Lema 1.27. Suponha que (H1) e (H2) sejam satisfeitas. Dado x ₀ ∈ R ⁿ , seja (x _k ) ⊂ R ⁿ a sequˆ encia gerada pelo Algoritmo 1.1 a partir de x 0 . Considere os seguintes casos para o c´ alculo de t _k :

(a) t _k = α 2c ₀

Lc ² ₁ , com α ∈ (0, 1) (passo constante);

(b) t _k ´ e obtido pela Busca de Armijo, satisfazendo

f(x _k ) ≥ f(x _k + t _k d _k ) − µt _k ∇f (x _k ) ^T d _k , (1.19) com µ ∈ (0, 1);

(c) t _k ´ e obtido pela Busca de Goldstein-Armijo, satisfazendo

0 < −µ ₁ t _k ∇f(x _k ) ^T d _k ≤ f (x _k ) − f(x _k + t _k d _k ) ≤ −µ ₂ t _k ∇f(x _k ) ^T d _k , com 0 < µ ₁ < µ ₂ < ^c _c

⁰

1

.

(30)

Ent˜ ao, nestes casos existe w > 0 tal que, para todo k, f (x _k ) − f (x _k+1 ) ≥ w

L k∇f (x _k )k ² , onde

w =



 

 

 

  2c ² ₀

c ² ₁ α(1 − α), no caso (a) 2µ c ² ₀

c ² ₁ , no caso (b) 2µ ₁ c ₀ c ₀ − µ ₂ c ₁

c ² ₁ , no caso (c)

(1.20)

Demonstra¸ c˜ ao:

(a) Neste caso, tem-se

t = α 2c ₀

Lc ² ₁ , ∀ k (1.21)

com α ∈ (0, 1). Ent˜ ao, substituindo (1.21) em (1.14) (Lema 1.24) segue-se que f (x _k ) − f(x _k+1 ) ≥ α 2c ₀

Lc ² ₁

c ₀ − L 2 α 2c ₀

Lc ² ₁ c ² ₁

k∇f(x _k )k ²

= α 2c ₀

Lc ² ₁ (c 0 − αc 0 ) k∇f (x k )k ²

= 2c ² ₀

Lc ² ₁ α (1 − α) k∇f (x k )k ²

= w

L k∇f (x _k )k ² , para

w = 2c ² ₀

c ² ₁ α (1 − α) . (b) Pelo Lema 1.24 tem-se que

f(x _k ) − f (x _k+1 ) ≥ t _k

c ₀ − Lc ² ₁ 2 t _k

k∇f (x _k )k ² ≥ 0 ⇒ t _k ≤ 2c ₀ Lc ² ₁ .

Tendo isto, como t _k satisfaz a condi¸c˜ ao de Armijo dada em (1.19), obt´ em-se f (x _k ) − f (x _k+1 ) ≥ −µt _k ∇f(x _k ) ^T d _k

≥ −µ 2c ₀

Lc ² ₁ ∇f(x _k ) ^T d _k

= µ 2c ₀

Lc ² ₁ ∇f(x _k ) ^T B _k ∇f (x _k )

≥ µ 2c ² ₀

Lc ² ₁ k∇f(x _k )k ² .

(31)

Assim, se t _k satisfaz a condi¸c˜ ao de Armijo, segue que f(x _k ) − f(x _k+1 ) ≥ w

L k∇f (x _k )k ² , onde

w = 2µ c ² ₀ c ² ₁ .

(c) Neste caso, t _k satisfaz as seguintes desigualdades:

f (x k ) − f (x k+1 ) ≥ µ 1 t k ∇f(x k ) ^T B k ∇f(x k ) ≥ µ 1 t k c 0 k∇f(x k )k ² (1.22) e

f (x k ) − f (x k+1 ) ≤ µ 2 t k ∇f(x k ) ^T B k ∇f(x k ) ≤ µ 2 t k c 1 k∇f(x k )k ² , (1.23) com µ 2 < c ₀

c ₁ . Al´ em disso, pelo Lema 1.24 f (x _k ) − f(x _k+1 ) ≥ t _k

c ₀ − L

2 c ² ₁ t _k

k∇f(x _k )k ² . (1.24) Por (1.23) e (1.24), tem-se

µ ₂ t _k c ₁ k∇f(x _k )k ² ≥ t _k

c ₀ − L 2 c ² ₁ t _k

k∇f(x _k )k ² ⇒ µ ₂ c ₁ ≥ c ₀ − L 2 c ² ₁ t _k

⇒ L

2 c ² ₁ t _k ≥ c ₀ − µ ₂ c ₁

⇒ t _k ≥ 2(c ₀ − µ ₂ c ₁ ) Lc ² ₁ .

(1.25)

Utilizando (1.25) em (1.22), obt´ em-se que

f (x _k ) − f (x _k+1 ) ≥ µ ₁ 2(c 0 − µ 2 c 1 )

Lc ² ₁ c ₀ k∇f (x _k )k ² , ou ainda

f (x _k ) − f (x _k+1 ) ≥ 2 L µ ₁ c ₀

c ₀ − µ ₂ c ₁ c ² ₁

k∇f(x _k )k ² . Assim, para t k obtido atrav´ es do m´ etodo de Goldstein-Armijo tem-se

f(x _k ) − f(x _k+1 ) ≥ w

L k∇f (x _k )k ² , com

w = 2µ ₁ c ₀ c 0 − µ 2 c 1

c ² ₁ .

(32)

Teorema 1.28. Dado x ₀ ∈ R ⁿ , seja (x _k ) a sequˆ encia gerada pelo Algoritmo 1.1 a par- tir de x ₀ , onde para todo k, t _k ´ e calculado pela busca (a) ou pela busca (b) descritas no Lema 1.27. Suponha que (H1) e (H2) s˜ ao satisfeitas, e que o conjunto de n´ıvel L(x ₀ ) = {x ∈ R ⁿ | f(x) ≤ f(x ₀ )} ´ e compacto. Ent˜ ao, denotando

g _k ^∗ = min

i=1,...,k−1 k∇f(x _i )k , tem-se que

g _k ^∗ ≤

L (f (x ₀ ) − f ^∗ ) wk

¹₂

, ∀ k > 0,

onde f ^∗ ´ e o valor m´ınimo de f e a constante w ´ e especificada em (1.20).

Consequentemente, dado ε > 0, o M´ etodo de Descida executa no m´ aximo O(ε ⁻² ) itera¸ c˜ oes para gerar x _k tal que k∇f(x _k )k ≤ ε.

Demonstra¸ c˜ ao: Como L(x ₀ ) ´ e compacto, segue do Corol´ ario 1.4 que f possui um valor m´ınimo f ^∗ . Pelo Lema 1.27, sabe-se que existe w > 0 tal que

f (x _i ) − f (x _i+1 ) ≥ w

L k∇f (x _i )k ² , ∀ i ∈ N . Assim, dado k > 0 tem-se

f(x ₀ ) − f (x _k ) =

k−1

X

i=0

f (x _i ) − f(x _i+1 ) ≥ w L

k−1

X

i=0

k∇f (x _i )k ² .

Logo,

f(x ₀ ) − f ^∗ ≥ f(x ₀ ) − f(x _k ) ≥ w L k

i=1,...,k−1 min k∇f (x _i )k 2

= w

L k (g _k ^∗ ) ² (1.26)

⇒ g ^∗ _k ≤

L (f (x 0 ) − f ^∗ ) wk

¹₂

, ∀ k > 0.

Agora, seja ¯ k o menor ´ındice para o qual k∇f (x ¯ k )k ≤ ε. Ent˜ ao, k∇f (x _i )k > ε, para i = 0, . . . , k ¯ − 1. Consequentemente, tem-se g _k ^∗ _¯ > ε e, por (1.26),

f(x ₀ ) − f ^∗ ≥ w L

k g ¯ _k ^∗ _¯ 2

> w L

¯ kε ² . Portanto,

¯ k < L(f (x ₀ ) − f ^∗ )

wε ² . (1.27)

Observe que, de acordo com (1.27), s˜ ao necess´ arias no m´ aximo O(ε ⁻² ) itera¸c˜ oes para se obter x _k tal que k∇f(x _k )k ≤ ε.

Corol´ ario 1.29. Considere as mesmas hip´ oteses do Teorema 1.28. Ent˜ ao, (x _k ) possui

(33)

uma subsequˆ encia que converge para um ponto cr´ıtico de f, ou seja, existe pelo menos um ponto de acumula¸ c˜ ao que ´ e ponto cr´ıtico de f.

Demonstra¸ c˜ ao: Segue do Teorema 1.28 que, dado i ∈ N , existe k _i ∈ N tal que 0 ≤ k∇f(x _k

_i

)k ≤ 1

i . Logo,

i→∞ lim k∇f(x _k

_i

)k = 0. (1.28) Como L(x ₀ ) = {x ∈ R ⁿ : f (x) ≤ f(x ₀ )} ´ e compacto, segue-se que (x _k

_i

) ⊂ L(x ₀ ) ´ e uma sequˆ encia limitada, e portanto tem uma subsequˆ encia convergente (x k

_ij

). Suponha que x _k

_ij

→ x ^∗ . Como ∇f ´ e cont´ınuo, tem-se que

∇f(x k

_ij

) → ∇f(x ^∗ ). (1.29) Combinando (1.28) com (1.29), pode-se concluir que

∇f(x ^∗ ) = 0.

Isto significa que pelo menos um ponto de acumula¸c˜ ao de (x _k ) ´ e ponto cr´ıtico de f . Quando assume-se que a fun¸c˜ ao objetivo possui certas propriedades adicionais, comu- mente os resultados tendem a ficar melhores ou mais simples. Um exemplo disso ´ e o caso das fun¸c˜ oes convexas.

Teorema 1.30. Considere as mesmas hip´ oteses do Teorema 1.28. Suponha ainda que a fun¸ c˜ ao objetivo f ´ e convexa. Ent˜ ao, tem-se que

f(x _k ) − f ^∗ ≤ LD ²

kw , ∀ k > 0,

onde D = sup {kx − yk : x, y ∈ L(x ₀ )} ´ e o diˆ ametro do conjunto L(x ₀ ). Consequente- mente, dado ε ∈ (0, 1), o M´ etodo de Descida executa no m´ aximo O(ε ⁻¹ ) itera¸ c˜ oes para gerar x _k tal que f (x _k ) − f ^∗ ≤ ε.

Demonstra¸ c˜ ao: Como L(x ₀ ) = {x ∈ R ⁿ : f(x) ≤ f(x ₀ )} ´ e compacto, f possui pelo menos um minimizador global x ^∗ , o qual pertence a L(x ₀ ). Pelo Lema 1.27, tem-se que

f (x _k ) − f (x _k+1 ) ≥ w

L k∇f (x _k )k ² , (1.30)

para algum w > 0. Al´ em disso, como f ´ e convexa, segue do Lema 1.8 que

f(y) − f (x) ≥ ∇f (x) ^T (y − x).

(34)

Em particular, para x = x _k e y = x ^∗ tem-se que

f (x _k ) − f ^∗ ≤ ∇f(x _k ) ^T (x _k − x ^∗ ) ≤ k∇f(x _k )k kx _k − x ^∗ k .

Pelo fato de L(x ₀ ) ser limitado, tem-se ainda 0 ≤ kx _k − x ^∗ k ≤ D < ∞, para todo k.

Logo,

f(x _k ) − f ^∗ ≤ D k∇f (x _k )k ⇒ k∇f(x _k )k ≥ D ⁻¹ (f(x _k ) − f ^∗ ) . (1.31) Combinando (1.30) e (1.31), segue que

f (x _k ) − f (x _k+1 ) ≥ w

LD ² (f(x _k ) − f ^∗ ) ² . Fazendo δ _k = f (x _k ) − f ^∗ , obt´ em-se

δ k − δ k+1 ≥ w LD ² δ ² _k . Assim,

1 δ _k+1 − 1

δ _k = δ _k − δ _k+1 δ _k δ _k+1 ≥

w LD

²

δ _k ² δ _k δ _k+1 >

w LD

²

δ ² _k

δ _k ² = w LD ² . Dado k > 0, tem-se

k−1

X

i=0

1 δ _i+1 − 1

δ _i ≥

k−1

X

i=0

w LD ² , de onde,

1 δ _k − 1

δ ₀ ≥ k w LD ² . Logo,

1 δ _k ≥ 1

δ ₀ + k w

LD ² ≥ k w

LD ² , (1.32)

ou seja,

f (x _k ) − f ^∗ = δ _k ≤ LD ²

kw , ∀ k > 0.

Seja ¯ k o menor ´ındice para o qual δ ¯ k = f (x ¯ k ) − f ^∗ < ε. Ent˜ ao δ ¯ k−1 ≥ ε e, por (1.32), 1

ε ≥ 1 δ ¯ k−1

≥ (¯ k − 1) w LD ² .

Logo,

k ¯ ≤ LD ²

wε + 1 ≤ LD ² + w wε .

Defini¸ c˜ ao 1.31. Uma fun¸ c˜ ao f : R ⁿ → R de classe C ¹ ´ e dita fortemente convexa quando

(35)

existe uma constante µ > 0 tal que

f (y) ≥ f(x) + ∇f(x) ^T (y − x) + 1

2 µ ky − xk ² , (1.33) para todos x, y ∈ R ⁿ . A constante µ ´ e chamada de parˆ ametro de convexidade da fun¸ c˜ ao f.

Lema 1.32. Seja f : R ⁿ → R uma fun¸ c˜ ao fortemente convexa e x ^∗ um minimizador global de f . Ent˜ ao,

f (x) − f (x ^∗ ) ≤ 1

2µ k∇f (x)k ² , (1.34)

para todo x ∈ R ⁿ .

Demonstra¸ c˜ ao: Dado x ∈ R ⁿ , considere

m _x (y) = f (x) + ∇f (x) ^T (y − x) + µ

2 ky − xk ² .

Sejam x ^∗ um minimizador global de f e ¯ y um minimizador global de m x (y). Ent˜ ao, segue de (1.33) que

m _x (¯ y) ≤ m _x (x ^∗ ) = f(x) + ∇f (x) ^T (x ^∗ − x) + 1

2 µ kx ^∗ − xk ² ≤ f (x ^∗ ). (1.35) Como ¯ y ´ e minimizador global de m x (y), tem-se que

∇m _x (¯ y) = ∇f (x) + µ(¯ y − x) = 0, ou seja,

¯

y = x − 1

µ ∇f (x).

Logo,

m _x (¯ y) = f(x) + ∇f (x) ^T

x − 1

µ ∇f(x) − x

+ µ 2

x − 1

µ ∇f(x) − x

2 = f(x) − 1

µ ∇f(x) ^T ∇f(x) + 1

2µ k∇f (x)k ²

= f(x) − 1

2µ k∇f (x)k ² .

(1.36)

Combinando (1.35) e (1.36), conclui-se que f(x ^∗ ) ≥ f (x) − 1

2µ k∇f (x)k ² ⇒ f (x) − f (x ^∗ ) ≤ 1

2µ k∇f (x)k ² , para todo x ∈ R ⁿ .

Teorema 1.33. Considere as mesmas hip´ oteses do Teorema 1.28. Suponha ainda que a

(36)

fun¸ c˜ ao objetivo f ´ e uma fun¸ c˜ ao fortemente convexa, com parˆ ametro µ > 0. Ent˜ ao, tem-se que

f (x _k ) − f ^∗ ≤

1 − 2µw L

k

(f (x ₀ ) − f ^∗ ) , ∀ k. (1.37) Consequentemente, dado 0 < ε < 1, o M´ etodo de Descida executa no m´ aximo O (log(ε ⁻¹ )) itera¸ c˜ oes para gerar x _k tal que f (x _k ) − f ^∗ ≤ ε.

Demonstra¸ c˜ ao: Pelo Lema 1.27,

f (x _k ) − f (x _k+1 ) ≥ w

L k∇f (x _k )k ² . (1.38)

Combinando (1.38) e (1.34), segue que

f(x _k ) − f(x _k+1 ) ≥ w

L 2µ (f (x _k ) − f ^∗ ) . (1.39) Denotando δ k = f (x k ) − f ^∗ , (1.39) pode ser escrita como

δ k − δ k+1 ≥ 2µw L δ k , ou ainda

δ k+1 ≤

1 − 2µw L

δ k .

Utilizando racioc´ınio indutivo, ´ e f´ acil ver que δ _k ≤

1 − 2µw L

k

δ ₀ , ∀ k,

o que ´ e equivalente a (1.37).

Para a prova da segunda parte, basta notar que, se

1 − 2µw L

k

δ ₀ ≤ ε, (1.40)

consequentemente tem-se f (x _k ) − f ^∗ ≤ ε. Denote q = 1 − ^2µw _L . Observe que 0 < q < 1.

De fato, tem-se que 0 < δ k+1 ≤ qδ k ⇒ q > 0 e ^2µw _L > 0 ⇒ q < 1. Impondo que (1.40)

(37)

seja verdadeira, tem-se que

log q ^k δ ₀

≤ log (ε)

⇔ k log q + log δ ₀ ≤ log ε

⇔ k log q ≤ log ε − log δ ₀

⇔ k ≥ log ε − log δ ₀ log q

⇔ k ≥ − log ε

|log q| + log δ ₀

|log q|

⇔ k ≥ log(ε ⁻¹ ) 1 + _log ^log _ε ^δ

−1⁰

|log q|

! .

Suponha, por exemplo, que ε ≤ ¹ ₂ < 1 ³ . Neste caso, tem-se

log(ε ⁻¹ ) 1 + _log ^log _ε ^δ

−1⁰

|log q|

!

≤ log(ε ⁻¹ ) 1 + ^|log _{log 2} ^δ

⁰

^|

|log q|

! .

Assim, se

k =

&

log(ε ⁻¹ ) 1 + ^|log _{log 2} ^δ

⁰

^|

|log q|

!'

tem-se a garantia de que f(x _k ) − f ^∗ < ε. Portanto, a complexidade do M´ etodo de Descida para fun¸c˜ oes fortemente convexas ´ e de ordem O (log(ε ⁻¹ )) .

1.3.2 Taxas de Convergˆ encia e M´ etodos quase-Newton

Diferentes m´ etodos de otimiza¸c˜ ao podem ser obtidos com diferentes escolhas para a matriz B _k . Por exemplo:

• Com B k = ∇ ² f (x k ) ⁻¹ , tem-se o M´ etodo de Newton, que foi o ponto de partida para dedu¸c˜ ao do Algoritmo 1.1;

• Com B _k = I para todo k, tem-se o M´ etodo do Gradiente.

A escolha de B _k = I se justifica pelo fato de que, neste caso, a dire¸c˜ ao de busca d _k = −∇f (x _k ) ´ e a dire¸c˜ ao de maior decr´ escimo da fun¸c˜ ao objetivo a partir do ponto x _k . De fato, se v ´ e outra dire¸c˜ ao tal que kvk = k∇f (x)k, ent˜ ao

∂f

∂d (x) = ∇f (x) ^T d = − k∇f(x)k ² = − kvk k∇f(x)k ≤ −

∇f(x) ^T v

≤ ∇f(x) ^T v = ∂f

∂v (x), ou seja, o decr´ escimo na dire¸c˜ ao d ´ e mais acentuado do que na dire¸c˜ ao v.

3 Poderia ser considerado ε ≤ _α ¹ , com qualquer α > 1.

(38)

Note que os limitantes de complexidade descritos na Subse¸c˜ ao 1.3.1 n˜ ao dependem da escolha de B _k . Assim, ´ e justo questionar se existe alguma vantagem te´ orica do M´ etodo de Newton em rela¸c˜ ao ao M´ etodo do Gradiente. Afinal, a determina¸c˜ ao de d _k no M´ etodo de Newton ´ e muito mais complexa do que no M´ etodo do Gradiente, pois requer o c´ alculo da Hessiana ∇ ² f(x k ) e a resolu¸c˜ ao do sistema linear

∇ ² f(x _k )d _k = −∇f (x _k ). (1.41)

E razo´ ´ avel se esperar que esse esfor¸co computacional resulte em alguma melhora no de- sempenho do m´ etodo em rela¸c˜ ao ao M´ etodo do Gradiente. Esta melhora realmente ocorre, e pode ser estabelecida teoricamente em termos das taxas de convergˆ encia de ambos os m´ etodos.

Teorema 1.34. Seja f : R ⁿ → R de classe C ² . Suponha que x ^∗ ∈ R ⁿ seja um mi- nimizador local de f , com ∇ ² f(x ^∗ ) definida positiva, e que a sequˆ encia x _k gerada pelo M´ etodo do Gradiente, com busca exata, converge para x ^∗ . Ent˜ ao a sequˆ encia (f (x _k )) con- verge linearmente para f (x ^∗ ) com taxa n˜ ao superior a

λ _n − λ ₁ λ _n + λ ₁

2 , onde λ ₁ e λ _n s˜ ao, respectivamente, o menor e o maior autovalor de ∇ ² f (x ^∗ ).

Demonstra¸ c˜ ao: Ver Se¸c˜ ao 8.2 e 12.5 em Luenberger e Ye [19].

Teorema 1.35. Seja f : R ⁿ → R de classe C ² com ∇ ² f Lipschitz. Suponha que x ^∗ ∈ R ⁿ seja um minimizador local de f , com ∇ ² f(x ^∗ ) definida positiva. Ent˜ ao, existe δ > 0 tal que, se x ₀ ∈ B(x ^∗ , δ), o M´ etodo de Newton com t _k = 1 para todo k, gera uma sequˆ encia (x _k ) que converge quadraticamente para x ^∗ .

Demonstra¸ c˜ ao: Ver Teorema 5.10 em Ribeiro e Karas [25].

Apesar da convergˆ encia mais r´ apida do M´ etodo de Newton, o custo computacional para resolver o sistema linear (1.41) pode ser excessivamente alto, especialmente em pro- blemas de grande porte (com n 1). Isto motiva a busca por uma matriz B _k sim´ etrica e definida positiva cuja constru¸c˜ ao n˜ ao envolva o c´ alculo de ∇ ² f (x k ) ou a resolu¸c˜ ao de sistemas lineares, mas que ainda assim resulte em um m´ etodo com convergˆ encia super- linear. Esse desejo de replicar a convergˆ encia r´ apida do M´ etodo de Newton a um custo similar ao do M´ etodo do Gradiente sugere que se busque, a cada itera¸c˜ ao, uma apro- xima¸c˜ ao B _k ∼ = ∇ ² f(x _k ) ⁻¹ que possa ser constru´ıda usando-se apenas gradientes de f . Essa abordagem resulta nos chamados M´ etodos quase-Newton, os quais tˆ em como ponto de partida o seguinte argumento: dados x, y ∈ R ⁿ suficientemente pr´ oximos, pela f´ ormula de Taylor tem-se que

f (y) ∼ = f (x) + ∇f (x) ^T (y − x) + 1

2 (y − x) ^T ∇ ² f(x)(y − x). (1.42)