Estudo de algoritmos de otimização estocástica aplicados em aprendizado de máquina

Texto

(1)Estudo de algoritmos de Otimização Estocástica aplicados em Aprendizado de Máquina. Jessica Katherine De Sousa Fernandes. Dissertação apresentada ao Instituto de Matemática e Estatística da Universidade de São Paulo para obtenção do título de Mestre em Ciências. Programa: Mestrado em Ciências da Computação Orientador: Prof. Dr. Ernesto G. Birgin Durante o desenvolvimento deste trabalho a autora recebeu auxílio financeiro do CNPq São Paulo, agosto de 2017.

(2) Estudo de algoritmos de Otimização Estocástica aplicados em Aprendizado de Máquina. Esta versão da dissertação contém as correções e alterações sugeridas pela Comissão Julgadora durante a defesa da versão original do trabalho, realizada em 23/08/2017. Uma cópia da versão original está disponível no Instituto de Matemática e Estatística da Universidade de São Paulo.. Comissão Julgadora: • Prof. Dr. Ernesto Julian Goldberg Birgin (orientador) - IME-USP • Prof. Dr. José Mario Martinez - UNICAMP • Profa. Dra. Natasa Krejić - University of Novi Sad (Servia).

(3) Agradecimentos Primeiramente, agradeço aos meus pais e irmãos por me apoiar nesta decisão de realizar um mestrado longe de casa. Sem vocês nada disto teria sido possível. Agradeço também ao meu orientador, Ernesto G. Birgin pela paciencia, ajuda e comprensão em todo o trajeto de pesquisa. Ao professor Marcos Raydan, muito obrigada por todos os conselhos e ajuda desde os inicios da minha carreira como matemática há mais de 5 anos. Aos meus companheiros de estudo Julio Delgado, Oberlan Romão, John Gardenghi, Rafael Lobato e Antônio Deusany por toda a amizade e ajuda incondicional. Finalmente, agradeço a Rodolfo Cerda e Marcelo Alvarez por todo o apoio na redação do trabalho.. i.

(4) ii.

(5) Resumo FERNANDES, J. Estudo de algoritmos de Otimização Estocástica aplicados em Aprendizado de Máquina. 2017. Dissertação - Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2017. Em diferentes aplicações de Aprendizado de Máquina podemos estar interessados na minimização do valor esperado de certa função de perda. Para a resolução desse problema, Otimização estocástica e Sample Size Selection têm um papel importante. No presente trabalho se apresentam as análises teóricas de alguns algoritmos destas duas áreas, incluindo algumas variações que consideram redução da variância. Nos exemplos práticos pode-se observar a vantagem do método Stochastic Gradient Descent em relação ao tempo de processamento e memória, mas, considerando precisão da solução obtida juntamente com o custo de minimização, as metodologias de redução da variância obtêm as melhores soluções. Os algoritmos Dynamic Sample Size Gradient e Line Search with variable sample size selection apesar de obter soluções melhores que as de Stochastic Gradient Descent, a desvantagem se encontra no alto custo computacional deles. Palavras-chave: Aprendizado de máquina, otimização estocástica, Sample size approximation, dynamic sample size selection, métodos de redução de variância.. iii.

(6) iv.

(7) Abstract FERNANDES, J. Study of algorithms of Stochastic Optimization applied in Machine Learning problems. 2017. Disertation - Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2017. In different Machine Learning’s applications we can be interest in the minimization of the expected value of some loss function. For the resolution of this problem, Stochastic optimization and Sample size selection has an important role. In the present work, it is shown the theoretical analysis of some algorithms of these two areas, including some variations that considers variance reduction. In the practical examples we can observe the advantage of Stochastic Gradient Descent in relation to the processing time and memory, but considering accuracy of the solution obtained and the cost of minimization, the methodologies of variance reduction has the best solutions. In the algorithms Dynamic Sample Size Gradient and Line Search with variable sample size selection, despite of obtaining better solutions than Stochastic Gradient Descent, the disadvantage lies in their high computational cost. Keywords: Machine Learning, stochastic optimization, sample size approximation, dynamic sample size selection, variance reduction methods.. v.

(8) vi.

(9) Sumário Lista de Abreviaturas. ix. Lista de Figuras. xi. Lista de Tabelas. xiii. 1 Introdução. 1. 1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.2. Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3. Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2 Conceitos 2.1 2.2. 2.3. 5. Aproximação Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.1.1. 9. Descida do Gradiente Estocástico . . . . . . . . . . . . . . . . . . . . . . . . .. Sample Average Approximation with Variable Sample Size . . . . . . . . . . . . . . . 11 2.2.1. Dynamic Sample Size Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 12. 2.2.2. Line search method with variable sample size . . . . . . . . . . . . . . . . . . 15. Métodos de Redução da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.1. Stochastic Variance Reduced Gradient . . . . . . . . . . . . . . . . . . . . . . 21. 2.3.2. SAGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25. 3 Resultados. 37. 3.1. Motivação para o problema de classificação . . . . . . . . . . . . . . . . . . . . . . . 37. 3.2. Mistura de Gaussianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39. 3.3. MNIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.1. Seleção de hiperparâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43. 3.3.2. Resultados finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. 4 Conclusões. 49. Referências Bibliográficas. 51. vii.

(10) viii. SUMÁRIO.

(11) Lista de Abreviaturas SGD. Stochastic Gradient Descent. DSSG. Dynamic Sample Size Gradient. LSSS. Line Search Variable Sample Size Selection. ix.

(12) x. LISTA DE ABREVIATURAS.

(13) Lista de Figuras 3.1. Gráfico da função sign(z). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38. 3.2. Exemplo da amostra no problema de mistura de Gaussianas . . . . . . . . . . . . . . 40. 3.3. Estrutura de uma rede neural de múltiplas camadas . . . . . . . . . . . . . . . . . . 41. 3.4. Erro de classificação nos dados de validação na seleção do parâmetro α no Algoritmo 2.1.2 - SGD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42. 3.5. Desempenho dos algoritmos no problema Mistura de Gaussianas. . . . . . . . . . . . 42. 3.6. Erro de classificação nos dados de validação na seleção do parâmetro η e m no Algoritmo 2.3.1 - SVRG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. 3.7. Desempenho dos algoritmos no problema de MNIST. . . . . . . . . . . . . . . . . . . 46. xi.

(14) xii. LISTA DE FIGURAS.

(15) Lista de Tabelas 3.1. Erro de classificação nas bases de treinamento, validação e teste para os dados de Mistura de Gaussianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42. 3.2. Exemplo de dígitos corretamente classificados que fazem parte das amostras no problema MNIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43. 3.3. Erro de classificação nos dados de treinamento e validação na seleção do λ no Problema (3.7) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. 3.4. Erro de classificação nos dados de validação na seleção do parâmetro α de tamanho do passo no Algoritmo 2.1.2 - SGD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44. 3.5. Erro de classificação nos dados de validação na seleção do parâmetro η no Algoritmo 2.3.2 - SAGA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. 3.6. Erro de classificação para os dados de MNIST. . . . . . . . . . . . . . . . . . . . . . 47. 3.7. Exemplo de dígitos erroneamente classificados por todos os algoritmos no problema MNIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47. xiii.

(16) xiv. LISTA DE TABELAS.

(17) Capítulo 1. Introdução Atualmente o análise de grandes volumes de dados para a tomada de decisões é uma área de amplo desenvolvimento. Aprendizado de Máquina [MRT12] faz referência ao conjunto de algoritmos, baseados na teoria de álgebra, probabilidades, estatística e otimização, capazes de extrair conhecimento dos dados. As aplicações do Aprendizado de máquina incluem áreas como finanças, biologia, telecomunicações ou engenharia, em problemas como detecção de fraudes, análise de riscos de crédito, reconhecimento de fala, visão computacional, classificação de imagens, entre outros. Dado que o crescimento no volume dos dados é muito acelerado, se espera que os algoritmos de resolução sejam eficientes, levando em consideração o tempo de processamento e o espaço de armazenamento. Os métodos de Aprendizado de máquina se dividem em duas categorias: Supervisionados e Nãosupervisionados. A primeira busca o reconhecimento de padrões ou estimações de funções, onde a variável desejada (ou de saída) se encontra disponível nos dados. Alguns exemplos ressaltantes são: Regressão Linear, Logística, Máquinas de Suporte Vetorial, Redes Neurais Multicamadas, entre outros. De maneira contrária, os métodos Não-supervisionados não tem aceso à variável de saída. Neste trabalho abordaremos unicamente o caso de Aprendizado de Máquina Supervisionado. Formalmente, seja X × Y o espaço dos pares (x, y) que seguem uma distribuição de probabilidades P (x, y). De forma geral, se quer estimar os valores de w ∈ Rm de uma função fw (x) tal que se aproxime a y. Assim, seja `(fw (x), y) uma função de erro, se quer encontrar w tal que se minimize o valor esperado de `, isto é,   Z   `(fw (x), y))dP (x, y) . (1.1) minm E(`(fw (x), y)) :=  w∈R  X ×Y. Em geral, a resolução de (1.1) é difícil pois a avaliação de E(`(fw (x), y)) é cara computacionalmente ou a distribuição probabilística dos dados é desconhecida. Um possível método de resolução do problema (1.1) é por meio de Monte Carlo ou Sample Average Approximation, onde dada uma amostra (x1 , y1 ), ..., (xN , yN ) independente e identicamente distribuída (i.e., i.i.d), a função E (`(w)) (onde, `(w) := `(fw (x), y)) pode ser aproximada por: ˆN (w) = E (`(w)) ≈ E. N 1 X `(fw (xi ), yi ). N i=1. ˆN (w) por meio de Assim, a resolução do problema (1.1) pode ser aproximada minimizando E algoritmos determinísticos. A grande desvantagem manifesta-se quando o N considerado é grande e ˆN (w) (e o seu gradiente ou Hessiana se é o caso, dependendo do algoritmo) é custoso a avaliação de E e portanto, os algoritmos determinísticos resultam inadequados. Partindo disto, se consideram métodos de Programação Estocástica [Spa03] onde supomos que parte do problema a resolver pode ser representado por meio de variáveis aleatórias, pois existe incerteza em algumas das representações dos dados. Uns dos primeiros algoritmos estocásticos é o algoritmo de Robbins-Monro [RM51], onde 1.

(18) 2. 1.2. INTRODUÇÃO. se geram sequências de aproximações do minimizador da função através de: wk+1 = wk − ak ∇`(wk ).. (1.2). Este método converge se são satisfeitas certas propriedades (que serão vistas no seguinte capítulo), incluindo a seguintes características da sequência {ak }: ak > 0 ∀k,. ∞ X k=1. ak = ∞ e. ∞ X. a2k < ∞.. (1.3). k=1. Uma escolha comum de ak é kaα com a > 0 e 12 < α ≤ 1. Em (1.2) ∇`(wk ) representa uma estimação de ∇E (`(wk )), portanto, o algoritmo de Robbins-Monro pode ser visto como uma versão estocástica do método determinístico de descida do gradiente. Uma das desvantagens deste método é que, dependendo da escolha de ak , a convergência pode ser lenta (o passo ak se torna pequeno em poucas iterações) e, em alguns dos algoritmos derivados, o viés da estimação do gradiente é grande. Assim, existem diferentes pesquisas na área para melhorar estes procedimentos. Krejić et al. [KLS13] propõem uma modificação do algoritmo de Robbins-Monro por meio de uma mistura de descida do gradiente com busca linear. Desta forma, nas primeiras iterações, onde se espera que os passos sejam maiores, usa-se a condição de Armijo, e quando se está perto da solução, consideram-se os passos do método de aproximação estocástica. ˆN é a traves de Variable Sample Size Outro tipo de enfoque para a resolução da minimização de E Selection [BCNW12], onde em cada iteração k se quer encontrar um tamanho amostral Nk < N tal que se diminua o custo do algoritmo de otimização usado. Pode-se ver que Stochastic Approximation é um caso particular de Variable Sample Size Selection onde Nk = 1 ∀k. Krejić e Krklec [KK13] propõem um algoritmo onde a cada iteração se decide aumentar ou diminuir o tamanho amostral ˆN e da amplitude do intervalo de confiança da estimação obtida. dependendo do decrecimento de E k Krejić e Martínez [KM16] propõem abordar o problema de Sample Average Approximation através de Inexact Restoration, onde se transforma o problema irrestrito num problema com restrições. Assim, as avaliações aproximadas da função correspondem a inviabilidade no problema modificado. Particularmente neste trabalho consideraremos unicamente metodologias que usam informação de primeira ordem, pois para problemas de grande porte, cálculos de ordem maior resultam mais custosos. Assim, nos enfoques mencionados, se trabalha com possíveis aproximações para o gradiente ˆN (`(w)) para o caso de Variable Sample Size Selection, mas é importante de E (`(w)) ou de E mencionar que para que uma estimação seja considerada boa, desde o ponto de vista estatístico, deve satisfazer a propriedade de consistência, isto é, seja θˆ uma aproximação de θ, então θˆ é consistente ˆ = θ, e a propriedade de variancia pequena, pois assim, o intervalo de confiança da estimação se E(θ) ˆ θ é pequeno. Partindo destas propriedades, existem metodologias de Variance Reduction [AG07, KKK10, Rip87] onde, para a resolução do problema (1.1) se buscam estimações do gradiente de E (`(w)) que diminuam a variancia das aproximações já propostas com Stochastic Approximation e Variable Sample Size Selection. Johnson e Zhang [JZ13] e Defazio e Bach [DBLJ14] propõem algoritmos inspirados nesta ideia, por meio de Control Variate e demonstram que a convergência pode ser melhorada em comparação com algumas propostas de Stochastic Approximation.. 1.1. Objetivos. O objetivo fundamental deste trabalho é analisar o comportamento de algoritmos de otimização na resolução de problemas relacionados com Aprendizado de Máquina onde a dimensão seja considerada grande. Especificamente, se quer: • Estudar alguns dos principais algoritmos de Stochastic Approximation, Variable Sample Size Selection e Variance Reduction. • Comparar o desempenho de cada um dos algoritmos anteriores por meio de um banco de dados de um problema real com dimensão grande..

(19) 1.3. CONSIDERAÇÕES PRELIMINARES. 1.2. 3. Considerações Preliminares. A partir de agora, considera-se o problema geral de minimização de valor esperado definido por min E (F (x, ξ)). x∈Rd. (1.4). onde ξ ∈ Ω é uma variável aleatória que segue uma distribuição de probabilidades P . Algumas afirmações no seguinte trabalho, incluem teoria de Estatística e Probabilidade. Todas elas se encontram enunciadas e provadas nas referências [DeG89, Ros97, Ros10].. 1.3. Organização do Trabalho. O presente trabalho se encontra dividido da seguinte forma: o Capítulo 2.1 apresenta a fundamentação teórica de Stochastic Approximation junto com um dos algoritmos principais nessa área (Stochastic Gradient Descent). No Capítulo 2.2 inicia-se o análise de Sample Average Approximation e as ideias de Sample Size Selection. Adicionalmente, o Capítulo 2.3 inicia com algumas definições de alguns dos algoritmos de Variance Reduction. Os resultados obtidos de todos os algoritmos enunciados encontram-se disponíveis no Capítulo 3. Finalmente, no Capítulo 4 discutimos algumas conclusões obtidas neste trabalho, analisamos as vantagens e desvantagens dos método estudados, assim como apresentamos algumas considerações do que acontece na atualidade na área de Aprendizado de Máquina..

(20) 4. INTRODUÇÃO. 1.3.

(21) Capítulo 2. Conceitos No seguinte capítulo está apressentada toda a fundamentação teórica dos algoritmos a analisar. Iniciando com Aproximação Estocástica e finalizando com Sample Average Approximation.. 2.1. Aproximação Estocástica. Os inicios de Aproximação Estocástica nacem do trabalho de Robbins e Monro [RM51] para encontrar as raízes de uma função g(x) baseados nas observações (com ruído) da mesma. Formalmente, queremos encontrar x∗ ∈ X ⊆ Rp tal que g(x) = 0 com g : Rp → Rp . Sejam Yk as observações obtidas de g(x) definidas como: Yk (x) = g(x) + ek (x), k = 0, 1, 2, ... onde ek (x) é o ruído de dimensão p. Assim, modificando o algoritmo de descida para o caso de avaliações com ruido se tem que o algoritmo proposto por Robbin e Monro é: Algoritmo 2.1.1. Algoritmo Robbins-Monro Entrada: x0 : ponto inicial; ak tal que satisfaz Suposição 2.1.1. Passo 1. xk+1 = xk − ak Yk (xk ) Para provar a convergência probabilística dos métodos estocásticos que vão ser propostos neste trabalho, existem duas definições necessárias: Seja {xk } uma sequência de variáveis aleatórias e seja x∗ uma variável aleatória. • Se P (limk→∞ xk = x∗ ) = 1 então dizemos que xk converge a x∗ com certeza (ou com probabilidade 1). • Se limk→∞ E kxk − x∗ k2 = 0 dizemos que xk converge a x∗ no sentido de média quadrada. Seja {xk } uma sequência gerada pelo Algoritmo 2.1.1 e denotemos por Fk a σ−álgebra gerada por x0 , ..., xk . Sejam as seguintes suposições: Suposição 2.1.1 (Passo da sequência). ak > 0,. ∞ X. ak = ∞ e. k=1. ∞ X k=1. 5. a2k < ∞..

(22) 6. 2.1. CONCEITOS. Suposição 2.1.2 (Direção de busca). Para alguma matriz B simétrica e positiva definida e todo 0 < η < 1, inf (x − x∗ )T Bg(x) > 0. η<kx−x∗ k<1/η. Suposição 2.1.3 (Ruído com média zero). E (ek (x) | Fk ) = 0, ∀x, k.

(23) Suposição 2.1.4 (Limites da variância). kg(x)k2 + E kek (x)k2

(24) Fk ≤ c 1 + kx − x∗ k2 , ∀x, k e algum c > 0. P A Suposição 2.1.1 garante o decrescimento eficiente dosP passos em cada iteração ( ∞ k=1 ak = ∞) 2 < ∞) [KK13]. A Suposição 2.1.3 a e que, perto da solução, a influencia do ruído seja pequena ( ∞ k=1 k permite garantir que os estimadores Yk (x) sejam consistentes, e finalmente, a Suposição 2.1.4 junto com a Suposição 2.1.3 limitam superiormente a variância de kYk (x)k2 a c 1 + kx − x∗ k2 , permitindo assim que Yk seja um bom estimador de g quando x está numa vizinhança de x∗ . Logo, por meio das suposições especificadas, é possível demonstrar a convergência do Algoritmo 2.1.1. O Lema 2.1.1 estabelece a convergência com probabilidade 1 de sequências de variáveis aleatórias não-negativas (a prova pode ser encontrada com detalhe em [RS71]). Este lema é necessário para a demonstração do Teorema 2.1.1, onde se estipula que a sequência gerada pelo Algoritmo 2.1.1 converge com probabilidade 1. Lema 2.1.1 (Robbins-Siegmund). [RS71] Sejam vk , uk , αk e βk variáveis aleatórias não-negativas e sejam as seguintes suposições satisfeitas com probabilidade 1: ∞ ∞ X X αk < ∞, βk < ∞ E vk+1 | F˜k ≤ (1 + αk )vk − uk + βk ∀k, k=0. k=0. onde F˜k é a coleção v0 , ..., vk , u0 , ..., uk , α0 , ..., αk , β0 , ..., βk . Então, com probabilidade 1 temos que lim vk = v,. k→∞. ∞ X. uk < ∞,. k=0. onde v ≥ 0 é uma variável aleatória. Teorema 2.1.1. [Che03] Suponha que se satisfazem as Suposições 2.1.1-2.1.4 e que x∗ é a única solução de g(x) = 0, então, xk → x∗ com probabilidade 1 quando k → ∞. Demonstração. kxk+1 − x∗ k2 = kxk − ak Yk (xk ) − x∗ k2 = kxk − ak (g(xk ) − ek (xk )) − x∗ k2 = kxk − x∗ k2 − 2ak (xk − x∗ )T (g(xk ) − ek (xk )) + a2k kg(xk ) − ek (xk )k2 ..

(25) 2.1. 7. APROXIMAÇÃO ESTOCÁSTICA. Logo, tomando o valor esperado condicional obtemos:

(26)

(27)

(28) E kxk+1 − x∗ k2

(29) Fk = E kxk − x∗ k2 − 2ak (xk − x∗ )T (g(xk ) − ek (xk )) + a2k kg(xk ) − ek (xk )k2

(30) Fk

(31)

(32)

(33) = E kxk − x∗ k2

(34) Fk − 2ak E (xk − x∗ )T (g(xk ) − ek (xk ))

(35) Fk +

(36) + a2k E kg(xk ) − ek (xk )k2

(37) Fk = kxk − x∗ k2 − 2ak (xk − x∗ )T (E (g(xk ) | Fk ) − E (ek (xk ) | Fk )) +

(38)

(39)

(40) + a2k E kg(xk )k2

(41) Fk − 2E g(xk )T ek (xk )

(42) Fk + E kek (xk )k2

(43) Fk = kxk − x∗ k2 − 2ak (xk − x∗ )T g(xk )+

(44) + a2k kg(xk )k2 − 2g(xk )T E (ek (xk ) | Fk ) + E kek (xk )k2

(45) Fk

(46) = kxk − x∗ k2 − 2ak (xk − x∗ )T g(xk ) + a2k kg(xk )k2 + E kek (xk )k2

(47) Fk ≤ kxk − x∗ k2 − 2ak (xk − x∗ )T g(xk ) + ca2k 1 + kxk − x∗ k2 = (1 + ca2k )kxk − x∗ k2 − 2ak (xk − x∗ )T g(xk ) + ca2k . Agora, pela suposição 2.1.2, podemos aplicar o Lema 2.1.1 obtendo que a sequência {kxk − x∗ k2 } P∞ P∞ ∗ T converge com probabilidade 1 e que k=0 ak (xk − x ) g(xk ) < ∞, mas como k=0 ak = ∞, então, lim inf k→∞ (xk − x∗ )T g(xk ) = 0 que, junto com a suposição 2.1.2 implicam que xk → x∗ . O seguinte teorema, enunciado e provado por Polyak [Pol87], estipula que sobre certas condições nenhum método na forma do Algoritmo 2.1.1 converge assintoticamente (no sentido de média quadrada) mais rápido que O(1/k). Teorema 2.1.2. [Pol87] Seja ek ruído independente e aleatório tal que se satisfaz a Suposição 2.1.3 e E kek k2 ≥ δ 2 , ∀k. Suponha que existe um único ponto x∗ tal que g(x∗ ) = 0 e que g(x) satisfaz kg(x)k ≤ Lkx − x∗ k ∀x. Então, 1 E kxk − x∗ k2 ≥ a + kb 2. onde a = 1 /E(kx0 −x∗ k2 ) e b = L /δ2 . Demonstração.

(48)

(49)

(50)

(51) E kxk+1 − x∗ k2

(52) Fk = E kxk − ak Yk (xk ) − x∗ k2

(53) Fk

(54)

(55) = E kxk − x∗ − ak (g(xk ) + ek (xk ))k2

(56) Fk

(57)

(58)

(59)

(60) = E kxk − x∗ − ak g(xk )k2

(61) Fk + a2k E kek (xk )k2

(62) Fk +

(63)

(64) − 2ak E (xk − x∗ − ak g(xk ))T ek (xk )

(65) Fk . (2.1) Logo, pelas propriedades do valor esperado temos

(66)

(67) E (xk − x∗ − ak g(xk ))T ek (xk )

(68) Fk = (xk − x∗ − ak g(xk ))T E (ek (xk ) | Fk ) = 0. Assim, substituindo em (2.1) e pelas propriedades de valor esperado, temos que:

(69)

(70) 2 2

(71) ∗ 2

(72) ∗ 2 E kxk+1 − x k

(73) Fk = kxk − x − ak g(xk )k + ak E kek (xk )k

(74) Fk .. (2.2).

(75) 8. 2.1. CONCEITOS. Pela propriedade triangular reversa se tem que: kxk − x∗ − ak g(xk )k ≥ |kxk − x∗ k − ak kg(xk )k| ≥ |kxk − x∗ k − ak L kxk − x∗ k| = |1 − ak L|kxk − x∗ k. Então,. kxk − x∗ − ak g(xk )k2 ≥ (1 − ak L)2 kxk − x∗ k2 .. (2.3). Logo, pelas propriedades do valor esperado temos que E(Y ) = E (E(Y |X)). Assim, aplicando-a em (2.2) com (2.3) temos: E kxk+1 − x∗ k2 ≥ (1 − ak L)2 E kxk − x∗ k2 + a2k E kek (xk )k2 ≥ (1 − ak L)2 E kxk − x∗ k2 + a2k δ 2 . (2.4) Seja agora F (ak ) = (1 − ak L)2 E kxk − x∗ k2 + a2k δ 2 . Procurando os pontos estacionários de F temos que Fa0 k = −2L(1 − ak L)E kxk − x∗ k2 + 2ak δ 2 = 0, portanto,. L2 E kxk − x∗ k2 a∗ = L2 E kxk − x∗ k2 + δ 2. é o único ponto estacionário, que é minimizador pois Fa00k = 2L2 E kxk − x∗ k2 + 2δ 2 > 0. Assim, voltando a (2.4) temos que 2 ∗ 2 ∗ 2 E kxk+1 − x k ≥ (1 − ak L) E kxk − x k + a2k δ 2 ≥ (1 − a∗ L)2 E kxk − x∗ k2 + (a∗ )2 δ 2 2 2  L2 E kxk − x∗ k2 δ 2 L2 E kxk − x∗ k2  E kxk − x∗ k2 + = 1 − 2 2 L2 E kxk − x∗ k + δ 2 L2 E kxk − x∗ k2 + δ 2 h i E kxk − x∗ k2 = δ 4 + δ 2 L2 E kxk − x∗ k2 2 L2 E kxk − x∗ k2 + δ 2 h i δ 2 E kxk − x∗ k2 = δ 2 + L2 E kxk − x∗ k2 2 L2 E kxk − x∗ k2 + δ 2 δ 2 E kxk − x∗ k2 = . L2 E kxk − x∗ k2 + δ 2 Assim, reescrevendo obtemos  . . E kxk+1 − x∗ k2 ≥ . L2 δ2. −1 +. 1 . E kxk −. x∗ k2. . ..

(76) 2.1. 9. APROXIMAÇÃO ESTOCÁSTICA. Portanto, 1 . E kxk+1 − x∗ k2 Denotemos por uk =. 1 . E(kxk −x∗ k2 ). ≤. L2 1 . + 2 δ E kxk − x∗ k2. (2.5). L2 + uk . δ2. (2.6). Logo, uk+1 ≤. Assim, tomando a soma em (2.6) temos k−1 X. (uk+1 − uk ) ≤. j=0. k−1 2 X L j=0 L2. δ2. uk − u0 ≤ k. δ2 1 1 L2 . ≤k 2 + δ E kxk − x∗ k2 E kx0 − x∗ k2 Finalmente,  . . E kxk − x∗ k2 ≥ k. 2.1.1. L2 δ2. −1 +. 1 . E kx0 − x∗ k2. . .. Descida do Gradiente Estocástico. A proposta de Robbins e Monro pode ser aplicada para encontrar pontos estacionários do problema geral min {f (x) = E (F (x, ξ))} , (2.7) x∈Rd. se consideramos g(x) = ∇f (x). Por definição sabemos que Z E(F (x, ξ)) =. F (x, ν)Pξ (ν|x)dν. Ω. Se supomos que ξ é independente de x então a expressão anterior pode ser reescrita como: Z E(F (x, ξ)) = F (x, ν)Pξ (ν)dν. Ω. Queremos encontrar estimadores Y (x) sem viés de g(x) (i.e. E(Y (x)) = g(x)). Logo, se g(x) satisfaz que: Z Z ∂ ∂F (x, ν) g(x) = F (x, ν)Pξ (ν)dν = Pξ (ν)dν (2.8) ∂x ∂x Ω. Ω. obtemos que um possível estimador sem viés de g(x) é Y (x) = ∂F (x, ξ)/∂x. Em geral a propriedade descrita em (2.8) sobre g(x) não é simples de satisfazer. O seguinte teorema estipula uma condição suficiente para que a intercambiabilidade entre o gradiente e a integral seja válida..

(77) 10. 2.1. CONCEITOS. Teorema 2.1.3 (Lebesgue Dominated Convergence Theorem). [Spa03] Suponha que X é um conjunto aberto. Sejam H e ∂H/∂x funções continuas em X × Ω. Suponha que existem funções não negativas q0 (ξ) e q1 (ξ) tais que. ∂H(x, ξ) . ≤ q1 (ξ) ∀(x, ξ) ∈ X × Ω, |H(x, ξ)| ≤ q0 (ξ) e ∂x R R onde Ω q0 (ξ)dξ < ∞ e Ω q1 (ξ)dξ < ∞. Então, ∂ ∂x. Z. Z H(x, ξ)dξ = Ω. Ω. ∂H(x, ξ) dξ. ∂x. Por conta da definição do estimador Y (x) de g(x) e supondo que F é conhecida e derivável, o Algoritmo 2.1.1 pode ser modificado como segue: Algoritmo 2.1.2. Stochastic Gradient Descent Entrada: x0 : ponto inicial; ak tal que satisfaz Suposição 2.1.1; k = 0. Passo 1. Selecione ξk aleatoriamente

(78) k)

(79) Passo 2. xk+1 = xk − ak ∂F (x,ξ

(80) ∂x. x=xk. Passo 3. k ← k + 1 Passo 4. Volte ao Passo 1 até satisfazer algum critério de parada As seguintes suposições são necessárias para a demonstração de convergência do Algoritmo 2.1.2: Suposição 2.1.5 (Convexidade). A função F é convexa e E(F (x, ξ)) < ∞ ∀ x ∈ Rd . P 2 2 Suposição 2.1.6. O erro ek (x) satisfaz ∞ k=0 ak E kek (xk )k | Fk < ∞ com probabilidade 1. A Suposição 2.1.5 junto com o fato de que estamos considerando F diferenciável, garante que o Teorema de intercambialidade da integral e da derivada é satisfeito (Teorema 2.1.3), i.e., ∇f (x) = E (∇x F (x, ξ)). A Suposição 2.1.6 pode ser substituída pela suposição 2.1.4, pois esta última garante que E(kek (xk )k2 ) está limitada e portanto a Suposição 2.1.6 é satisfeita. O seguinte teorema garante a convergência com probabilidade 1 do Algoritmo 2.1.2. Teorema 2.1.4. [YNS12] Suponha que as Suposições 2.1.1,2.1.3, 2.1.5 e 2.1.6 são satisfeitas e seja f diferenciável com gradiente Lipschitz com constante L. Suponha que o conjunto X ∗ de soluções ótimas do problema (2.7) não é vazio. Então a sequência {xk } gerada pelo Algoritmo 2.1.2 converge com probabilidade 1 quando k → ∞ a algum ponto em X ∗ . Demonstração. Seja x∗ ∈ X ∗ . Temos então, kxk+1 − x∗ k2 = kxk − x∗ − ak ∇F (xk , ξk )k2 = kxk − x∗ − ak (∇f (xk ) + ek (xk ))k2 = kxk − x∗ k2 − 2ak (∇f (xk ) + ek (xk ))T (xk − x∗ ) + a2k k∇f (xk ) + ek (xk )k2 = kxk − x∗ k2 − 2ak ∇f (xk )T (xk − x∗ ) − 2ak ek (xk )T (xk − x∗ )+ + a2k k∇f (xk ) + ek (xk )k2 ..

(81) 2.2. 11. SAMPLE AVERAGE APPROXIMATION WITH VARIABLE SAMPLE SIZE. Como f é convexa, temos que f (x∗ ) ≥ f (xk ) − ∇f (xk )T (xk − x∗ ). Assim, kxk+1 − x∗ k2 ≤ kxk − x∗ k2 − 2ak (f (xk ) − f (x∗ )) − 2ak ek (xk )T (xk − x∗ )+ + a2k k∇f (xk ) + ek (xk )k2 = kxk − x∗ k2 − 2ak (f (xk ) − f (x∗ )) − 2ak ek (xk )T (xk − x∗ )+ + a2k k∇f (xk ) − ∇f (x∗ ) + ek (xk ) + ∇f (x∗ )k2 . Logo, como ka + bk2 ≤ 2kak2 + 2kbk2 , segue que kxk+1 − x∗ k2 ≤ kxk − x∗ k2 − 2ak (f (xk ) − f (x∗ )) − 2ak ek (xk )T (xk − x∗ )+ + 2a2k k∇f (xk ) − ∇f (x∗ )k2 + 2a2k k∇f (x∗ ) + ek (xk )k2 ≤ kxk − x∗ k2 − 2ak (f (xk ) − f (x∗ )) − 2ak ek (xk )T (xk − x∗ )+ + 2a2k L2 kxk − x∗ k2 + 2a2k k∇f (x∗ ) + ek (xk )k2 = (1 + 2a2k L2 ) kxk − x∗ k2 − 2ak (f (xk ) − f (x∗ )) − 2ak ek (xk )T (xk − x∗ )+ + 2a2k k∇f (x∗ ) + ek (xk )k2 .. (2.9). Agora, tomando o valor esperado condicional de (2.9) e considerando que ∇f (x∗ ) = 0 temos

(82)

(83)

(84)

(85) E kxk+1 − x∗ k2

(86) Fk ≤ (1 + 2a2k L2 )E kxk − x∗ k2

(87) Fk − 2ak E (f (xk ) − f (x∗ ) | Fk ) +

(88)

(89)

(90) − 2ak E ek (xk )T (xk − x∗ )

(91) Fk + 2a2k E kek (xk )k2

(92) Fk = (1 + 2a2k L2 ) kxk − x∗ k2 − 2ak (f (xk ) − f (x∗ )) +

(93)

(94) − 2ak E (ek (xk ) | Fk )T (xk − x∗ ) + 2a2k E kek (xk )k2

(95) Fk = (1 + 2a2k L2 ) kxk − x∗ k2 − 2ak (f (xk ) − f (x∗ )) +

(96)

(97) + 2a2k E kek (xk )k2

(98) Fk .. (2.10). que a sequência Logo, pelas Suposições 2.1.1 e 2.1.6 podemos aplicar P∞ o Lema 2.1.1, obtendo ∗ k2 converge com probabilidade 1 e que ∗ )) < ∞. Assim, como kx − x a (f (x ) − f (x k+1 k k k=0 P∞ ∗ k=0 ak = ∞ então, lim inf k→∞ f (xk ) − f (x ) = 0, portanto existe uma subsequência de {xk } tal que f (xk ) → f (x∗ ). Logo, por continuidade de f , essa subsequência de {xk } converge a x∗ ∈ X ∗ . No Teorema 2.1.2 foi demonstrado que os algoritmos da forma de Robbins-Monro não convergem assintoticamente mais rápido que O(1/k). Aplicando o Teorema 2.1.2 ao Algoritmo 2.1.2 supondo que f é estritamente convexa com parâmetro µ e tomando um passo ak = 1/kµ obtemos a convergência (no sentido de média quadrada) igual a 1/k. Existem varias modificações deste algoritmo, pois na maioria dos problemas, as condições de independência entre ξ e x ou a intercambiabilidade da integral e derivada em (2.8) não são satisfeitas, portanto a estimação feita do gradiente pode possuir viés.. 2.2. Sample Average Approximation with Variable Sample Size. Consideremos o problema de minimização dado em (2.7). Seja ξ1 , ..., ξN uma amostra de tamanho N independente e identicamente distribuída (i.i.d.) de ξ. Por meio do método de Sample Average Approximation [KK13] (melhor conhecido como método de Monte Carlo [AG07, KKK10]) pode-se.

(99) 12. 2.2. CONCEITOS. estimar E(F (x, ξ) da seguinte forma: E(F (x, ξ)) ≈. N 1 X F (x, ξi ). N. (2.11). i=1. A Lei forte de grandes números [Ros97] garante que a aproximação (2.11) converge com probabilidade 1 a E(F (x, ξ)) quando N → ∞. Assim, a resolução de (2.7) pode ser aproximada por meio de ( ) N X 1 min fˆN (x) = F (x, ξi ) . (2.12) N x∈Rd i=1. A solução do problema (2.12) pode ser encontrada através de algoritmos determinísticos. Nos casos que estamos considerando, o N é grande, e portanto a avaliação de (2.11) é custosa. Assim, os métodos que serão estudados tentam diminuir o custo do algoritmo tomando uma subamostra aleatória de {ξ1 , ..., ξN } de tamanho Nk < N em cada iteração k. Esta ideia é conhecida como Variable Sample Size Strategy [BCNW12, KK13]. Os seguintes algoritmos a apresentar, possuem a vantagem de que em cada iteração se decide aumentar (manter o diminuir, dependendo do método) o tamanho da amostra utilizada para a aproximação do valor esperado. Assim, nas primeiras iterações, a quantidade de avaliações da função F (e do seu gradiente se é o caso) sera menor, logrando avances na sequência {xk }, e a medida que se aumenta k, melhorar a estimação de E(F (x, ξ)) com amostras maiores. É importante destacar que em alguns problemas é impossível computacionalmente avaliar (2.11) devido ao N grande. É por isto que esperasse que a precisão final obtida pelo algoritmo de resolução não chegue a considerar os N dados.. 2.2.1. Dynamic Sample Size Gradient. Byrd et. al. [BCNW12] propõem um algoritmo para a resolução do problema (2.7) com a aproximação (2.11) incrementando, em cada iteração o tamanho amostral Nk tomando em consideração uma estimação da variância do gradiente aproximado. Seja S uma amostra aleatória de {ξ1 , ..., ξN }. Definamos fˆS (x) como a aproximação de E(F (x, ξ)) P 1 dada por fˆS (x) = |S| F (x, ξi ). A ideia principal no Algoritmo 2.2.1 é a cada iteração gerar um i∈S. passo do algoritmo de Descida do Gradiente para minimizar fˆS (x), garantindo que o avanço obtido implica progresso em fˆN também. Seja δS (x) = k∇fˆS (x) − ∇fˆN (x)k2 . (2.13) A seguinte proposição estipula uma condição sobre δS (x) que garante que a direção de descida do gradiente sobre a amostra S, é também de descida para fˆN , função objetivo do problema (2.12). Proposição 2.2.1. Existe β ∈ (0, 1) tal que se δS (x) ≤ βk∇fˆS (x)k2 , então a direção d = −∇fˆS (x) é de descida para fˆN (x). Demonstração. Precisamos provar que −∇fˆN (x)T ∇fˆS (x) < 0. Temos que, k∇fˆS (x) − ∇fˆN (x)k2 ≤ βk∇fˆS (x)k2 , porém, k∇fˆS (x) − ∇fˆN (x)k22 ≤ β 2 k∇fˆS (x)k22 . Logo, reescrevendo o lado esquerdo da desigualdade temos, k∇fˆS (x) − ∇fˆN (x)k22 = k∇fˆS (x)k22 − 2∇fˆS (x)T ∇fˆN (x) + k∇fˆN (x)k22 .. (2.14).

(100) 2.2. SAMPLE AVERAGE APPROXIMATION WITH VARIABLE SAMPLE SIZE. 13. Substituindo em (2.14) obtemos que k∇fˆS (x)k22 − 2∇fˆS (x)T ∇fˆN (x) + k∇fˆN (x)k22 ≤ β 2 k∇fˆS (x)k22 . i 1h 2 −∇fˆS (x)T ∇fˆN (x) ≤ (β − 1)k∇fˆS (x)k22 − k∇fˆN (x)k22 2 i 1h = − (1 − β 2 )k∇fˆS (x)k22 + k∇fˆN (x)k22 < 0 2 Pois, sabemos que 1−β 2 > 0 e como −∇fˆS (x) é direção de descida para fˆS (x), então k∇fˆS (x)k22 > 0. Finalmente, (1 − β 2 )k∇fˆS (x)k22 + k∇fˆN (x)k22 > 0, e assim se demonstra o que se desejava. Como em [BCNW12] considera-se que N é grande e portanto a avaliação de ∇fˆN (x) é custosa, δS (x) não pode ser calculado de forma exata.Assim, se propõe estimar δS (x) por meio da variância ˆ de ∇fS (x), pois, se supomos que E ∇fˆS (x) = ∇fˆN (x) para toda possível amostra S, temos que, E δS (x)2 = E k∇fˆS (x) − ∇fˆN (x)k22 =E. d X. ∇xi fˆS (x) − ∇xi fˆN (x). 2. !. i=1. =. d X. E(∇xi fˆS (x) − ∇xi fˆN (x))2. i=1. =. d X. V ar(∇xi fˆS (x)) = V ar(∇fˆS (x)) . 1. i=1. Logo, seguindo o análise detalhado em [BCNW12] obtemos que. kV arS (∇F (x, ξ))k1. E δS (x)2 = V ar(∇fˆS (x)) ≈ . |S| 1. (2.15). Assim, substituindo δS (x) na condição da Proposição 2.2.1 (tomada ao quadrado) pela aproximação (2.15), obtemos a seguinte condição kV arS (∇F (x, ξ))k1 ≤ β 2 k∇fˆS (x)k22 . |S|. (2.16). Na prática, se uma amostra S não satisfaz a equação (2.16), aumentamos o tamanho amostral ˆ pela fórmula de |S| para |S| ˆ = kV arS (∇F (x, ξ))k1 , (2.17) |S| β 2 k∇fˆS (x)k2 2. pois assume-se que para todo x kV arSˆ (∇F (x, ξ))k1 ' kV arS (∇F (x, ξ))k1 e k∇fˆSˆ (x)k2 ' k∇fˆS (x)k2 . O algoritmo proposto por Byrd et. al. [BCNW12] se encontra a seguir:.

(101) 14. 2.2. CONCEITOS. Algoritmo 2.2.1. Dynamic Sample Size Gradient Entrada: Sejam x0 ∈ Rd , β ∈ (0, 1) e S0 dados. Faça k ← 0. Passo 1. Calcule dk = −∇fˆSk (xk ). Passo 2. Busca Linear : encontre αk > 0 tal que fˆSk (xk + αk dk ) < fˆSk (xk ). Passo Passo Passo Passo. 3. 4. 5. 6.. xk+1 = xk + αk dk . k ← k + 1. Escolha uma amostra aleatória Sk tal que |Sk | = |Sk−1 |. Calcule a variância amostral 2 X 1 V arSk (∇F (xk , ξ)) = ∇F (xk , ξi ) − ∇fˆSk (xk ) . |Sk | − 1 i∈Sk. Passo 7. Se. kV arSk (∇F (xk , ξ))k1 > β 2 k∇fˆSk (xk )k22 , |Sk |. incremente Sk através de |Sk | =. kV arSk (∇F (xk , ξ))k1 . β 2 k∇fˆS (xk )k2 k. 2. Passo 8. Volte ao Passo 1 até satisfazer condição de parada.. Em [BCNW12] demonstram a convergência do Algoritmo 2.2.1 supondo que f é duas vezes continuamente diferenciável e uniformemente convexa. Assim, existem constantes 0 < λ < L tais que λkdk2 ≤ dT ∇2 f (x)d ≤ Lkdk2 , ∀x, d (λ é o parâmetro que faz referência à convexidade uniforme e L ao gradiente Lipschitz). Finalmente, o seguinte teorema estabelece a convergência do Algoritmo 2.2.1 (a demonstração detalhada pode ser encontrada na referência do teorema). Teorema 2.2.1. [BCNW12] Suponha que para todo k, o tamanho amostral nk = |Sk | satisfaz nk ≥ ak para algum a > 1, e que existe uma constante w tal que kV arN (∇F (xk , ξ))k1 ≤ w ∀xk . Então, a sequência {xk } gerada pelo Algoritmo 2.2.1 satisfaz E fˆN (xk ) − fˆN (x∗ ) ≤ Cρk , ∀k onde. λ 1 2w ρ = max 1 − , e C = max fˆN (x0 ) − fˆN (x∗ ), 4L a λ. O teorema anterior supõe que o tamanho amostral a cada iteração debe aumentar de forma exponencial, isto é, nk ≥ ak para algum a > 1. Este análise é válido, pois, como estamos considerando que a Proposição 2.2.1 é satisfeita em valor esperado, e por isso foi estimada por meio de. ˆ V ar(∇fS (x)) , pela natureza estocástica dos dados, pode acontecer que mudando o tamanho 1. amostral através de (2.17) a condição (2.16) com a nova amostra não seja satisfeita..

(102) 2.2. 2.2.2. SAMPLE AVERAGE APPROXIMATION WITH VARIABLE SAMPLE SIZE. 15. Line search method with variable sample size. Krejić et. al [KK13] apresentam um método para a resolução do problema (2.12) por meio de uma modificação do algoritmo de Busca Linear com condição de Armijo, variando em cada iteração P a função objetivo a fˆNk (x) = N1k i∈Sk F (x, ξi ), onde Nk é o tamanho de uma amostra aleatória de ξ1 , ..., ξN . A ideia principal, ao igual que no Algoritmo de Dynamic Sample Size Gradient, é em cada iteração modificar o tamanho Nk dependendo do avanço na sequência {xk }. A diferença radica em que em [KK13] permitem o aumento ou a diminuição de Nk dependendo do comprimento do intervalo de confiança obtido e do decrescimento na função estimada. Definamos a quantidade de decrescimento dmk como a redução no modelo linear, i.e., Nk k dmk = mN k (xk ) − mk (xk+1 ) = −αk dT ∇fˆN (xk ), k. k. (2.18). T k ˆ ˆ onde mN k (xk + s) = fNk (xk ) + s ∇fNk (xk ). Seja o intervalo de confiança da estimação fˆNk definido por P f (xk ) ∈ [fˆNk (xk ) − c, fˆNk (xk ) + c] = δ. k Definamos a falta de precisão εN δ (xk ) como uma aproximação do comprimento do intervalo de Nk confiança (i.e, εδ (xk ) ≈ c) dada por:. αδ k ˆNk (xk ) √ , εN δ (xk ) = σ Nk onde. (2.19). N. 2 σ ˆN (xk ) = k. k 2 X 1 F (xk , ξi ) − fˆNk (xk ) Nk − 1. i=1. e αδ é o quantil da Distribuição Normal(0,1). Se quer comparar a falta de precisão e quantidade de decrescimento de tal forma que diminuam na mesma proporção. Assim, se a quantidade de decrescimento é grande comparado com Falta de k precisão (dmk > εN δ (xk )), então se diminui o tamanho amostral, pois se assume que não se precisava uma amostra Nk tão grande para melhorar a precisão. No caso contrário em que a quantidade k de decrescimento é pequeno comparado com a falta de precisão (dmk < εN δ (xk )), se aumenta o tamanho amostral pois se quer melhorar a estimação de fˆNk e ficar mais próximos da precisão desejada. A seguir se apresentam 3 algoritmos que resumem a ideia de Krejić et. al [KK13]. O Algoritmo 2.2.2 é o algoritmo central do método proposto, nele se especifica a regra de atualização de xk+1 . O Algoritmo 2.2.3 realiza um estudo, dependendo do análise explicado, de um possível candidato a tamanho amostral da seguinte iteração, e finalmente, o Algoritmo 2.2.4 escolhe o tamanho Nk+1 e atualiza a cota inferior Nkmin de decrescimento possível para Nk . Analisando a estrutura do Algoritmo 2.2.2 temos que no Passo 3 quando já estamos numa solução local para o problema de minimização de fˆNk (i.e, k∇fˆNk (xk )k = 0) e a amplitude do intervalo k de confiança da estimação é igual a zero (εN = 0) o tamanho amostral aumenta numa unidade, δ k pois a certeza pela qual afirmamos que o f (x) é exatamente fˆNk (x) é baixa. No caso em que εN δ >0 e k∇fˆNk (xk )k = 0, o tamanho aumenta ao Nmax pois com probabilidade δ o f (xk ) pertence a esse intervalo obtido. Basicamente, de forma geral, quando com probabilidade alta o f (x) pertence ao Nk k ˆ intervalo [fˆNk (xk ) − εN δ , fNk (xk ) + εδ ], decidimos aumentar a precisão da nossa aproximação a Nmax dados..

(103) 16. 2.2. CONCEITOS. Algoritmo 2.2.2. Line search method with variable sample size Entrada: Sejam x0 ∈ Rd , N0min , Nmax ∈ R, δ, η, β, γ3 , ν1 ∈ (0, 1) e η0 < 1 dados. k ← 0. Nk ← N0min . Passo 1. Gere a amostra ξ1 , ..., ξNmax . k Passo 2. Avalie fˆNk (xk ) e calcule εN δ usando (2.19). Passo 3. Se k∇fˆN (xk )k = 0 e Nk < Nmax k. 3.1. Se 3.2. Se. k εN δ k εN δ. > 0 então Nk = Nmax , Nkmin = Nmax e volte ao Passo 2. = 0 então Nk = Nk + 1, Nkmin = Nkmin + 1 e volte ao Passo 2.. Passo 4. Encontre dk tal que dTk ∇fˆNk (xk ) < 0. Passo 5. (Condição de Armijo) Encontre αk tal que: fˆNk (xk + αk dk ) ≤ fˆNk (xk ) + ηαk dTk ∇fˆNk (xk ). xk+1 = xk + αk dk e calcule dmk usando (2.18). Determine o candidato a tamanho amostral Nk+ usando o Algoritmo 2.2.3. Determine o tamanho amostral Nk+1 usando o Algoritmo 2.2.4. min . Determine a cota inferior do tamanho amostral Nk+1 Passo 10. k ← k + 1 e volte ao Passo 2 até que k∇fˆNk (xk )k = 0 e Nk = Nmax .. Passo Passo Passo Passo. 6. 7. 8. 9.. Algoritmo 2.2.3. Candidato a tamanho amostral k Entrada: Sejam dmk , Nkmin , εN δ (xk ) e ν1 ∈ (0, 1) dados.. + k Passo 1. Se dmk = εN δ (xk ) então Nk = Nk . N+. + + min faça k k Passo 2. Se dmk > εN δ (xk ) então Nk ← Nk . Enquanto dmk > εδ (xk ) e Nk > Nk + + Nk = Nk − 1. k Passo 3. Se dmk < εN δ (xk ) k 3.1. Se dmk ≥ ν1 εN δ (xk ) então. N+. Nk+ ← Nk . Enquanto dmk < εδ k (xk ) e Nk+ < Nmax faça Nk+ = Nk+ + 1. + k 3.2. Se dmk < ν1 εN δ (xk ) então Nk = Nmax ..

(104) 2.2. SAMPLE AVERAGE APPROXIMATION WITH VARIABLE SAMPLE SIZE. 17. Algoritmo 2.2.4. Determinação do candidado a tamanho amostral Entrada: Sejam Nk+ , Nk , xk , xk+1 , η0 < 1 dados. Passo 1. Determine Nk+1 1.1. Se Nk+ ≥ Nk então Nk+1 = Nk+ . 1.2. Se Nk+ < Nk calcule ρk =. fˆN + (xk ) − fˆN + (xk+1 ) k. k. fˆNk (xk ) − fˆNk (xk+1 ). Se ρk ≥ η0 então Nk+1 = Nk+ senão Nk+1 = Nk . Passo 2. Atualize Nkmin min = N min . 2.1. Se Nk+1 ≤ Nk então Nk+1 k. 2.2. Se Nk+1 > Nk então min = N min . 2.2.1. Se o tamanho Nk+1 nunca foi usado, então Nk+1 k ˆ 2.2.2. Se alcançou-se suficiente decrescimento em fNk+1 desde a última vez que Nk+1 min = N min . foi usada, então Nk+1 k 2.2.3. Se não alcançou-se suficiente decrescimento em fˆN desde a última vez que min = N Nk+1 foi usada, então Nk+1 k+1 .. k+1. No Algoritmo 2.2.4 no Passo 2 se diz que “não alcançou-se suficiente decrescimento em fˆNk+1 ” se, dadas as constantes γ3 , ν1 ∈ (0, 1) é satisfeita a seguinte desigualdade: N fˆNk+1 (xh(k) ) − fˆNk+1 (xk+1 ) < γ3 ν1 (k + 1 − h(k)) εδ k+1 (xk+1 ). onde h(k) é a iteração na qual começou-se a usar o tamanho Nk+1 por última vez. As seguintes suposições a enunciar são necessárias para garantir que a convergência do Algoritmo 2.2.2 seja alcançada. Suposição 2.2.1. Existe uma constante M1 > 0 tal que para todo ξ, x temos que k∇x F (x, ξ)k ≤ M1 . Suposição 2.2.2. Existem constantes MF , MF F tal que para todo ξ, x temos que MF ≤ F (x, ξ) ≤ MF F . Suposição 2.2.3. A sequência de direções dk geradas no Passo 4 do Algoritmo 2.2.2 é acotada e satisfaz que se limk∈K dTk ∇fˆNk (xk ) = 0 então limk∈K ∇fˆNk (xk ) = 0 para qualquer subconjunto de iterações K. As Suposições 2.2.1 e 2.2.2 garantem que o Teorema de Intercambiabilidade entre o gradiente e a integral (i.e. Teorema 2.1.3) é satisfeito, e portanto, ∇E(f (x)) = E(∇f (x)). Assim, juntando esse fato com a Lei de grandes números, obtemos que limN →∞ ∇fˆN (x) = ∇f (x). A Suposição 2.2.3 permite definir no algoritmo qualquer direção dk de descida. O seguinte lema permite garantir que o tamanho amostral Nmax é alcançado, e que a partir de certa iteração, esse Nk = Nmax é mantido. Este lema é esencial para a demostração do Teorema 2.2.2 que enuncia a convergência do Algoritmo 2.2.2 a algum ponto estacionário da função fˆNmax . Os detalhes das demostrações podem ser encontrados em [KK13]. No texto abaixo abordaremos apenas algumas ideias principais. Lema 2.2.1. [KK13] Suponha que são satisfeitas as Suposições 2.2.1 e 2.2.2. Suponha também k que existe uma constante positiva ω e k1 ∈ N tais que εN δ (xk ) ≥ ω para todo k ≥ k1 . Logo, o Algoritmo 2.2.2 termina em um número finito de iterações com Nk = Nmax ou existe k2 ∈ N tal que para cada k ≥ k2 o tamanho amostral é máximo, i.e. Nk = Nmax ..

(105) 18. 2.2. CONCEITOS. Demonstração. Como a condição de parada do Algoritmo 2.2.2 é k∇fˆNmax (xk )k = 0, o foco da demostração é provar que o algoritmo faz um número finito de iterações. Especificamente, mostraremos que Nk não fica “encalhado” em tamanhos menores a Nmax e que a sequência não oscila, isto é, existe k¯ ∈ N tal que para todo k ≥ k¯ temos que Nk = Nmax . • Nmax é alcançado: Suponha que existe n2 > n1 tal que para todo k ≥ n2 temos que Nk = N 0 < Nmax . Logo, pela condição de Armijo temos que: fˆN 0 (xk+1 ) ≤ fˆN 0 (xk ) + ηαk ∇fˆN 0 (xk )T dk . Assim, para cada s ∈ {0, 1, 2, ...} temos fˆN 0 (xn2 +s ) ≤ fˆN 0 (xn2 +s−1 ) + ηαn2 +s−1 ∇fˆN 0 (xn2 +s−1 )T dn2 +s−1 ≤ fˆN 0 (xn2 ) + η. s−1 X. αn2 +j ∇fˆN 0 (xn2 +j )T dn2 +j .. j=0. Logo, pela Suposição 2.2.2 obtemos −η. s−1 X. αn2 +j ∇fˆN 0 (xn2 +j )T dn2 +j ≤ fˆN 0 (xn2 ) − fˆN 0 (xn2 +s ) ≤ fˆN 0 (xn2 ) − MF. j=0. e, tomando o limite, temos que 0≤. ∞ X. −αn2 +j ∇fˆN 0 (xn2 +j )T dn2 +j ≤. j=0. fˆN 0 (xn2 ) − MF := C. η. (2.20). Como a serie em (2.20) é convergente vale que lim −αn2 +j ∇fˆN 0 (xn2 +j )T dn2 +j = 0.. j→∞. (2.21). k Agora, observando o Algoritmo 2.2.3 e usando a suposição de que εN δ (xk ) ≥ ω temos que Nk unicamente o caso dmk < ν1 εδ (Passo 3) não pode acontecer pois levaria a Nk+1 ≥ Nk+ = Nmax > N 0 , porem, para todo k > n2 , −αk ∇fˆN 0 (xk )T dk ≥ ν1 ω. Assim,. lim inf −αk ∇fˆN 0 (xk )T dk ≥ ν1 ω > 0 k→∞. que contradiz (2.21). Portanto, demonstrou-se que a sequência dos tamanhos amostrais Nk não fica encalhado em tamanhos menores a Nmax . • A sequência de Nk não oscila: Suponha o contrário, quer dizer, para todo k¯ existe k ≥ k¯ tal que Nk < Nmax implicando assim que Nkmin < Nmax . Assim, a atualização no Passo 2.2.3 do Algoritmo 2.2.4 ocorre um número min = N min ) finito de vezes. Logo, as outras 3 possibilidades (Passos 2.1, 2.2.1, 2.2.2, onde Nk+1 k ocorrem um número infinito de vezes. Portanto, existe r1 tal que para todo k ≥ r1 temos que acontece alguma das seguintes opções: 1. Nk+1 ≤ Nk . 2. Nk+1 > Nk e não temos usado o tamanho amostral Nk+1 antes. 3. Nk+1 > Nk e se tem suficiente decrescimento em fˆNk+1 desde a última vez que Nk+1 foi usada..

(106) 2.2. SAMPLE AVERAGE APPROXIMATION WITH VARIABLE SAMPLE SIZE. 19. ¯ o tamanho máximo que é usado infinitas iterações, e seja K ¯ 0 o conjunto de iterações Seja N ¯ ¯ 0 , k ≥ r2 Nk é onde Nk cambia a N . Assim, seja r2 a iteração tal que para todo k ∈ K ¯ aumentado a N . ¯ = K ¯ 0 ∩ {r, r + 1, ...}. Como K ¯ possui os elementos de K ¯ 0, Defina r = max{r1 , r2 } e K ¯ então, a opção de Nk+1 ≤ Nk não acontece. Logo, se tiramos de K a iteração onde Nk+1 foi usado pela primeira vez, exclui-se a segunda opção anterior também. Assim, para todo ¯ ∩ {n1 , n1 + 1, ...} temos que k∈K ¯ fˆN¯ (xh(k) ) − fˆN¯ (xk+1 ) ≥ γ3 ν1 (k + 1 − h(k))εN δ (xk+1 ) ¯. ≥ γ3 ν1 εN δ (xk+1 ) ≥ γ3 ν1 ω > 0. O que afirma que estamos diminuindo fˆN¯ por uma constante positiva infinitas vezes. Mas, pela Suposição 2.2.2 (que implica que fˆN (x) é acotada superior e inferiormente) chegamos a uma contradição. Portanto, a sequência de Nk não oscila e Nkmin = Nmax para algum k. Finalmente, juntando com a primeira parte da demonstração obtemos que existe uma iteração k1 ∈ N tal que para cada k ≥ k1 temos que Nk = Nmax .. Teorema 2.2.2. [KK13] Suponha que são satisfeitas Suposições 2.2.1-2.2.3. Suponha também que k existe uma constante positiva ω e k1 ∈ N tal que εN δ (xk ) ≥ ω para todo k ≥ k1 e que a sequência {xk } gerada pelo Algoritmo 2.2.2 é limitada. Então, o Algoritmo 2.2.2 termina depois de um número finito de iterações num ponto estacionário da função fˆNmax ou todo ponto de acumulação da sequência {xk } é um ponto estacionário de fˆNmax . Demonstração. A demostração detalhada pode ser encontrada em [KK13]. A ideia da prova é estudar o caso em que a cada iteração se tem uma direção de descida, gerando assim infinitas iterações. O Lema 2.2.1 garante a existência de k1 ∈ N tal que para todo k ≥ k1 temos que Nk = Nmax . Queremos provar que existe um conjunto K 0 ⊆ N tal que limk∈K 0 xk = x∗ e ∇fˆNmax (x∗ ) = limk∈K 0 ∇fˆNmax (xk ) = 0. Pela equação (2.21), temos que lim αk ∇fˆNmax (xk )T dk = 0.. k→∞. (2.22). Logo, seja x∗ um ponto de acumulação da sequência {xk }k∈N , isto implica que existe K ⊆ N tal que limk∈K xk = x∗ . Temos assim as seguintes opções: • A sequência dos passos {αk }k∈K é limitada inferiormente, então, (2.22) implica que lim ∇fˆNmax (xk )T dk = 0.. k∈K. e portanto, pela Suposição 2.2.3 obtemos que ∇fˆNmax (x∗ ) = lim ∇fˆNmax (xk ) = 0. k∈K. • Existe K1 ⊆ K tal que limk∈K1 αk = 0 isto garante a existência de um subconjunto K2 ⊆ K1 tal que para todo k ∈ K2 existe αk0 tal que αk = βαk0 e fˆNmax (xk + αk0 dk ) > fˆNmax (xk ) + ηαk0 ∇fˆNmax (xk )T dk . Pelo teorema de Valor médio temos que a expressão anterior pode ser reescrita como dTk ∇fˆNmax (xk + tk αk0 dk ) > η∇fˆNmax (xk )T dk.

(107) 20. 2.3. CONCEITOS. para algum tk ∈ [0, 1]. Depois, como as direções dk estão acotadas, existe d∗ e K3 ⊆ K2 tal que limk∈K3 dk = d∗ . Assim, ∇fˆNmax (x∗ )T d∗ > η∇fˆNmax (x∗ )T d∗ . Logo, como η ∈ (0, 1) e ∇fˆNmax (xk )T dk < 0 para todo k, juntando com a Suposição 2.2.3 obtemos que: lim ∇fˆNmax (xk )T dk = ∇fˆNmax (x∗ )T d∗ = 0 k∈K3. e assim,. lim ∇fˆNmax (xk ) = 0.. k∈K3. 2.3. Métodos de Redução da variância. Nas seções anteriores se estudaram propostas para a resolução do problema (2.7). Uma possível forma de ver o algoritmo de Stochastic Gradient Descent é, como nas aplicações de Aprendizado de Máquina, dados N pontos ξ1 , ..., ξN i.i.d. gerar a aproximação de Monte Carlo, e em cada iteração tomar Nk = 1 para todo k, isto é, aproximar o gradiente de fˆN (x) com o gradiente de fˆ1 (x) = F (x, ξk ). Monte Carlo y Stochastic Approximation geram aproximações do valor esperado, mas é importante estudar a eficiência dessa estimação. Desde o ponto de vista estatístico, existem dois fatores importantes no momento de escolher os melhores estimadores: consistência e variância. O primeiro ˆ fator verifica se E f (x) = f (x), e o segundo se relaciona com o intervalo de confiança da estimação feita, isto é, se espera que a variância seja pequena para que o intervalo de confiança obtido seja menor. Nos dois enfoques vistos, com as suposições feitas, se geram estimadores sem viés, assim, para escolher o melhor (no sentido estatístico) a variância é de suma importância. Os métodos de Redução da variância [AG07, KKK10, Rip87] foram motivados pelo fato que o desvio padrão √ da diferencia entre a estimação de Monte Carlo e o verdadeiro valor esperado é da ordem de 1/ N . Matematicamente, sejam x1 , ..., xN N variáveis aleatórias i.i.d. de X definidas N P xi o estimador de Monte Carlo para num espaço de probabilidades (Ω, F, P ) e seja x ¯N := N1 i=1. µ = E(X), então,. N 1 X V ar(X) V ar(¯ xN − µ) = V ar(¯ xN ) = 2 V ar(xi ) = . N N i=1. Portanto, para gerar pequenas melhoras na precição da estimação, se devem obter amostras muito maiores. Existem diferentes métodos de Redução de variância, entre eles: Control Variates, Importance Sampling, Antithetic Variates e Conditioning. Cada um deles podem ser analisados a fundo em [AG07, KKK10, Rip87]. Especificamente neste trabalho estudaremos Control Variates. Suponha que se quer estimar µ = E(Y ), onde Y = h(x). Gostaríamos de encontrar uma variável Z tal que E(Z) = µ e V ar(Z) < V ar(Y ). Seja W = g(x) uma função tal que se conhece E(W ) = µW . Definamos Z = α(Y − W ) + E(W ), com α ∈ [0, 1], temos que, E(Z) = E (α(Y − W ) + E(W )) = αE(Y ) + (1 − α)E(W ) V ar(Z) = V ar (α(Y − W ) + E(W )) = α2 V ar(Y − W ) = α2 (V ar(Y ) + V ar(W ) − 2Cov(Y, W )).

(108) 2.3. MÉTODOS DE REDUÇÃO DA VARIÂNCIA. 21. Se considera-se α = 1 obtemos que E(Z) = E(Y ). A ideia do método Control Variate é encontrar uma variável W tal que 2Cov(Y, W ) − V ar(W ) seja o suficientemente grande que permita obter que V ar(Z) < V ar(Y ). A seguir se apresentam dois algoritmos que tentam melhorar a estimação do gradiente por meio de métodos de redução da variância usando Control Variates.. 2.3.1. Stochastic Variance Reduced Gradient. Inspirados na teoria de Variance Reduction - Control Variates, Jhonson e Zhang [JZ13] propõem um algoritmo que busca diminuir a variância da estimação do gradiente do Algoritmo 2.1.2 (Stochastic Gradient Descent). Especificamente, voltando ao problema (2.12), se quer encontrar um algoritmo que consiga a solução de ( ) N X 1 min fˆN (x) := F (x, ξi ) N x∈Rd i=1. Portanto, continuando com o análise de Control Variate, seja Y = ∇F (x, ξj ) a estimação do gradiente de fˆN (x) para o Algoritmo 2.1.2 (Stochastic Gradient Descent). Definamos W = ∇F (˜ x, ξj ) com x ˜ uma atualização do minimizador de fˆN (x) passadas m iterações. Assim, considerando Z = Y − W + E(W ) obtemos que Z é um estimador consistente de Y tal que V ar(Z) < V ar(Y ). O Algoritmo 2.3.1 apresenta uma modificação do Algoritmo 2.1.2 que diminui a variância da estimação do gradiente. Algoritmo 2.3.1. Stochastic Variance Reduced Gradient Entrada: m : parâmetro de frequência de atualização; η : learning rate. Passo Passo Passo Passo Passo. 1. 2. 3. 4. 5.. Inicialize x ˜0 , s ← 1 x ˜=x ˜s−1 P x, ξi ) µ ˜ = N1 N i=1 ∇F (˜ x0 = x ˜ Para k = 0, ..., m − 1. 5.1. Escolha aleatoriamente j ∈ {1, ..., N } 5.2. xk+1 = xk − η (∇F (xk , ξj ) − ∇F (˜ x, ξj ) + µ ˜) Passo Passo Passo Passo. 6. 7. 8. 9.. (Opção I) x ˜ s = xm (Opção II) x ˜s = xt para t ∈ {0, ..., m} aleatório. s←s+1 Volte ao Passo 2 até satisfazer condição de parada.. Agora, suponha que F é suave e convexa e o gradiente ∇F é Lipschitz com parâmetro L, então temos que se satisfazem as seguintes proposições: Proposição 2.3.1. Para todo x, x0 , ξi temos que F (x, ξi )−F (x0 , ξi )−0.5Lkx−x0 k2 ≤ ∇F (x0 , ξi )T (x− x0 )..

(109) 22. 2.3. CONCEITOS. Demonstração. Consideremos a expansão de Taylor de ordem 0: Z 1 0 0 ∇F (x0 + εd, ξi )T d∂ε F (x + d, ξi ) = F (x , ξi ) + 0 0. 0. 0. Z. 1. = F (x , ξi ) + ∇F (x , ξi ) d − ∇F (x , ξi ) d + ∇F (x0 + εd, ξi )T d∂ε 0 Z 1 T ∇F (x0 + εd, ξi ) − ∇F (x0 , ξi ) d∂ε = F (x0 , ξi ) + ∇F (x0 , ξi )T d + 0 Z 1 k∇F (x0 + εd, ξi ) − ∇F (x0 , ξi )kkdk∂ε. ≤ F (x0 , ξi ) + ∇F (x0 , ξi )T d + T. T. 0. Logo, como ∇F é Lipschitz temos que: 0. Z. 1. Lkx0 + εd − x0 k∂ε 0 Z 1 0 0 T 2 ε∂ε = F (x , ξi ) + ∇F (x , ξi ) d + Lkdk 0. 0. T. 0. 0. T. F (x + d, ξi ) ≤ F (x , ξi ) + ∇F (x , ξi ) d + kdk. 0 2. = F (x , ξi ) + ∇F (x , ξi ) d + 0.5Lkdk . Assim, seja d = x − x0 , obtemos que: F (x0 , ξi ) ≤ F (x0 , ξi ) + ∇F (x0 , ξi )T (x − x0 ) + 0.5Lkx − x0 k2 .. Proposição 2.3.2. se f (x) é estritamente convexa, então para todo x, x0 , ξi temos que f (x) − f (x0 ) − 0.5γkx − x0 k2 ≥ ∇f (x0 )T (x − x0 ) com L ≥ γ ≥ 0. Proposição 2.3.3. Para todo x, x0 , ξi temos que " n # n n X X 1X 1 1 k∇F (x, ξi ) − ∇F (x0 , ξi )k2 ≤ 2L F (x, ξi ) − F (x0 , ξi ) − ∇F (x0 , ξi )T (x − x0 ) . n n n i=1. i=1. i=1. Demonstração. Seja gi (x) = F (x, ξi ) − F (x0 , ξi ) − ∇F (x0 , ξi )T (x − x0 ). Temos que x0 é o minimizador de gi (x), pois ∇gi (x0 ) = ∇F (x0 , ξi ) − ∇F (x0 , ξi ) = 0.. Assim, aplicando a propriedade de minimizador e a suavidade e convexidade de F demonstrada na Proposição 2.3.1 temos 0 = gi (x0 ) ≤ min (gi (x − η∇gi (x))) η. ≤ min gi (x) − ηk∇gi (x)k22 + 0.5Lη 2 k∇gi (x)k22 ) η 1 2 2 = gi (x) − k∇gi (x)k2 min η − Lη . η 2 Logo, minη η − 21 Lη 2 = e substituindo gi (x) obtemos. 1 2L. pois. ∂ ∂η (η. − 12 Lη 2 ) = 1 − 2Lη = 0 ↔ η =. . 1 2L .. (2.23) Voltando em (2.23).

(110) 2.3. MÉTODOS DE REDUÇÃO DA VARIÂNCIA. 0 ≤ gi (x) −. 23. 1 k∇gi (x)k22 2L. = F (x, ξi ) − F (x0 , ξi ) − ∇F (x0 , ξi )T (x − x0 ) −. 1 k∇F (x, ξi ) − ∇F (x0 , ξi )k2 . 2L. Reescrevendo, k∇F (x, ξi ) − ∇F (x0 , ξi )k2 ≤ 2L F (x, ξi ) − F (x0 , ξi ) − ∇F (x0 , ξi )T (x − x0 ) . Pn Somando por i = 1, ..., n e usando que f (x) = i=1 F (x, ξi ) temos que P n 1 Pn 1 Pn 0 2 0 , ξ )) − 1 0 , ξ )T (x − x0 ) . k∇F (x, ξ )−∇F (x , ξ )k ≤ 2L (F (x, ξ ) − F (x ∇F (x i i i i i i=1 i=1 i=1 n n n O seguinte teorema estipula a convergência geométrica (em sentido de média quadrada) do Algoritmo 2.3.1. Teorema 2.3.1. [JZ13] Considere o Algoritmo 2.3.1 com a opção II. Suponha que F (x, ξi ) é convexa e suave para todo x e ξi e que f (x) é fortemente convexa com parâmetro γ > 0. Seja x∗ = argmin f (x). Suponha que m é o suficientemente grande tal que x∈Rd. α=. 1 2Lη + <1 γη(1 − 2Lη)m 1 − 2Lη. então temos convergência geométrica em valor esperado para o Algoritmo 2.3.1: E (f (˜ xs ) − f (x∗ )) ≤ αs (f (˜ x0 ) − f (x∗ )) . Demonstração. Seja, vt = ∇F (xt−1 , ξit ) − ∇F (˜ x, ξit ) + µ ˜.

(111)

(112) E kvt k22

(113) xt−1 = E k∇F (xt−1 , ξit ) − ∇F (˜ x, ξit ) + µ ˜k22

(114) xt−1

(115) = E k∇F (xt−1 , ξit ) − ∇F (x∗ , ξit ) + ∇F (x∗ , ξit ) − ∇F (˜ x, ξit ) + µ ˜k22