Otimização não linear de mínimos quadrados

(1)

Agostinho Jorge

Tavares Monteiro

(2)

(3)

Agostinho Jorge

Tavares Monteiro

Otimiza¸

c˜

ao N˜

ao Linear de M´ınimos Quadrados

Disserta¸cão apresentada à Universidade de Aveiro para cumprimento dos requisitos necessários à obten¸cão do grau de Mestre em Matemática e Aplica¸cões, área de especializa¸cão Matemática Empresarial e Tecnológica, realizada sob a orienta¸cão cient´ıfica do Doutor Jorge Manuel Sá Esteves, Professor Auxiliar do Departamento de Matemática da Universidade de Aveiro.

(4)

(5)

presidente / president Professora Doutora Isabel Maria Sim˜oes Pereira

Professora Auxiliar do Departamento de Matem´atica da Universidade de Aveiro

vogais / examiners committee Professora Doutora Ana Cristina Soares De Lemos

Professora Coordenadora do Instituto Polit´ecnico de Leiria - Escola Superior de Tecnologia e Gest˜ao

Professor Doutor Jorge Manuel S´a Esteves

Professor Auxiliar do Departamento de Matem´atica da Universidade de Aveiro (orientador)

(6)

(7)

bilidade na orienta¸cão deste trabalho, pelas sugestões apresentadas e pela revisão final deste trabalho.

Ao Instituto Portuguˆes de Apoio ao Desenvolvimento (IPAD) pela con-cess˜ao da bolsa de estudos.

Ao Departamento de Matemática da Universidade de Aveiro e, em par-ticular, à diretora do curso de Mestrado em Matemática e Aplica¸cões, Doutora Isabel Maria Simões Pereira pelo acolhimento e apoio presta-dos.

`

A Dire¸c˜ao Geral do Ensino Superior de Cabo Verde que conduziu todo o processo de candidatura `a bolsa de estudos.

Ao Governo de Cabo Verde por ter aceite o pedido de Comiss˜ao Even-tual de Servi¸cos.

`

A minha fam´ılia e aos meus amigos pelo carinho e motiva¸c˜ao apresen-tados.

(8)

(9)

Resumo O problema de otimiza¸cão de m´ınimos quadrados é apresentado como uma classe importante de problemas de minimiza¸cão sem restri¸cões. A importância dessa classe de problemas deriva das bem conhecidas aplica¸cões à estima¸cão de parâmetros no contexto das análises de re-gressão e de resolu¸cão de sistemas de equa¸cões não lineares. Apresenta-se uma revisão dos métodos de otimiza¸cão de m´ınimos quadrados li-neares e de algumas técnicas conhecidas de lineariza¸cão. Faz-se um estudo dos principais métodos de gradiente usados para problemas não lineares gerais: Métodos de Newton e suas modifica¸cões incluindo os métodos Quasi-Newton mais usados (DFP e BFGS). Introduzem-se depois métodos espec´ıficos de gradiente para problemas de m´ınimos quadrados: Gauss-Newton e Levenberg-Marquardt. Apresenta-se uma variedade de exemplos selecionados na literatura para testar os diferen-tes métodos usando rotinas MATLAB. Faz-se uma análise comparativa dos algoritmos baseados nesses ensaios computacionais que exibem as vantagens e desvantagens dos diferentes métodos.

(10)

(11)

Abstract The least squares optimization problem is presented as an important class of unconstrained minimization problems. The importance of that class of problems is due to the well-known applications to parameter estimation in the context of regression analysis and from methods for solving systems of nonlinear equations. A review of linear least squa-res optimization methods and some linearization techniques is carried out. A study of the major gradient methods used for general nonlinear problems is presented: Newton Methods and its modifications, inclu-ding the frequently used Quasi-Newton methods (DFP and BFGS). Some specific gradient methods for non-linear least squares problems: Gauss-Newton and Levenberg-Marquardt methods. Several selected examples are used for testing the methods using MATLAB routines. Finally, based on those computational tests, a comparative analysis of the algorithms is made in order to highlight the advantages and disadvantages of the different methods.

(12)

(13)

or minimum does not appear.”

(14)

(15)

Conte´udo i

Introdu¸c˜ao 1

1 Problemas de M´ınimos Quadrados 9

1.1 Regress˜ao Linear . . . 11

1.2 Regress˜ao Polinomial . . . 16

1.2.1 Modelo com Polin´omios Ortogonais . . . 18

1.3 Regress˜ao Linear M´ultipla . . . 21

1.3.1 Regress˜ao linear Bidimensional . . . 21

1.4 Regress˜ao dos M´ınimos Quadrados Linear Geral . . . 23

1.5 T´ecnicas de Lineariza¸c˜ao . . . 26

1.5.1 Modelo Exponencial . . . 26

1.5.2 Modelo com Equa¸c˜ao de Potˆencia Simples . . . 28

1.5.3 Modelo Hiperb´olico . . . 28

1.6 Regress˜ao n˜ao Linear . . . 30

2 Algoritmos de Otimiza¸cão sem Restri¸cões 37 2.1 Otimiza¸cão não Linear sem Restri¸cões . . . 37

2.1.1 Forma Geral de um Problema de Otimiza¸c˜ao n˜ao Linear . . . 37

2.1.2 Otimiza¸c˜ao sem Restri¸c˜oes . . . 38

2.2 Conceitos Básicos de Otimiza¸cão Multidimensional sem Restri¸cões . . . 38

2.2.1 Condi¸c˜oes de Otimalidade . . . 39

2.2.2 Classifica¸c˜ao dos Pontos de Estacionaridade . . . 40

2.3 Problema de M´ınimos Quadrados sem Restri¸c˜oes . . . 42

2.3.1 Existˆencia da solu¸c˜ao de m´ınimos quadrados . . . 43

2.3.2 Unicidade da solu¸c˜ao de m´ınimos quadrados . . . 45

2.3.3 Existˆencia de m´ultiplos minimizantes locais distintos . . . 45

2.4 Métodos Numéricos de Minimiza¸cão . . . 47

2.4.1 M´etodo da Descida mais R´apida (Steepest Descent) . . . 47

2.4.2 M´etodo de Newton . . . 51

2.4.3 M´etodo de Newton Modificado . . . 54

(16)

2.5.1 Abordagem dos M´etodos Quasi-Newton B´asico . . . 55

2.5.2 M´etodo DFP (Davidon-Fletcher-Powell) . . . 57

2.5.3 M´etodo de Broyden-Fletcher-Goldfarb-Shanno (BFGS) . . . 58

3 Método de Newton para resolu¸cão de Sistemas não Lineares de Equa¸cões 61 3.1 Forma geral do Problema . . . 62

3.1.1 Sistemas não Lineares de Equa¸cões versus Problemas de Otimiza¸cão 62 3.2 Método de Newton . . . 63

3.2.1 Algoritmo de Newton para Sistemas n˜ao Lineares de Equa¸c˜oes . . . 64

3.2.2 Crit´erios de paragem . . . 66

3.3 Convergˆencia Local do M´etodo de Newton . . . 70

3.4 M´etodo de Newton Modificado . . . 73

3.4.1 Atualiza¸c˜ao Peri´odica da Matriz Jacobiana . . . 73

3.4.2 Aproxima¸c˜ao da Matriz Jacobiana por Diferen¸cas Divididas . . . . 74

4 Algoritmos para Otimiza¸cão não Linear de M´ınimos Quadrados 75 4.1 Método de Gauss-Newton . . . 76

4.2 M´etodo de Levenberg-Marquardt . . . 83

4.3 Problemas de M´ınimos Quadrados com Res´ıduos Grandes . . . 85

4.3.1 Problemas de Grande Escala . . . 86

4.4 Regress˜ao de Distˆancias Ortogonais . . . 86

4.5 Compara¸c˜ao de Algoritmos . . . 89

Conclus˜oes 97 A Matrizes de Hankel 101 A.1 Caso da regress˜ao linear polinomial quando m = n . . . 101

A.2 Caso da regress˜ao linear polinomial geral (m > n) . . . 104

A.3 Caso da regress˜ao linear geral . . . 105

A.3.1 Existˆencia de solu¸c˜ao . . . 105

A.3.2 Condi¸c˜oes para a unicidade da solu¸c˜ao . . . 106

A.3.3 Qualifica¸c˜ao das solu¸c˜oes como minimizantes globais . . . 107

B Ordens de Convergˆencia 109

(17)

Enquadramento

Em todas as situa¸cões o ser humano procura melhorar, isto é, optimizar o que tem, o que é. O mesmo se passa na Natureza. Por exemplo: os corpos tendem a ocupar a posi¸cão de menor energia poss´ıvel; a luz escolhe o caminho mais rápido entre dois pontos. . . Da´ı que seja natural a importância de estudar a optimiza¸cão, dado que melhoramos a nossa vida e entendemos melhor a natureza.

Supondo que conseguimos quantificar os principais descritores de uma dada situa¸cão podemos estabelecer um modelo matemático baseado em variáveis que suporemos reais. Dessa forma, o esfor¸co requerido para obter um benef´ıcio desejado em qualquer situa¸cão prática pode ser expresso como uma fun¸cão (de variáveis de decisão). A optimiza¸cão pode ser definida como o processo de encontrar as condi¸cões que nos dão o m´ınimo ou o máximo valor de uma fun¸cão. O termo óptimo refere-se a um m´ınimo ou a um máximo dependente das circunstâncias. Na verdade, óptimo é um termo técnico que implica a possibilidade de medi¸cões quantitativas e é mais forte que o termo melhor que é mais apropriado no uso da linguagem natural quotidiana. Da mesma forma, o termo optimizar é mais forte que o termo melhorar. A Teoria da Optimiza¸cão é o ramo da Matemática que engloba o estudo quantitativo dos ótimos e dos métodos que permitem encontrá-los.

Com o advento dos computadores digitais de elevada velocidade de processamento os métodos de optimiza¸cão sofreram avan¸cos gigantescos. Na verdade, nos últimos cin-quenta anos foram estabelecidos muitos métodos de optimiza¸cão definidos por algoritmos. Ao mesmo tempo que esse desenvolvimento se dava, os computadores eletrónicos digitais tornaram-se sucessivamente mais rápidos e com acesso a muito mais memória. Ou seja, tornaram-se mais versáteis e mais eficientes. Como consequência, é agora poss´ıvel resolver problemas de optimiza¸cão muito complexos que eram considerados intratáveis no passado. A abordagem mais poderosa para desenvolver algoritmos práticos de optimiza¸cão é a que se baseia em métodos numéricos iterativos, tendo como finalidade a sua implementa¸cão em programas executados por computadores digitais. Na verdade, estes processos permi-tem resolver problemas de elevada complexidade que nunca poderiam ser resolvidos por métodos anal´ıticos e gráficos (ou outros baseados em simula¸cões experimentais).

(18)

O Problema de Optimiza¸

c˜

ao B´

asico

Antes da optimiza¸cão ser levada a cabo, o problema deve ser corretamente formulado. Um critério de performance tem de ser estabelecido em fun¸cão de n variáveis de decisão x1, x2, . . . , xn, como

F = f (x1, x2, . . . , xn) (1)

onde F ´e uma fun¸c˜ao real.

O mais básico problema de optimiza¸cão consiste em ajustar as variáveis de decisão x1, x2, . . . , xn de tal forma que minimizem a fun¸cão F . Para simplificar a nota¸cão deve

usar-se nota¸c˜ao vetorial. Assim, se x for um vector coluna de componentes x1, x2, . . . , xn,

temos

x> = [x1, x2, . . . , xn] ∈ Rn.

Usando esta nota¸cão, o problema básico de optimiza¸cão pode formular-se como1:

minimize F = f (x) _{para x ∈ R}n. (2)

Um problema similar surge em aplica¸cões cient´ıficas e de engenharia quando uma fun¸cão de x que se pretende optimizar é também uma fun¸cão de uma variável real independente t (i.e. tempo, posi¸c˜_{ao, velocidade) que toma valores num intervalo [a, b] ⊂ R. Neste caso,} a optimiza¸cão visará ajustar os valores de x1, x2, . . . , xn de tal forma que se optimize a

fun¸cão objectivo quando t varia ao longo de [a, b]. Nestas aplica¸cões é comum amostrar (ou tabelar) a fun¸cão objectivo fazendo variar a variável t. Neste caso, define-se a fun¸cão vetorial

F(x) = [f (x, t1), f (x, t2), . . . , f (x, tm)] >

∈ Rm. (3)

cujas componentes s˜ao os valores obtidos quando a vari´avel t toma os valores t = t1, t2, . . . , tm.

Adicionalmente, se definirmos

fi ≡ f (x, ti) , i = 1, 2, . . . , m

podemos de novo escrever

F(x) = [f1(x), f2(x), . . . , fm(x)] >

∈ Rm_. ₍₄₎

Uma solu¸cão de um tal problema pode ser obtida optimizando simultaneamente as fun¸cões fi para i = 1, 2, . . . , m. Esta solu¸cão pode, evidentemente, ser apenas aproximada porque

qualquer varia¸cão de f (x, t) entre pontos da tabela é ignorada. Contudo, uma solu¸cão razoável pode ser obtida na prática usando um número suficientemente grande de pontos amostrais.

Problemas deste tipo podem ser resolvidos se definirmos uma fun¸cão objectivo escalar em termos das componentes da fun¸cão vetorial F(x). A fun¸cão objectivo deve ser escalar

1_{Se o objectivo consistir em encontrar o m´}_{aximo da fun¸}_c˜_{ao f , ent˜}_{ao esse problema pode ser convertido}

facilmente num problema de minimiza¸cão uma vez que max [f (x)] = − min [−f (x)]. Consequentemente, trataremos só problemas de minimiza¸cão sem perda de generalidade.

(19)

e a optimiza¸cão tem de conduzir à optimiza¸cão de todas as componentes de F(x) usando um qualquer critério. É fácil de verificar que uma boa escolha é fazer uso de uma norma. Assim, uma fun¸cão objectivo pode ser definida em termos da norma Lp de Holder como

F ≡ Lp = ( _m X i=1 |fi(x)| p )1/p (5) onde p ∈ N.

Alguns casos especiais da norma Lp assumem interesse particular. Se p = 1

F ≡ L1 = m

X

i=1

|fi(x)| (6)

e, portanto, trata-se de minimizar a soma dos valores absolutos das componentes. Este problema designa-se habitualmente por problema L1.

Fazendo tender p para infinito e se assumirmos que existe um ´unico m´aximo de |fi(x)|

designado por ˆF tal que

ˆ

F = max

1≤i≤m|fi(x)|

ent˜ao podemos escrever

F ≡ L∞ = lim p→+∞ ( _m X i=1 |fi(x)|p )1/p = Fˆ lim p→+∞ ( _m X i=1 fi(x) ˆ F p)1/p

Como todos os termos do somatório excepto um são estritamente menores que um, a potência p desses termos tenderá para zero quando p → +∞. Então, obtemos que

F = ˆF = max

1≤i≤m|fi(x)| .

Usando este crit´erio, estaremos a tomar a norma L∞. Neste caso vai-se minimizar a

componente que em valor absoluto ´e a maior. Trata-se de um problema minimax.

No entanto, o caso mais not´avel resulta de tomarmos p = 2. Nesse caso a norma Euclideana F ≡ L2 = ( _m X i=1 |fi(x)| 2 )1/2 (7) ´

e minimizada, e se a raiz quadrada for omitida, a soma dos quadrados das componentes é minimizada. Este problema é designado normalmente por problema de m´ınimos quadrados. Dedicaremos esta disserta¸cão ao estudo desta classe de problemas.

(20)

Uma variante interessante destes problemas resulta se tomarmos coeficientes de pon-dera¸cão w1, w2, . . . , wn∈ R+ (também designados por pesos). Neste caso, a fun¸cão

objec-tivo de m´ınimos quadrados ser´a

F =

m

X

i=1

|wifi(x)|2

para enfatizar certas componentes como importantes ou cr´ıticos e para relaxar outras com-ponentes por serem menos importantes. Esta variante costuma ser designada por problema de m´ınimos quadrados ponderados. Se F for minimizada, os erros residuais wifi(x) no fim

da minimiza¸c˜ao tender˜ao a ser da mesma ordem de grandeza, ou seja erro em |wifi(x)| ≈

e ent˜ao

erro em |fi(x)| ≈

|wi|

Daqui decorre que se for usado um valor positivo elevado para wi (correspondente a fi(x)),

obter-se-´a um pequeno erro residual |fi(x)|, tal como pretendido.

Modelos de Regress˜

ao

Nos problemas de optimiza¸c˜ao de m´ınimos quadrados, a fun¸c˜ao objectivo f tem a seguinte forma especial:

f (x) =

m

X

j=1

r2_j(x) (8)

onde cada rj é uma fun¸cão suave de Rn em R. Designa-se cada rj como fun¸cão res´ıduo e

assume-se que m ≥ n.

Os problemas de optimiza¸cão de m´ınimos quadrados surgem em muitas áreas de aplica¸cão e podem mesmo ser considerados a fonte da maior parte dos problemas de optimiza¸cão não linear sem restri¸cões. Muitos dos cientistas e engenheiros que formulam modelos parame-trizados para uma aplica¸cão qu´ımica, f´ısica, financeira ou económica usam uma formula¸cão do tipo (8) para medir a discrepância entre o modelo e o comportamento observado para o sistema em estudo. Por minimiza¸cão dessa fun¸cão, selecionam-se os valores dos parâmetros que melhor ajustam o modelo aos dados no sentido dos m´ınimos quadrados. Este processo ´

e conhecido na ´area da Estat´ıstica como regress˜ao.

Discutiremos um modelo parametrizado simples e mostraremos como as t´ecnicas de m´ınimos quadrados fazem sentido na escolha de parˆametros que melhor se ajustam um modelo a dados experimentais observados.

(21)

Exemplo: Concentra¸cão sangu´ınea de um fármaco Suponha-se que estamos in-teressados em estudar o efeito de um certo medicamento no tratamento de um paciente. Faremos colheitas de amostras do sangue sucessivas após a administra¸cão do fármaco ao doente. Após cada colheita determina-se experimentalmente a concentra¸cão do medica-mento no sangue do doente. Constrói-se assim uma tabela dessa concentra¸cão yj que foi

registada na colheita tomada no instante tj.

Baseados nas nossas experiências anteriores e conhecimento dos fenómenos bioqu´ımicos envolvidos, sabemos que a seguinte fun¸cão φ(x; t) permite uma boa predi¸cão da concen-tra¸cão no instante t, para valores apropriados do parâmetro vectorial x = [x1, x2, x3, x4, x5]T:

φ(x; t) = x1+ tx2+ t2x3+ x4e−x5t. (9)

Escolheremos o parâmetro vectorial x por forma que o modelo melhor se ajuste às ob-serva¸cões experimentais seguindo um certo critério. Veremos à frente que uma boa medida das discrepâncias entre a predi¸cão do modelo e as observa¸cões experimentais é a seguinte fun¸cão de m´ınimos quadrados:

1 2 m X j=1 [φ(x, tj) − yj]2, (10)

que soma os quadrados das diferen¸cas entre as predi¸cões do modelo e as observa¸cões em cada tj. Esta fun¸cão tem a forma da fun¸cão (8) se definirmos

rj(x) = φ(x; tj) − yj , j = 1, 2, . . . , m. (11)

Este modelo é um exemplo do que em Estat´ıstica se chama modelo fixo de regressão. Assume-se que os instantes tj das colheitas de sangue são medidos com grande precisão,

enquanto que as observa¸cões yj estão afetados de um erro experimental devido às limita¸cões

do equipamento e das t´ecnicas de medida.

Em geral, nos problemas deste tipo (ajuste de curvas a dados observados), a vari´avel t no modelo φ(x; t) pode ser um vector em vez de um escalar2_.

A fun¸cão soma de quadrados (10) não é o único processo para medir as discrepâncias entre o modelo e as observa¸cões. Outras medidas comuns incluem o máximo valor absoluto

max

j=1,2,...,m|φ(x; tj) − yj| (12)

e a soma dos valores absolutos

m

X

j=1

|φ(x; tj) − yj| . (13)

2 _{No exemplo descrito, a vari´}_{avel t pode ter duas dimens˜}_{oes, com a primeira dimens˜}_{ao a representar o}

tempo decorrido desde a administra¸cão do fármaco e a segunda dimensão a representar o peso do paciente. Podemos recolher uma tabela referente a uma popula¸cão de doentes em vez de nos fixarmos num só indiv´ıduo. Desta forma podia-se obter os “melhores” parâmetros para o modelo tendo em conta toda a popula¸cão de doentes

(22)

Usando a defini¸c˜ao das normas L∞ e L1, podemos reescrever estas medidas como

f (x) = kr(x)k_∞ e f (x) = kr(x)k₁, (14)

respectivamente. N˜ao nos dedicaremos aqui a estes problemas3_{. Neste trabalho}

dedicar-nos-emos à formula¸cão em termos da norma L2 (10). Se admitirmos algumas hipóteses

muito razoáveis há motiva¸cões de ordem estat´ıstica que apontam para o critério dos m´ınimos quadrados como sendo o melhor critério a usar. Mudando um pouco a nota¸cão, denotaremos as discrepâncias entre o modelo e as observa¸cões por j, ou seja

j = φ(x; tj) − yj.

Por vezes é razoável assumir que os j’s são variáveis aleatórias independentes e

iden-ticamente distribu´ıdas4 _{com uma certa variˆ}_{ancia σ}2 _{e fun¸c˜}_{ao densidade de}

probabili-dade gσ(·). Assim, a fun¸c˜ao verosimilhan¸ca de um conjunto particular de observa¸c˜oes

yj, j = 1, 2, . . . , m, dado que o parâmetro vectorial é x, é dada por

℘(y; x, σ) = m Y j=1 g (j) = m Y j=1 g (φ(x; tj) − yj) . (15)

Dadas as observa¸c˜oes y1, y2, . . . , ym, o valor “mais plaus´ıvel” de x neste enquadramento ser´a

o que corresponde `a estimativa de m´axima verosimilhan¸ca. Ou seja, a que corresponde a maximizar ℘(y; x, σ) relativamente ao vector x.

Quando se assume que as discrepˆancias seguem uma distribui¸c˜ao normal, temos gσ() = 1 √ 2πσ2 exp − 2 2σ2 . Substituindo em (15) obtemos ℘(y; x, σ) = (2πσ2)−m/2 exp − 1 2σ2 m X j=1 [φ(x; tj) − yj]2 ! .

Ora, para qualquer valor fixo da variˆancia σ2_{, ´}_{e ´}_{obvio que ℘ ´}_{e maximizado quando a soma}

de quadrados (10) é minimizada. Para sumarizar: Quando as discrepâncias se assumem como independentes e identicamente distribu´ıdas seguindo uma fun¸cão distribui¸cão normal, a estimativa da máxima verosimilhan¸ca é obtida minimizando a soma de quadrados dos desvios.

3 _{Na verdade, a melhor abordagem destes problemas ´}_{e uma formula¸}_c˜_{ao de optimiza¸}_c˜_{ao n˜}_{ao linear com}

restri¸c˜oes envolvendo algoritmos espec´ıficos para esses casos.

4 _{Esta hip´}_{otese ´}_{e muito plaus´ıvel, por exemplo, quando o modelo reflete bem as caracter´ısticas do}

fenómeno em estudo e quando o erro nas observa¸cões não estão afetadas de um erro sistemático sempre do mesmo sinal.

(23)

Objetivos Gerais do Trabalho

Nesta disserta¸cão pretende-se estudar problemas de optimiza¸cão de m´ınimos quadrados usando uma abordagem algor´ıtmica e computacional baseada em exemplos. Dizendo de outra forma, pretendemos apresentar um estudo de métodos construtivos para resolver problemas de optimiza¸cão não linear sem restri¸cões quando a fun¸cão objectivo é uma soma de quadrados. Assim, o objectivo é não só um estudo teórico dos métodos mas também a sua aplica¸cão a exemplos selecionados na literatura usando o ambiente MATLAB para efetuar ensaios computacionais. A análise comparativa da performance dos vários algoritmos é também um objectivo do trabalho. Essa análise deverá ser ligada às vantagens e desvantagens dos diferentes métodos descritos na literatura.

Pretende-se fazer uma revisão da regressão linear como introdu¸cão à regressão não linear. Não podendo ser exaustivo na panóplia de métodos a estudar escolhemos os métodos de gradiente. Assim, os importantes métodos de grau zero (derivative-free optimization) ficam fora do âmbito deste trabalho. No entanto, nos resultados computacionais esses métodos são referidos porque o comando fminsearch do MATLAB implementa um método desse tipo.

Descrevem-se os conhecidos métodos de Gauss-Newton e de Levenberg-Marquardt. Para efeitos de compara¸cão também se estudam os métodos Quasi-Newton (DFP e BFGS). Inclui-se um grande número de exemplos que permitem atribuir um cariz prático e com-putacional a esta disserta¸cão.

Organiza¸

c˜

ao da Disserta¸

c˜

ao

No Cap´ıtulo 1 iniciaremos o nosso estudo pelos modelos mais simples de regressão linear. Apresentamos a dedu¸cão do sistema linear de equa¸cões que conduz à reta dos m´ınimos quadrados e aos polinómios de m´ınimos quadrados. Faz-se uma referência ao uso de polinómios ortogonais nesse contexto. O caso da regressão linear múltipla é abordado com base num exemplo. Apresenta-se depois o problema da regressão linear geral. Ainda no Cap´ıtulo 1, passa-se ao tratamento do caso não linear. Discutem-se algumas técnicas de lineariza¸cão que dão bons resultados no ajuste de algumas classes de fun¸cões não lineares. Este cap´ıtulo termina com dois exemplos apresentando modelos intrinsecamente não linea-res (que não admitem lineariza¸cão poss´ıvel). Esses exemplos introduzem a necessidade de estudar algoritmos de minimiza¸cão e também de algoritmos de resolu¸cão de sistemas não lineares de equa¸cões. A liga¸cão ao cap´ıtulo seguinte fica estabelecida de forma natural.

O Cap´ıtulo 2 faz uma revisão breve da teoria de optimiza¸cão não linear sem restri¸cões. Apresentam-se os métodos clássicos de gradiente: Steepest Descent e Newton-Raphson. Alguns resultados acerca da convergência local desses métodos são apresentados. Dedica-se depois o devido espa¸co às modifica¸cões do método de Newton para obter convergência global. Por fim, tratam-se os populares métodos Quasi-Newton: DFP (Davidon, Fletcher e Powell) e BFGS (Broyden, Fletcher, Goldfarb e Shanno). Exemplos de aplica¸cão destes métodos são apresentados em detalhe.

(24)

A optimiza¸cão dos m´ınimos quadrados está intimamente relacionada com métodos de resolu¸cão de sistemas não lineares de equa¸cões. Esta constata¸cão é explicada na abertura do Cap´ıtulo 3. Torna-se natural reintroduzir o método de Newton no enquadramento dos sistemas não lineares de equa¸cões. Discutem-se condi¸cões suficientes de convergência do Método de Newton e do Método de Newton modificado. Estratégias de aproxima¸cão da matriz Jacobiana por processos de atualiza¸cão relaxada ou por meio de diferen¸cas finitas completam o cap´ıtulo.

O Cap´ıtulo 4 dedica-se exclusivamente a algoritmos de optimiza¸cão não linear de m´ınimos quadrados. Estes algoritmos fazem sentido quando a fun¸cão objectivo é uma soma de quadrados. Cada uma dessas parcelas designa-se por res´ıduo. Na hipótese dos res´ıduos serem pequenos o método de Newton pode ser simplificado conduzindo ao conhe-cido método de Gauss-Newton. Este método apresenta bom comportamento local, ou seja, próximo do óptimo mas pode ter dificuldades de convergência global. Para obviar isso, somos conduzidos ao moderno método de Levenberg-Marquardt que usa uma dire¸cão de busca que varia entre a dire¸cão de Cauchy e a dire¸cão de Newton. Ainda no Cap´ıtulo 4 são abordados alguns tópicos mais avan¸cados:

Problemas de m´ınimos quadrados com grandes res´ıduos; Problemas de grande dimens˜ao;

Problemas de m´ınimos quadrados ponderados; Problemas de distˆancias ortogonais.

O Cap´ıtulo 4 termina com a apresenta¸cão de alguns exemplos resolvidos pelos vários algorit-mos estudados nesta disserta¸cão. Fazem-se algumas análises comparativas da performance dos vários métodos. Para isso usam-se comandos da optimization toolbox do MATLAB (fminsearch e fminunc ) e também programas publicados por vários autores nos sites que acompanham livros da área da optimiza¸cão não linear.

Deixou-se para apêndice o estudo de algumas propriedades das matrizes de Hankel que garantem a existência e a unicidade da solu¸cão dos problemas de regressão linear geral. Esse é o tema do Apêndice A. No Apêndice B são apresentadas as defini¸cões de ordem e razão de convergência de uma sucessão convergente.

No Apêndice A fizemos uma abordagem original nas se¸cões A2 e A3, apresentando uma prova sobre a existência e unicidade da solu¸cão do problema de m´ınimos quadrados no caso polinomial e provamos também a existência de solu¸cão para o problema de m´ınimos quadrados linear geral.

(25)

Problemas de M´ınimos Quadrados

Em vários campos cient´ıficos são feitas experiências e são encontrados conjuntos de valores que podem ser apresentados numa tabela. Neste caso temos uma fun¸cão f (x) conhecida só numa tabela de valores, onde as abcissas xi são valores exatos e os f (xi)

x0 x1 x2 . . . xm

f (x0) f (x1) f (x2) . . . f (xm)

s˜ao dados observados que normalmente est˜ao sujeitos a erros experimentais. Considera-se Considera-sempre que xi 6= xj para i 6= j. A partir desses resultados, procuram-se encontrar

rela¸cões matemáticas entre as variáveis em estudo. Noutros casos tem-se em mãos fun¸cões f (x) definidas por expressões algébricas muito complexas (por exemplo fun¸cões definidas por integrais, fun¸cões definidas por soma de séries, etc). Surge assim a necessidade de encontrar uma nova fun¸cão g(x) que melhor se ajusta aos dados no primeiro caso ou melhor se aproxima de f (x), num intervalo [a, b] de R, no segundo caso.Sendo assim podemos destacar dois casos de ajuste de fun¸cões:

1. O caso discreto em que a fun¸c˜ao f (x) ´e conhecida numa tabela de valores.

0

y

(26)

2. O caso cont´ınuo em que f (x) é uma fun¸cão cont´ınua definida por uma expressão alg´_{ebrica num intervalo [a, b] ⊂ R.}

0 y x a _b f (x) g(x)

Neste trabalho faremos uma abordagem sobre o caso discreto do ajuste de fun¸cões. Dada uma fun¸cão através de uma tabela de valores (xi, f (xi)), i = 0, 1, 2, . . . , m e

x0, x1, x2, . . . , xm pertencentes a um intervalo [a, b] de R, pretende-se determinar uma

fun¸cão g(x) que melhor se aproxima de f (x), isto é, uma fun¸cão g(x) deve ser deter-minada de tal modo que a diferen¸ca f (x) − g(x) seja m´ınima. Esta diferen¸ca é chamada desvio ou res´ıduo. Assim considerando di = f (xi) − g(xi) deve-se obter g(x) de forma que

di seja pequeno para cada i ∈0, 1, 2, . . . , m .

0 x d0 d₁ d2 d3 d4 d5 d6 dm x y

Há vários critérios para determinar a fun¸cão g(x). Um desses critérios é minimizar a soma dos desvios, isto é, minimizar Pm

i=0di. Esse crit´erio ´e inadequado na medida em que

os di podem ter sinais contr´arios e, neste caso, corre-se o risco de ter um valor m´ınimo da

soma dos desvios sem que necessariamente cada um dos desvios seja m´ınimo.

Outro critério para encontrar g(x) é através da minimiza¸cão da soma dos valores ab-solutos dos desvios. Este critério também se revela-se inadequado visto que quando se

(27)

aplicam as condi¸cões necessárias de m´ınimo, ou seja, quando se aplicam as derivadas sur-gem problemas já que, como sabemos a fun¸cão modular não é diferenciável na origem.

O critério mais adequado é o critério dos m´ınimos quadrados, como vimos na In-trodu¸cão. Esse critério consiste em minimizar o quadrado dos desvios, ou seja, minimizar Pm

i=0d 2 i.

Segundo [6] esse método é o que apresenta maiores vantagens, de entre as quais a convexidade da fun¸cão aproximante g(x), no caso linear.

O Método dos M´ınimos Quadrados é uma das técnicas de ajuste de curvas mais utili-zadas. Este facto é derivado da sua simplicidade e também da capacidade de reduzir os erros provenientes das medi¸cões, pois geralmente assumimos que o número de pontos que serão ajustados são muito maiores do que o número de parâmetros a determinar da fun¸cão aproximante g(x).

1.1 Regress˜

ao Linear

O caso mais simples de aproxima¸cão por m´ınimos quadrados consiste em ajustar uma reta a uma tabela de dados, onde os xi são valores exatos e os yi = f (xi) são valores

provenientes de experiˆencias, com erros de observa¸c˜ao. Assim, dados um conjunto de pontos distintos (xi, yi) , i = 0, 1, 2, . . . , m, m > 2, devemos determinar a reta que melhor

se aproxima de f (x) segundo o crit´erio de m´ınimos quadrados.

0

y

x

O modelo para ajustar os pontos por uma reta ´e y = a1x + a0 + , em que a0 e a1 s˜ao

coeficientes a determinar e o erro, desvio ou res´ıduo entre o modelo e conjunto dos pontos observados. Assim, pretendemos determinar a0 e a1de modo que [

Pm

i=0(a1xi+ a0− yi)2] 1/2

seja m´ınimo. Isto equivale a determinar o minimizante dePm

i=0(a1xi+ a0− yi) 2_.

di = a1xi + a0− yi representa o erro da reta no ponto i.

d2_i = (a1xi+ a0− yi)2 representa o erro quadr´atico da reta no ponto i.

q(a0, a1) = m

X

i=0

(28)

´

e soma dos erros quadráticos que pretendemos minimizar. Para determinar os parâmetros a1 e a0 da equa¸cão (1.1), devemos aplicar a condi¸cão necessária de otimalidade, isto é,

calcular as derivadas parciais de q em rela¸cão a cada um dos parâmetros e igualá-las a zero. ∂q ∂a0 = 2 m X i=0 (a1xi+ a0− yi) = 0 (1.2) ∂q ∂a1 = 2 m X i=0 (a1xi+ a0− yi)xi = 0. (1.3) Considerando que, m X i=0 (a1xi + a0− yi) = m X i=0 a1xi+ m X i=0 a0 − m X i=0 yi = m X i=0 xi ! a1+ (m + 1) a0− m X i=0 yi e que m X i=0 (a1xi+a0−yi)xi = m X i=0 a1x2i+ m X i=0 a0xi− m X i=0 xiyi = m X i=0 x2_i ! a1+ m X i=0 xi ! a0− m X i=0 xiyi,

formamos o seguinte sistema de equa¸cões, denominadas “equa¸cões normais” do problema, cujas incógnitas são os parâmetros a1 e a0 da equa¸cão y = a1x + a0.

( (m + 1) a0+ ( Pm i=0xi) a1 = Pm i=0yi (Pm i=0xi) a0+ ( Pm i=0x 2 i) a1 = Pm i=0xiyi . (1.4)

Resolvendo o sistema (1.4) usando a regra de Cramer, obtemos:

a1 = (m + 1)Pm i=0xiyi− Pm i=0xi Pm i=0yi (m + 1)Pm i=0x2i − ( Pm i=0xi) 2 (1.5)

e substituindo na primeira equa¸c˜ao, vem a0 = Pm i=0yi− ( Pm i=0xi) a1 (m + 1) . (1.6)

Com isso levantamos as seguintes questões: O sistema linear definido em (1.4) tem sempre solu¸cão? E tendo solu¸cão essa solu¸cão é única? Além disso, essa solu¸cão é sempre um minimizante local (e global) da fun¸cão q(a0, a1)?

Para responder a essas questões comecemos por mostrar que o sistema de equa¸cões (1.4) pode ser escrito em nota¸cão matricial como

(29)

onde X =        1 x0 1 x1 1 x2 .. . ... 1 xm        (1.8) a =a0 a1 e y =      y0 y1 .. . ym     

. Com efeito, considerando X definido em (1.8), temos que

XTX = 1 1 1 · · · 1 x0 x1 x2 · · · xm        1 x0 1 x1 1 x2 .. . ... 1 xm        = m + 1 Pm i=0xi Pm i=0xi Pm i=0x 2 i e XTy = 1 1 1 · · · 1 x0 x1 x2 · · · xm      y0 y1 .. . ym      = Pm i=0yi Pm i=0xiyi .

De seguida apresentaremos uma proposi¸cão que garante a existência e unicidade da solu¸cão do sistema (1.4), desde que a caracter´ıstica da matriz X seja dois, isto é, as colunas de X devem ser linearmente independentes.

Proposi¸c˜_{ao 1.1 Se X ∈ R}(m+1)×n_{, tem caracter´ıstica n, a matriz A = X}T_{X, de dimens˜}_ao

n × n, ´e sim´etrica e definida positiva.

Prova: A matriz A = XT_{X ´}_{e sempre sim´}_{etrica. Por outro lado A ´}_{e definida positiva se}

zT_{Az > 0 para todo z ∈ R}n\{0}. Com efeito, zT_{Az = z}T_XT_{Xz = (Xz)}T_{Xz = kXzk}2 2 > 0

para todo z 6= {0}, uma vez que rank(X) = n. 2

Agora para provar que o sistema (1.4) tem sempre solu¸cão e a solu¸cão é única, basta provar que a caracter´ıstica da matriz X definida em (1.8) é dois. Para isso consideremos λ1 e λ2

reais e mostremos que

(30)

Com efeito, de (1.9), vem que                λ1+ λ2x0 = 0 λ1+ λ2x1 = 0 λ1+ λ2x2 = 0 .. . λ1+ λ2xm = 0 ⇒                λ2(x0− x1) = 0 .. . ⇒                λ2 = 0 ∨ x0− x1 = 0 .. . ⇒                λ2 = 0 .. .

uma vez que x0− x1 6= 0, por serem os xi todos diferentes. Da´ı segue tamb´em que λ1 = 0.

Logo conclu´ımos que rank(X) = 2. Deste modo, fica provado que o sistema de equa¸cões (1.4) tem sempre solu¸cão e a solu¸cão é única.

Falta-nos provar que essa solu¸cão representa sempre um minimizante local (e global) da fun¸cão q(a0, a1). Para isso devemos provar que a matriz Hessiana de q(a0, a1) é definida

positiva, o que implica ser q(a0, a1) estritamente convexa1.

Seja H a matriz Hessiana de q(a0, a1). Assim temos:

H = " _∂2_q ∂a2 0 ∂2_q ∂a0∂a1 ∂2_q ∂a1∂a0 ∂2_q ∂a2 1 # = 2(m + 1) 2 P m i=0xi 2Pm i=0xi 2 Pm i=0x 2 i =h11 h12 h21 h22 .

Como H = 2A = 2XT_{X, ent˜}_{ao H ´}_{e definida positiva, uma vez que j´}_{a provamos que A}

´

e definida positiva. Assim, fica provado que a solu¸cão do sistema de equa¸cões (1.4) é um minimizante global de q(a0, a1) visto que, sendo a fun¸cão estritamente convexa, qualquer

ponto de estacionaridade ´e um minimizante global.

Exemplo 1.1 Determinar pelo m´etodo dos m´ınimos quadrados a equa¸c˜ao da reta que me-lhor se ajusta aos pontos da tabela

xi 0 2 4 6 9 11 12 15 17 19

yi 5 6 7 6 9 8 7 10 12 12

.

Resolu¸cão: Neste caso pretendemos determinar os parâmetros a1 e a0 da equa¸cão

y = a1x + ao. Para isso constru´ımos a Tabela 1.1.

P xi 0 2 4 6 9 11 12 15 17 19 95 yi 5 6 7 6 9 7 10 12 12 12 82 x2 i 0 4 16 36 81 121 144 225 289 361 1277 xiyi 0 12 28 36 81 88 84 150 204 228 911 Tabela 1.1: 1_{Ver Cap´ıtulo 2.}

(31)

Agora aplicando (1.5) e (1.6) temos a1 = 10 × 911 − 95 × 82 10 × 1277 − 952 ∼= 0.35247 e a0 ∼= 82 − 0.35247 × 95 10 ∼ = 4.85154.

Utilizando o MATLAB, facilmente obtemos os parˆametros a1 e a0 do modelo. Primeiro

introduzimos os vetores com os valores de x e y da tabela. A fun¸c˜ao em MATLAB para estimar parˆametros em modelos lineares polinomiais, pelo processo dos m´ınimos quadrados ´

e a fun¸c˜ao polyfit. Assim, fazendo polyfit(x,y,1) (em que 1 indica que o polin´omio ´

e de grau ≤ 1 e x e y respectivamente as abcissas e as ordenadas dos pontos), obtemos a1 ∼= 0.3525 e a0 ∼= 4.8515, ou seja, a reta que melhor se ajusta aos pontos da tabela em

termos de m´ınimos quadrados ´e y ∼= 0.3525x + 4.8515.

Exemplo 1.2 (Regressão linear de grau zero) O per´ıodo de um pêndulo foi medido por um cronómetro seis vezes. Como em cada medi¸cão ocorreram erros experimentais, obteve-se a seguinte tabela

Medi¸c˜ao i 0 1 2 3 4 5

Valor Medido pi (segundos) 31.7 30.8 32.1 31.9 30.9 32.0

Determine o melhor valor P para o per´ıodo do pêndulo, usando o critério dos m´ınimos quadrados. Resolu¸cão: 1 2 3 4 5 6 10 20 30 0 x y P

O modelo para este exemplo ´e y = P + ε, sendo ε o erro experimental. (P − pi) ´e o erro da reta no ponto i.

(32)

E(P ) =P5

i=0(P − pi)2 ´e a soma dos erros quadr´aticos a minimizar.

A condi¸cão necessária de m´ınimo de E(P ) é d E d P = 5 X i=0 d d P(P − pi) 2 _{= 0 ⇔} 5 X i=0 2(P − pi) = 0 ⇔ 5 X i=0 (P − pi) = 0 ⇔ 5 X i=0 P − 5 X i=0 pi = 0 ⇔ 6P = 5 X i=0 pi ⇔ P = 1 6 5 X i=0 pi.

Portanto, o valor de P é a média aritmética dos valores dos pi.

Em [37, pag. 260-261] encontramos um teorema que permite tra¸car a reta de regress˜ao linear com muita facilidade.

Teorema 1.1 A reta de regress˜ao linear y = a0+ a1x passa pelo ponto M , de coordenadas

(x, y), sendo x = Pm i=0xi m+1 e y = Pm i=0yi m+1 .

Prova: Este resultado ´e consequˆencia imediata de (1.6). 2

Agora para tra¸car a reta de regressão precisamos de mais um ponto. Esse ponto pode ser o ponto em que a abcissa é zero. Já vimos que a0 = y − xa1. Substituindo a1 por (1.5)

vem: a0 = y − x (m + 1)Pm i=0xiyi− Pm i=0xi Pm i=0yi (m + 1)Pm i=0x2i − ( Pm i=0xi) 2 = y[(m + 1) Pm i=0x 2 i − ( Pm i=0xi) 2 ] − x[(m + 1)Pm i=0xiyi − Pm i=0xi Pm i=0yi] (m + 1)Pm i=0x 2 i − ( Pm i=0xi) 2 , ou seja, a0 = P yiP x2i −P xiP xiyi (m + 1)P x2 i − (P xi)2 .

A obten¸c˜ao dos pontos P1 = (x, y) e P2 = (0, a0) permite-nos tra¸car a reta de regress˜ao.

1.2 Regress˜

ao Polinomial

Na seçcão anterior, foi apresentado um procedimento para determinar a equa¸cão da reta usando o método dos m´ınimos quadrados. Mas acontece que na maioria dos casos os dados representam fenómenos que não são bem ajustados por uma reta mas sim por uma curva. Nesses casos pode ser conveniente ajustar os dados usando um polinómio de grau superior a um.

Seja pn(x) ∈ P , com P o conjunto dos polin´omios, assim definido:

(33)

Pretende-se ent˜ao minimizar S = m X i=0 [f (xi) − pn(xi)] 2 , (1.11) onde m > n ou mesmo m n2_.

A determina¸cão dos parâmetros a0, a1, . . . an−1, an é feita calculando as n + 1 derivadas

parciais de (1.11) e impondo que _∂a∂S

k = 0, k = 0, 1, 2, . . . , n. Assim temos: ∂S ∂a0 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni) = 0 ∂S ∂a1 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)xi = 0 ∂S ∂a2 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)x 2 i = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)x n i = 0.

Com isso, formamos um sistema de n + 1 equa¸c˜oes lineares,                (m + 1)a0 + a1 Pm i=0xi+ · · · + an Pm i=0x n i = Pm i=0fi a0 Pm i=0xi+ a1 Pm i=0x 2 i + · · · + an Pm i=0x n+1 i = Pm i=0fixi a0 Pm i=0x 2 i + a1 Pm i=0x 3 i + · · · + an Pm i=0x n+2 i = Pm i=0fix2i .. . a0 Pm i=0x n i + a1 Pm i=0x n+1 i + · · · + an Pm i=0x 2n i = Pm i=0fix n i (1.12)

que é um sistema de equa¸cões lineares de Cramer com n + 1 equa¸cões e n + 1 incógnitas. Este problema é mal condicionado se n é elevado, isto é, a solu¸cão deste sistema é muito sens´ıvel a pequenas altera¸cões nos dados. A matriz deste sistema é uma forma especial de matrizes de Hankel. Estas matrizes são sempre invert´ıveis (ver Apêndice A). Logo o sistema (1.12) tem uma e uma só solu¸cão. No Apêndice A prova-se ainda que essa solu¸cão ´

e um minimizante global de S.

Exemplo 1.3 Ajustar, pelo m´etodo dos m´ınimos quadrados os pontos da Tabela 1.2 a um polin´omio do terceiro grau.

Resolu¸c˜ao: Com o comando polyfit(x,y,3) do MATLAB obtemos os parˆametros a3,

a2, a1 e a0 do polin´omio do terceiro grau. Neste caso, obtemos a3 ∼= 0.0467, a2 ∼= −1.0412,

a1 ∼= 7.1438 e a0 ∼= −11.4887. Ent˜ao, o polin´omio do terceiro grau que melhor se ajusta

aos dados da tabela ´e p3(x) ∼= 0.0467x3− 1.0412x2+ 7.1438x − 11.4887. O gr´afico da Figura

1.1 ilustra o ajuste deste exemplo.

2_{Se m ≤ n, ent˜}_{ao p}

(34)

xi 3 4 5 7 8 9 11 12 yi 1.6 3.6 4.4 3.4 2.2 2.8 3.8 4.6 Tabela 1.2: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 −2 2 4 6 8 0

Figura 1.1: Gr´afico do Exemplo 1.3.

1.2.1 Modelo com Polin´

omios Ortogonais

Dissemos anteriormente que o sistema (1.12) é mal condicionado se n é elevado, por ser muito sens´ıvel a pequenas altera¸cões nos dados (as matrizes de Hankel têm, nesse caso, um número de condi¸cão muito elevado). Assim, a resolu¸cão numérica do sistema de equa¸cões (1.12) é cr´ıtica em termos de acumula¸cão de erros de arredondamento, podendo haver instabilidade numérica. Uma forma de superar esta limita¸cão é a utiliza¸cão de polinómios ortogonais que faz com que o sistema de equa¸cões resultante seja de fácil resolu¸cão por ser um sistema diagonal.

Em [17, pag. 200-201] encontramos uma defini¸cão de polinómios ortogonais e uma propriedade sobre a rela¸cão de recorrência dos polinómios ortogonais que apresentaremos de seguida.

Defini¸c˜ao 1.1 Duas fun¸c˜oes f (x) e g(x) dizem-se ortogonais se o seu produto interno for nulo, ou seja, se hf (x), g(x)i = 0.

Propriedade 1.1 Os polinómios ortogonais satisfazem a seguinte rela¸cão de recorrência, Pi+1(x) = Ai(x − Bi)Pi(x) − CiPi−1(x), i = 1, 2, . . . , n − 1, (1.13)

(35)

sendo P0(x) = 1 (P−1 = 0 por conven¸c˜ao) e os coeficientes da rela¸c˜ao, Ai, Bi e Ci, definidos por: Ai = 1, para todo i (1.14) Bi = hxPi(x), Pi(x)i hPi(x), Pi(x)i , para todo i (1.15) C0 = 0 e Ci = hPi(x), Pi(x)i

hPi−1(x), Pi−1(x)i

, para i > 0. (1.16)

Suponhamos agora que pretendemos minimizar S =Pm

i=0[f (xi) − pn(x)] 2

, em que pn(x) =

a0P0(x) + a1P1(x) + a2P2(x) + · · · + anPn(x), sendo P0(x), P1(x), . . . , Pn(x) polin´omios

ortogonais e f ´e conhecida em m + 1 pontos. Calculando as derivadas parciais de S em ordem aos parˆametros a0, a1, a2, . . . , an e igualando a zero as derivadas parciais, vem:

∂S ∂a0 = 2 m X i=0 (fi− a0P0(xi) − a1P1(xi) − · · · − anPn(xi))P0(xi) = 0 ∂S ∂a1 = 2 m X i=0 (fi − a0P0(xi) − a1P1(xi) − · · · − anPn(xni))P1(xi) = 0 ∂S ∂a2 = 2 m X i=0 (fi − a0P0(xi) − a1P1(xi) − · · · − anPn(xni))P2(xi) = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0P0(xi) − a1P1(xi) − · · · − anPn(xi))Pn(xi) = 0,

deste modo, formamos o seguinte sistema de equa¸c˜oes lineares:               

a0Pm_i=0P0(xi)P0(xi) + a1Pm_i=0P0(xi)P1(xi) + · · · + anPm_i=0P0(xi)Pn(xi) =Pm_i=0fiP0(xi)

.. . a0 Pm i=0Pn(xi)P0(xi) + a1 Pm i=0Pn(xi)P1(xi) + · · · + an Pm i=0Pn(xi)Pn(xi) = Pm i=0fiPn(xi) .

Mas sendo os polin´omios P0(x), P1(x), . . . , Pn(x) ortogonais, teremos que Pj(xi)Pk(xi) = 0,

∀j 6= k, da´ı o sistema reduz-se `a forma diagonal, tendo-se desta forma:

aj = Pm i=0Pj(xi)fi Pm i=0Pj(xi)Pj(xi) , j = 0, 1, 2, . . . , n. (1.17)

(36)

Exemplo 1.4 Calcular a solu¸c˜ao do problema min 9 X i=0 [fi− g(xi, a)] 2 (1.18)

a partir da Tabela 1.3 da fun¸c˜ao f .

xi 0 1 2 3 4 6 8 10 15 20

fi 4.0 4.7 4.9 5.3 6.1 6.7 6.9 7.2 7.1 7.5

Tabela 1.3:

Para o caso em que g(x; a) = a0P0(x) + a1P1(x) + a2P2(x), com P0(x), P1(x) e P2(x)

polin´omios ortogonais e a = [a0, a1, a2]T.

Resolu¸c˜ao: Primeiro, determinemos os polin´omios P0(x), P1(x) e P2(x), aplicando as

rela¸c˜oes de recorrˆencia dadas por (1.13). Assim, temos que: P0(x) = 1 e P1(x) = A0(x −

B0)P0(x) − C0P−1(x). Sendo C0 = 0, A0 = 1 e P0(x) = 1, temos que P1(x) = (x − B0), e

B0 = hxP0(x), P0(x)i hP0(x), P0(x)i = P9 i=0xi P9 i=01 = 69 10 = 6.9. Assim, P1(x) = x − 6.9. P2(x) = A1(x − B1)P1(x) − C1P0(x), com B1 = hxP1(x), P1(x)i hP1(x), P1(x)i = P9 i=0xi(xi− 6.9)2 P9 i=0(xi− 6.9)2 = 4689.09 378.9 ∼ = 12.37553 e C1 = hP1(x), P1(x)i hP0(x), P0(x)i = P9 i=0(xi− 6.9) 2 P9 i=0 = 378.9 10 = 37.8, da´ı, temos ent˜ao P2(x) = (x − 12.37553)(x − 6.9) − 38.89.

a0 = P9 i=0P0(xi)f (xi) P9 i=0P0(xi)P0(xi) = 63.4 10 = 6.34 a1 = P9 i=0P1(xi)f (xi) P9 i=0P1(xi)P1(xi) = 59.24 378.9 ∼ = 0.156347 a2 = P9 i=0P2(xi)f (xi) P9 i=0P2(xi)P2(xi) = −284.682 12489.63 ∼_{= −0.02279} logo, g(x) = 6.34 + 0.156347(x − 6.9) − 0.02279[(x − 12.37553)(x − 6.9) − 37.89].

(37)

−1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2 4 6 8 0 x y g(x)

Figura 1.2: Gr´afico do Exemplo 1.4.

1.3 Regress˜

ao Linear M´

ultipla

Um caso particular da regressão linear é o caso em que a variável dependente y é uma fun¸cão linear de duas ou mais variáveis independentes. Neste caso pretende-se avaliar a rela¸cão de uma variável de interesse y em rela¸cão a k variáveis zj, j = 1, 2, . . . , k. O modelo

para avaliar essa rela¸c˜ao ´e dado por

y = a0+ a1z1+ a2z2+ · · · + akzk+ ε, (1.19)

onde os zi representam as k variáveis independentes, os ai, i = 0, 1, . . . , k são os parâmetros

do modelo e ε o erro aleat´orio. Este modelo descreve um hiperplano no espa¸co k − dimensional dos {zi}.

As condi¸cões subjacentes à regressão linear múltipla são análogas às condi¸cões da re-gressão linear simples.

1.3.1 Regress˜

ao linear Bidimensional

Em muitos casos há necessidade de ajustar os dados experimentais, utilizando fun¸cões de duas variáveis. Nesse caso está-se perante uma regressão linear bidimensional, cujo modelo é y = a0+ a1z1+ a2z2+ ε.

Em regress˜ao linear bidimensional, pretende-se determinar a equa¸c˜ao do plano que melhor se ajusta a um conjunto de pontos de R3_{, em termos de m´ınimos quadrados, ou}

(38)

Figura 1.3: Regress˜ao M´ultipla – Caso Bidimensional

Exemplo 1.5 Pretende-se estimar pelo m´etodo dos m´ınimos quadrados os parˆametros ao,

a1 e a2 do modelo Y = a0+ a1z1+ a2z2 a partir dos dados apresentados na Tabela 1.4. Os

dados representam as vendas efetuadas por dez empregados de uma dada empresa, o número de anos de experiência de cada vendedor e a respetiva pontua¸cão no teste de inteligência. O problema da regressão consiste em determinar se o sucesso nas vendas pode ser medido em fun¸cão das duas variáveis explicativas utilizadas.

Vendedor A B C D E F G H I J Y 9 6 4 3 3 5 8 2 7 4 z1 6 5 3 1 4 3 6 2 4 2 z2 3 2 2 1 1 3 3 1 2 2 Tabela 1.4: Sendo:

Y → Vendas (em milh˜oes de euros). z1 → Anos de experiˆencia como vendedor.

(39)

Para determinar a rela¸cão linear de Y com as variáveis z1 e z2, calculemos os somatórios:                                    P 1 = 10 P z1 = 36 P z2 = 20 P z2 1 = 156 P z2 2 = 46 P z1z2 = 80 P Y = 51 P Y z1 = 214 P Y z2 = 116

e com isso formamos o sistema de equa¸c˜oes normais   10 36 20 36 156 80 20 80 46     a0 a1 a2  =   51 214 116  ,

cuja solu¸c˜ao ´e a0 ∼= −0.2627, a1 ∼= 0.74 e a2 ∼= 1.3390. Sendo os coeficientes de z1 e z2

ambos positivos, conclui-se que varia¸c˜oes positivas nas vari´aveis explicativas z1 e z2 levam

a aumentos nas vendas m´edias.

1.4 Regress˜

ao dos M´ınimos Quadrados Linear Geral

Os modelos de regress˜ao linear simples e polinomial abordados anteriormente podem ser ambos inclu´ıdos no seguinte modelo de regress˜ao linear de m´ınimos quadrados geral:

g(x) = a0h0(x) + a1h1(x) + a2h2(x) + · · · + anhn(x) (1.20)

em que h0(x), h1(x), h2(x), . . . , hn(x), são as n+1 fun¸cões base (subfun¸cões), a0, a1, a2, . . . , an

s˜ao os parˆametros a determinar os seus valores e m ≥ n + 1.

Para o caso de regress˜ao linear simples temos que h0(x) = 1 e h1(x) = x. Para o modelo

polinomial os hi(x), i = 0, 1, · · · , n s˜ao as potˆencias de x.

De notar que a linearidade neste caso é relativa aos parâmetros ai, i = 0, 1, . . . , n e não

em rela¸cão às fun¸cões h0(x), h1(x), h2(x), . . . , hn(x) que podem ser fun¸cões não lineares de

x, como por exemplo, h0(x) = ex, h1(x) = cos x, h2(x) = (1 − x3) sin x, etc.

Seja S(a0, a1, . . . , an) = m X i=0 [f (xi) − a0h0(xi) + a1h1(xi) + a2h2(xi) + · · · + anhn(xi)] 2 . (1.21) Para determinar os parˆametros a0, a1, . . . , an que minimizam S procede-se como nos casos

(40)

derivadas parciais de S em ordem aos ai e igualam-se a zero. ∂S ∂a0 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xi))h0(xi) = 0 ∂S ∂a1 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xni))h1(xi) = 0 ∂S ∂a2 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xni))h2(xi) = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xi))hn(xi) = 0.

Agora vem o sistema de equa¸c˜oes normais representada na forma matricial,      P h0(xi)h0(xi) P h0(xi)h1(xi) · · · P h0(xi)hn(xi) P h1(xi)h0(xi) P h1(xi)h1(xi) · · · P h1(xi)hn(xi) .. . ... · · · ... P hn(xi)h0(xi) P hn(xi)h1(xi) · · · P hn(xi)hn(xi)           a0 a1 .. . an      =      P f (xi)h0(xi) P f (xi)h1(xi) .. . P f (xi)hn(xi)      . (1.22) Exemplo 1.6 Aproximar f dada pela Tabela 1.5, por uma fun¸c˜ao do tipo g(x) = a0sin(x)+

a1cos(x), usando o crit´erio dos m´ınimos quadrados.

x 0 π/4 π/2

f (x) −1 0.71 2

Tabela 1.5:

Resolu¸c˜ao: Neste caso temos h0(x) = sin(x) e h1(x) = cos(x). Para determinar os

parˆametros a0 e a1 vamos resolver o sistema de equa¸c˜oes,

P2

i=0sin 2_(x

i)

P2

i=0sin(xi) cos(xi)

P2

i=0cos(xi) sin(xi)

P2 i=0cos 2_(x i) a₀ a1 = P2 i=0f (xi) sin(xi) P2 i=0f (xi) cos(xi) . Agora calculando os somat´orios passamos a ter o sistema de equa¸c˜oes

1.5 0.25 0.25 1.5 a0 a1 ∼₌ 2.502046 −0.49795 ,

(41)

No exemplo anterior verificou-se que o sistema normal tinha uma e uma só solu¸cão. Também sabemos que o conjunto de fun¸cões C = {sin x, cos x} é linearmente independente. Pode pensar-se que, desde que o conjunto de fun¸cões {h0(x), h1(x), . . . , hn(x)} seja l.i.,

então estará garantido que o sistema (1.22) tem solu¸cão única. Em princ´ıpio será assim, mas no caso geral não se pode afirmar isso. Vejamos o exemplo seguinte.

Exemplo 1.7 Aproximar f dada pela Tabela 1.6, por uma fun¸c˜ao do tipo g(x) = a0sin(x)+

a1cos(x), usando o crit´erio dos m´ınimos quadrados.

x π/4 π/4 + 2π π/4 + 4π

f (x) √2/2 √2/2 √2/2

Tabela 1.6:

Resolu¸c˜ao: Temos de novo h0(x) = sin(x) e h1(x) = cos(x). Tal como no exemplo

anterior, a determina¸c˜ao dos parˆametros a0 e a1 passa por resolver o sistema normal,

P2

i=0sin 2_(x

i)

P2

i=0sin(xi) cos(xi)

P2

i=0cos(xi) sin(xi)

P2 i=0cos2(xi) a0 a1 = P2 i=0f (xi) sin(xi) P2 i=0f (xi) cos(xi) .

Como sin(π/4 + 2kπ) = cos(π/4 + 2kπ) =√2/2, k = 0, 1, 2, ent˜ao chegamos ao sistema 1.5 1.5 1.5 1.5 a0 a1 =1.5 1.5 .

Este sistema é poss´ıvel mas indeterminado. Na verdade, a matriz do sistema não é in-vert´ıvel. O conjunto infinito de solu¸cões é {(a0, a1) ∈ R2 : a0+ a1 = 1}. Desta maneira

verificamos que a aproxima¸cão dos m´ınimos quadrados existe mas não é única. Note, por exemplo, que g(x) = sin(x) permite um ajuste óptimo com res´ıduos nulos. Da mesma forma, g(x) = cos(x) também permite um ajuste óptimo com res´ıduos nulos.

Considere-se a matriz Z, Z =        h0(x0) h1(x0) h2(x0) h3(x0) · · · hn(x0) h0(x1) h1(x1) h2(x1) h3(x1) · · · hn(x1) h0(x2) h1(x2) h2(x2) h3(x2) · · · hn(x2) .. . ... ... ... . .. ... h0(xm) h1(xm) h2(xm) h3(xm) · · · hn(xm)        . (1.23)

No Apêndice A provamos que o sistema de equa¸cões normais (1.22) tem uma e uma só solu¸cão se e somente se a matriz Z dada por (1.23) tem as colunas linearmente indepen-dentes. Obviamente estamos a supor que os pontos xj, j = 0, 1, . . . , m são distintos.

Também no Apêndice A se prova que a fun¸cão S(a0, a1, . . . , an) definida por (1.21) é

sempre convexa (mesmo no caso em que a solu¸cão do sistema (1.22) não é única). Então, o sistema normal de equa¸cões obtém pontos de estacionariedade que são minimizantes globais de S.

(42)

1.5 T´

ecnicas de Lineariza¸

c˜

ao

De acordo com [6] o modelo de regressão linear é uma técnica poderosa para ajustar a modelos lineares a um conjunto de dados. No entanto, a maioria dos fenómenos reais, sejam eles f´ısicos, qu´ımicos, biológicos ou outros dados experimentais obtidos em laboratórios representam uma rela¸cão não linear entre o modelo e os seus parâmetros. Sendo assim ´

e de extrema importância descobrir de que tipo é essa rela¸cão e quais os parâmetros que a caracterizam. De entre os modelos que representam rela¸cões não lineares com os seus parâmetros podemos distinguir dois tipos:

1. Modelos com fun¸cões intrinsecamente lineares. 2. Modelos com fun¸cões intrinsecamente não lineares.

O caso 1 é o nosso objeto de estudo nesta se¸cão, enquanto que o caso 2 será abordado na se¸cão seguinte.

Para o caso 1, podemos sempre através de mudan¸cas de variáveis ou aplicando trans-forma¸cões convenientes, encontrar uma rela¸cão linear entre o modelo e os parâmetros.

De seguida apresentaremos algumas técnicas de lineariza¸cão de fun¸cões.

1.5.1 Modelo Exponencial

Em muitos casos o diagrama de dispersão sugere que a fun¸cão pode ser aproximada por uma fun¸cão exponencial da forma y = αeβx, em que α e β são constantes reais positi-vas. Segundo [6] esse modelo é usado em muitos campos da engenharia para caracterizar quantidades que aumentam ou diminuem a uma taxa proporcional a seu valor absoluto. Supondo y > 0, podemos linearizar este modelo, aplicando logaritmo natural a ambos os membros da equa¸cão, passando assim a ter:

ln y = ln α + βx, (1.24)

desta forma, encontramos uma rela¸cão linear de ln y em fun¸cão de x, com declive β e ordenada na origem ln α. Este processo é chamado por vezes lineariza¸cão dos dados, visto que os pontos (xi, ln yi) estão “linearizados”.

(43)

y = αeβ x y x ln y ln α ln y = ln α + βx

Figura 1.4: Gr´aficos do modelo exponencial e do modelo linearizado.

Exemplo 1.8 Ajustar os dados da tabela seguinte a um modelo exponencial.

x −1.0 −0.5 0 0.5 1 1.5 2.0 2.5 3.0

y 0.157 0.234 0.350 0.522 0.778 1.162 1.733 2.586 3.858

Resolu¸c˜ao: Neste caso pretendemos ajustar os dados da tabela ao modelo y = αeβx_.

Apliquemos (1.24) e de seguida consideremos a seguinte mudan¸ca de vari´avel: ln y = t e ln α = γ. Assim, passamos a ter o modelo de regress˜ao linear simples.

t = γ + βx (1.25)

Consideremos a tabela seguinte com os valores das novas vari´aveis.

xi −1.0 −0.5 0 0.5 1 1.5 2.0 2.5 3.0

ti −1.852 −1.452 −1.050 −0.650 −0.251 0.150 0.550 0.95 1.35

xiti 1.852 0.726 0 −0.325 −0.251 0.225 1.1 2.375 4.05

.

Da tabela acima temos que: P xi = 9, P ti = −2.255, P xiti = 9.752 e P x2i = 24.

Aplicando (1.5) e (1.6), obtemos

β = 9 × 9.752 − 9 × (−2.255) 9 × 24 − 81

(44)

e

γ = −2.255 − 0.800 × 9 9

∼_{= −1.0511.}

Voltando agora `as vari´aveis iniciais, temos que ln α = −1.0511, de onde vem α ∼= e−1.0511 ∼= 0.3496. Logo, temos que g(x) ∼= 0.3496e0.8005x.

´

E de real¸car que os valores dos parˆametros a0 e a1 determinados no exemplo anterior

não minimizam a fun¸cão S(α, β) = 8 X i=0 yi− αeβxi 2 . Minimizam sim a fun¸cão:

T (α, β) = 8 X i=0 [ln yi− (ln α + βxi)] 2 .

Deste modo a solu¸cão obtida aplicando esta técnica de lineariza¸cão não é ótima3.

1.5.2 Modelo com Equa¸

c˜

ao de Potˆ

encia Simples

Um outro caso de modelo não linear e que pode ser linearizado é a equa¸cão de potência simples que utiliza uma fun¸cão do tipo:

y = αxβ , x > 0 , (1.26)

em que α e β são reais positivos e β 6= 1. Uma técnica para linearizar este modelo será também aplicar logaritmos a ambos os membros da igualdade, obtendo-se desta forma

ln y = ln α + β ln x,

que é uma rela¸cão linear de ln y em fun¸cão de ln x, com declive β e ordenada na origem ln α.

1.5.3 Modelo Hiperb´

olico

O modelo hiperb´olico ´e dado por

y = αx

β + x, (1.27)

com α e β constantes reais.

Segundo [6, pag. 390] esse modelo ´e adequado para caracterizar a taxa de crescimento populacional sob condi¸c˜oes limitantes.

Para linearizar este modelo podemos inverter (1.27), obtendo-se deste modo a rela¸c˜ao 1 y = β α 1 x + 1 α, (1.28)

que é uma rela¸cão linear de 1_y em fun¸cão de 1_x, com declive β_α e ordenada na origem _α1.

(45)

Exemplo 1.9 (Sugerido por [6, pag. 407])

Um investigador relatou os dados da Tabela 1.7 para uma experiência para determinar a taxa de crescimento k de uma bactéria (por dia), como uma fun¸cão da concentra¸cão de oxigénio c (mg/L). Sabe-se que tais dados podem ser modelados pela seguinte equa¸cão:

k = kmaxc

2

cs+ c2

, (1.29)

onde cs e kmax são parâmetros. Use uma transforma¸cão para linearizar essa equa¸cão. A

seguir, use regress˜ao linear para fazer uma estimativa de cs e kmax e prever a taxa de

crescimento em c = 2 mg/L.

c 0.5 0.8 1.5 2.5 4

k 1.1 2.4 5.3 7.6 8.9 Tabela 1.7:

Resolu¸c˜ao: Para linearizar a equa¸c˜ao vamos inverter (1.29) e da´ı passamos a ter

1 k = cs+c2 kmaxc2 = cs kmax 1 c2+ 1

kmax, que ´e uma rela¸c˜ao linear de

1

k em fun¸c˜ao de 1

c2. Para encontrar uma estimativa para os parˆametros cs e kmax, fa¸camos a seguinte tabela

c k _c12 1 k 1 c4 1 c2_k 0.5 1.1 4 0.9091 16 3.6364 0.8 2.4 1.5625 0.4167 2.4414 0.5610 1.5 5.3 0.4444 0.1887 0.1975 0.0839 2.5 7.6 0.16 0.1316 0.0256 0.0211 4 8.9 0.0625 0.1123 0.0039 0.0070 P 9.3 25.3 6.2294 1.7584 18.6684 4.3993

Agora para obter cs

kmax e

1

kmax basta aplicarmos (1.5) e (1.6). Assim, cs kmax = 5 × 4.3993 − 6.2294 × 1.7584 5 × 18.6684 − 6.22942 ∼= 0.2025 e 1 kmax = 1.7584 − 0.2025 × 6.2294 5 ∼_{= 0.0994.}

Deste modo kmax ∼= _0.09941 ∼= 10.0604 e cs = 0.2025 × 10.0604 ∼= 2.0372. Para encontrar

uma previsão da taxa de crescimento para uma concentra¸cão de oxigénio de c = 2 mg/L, utilizamos equa¸cão k ∼= _2.0372+c10.0604c22, e neste caso obtemos k ∼= 6.6656.

(46)

1.6 Regress˜

ao n˜

ao Linear

Na se¸cão anterior referimos dois modelos não lineares de ajustes de dados pelo método dos m´ınimos quadrados, e fizemos uma abordagem sobre o modelo com fun¸cões intrinse-camente lineares nos seus parâmetros, onde vimos que mediante técnicas adequadas trans-formamos esses modelos de modo a termos fun¸cões lineares nos parâmetros. Nesta seçcão abordaremos o caso com fun¸cões intrinsecamente não lineares. Nesse tipo de modelos não há nenhuma transforma¸cão finita exata através da qual possamos exprimir o modelo de uma forma linear em rela¸cão aos seus parâmetros, isto é, não é poss´ıvel escrever o modelo na forma de (1.20) e consequentemente não é poss´ıvel transformar o problema de m´ınimos quadrados na resolu¸cão de um sistema de equa¸cões lineares. São exemplos de modelos intrinsecamente não lineares nos parâmetros:

g(x; a0, a1) = a0(1 − e−a1x),

v(t; α, β) = e−αt+ β sin t,

h(x; a0, a1, a2) = a0sin x + cos(a1x) + e−a2x,

etc.

O modelo de regress˜ao n˜ao linear para ajuste de dados assume a forma:

y = f (X, a) (1.30) Em que y =      y0 y1 .. . ym     

designa um vetor (m+1)×1 de observa¸c˜oes, X =      x01 x02 · · · x0k x11 x12 · · · x1k .. . ... · · · ... xm1 xm2 · · · xmk      ´

e uma matriz (m+1)×k dos m+1 valores exatos das k vari´aveis independentes, a =      a0 a1 .. . an      ´e

um vetor (n + 1) × 1 dos parâmetros e f é uma fun¸cão não linear em rela¸cão aos parâmetros a0, a1, · · · , an.

A soma da m´edia dos erros quadr´aticos entre os dados e o modelo pode ser expressa por: = m X i=0 (yi− f (xi1, xi2, . . . , xik; a0, a1, . . . , an))2. (1.31)

Considerando m > n, podemos definir a fun¸c˜_{ao S : R}n+1 _{−→ R por}

S(a0, a1, a2, . . . , an) = m

X

i=0

(47)

O nosso objetivo ´e determinar os parˆametros a0, a1, · · · , an que minimizam (1.32). A

solu¸c˜ao ´otima a∗ = [a∗₀, a∗₁, . . . , a∗_n]T _{ajusta os dados experimentais no sentido dos m´ınimos}

quadrados. A condi¸c˜ao necess´aria para que a∗ = [a∗₀, a∗₁, . . . , a∗_n]T _{seja minimizante de S ´}_e

termos as derivadas parciais de S em rela¸c˜ao a cada um dos parˆametros a0, a1, . . . , an iguais

a zero. Com isso formamos um sistema de equa¸cões normais não linear nos parâmetros a0, a1, . . . , an. A solu¸cão do sistema é um ponto estacionário da fun¸cão S que pode não ser

um m´ınimo. Convém real¸car que não existem métodos diretos para o ajuste de fun¸cões pelo método dos m´ınimos quadrados não lineares, sendo a solu¸cão obtida por métodos iterativos. Nos cap´ıtulos seguintes abordaremos os métodos iterativos para o ajuste não linear dos m´ınimos quadrados.

A seguir mostraremos alguns exemplos desse tipo de problemas.

Exemplo 1.10 No estudo laboratorial de um fen´omeno, uma certa grandeza f´ısica y(t) va-ria no tempo. Prevendo-se que siga uma lei dada pela express˜ao anal´ıtica: ypredicted(k1, k2, t) =

k1

k1−k2 e

−k2t_{− e}−k1t, sendo k

1 e k2 parˆametros reais desconhecidos. No laborat´orio

simula-se o fen´omeno e obtˆem-se os dados experimentais da tabela seguinte: Pontos ti(s) yobserved(ti)

t1 = 0.5 yo1 = 0.263

t2 = 1.0 yo2 = 0.455

t3 = 1.5 yo3 = 0.548

.

Pretende-se calcular os valores dos parˆametros reais k1 e k2 por minimiza¸c˜ao dos

qua-drados dos desvios: min (k1,k2)∈R = φ(k1, k2) = m X i=1 [yobserved(ti) − ypredicted(k1, k2, ti)] 2 .

Ou seja, pretende-se encontrar os valores ´otimos (k∗₁, k₂∗) dos parˆametros k1 e k2 por forma

a minimizar a fun¸cão φ(k1, k2). Trata-se do critério dos m´ınimos quadrados no caso não

linear (regress˜ao n˜ao linear).

(a) Escreva uma function MATLAB para implementar computacionalmente a fun¸c˜ao φ(k1, k2).

(b) Use o comando fminsearch da Optimization Toolbox do MATLAB para calcular os valores ´otimos k₁∗ e k₂∗.

(c) Fa¸ca um gr´afico MATLAB da fun¸c˜ao ypredicted(k1, k2, t), com t ∈ [0, 2] e assinale nesse

gr´afico os pontos (ti, yoi), i = 1, 2, 3 da tabela acima.

Resolu¸c˜ao:

(a) Neste caso, a fun¸cão a minimizar, segundo o critério dos m´ınimos quadrados é φ(k1, k2) =

3

X

i=1

(48)

com yp(k1, k2, t) = _k₁k−k1 2 e

−k2t_{− e}−k1t.

Para implementar computacionalmente a fun¸c˜ao φ(k1, k2) no MATLAB, criamos as

seguintes fun¸c˜oes:

(1) function yp=ypredicted (k1, k2,t) E1=exp(-k1*t); E2=exp(-k2*t); k=k1/(k1-k2); yp=k*(E2-E1); (2) function S=phisum (k) t=[0.5 1.0 1.5]; yo=[0.263 0.455 0.548]; P=(yo-ypredicted(k(1), k(2), t)).^ 2; S=sum(P); (b) Com o comando >> fminsearch(’phisum’,[1 1]), obtivemos k₁∗ ∼= 0.6630 e k₂∗ ∼= 0.1546.

(c) Para obtermos a representa¸cão gráfica da fun¸cão e os pontos (ti, yoi), i = 1, 2, 3

implementamos a seguinte function no MATLAB: function phigraf(a,b,h) t=a:h:b; ti=[0.5 1.0 1.5]; yo=[0.263 0.455 0.548] k=fminsearch(’phisum’,[2 2]); yp=ypredicted(k(1), k(2), t); plot(t,yp); hold on plot(ti,yo,’or’) figure(gcf)

Agora com o comando phigraf(0,3,0.001), obtivemos o gr´afico da Figura 1.5.

No Cap´ıtulo 3 vamos abordar m´etodos de minimiza¸c˜ao para resolver este tipo de pro-blemas.

(49)

Figura 1.5: Ilustra¸c˜ao gr´afica do Exemplo 1.10.

Exemplo 1.11 Num circuito eletrónico a tensão elétrica de sa´ıda é mostrada a intervalos de 0.5 segundos, obtendo-se a tabela

ti 0 0.5 1 1.5 2 2.5 3

vi 1.0950 −0.1569 −1.0157 −1.4740 −1.3616 −0.8342 −0.0135

. Tabela 1.8:

Sabemos que a tens˜ao ser´a da forma

v(t) = e−αt+ β sin t onde α e β s˜ao valores desconhecidos.

(a) Formular o problema de minimiza¸c˜ao que permite determinar α e β por forma a obter um melhor ajuste de v(t) aos dados da tabela no sentido dos m´ınimos quadrados. (b) Encontrar o sistema de estacionariedade (sistema de equa¸c˜oes normais).

(50)

(a) Como pretendemos aplicar o método dos m´ınimos quadrados, devemos então mini-mizar a soma dos erros quadráticos, isto é, devemos ter

min (α,β)∈R2E(α, β) = 7 X i=1 vi− e−αti− β sin(ti) 2 .

(b) Os valores de α e β que minimizam E(α, β), encontram-se entre os que anulam o gradiente da referida fun¸c˜ao.

∇E(α, β) = ∂E ∂α(α, β) ∂E ∂β(α, β) ⇒ ∇E(α, β) = 2P7 i=1[(vi− e−αti − β sin(ti))(tie−αti)] 2P7

i=1[(vi− e−αti − β sin(ti))(− sin(ti))]

.

O sistema de estacionariedade ´e ∇E(α, β) = 0 0

. Fazendo x ←− α e y ←− β, passamos a ter o sistema de equa¸c˜oes:

( f (x, y) =P7 j=1[(vj − e −xtj− y sin(t j))(tje−xtj)] = 0 g(x, y) =P7 j=1[(vj− e −xtj − y sin(t j))(− sin(tj))] = 0 .

Trata-se de um sistema de equa¸cões não lineares cuja resolu¸cão abordaremos no Cap´ıtulo 3.

Propomos agora a resolu¸c˜ao desse sistema atrav´es do comando fsolve do MATLAB. Assim, criamos a seguinte function:

function F=dcircuit(x) ti=0:0.5:3; Vi=[1.0950 -0.1569 -1.0157 -1.4740 -1.3616 -0.8342 -0.0135]; phi=exp(-x(1)*ti)+x(2)*sin(ti); df=sum((Vi-phi).*(ti.*exp(-x(1)*ti))); dg=sum((Vi-phi).*(-sin(ti))); F=[df dg]’; end

Agora, utilizando o comando: >> [x F]=fsolve(’dcircuit’,[0 0]’), obtemos x =

0.4295 -1.9842 F =

1.0e-006 * -0.1559 0.0639

Sendo assim, temos α ∼= 0.4295 e β ∼= −1.9842. Portanto, o modelo que melhor se ajusta aos dados da Tabela 1.8 em termos de m´ınimos quadrados ´e

(51)

(52)