• Nenhum resultado encontrado

Otimização não linear de mínimos quadrados

N/A
N/A
Protected

Academic year: 2021

Share "Otimização não linear de mínimos quadrados"

Copied!
132
0
0

Texto

(1)

Agostinho Jorge

Tavares Monteiro

(2)
(3)

Agostinho Jorge

Tavares Monteiro

Otimiza¸

ao N˜

ao Linear de M´ınimos Quadrados

Disserta¸c˜ao apresentada `a Universidade de Aveiro para cumprimento dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Matem´atica e Aplica¸c˜oes, ´area de especializa¸c˜ao Matem´atica Empresarial e Tecnol´ogica, realizada sob a orienta¸c˜ao cient´ıfica do Doutor Jorge Manuel S´a Esteves, Professor Auxiliar do Departamento de Matem´atica da Universidade de Aveiro.

(4)
(5)

presidente / president Professora Doutora Isabel Maria Sim˜oes Pereira

Professora Auxiliar do Departamento de Matem´atica da Universidade de Aveiro

vogais / examiners committee Professora Doutora Ana Cristina Soares De Lemos

Professora Coordenadora do Instituto Polit´ecnico de Leiria - Escola Superior de Tecnologia e Gest˜ao

Professor Doutor Jorge Manuel S´a Esteves

Professor Auxiliar do Departamento de Matem´atica da Universidade de Aveiro (orientador)

(6)
(7)

bilidade na orienta¸c˜ao deste trabalho, pelas sugest˜oes apresentadas e pela revis˜ao final deste trabalho.

Ao Instituto Portuguˆes de Apoio ao Desenvolvimento (IPAD) pela con-cess˜ao da bolsa de estudos.

Ao Departamento de Matem´atica da Universidade de Aveiro e, em par-ticular, `a diretora do curso de Mestrado em Matem´atica e Aplica¸c˜oes, Doutora Isabel Maria Sim˜oes Pereira pelo acolhimento e apoio presta-dos.

`

A Dire¸c˜ao Geral do Ensino Superior de Cabo Verde que conduziu todo o processo de candidatura `a bolsa de estudos.

Ao Governo de Cabo Verde por ter aceite o pedido de Comiss˜ao Even-tual de Servi¸cos.

`

A minha fam´ılia e aos meus amigos pelo carinho e motiva¸c˜ao apresen-tados.

(8)
(9)

Resumo O problema de otimiza¸c˜ao de m´ınimos quadrados ´e apresentado como uma classe importante de problemas de minimiza¸c˜ao sem restri¸c˜oes. A importˆancia dessa classe de problemas deriva das bem conhecidas aplica¸c˜oes `a estima¸c˜ao de parˆametros no contexto das an´alises de re-gress˜ao e de resolu¸c˜ao de sistemas de equa¸c˜oes n˜ao lineares. Apresenta-se uma revis˜ao dos m´etodos de otimiza¸c˜ao de m´ınimos quadrados li-neares e de algumas t´ecnicas conhecidas de lineariza¸c˜ao. Faz-se um estudo dos principais m´etodos de gradiente usados para problemas n˜ao lineares gerais: M´etodos de Newton e suas modifica¸c˜oes incluindo os m´etodos Quasi-Newton mais usados (DFP e BFGS). Introduzem-se depois m´etodos espec´ıficos de gradiente para problemas de m´ınimos quadrados: Gauss-Newton e Levenberg-Marquardt. Apresenta-se uma variedade de exemplos selecionados na literatura para testar os diferen-tes m´etodos usando rotinas MATLAB. Faz-se uma an´alise comparativa dos algoritmos baseados nesses ensaios computacionais que exibem as vantagens e desvantagens dos diferentes m´etodos.

(10)
(11)

Abstract The least squares optimization problem is presented as an important class of unconstrained minimization problems. The importance of that class of problems is due to the well-known applications to parameter estimation in the context of regression analysis and from methods for solving systems of nonlinear equations. A review of linear least squa-res optimization methods and some linearization techniques is carried out. A study of the major gradient methods used for general nonlinear problems is presented: Newton Methods and its modifications, inclu-ding the frequently used Quasi-Newton methods (DFP and BFGS). Some specific gradient methods for non-linear least squares problems: Gauss-Newton and Levenberg-Marquardt methods. Several selected examples are used for testing the methods using MATLAB routines. Finally, based on those computational tests, a comparative analysis of the algorithms is made in order to highlight the advantages and disadvantages of the different methods.

(12)
(13)

or minimum does not appear.”

(14)
(15)

Conte´udo i

Introdu¸c˜ao 1

1 Problemas de M´ınimos Quadrados 9

1.1 Regress˜ao Linear . . . 11

1.2 Regress˜ao Polinomial . . . 16

1.2.1 Modelo com Polin´omios Ortogonais . . . 18

1.3 Regress˜ao Linear M´ultipla . . . 21

1.3.1 Regress˜ao linear Bidimensional . . . 21

1.4 Regress˜ao dos M´ınimos Quadrados Linear Geral . . . 23

1.5 T´ecnicas de Lineariza¸c˜ao . . . 26

1.5.1 Modelo Exponencial . . . 26

1.5.2 Modelo com Equa¸c˜ao de Potˆencia Simples . . . 28

1.5.3 Modelo Hiperb´olico . . . 28

1.6 Regress˜ao n˜ao Linear . . . 30

2 Algoritmos de Otimiza¸c˜ao sem Restri¸c˜oes 37 2.1 Otimiza¸c˜ao n˜ao Linear sem Restri¸c˜oes . . . 37

2.1.1 Forma Geral de um Problema de Otimiza¸c˜ao n˜ao Linear . . . 37

2.1.2 Otimiza¸c˜ao sem Restri¸c˜oes . . . 38

2.2 Conceitos B´asicos de Otimiza¸c˜ao Multidimensional sem Restri¸c˜oes . . . 38

2.2.1 Condi¸c˜oes de Otimalidade . . . 39

2.2.2 Classifica¸c˜ao dos Pontos de Estacionaridade . . . 40

2.3 Problema de M´ınimos Quadrados sem Restri¸c˜oes . . . 42

2.3.1 Existˆencia da solu¸c˜ao de m´ınimos quadrados . . . 43

2.3.2 Unicidade da solu¸c˜ao de m´ınimos quadrados . . . 45

2.3.3 Existˆencia de m´ultiplos minimizantes locais distintos . . . 45

2.4 M´etodos Num´ericos de Minimiza¸c˜ao . . . 47

2.4.1 M´etodo da Descida mais R´apida (Steepest Descent) . . . 47

2.4.2 M´etodo de Newton . . . 51

2.4.3 M´etodo de Newton Modificado . . . 54

(16)

2.5.1 Abordagem dos M´etodos Quasi-Newton B´asico . . . 55

2.5.2 M´etodo DFP (Davidon-Fletcher-Powell) . . . 57

2.5.3 M´etodo de Broyden-Fletcher-Goldfarb-Shanno (BFGS) . . . 58

3 M´etodo de Newton para resolu¸c˜ao de Sistemas n˜ao Lineares de Equa¸c˜oes 61 3.1 Forma geral do Problema . . . 62

3.1.1 Sistemas n˜ao Lineares de Equa¸c˜oes versus Problemas de Otimiza¸c˜ao 62 3.2 M´etodo de Newton . . . 63

3.2.1 Algoritmo de Newton para Sistemas n˜ao Lineares de Equa¸c˜oes . . . 64

3.2.2 Crit´erios de paragem . . . 66

3.3 Convergˆencia Local do M´etodo de Newton . . . 70

3.4 M´etodo de Newton Modificado . . . 73

3.4.1 Atualiza¸c˜ao Peri´odica da Matriz Jacobiana . . . 73

3.4.2 Aproxima¸c˜ao da Matriz Jacobiana por Diferen¸cas Divididas . . . . 74

4 Algoritmos para Otimiza¸c˜ao n˜ao Linear de M´ınimos Quadrados 75 4.1 M´etodo de Gauss-Newton . . . 76

4.2 M´etodo de Levenberg-Marquardt . . . 83

4.3 Problemas de M´ınimos Quadrados com Res´ıduos Grandes . . . 85

4.3.1 Problemas de Grande Escala . . . 86

4.4 Regress˜ao de Distˆancias Ortogonais . . . 86

4.5 Compara¸c˜ao de Algoritmos . . . 89

Conclus˜oes 97 A Matrizes de Hankel 101 A.1 Caso da regress˜ao linear polinomial quando m = n . . . 101

A.2 Caso da regress˜ao linear polinomial geral (m > n) . . . 104

A.3 Caso da regress˜ao linear geral . . . 105

A.3.1 Existˆencia de solu¸c˜ao . . . 105

A.3.2 Condi¸c˜oes para a unicidade da solu¸c˜ao . . . 106

A.3.3 Qualifica¸c˜ao das solu¸c˜oes como minimizantes globais . . . 107

B Ordens de Convergˆencia 109

(17)

Enquadramento

Em todas as situa¸c˜oes o ser humano procura melhorar, isto ´e, optimizar o que tem, o que ´e. O mesmo se passa na Natureza. Por exemplo: os corpos tendem a ocupar a posi¸c˜ao de menor energia poss´ıvel; a luz escolhe o caminho mais r´apido entre dois pontos. . . Da´ı que seja natural a importˆancia de estudar a optimiza¸c˜ao, dado que melhoramos a nossa vida e entendemos melhor a natureza.

Supondo que conseguimos quantificar os principais descritores de uma dada situa¸c˜ao podemos estabelecer um modelo matem´atico baseado em vari´aveis que suporemos reais. Dessa forma, o esfor¸co requerido para obter um benef´ıcio desejado em qualquer situa¸c˜ao pr´atica pode ser expresso como uma fun¸c˜ao (de vari´aveis de decis˜ao). A optimiza¸c˜ao pode ser definida como o processo de encontrar as condi¸c˜oes que nos d˜ao o m´ınimo ou o m´aximo valor de uma fun¸c˜ao. O termo ´optimo refere-se a um m´ınimo ou a um m´aximo dependente das circunstˆancias. Na verdade, ´optimo ´e um termo t´ecnico que implica a possibilidade de medi¸c˜oes quantitativas e ´e mais forte que o termo melhor que ´e mais apropriado no uso da linguagem natural quotidiana. Da mesma forma, o termo optimizar ´e mais forte que o termo melhorar. A Teoria da Optimiza¸c˜ao ´e o ramo da Matem´atica que engloba o estudo quantitativo dos ´otimos e dos m´etodos que permitem encontr´a-los.

Com o advento dos computadores digitais de elevada velocidade de processamento os m´etodos de optimiza¸c˜ao sofreram avan¸cos gigantescos. Na verdade, nos ´ultimos cin-quenta anos foram estabelecidos muitos m´etodos de optimiza¸c˜ao definidos por algoritmos. Ao mesmo tempo que esse desenvolvimento se dava, os computadores eletr´onicos digitais tornaram-se sucessivamente mais r´apidos e com acesso a muito mais mem´oria. Ou seja, tornaram-se mais vers´ateis e mais eficientes. Como consequˆencia, ´e agora poss´ıvel resolver problemas de optimiza¸c˜ao muito complexos que eram considerados intrat´aveis no passado. A abordagem mais poderosa para desenvolver algoritmos pr´aticos de optimiza¸c˜ao ´e a que se baseia em m´etodos num´ericos iterativos, tendo como finalidade a sua implementa¸c˜ao em programas executados por computadores digitais. Na verdade, estes processos permi-tem resolver problemas de elevada complexidade que nunca poderiam ser resolvidos por m´etodos anal´ıticos e gr´aficos (ou outros baseados em simula¸c˜oes experimentais).

(18)

O Problema de Optimiza¸

ao B´

asico

Antes da optimiza¸c˜ao ser levada a cabo, o problema deve ser corretamente formulado. Um crit´erio de performance tem de ser estabelecido em fun¸c˜ao de n vari´aveis de decis˜ao x1, x2, . . . , xn, como

F = f (x1, x2, . . . , xn) (1)

onde F ´e uma fun¸c˜ao real.

O mais b´asico problema de optimiza¸c˜ao consiste em ajustar as vari´aveis de decis˜ao x1, x2, . . . , xn de tal forma que minimizem a fun¸c˜ao F . Para simplificar a nota¸c˜ao deve

usar-se nota¸c˜ao vetorial. Assim, se x for um vector coluna de componentes x1, x2, . . . , xn,

temos

x> = [x1, x2, . . . , xn] ∈ Rn.

Usando esta nota¸c˜ao, o problema b´asico de optimiza¸c˜ao pode formular-se como1:

minimize F = f (x) para x ∈ Rn. (2)

Um problema similar surge em aplica¸c˜oes cient´ıficas e de engenharia quando uma fun¸c˜ao de x que se pretende optimizar ´e tamb´em uma fun¸c˜ao de uma vari´avel real independente t (i.e. tempo, posi¸c˜ao, velocidade) que toma valores num intervalo [a, b] ⊂ R. Neste caso, a optimiza¸c˜ao visar´a ajustar os valores de x1, x2, . . . , xn de tal forma que se optimize a

fun¸c˜ao objectivo quando t varia ao longo de [a, b]. Nestas aplica¸c˜oes ´e comum amostrar (ou tabelar) a fun¸c˜ao objectivo fazendo variar a vari´avel t. Neste caso, define-se a fun¸c˜ao vetorial

F(x) = [f (x, t1), f (x, t2), . . . , f (x, tm)] >

∈ Rm. (3)

cujas componentes s˜ao os valores obtidos quando a vari´avel t toma os valores t = t1, t2, . . . , tm.

Adicionalmente, se definirmos

fi ≡ f (x, ti) , i = 1, 2, . . . , m

podemos de novo escrever

F(x) = [f1(x), f2(x), . . . , fm(x)] >

∈ Rm. (4)

Uma solu¸c˜ao de um tal problema pode ser obtida optimizando simultaneamente as fun¸c˜oes fi para i = 1, 2, . . . , m. Esta solu¸c˜ao pode, evidentemente, ser apenas aproximada porque

qualquer varia¸c˜ao de f (x, t) entre pontos da tabela ´e ignorada. Contudo, uma solu¸c˜ao razo´avel pode ser obtida na pr´atica usando um n´umero suficientemente grande de pontos amostrais.

Problemas deste tipo podem ser resolvidos se definirmos uma fun¸c˜ao objectivo escalar em termos das componentes da fun¸c˜ao vetorial F(x). A fun¸c˜ao objectivo deve ser escalar

1Se o objectivo consistir em encontrar o m´aximo da fun¸ao f , ent˜ao esse problema pode ser convertido

facilmente num problema de minimiza¸c˜ao uma vez que max [f (x)] = − min [−f (x)]. Consequentemente, trataremos s´o problemas de minimiza¸c˜ao sem perda de generalidade.

(19)

e a optimiza¸c˜ao tem de conduzir `a optimiza¸c˜ao de todas as componentes de F(x) usando um qualquer crit´erio. ´E f´acil de verificar que uma boa escolha ´e fazer uso de uma norma. Assim, uma fun¸c˜ao objectivo pode ser definida em termos da norma Lp de Holder como

F ≡ Lp = ( m X i=1 |fi(x)| p )1/p (5) onde p ∈ N.

Alguns casos especiais da norma Lp assumem interesse particular. Se p = 1

F ≡ L1 = m

X

i=1

|fi(x)| (6)

e, portanto, trata-se de minimizar a soma dos valores absolutos das componentes. Este problema designa-se habitualmente por problema L1.

Fazendo tender p para infinito e se assumirmos que existe um ´unico m´aximo de |fi(x)|

designado por ˆF tal que

ˆ

F = max

1≤i≤m|fi(x)|

ent˜ao podemos escrever

F ≡ L∞ = lim p→+∞ ( m X i=1 |fi(x)|p )1/p = Fˆ lim p→+∞ ( m X i=1 fi(x) ˆ F p)1/p

Como todos os termos do somat´orio excepto um s˜ao estritamente menores que um, a potˆencia p desses termos tender´a para zero quando p → +∞. Ent˜ao, obtemos que

F = ˆF = max

1≤i≤m|fi(x)| .

Usando este crit´erio, estaremos a tomar a norma L∞. Neste caso vai-se minimizar a

componente que em valor absoluto ´e a maior. Trata-se de um problema minimax.

No entanto, o caso mais not´avel resulta de tomarmos p = 2. Nesse caso a norma Euclideana F ≡ L2 = ( m X i=1 |fi(x)| 2 )1/2 (7) ´

e minimizada, e se a raiz quadrada for omitida, a soma dos quadrados das componentes ´e minimizada. Este problema ´e designado normalmente por problema de m´ınimos quadrados. Dedicaremos esta disserta¸c˜ao ao estudo desta classe de problemas.

(20)

Uma variante interessante destes problemas resulta se tomarmos coeficientes de pon-dera¸c˜ao w1, w2, . . . , wn∈ R+ (tamb´em designados por pesos). Neste caso, a fun¸c˜ao

objec-tivo de m´ınimos quadrados ser´a

F =

m

X

i=1

|wifi(x)|2

para enfatizar certas componentes como importantes ou cr´ıticos e para relaxar outras com-ponentes por serem menos importantes. Esta variante costuma ser designada por problema de m´ınimos quadrados ponderados. Se F for minimizada, os erros residuais wifi(x) no fim

da minimiza¸c˜ao tender˜ao a ser da mesma ordem de grandeza, ou seja erro em |wifi(x)| ≈ 

e ent˜ao

erro em |fi(x)| ≈

 |wi|

Daqui decorre que se for usado um valor positivo elevado para wi (correspondente a fi(x)),

obter-se-´a um pequeno erro residual |fi(x)|, tal como pretendido.

Modelos de Regress˜

ao

Nos problemas de optimiza¸c˜ao de m´ınimos quadrados, a fun¸c˜ao objectivo f tem a seguinte forma especial:

f (x) =

m

X

j=1

r2j(x) (8)

onde cada rj ´e uma fun¸c˜ao suave de Rn em R. Designa-se cada rj como fun¸c˜ao res´ıduo e

assume-se que m ≥ n.

Os problemas de optimiza¸c˜ao de m´ınimos quadrados surgem em muitas ´areas de aplica¸c˜ao e podem mesmo ser considerados a fonte da maior parte dos problemas de optimiza¸c˜ao n˜ao linear sem restri¸c˜oes. Muitos dos cientistas e engenheiros que formulam modelos parame-trizados para uma aplica¸c˜ao qu´ımica, f´ısica, financeira ou econ´omica usam uma formula¸c˜ao do tipo (8) para medir a discrepˆancia entre o modelo e o comportamento observado para o sistema em estudo. Por minimiza¸c˜ao dessa fun¸c˜ao, selecionam-se os valores dos parˆametros que melhor ajustam o modelo aos dados no sentido dos m´ınimos quadrados. Este processo ´

e conhecido na ´area da Estat´ıstica como regress˜ao.

Discutiremos um modelo parametrizado simples e mostraremos como as t´ecnicas de m´ınimos quadrados fazem sentido na escolha de parˆametros que melhor se ajustam um modelo a dados experimentais observados.

(21)

Exemplo: Concentra¸c˜ao sangu´ınea de um f´armaco Suponha-se que estamos in-teressados em estudar o efeito de um certo medicamento no tratamento de um paciente. Faremos colheitas de amostras do sangue sucessivas ap´os a administra¸c˜ao do f´armaco ao doente. Ap´os cada colheita determina-se experimentalmente a concentra¸c˜ao do medica-mento no sangue do doente. Constr´oi-se assim uma tabela dessa concentra¸c˜ao yj que foi

registada na colheita tomada no instante tj.

Baseados nas nossas experiˆencias anteriores e conhecimento dos fen´omenos bioqu´ımicos envolvidos, sabemos que a seguinte fun¸c˜ao φ(x; t) permite uma boa predi¸c˜ao da concen-tra¸c˜ao no instante t, para valores apropriados do parˆametro vectorial x = [x1, x2, x3, x4, x5]T:

φ(x; t) = x1+ tx2+ t2x3+ x4e−x5t. (9)

Escolheremos o parˆametro vectorial x por forma que o modelo melhor se ajuste `as ob-serva¸c˜oes experimentais seguindo um certo crit´erio. Veremos `a frente que uma boa medida das discrepˆancias entre a predi¸c˜ao do modelo e as observa¸c˜oes experimentais ´e a seguinte fun¸c˜ao de m´ınimos quadrados:

1 2 m X j=1 [φ(x, tj) − yj]2, (10)

que soma os quadrados das diferen¸cas entre as predi¸c˜oes do modelo e as observa¸c˜oes em cada tj. Esta fun¸c˜ao tem a forma da fun¸c˜ao (8) se definirmos

rj(x) = φ(x; tj) − yj , j = 1, 2, . . . , m. (11)

Este modelo ´e um exemplo do que em Estat´ıstica se chama modelo fixo de regress˜ao. Assume-se que os instantes tj das colheitas de sangue s˜ao medidos com grande precis˜ao,

enquanto que as observa¸c˜oes yj est˜ao afetados de um erro experimental devido `as limita¸c˜oes

do equipamento e das t´ecnicas de medida.

Em geral, nos problemas deste tipo (ajuste de curvas a dados observados), a vari´avel t no modelo φ(x; t) pode ser um vector em vez de um escalar2.

A fun¸c˜ao soma de quadrados (10) n˜ao ´e o ´unico processo para medir as discrepˆancias entre o modelo e as observa¸c˜oes. Outras medidas comuns incluem o m´aximo valor absoluto

max

j=1,2,...,m|φ(x; tj) − yj| (12)

e a soma dos valores absolutos

m

X

j=1

|φ(x; tj) − yj| . (13)

2 No exemplo descrito, a vari´avel t pode ter duas dimens˜oes, com a primeira dimens˜ao a representar o

tempo decorrido desde a administra¸c˜ao do f´armaco e a segunda dimens˜ao a representar o peso do paciente. Podemos recolher uma tabela referente a uma popula¸c˜ao de doentes em vez de nos fixarmos num s´o indiv´ıduo. Desta forma podia-se obter os “melhores” parˆametros para o modelo tendo em conta toda a popula¸c˜ao de doentes

(22)

Usando a defini¸c˜ao das normas L∞ e L1, podemos reescrever estas medidas como

f (x) = kr(x)k e f (x) = kr(x)k1, (14)

respectivamente. N˜ao nos dedicaremos aqui a estes problemas3. Neste trabalho

dedicar-nos-emos `a formula¸c˜ao em termos da norma L2 (10). Se admitirmos algumas hip´oteses

muito razo´aveis h´a motiva¸c˜oes de ordem estat´ıstica que apontam para o crit´erio dos m´ınimos quadrados como sendo o melhor crit´erio a usar. Mudando um pouco a nota¸c˜ao, denotaremos as discrepˆancias entre o modelo e as observa¸c˜oes por j, ou seja

j = φ(x; tj) − yj.

Por vezes ´e razo´avel assumir que os j’s s˜ao vari´aveis aleat´orias independentes e

iden-ticamente distribu´ıdas4 com uma certa variˆancia σ2 e fun¸c˜ao densidade de

probabili-dade gσ(·). Assim, a fun¸c˜ao verosimilhan¸ca de um conjunto particular de observa¸c˜oes

yj, j = 1, 2, . . . , m, dado que o parˆametro vectorial ´e x, ´e dada por

℘(y; x, σ) = m Y j=1 g (j) = m Y j=1 g (φ(x; tj) − yj) . (15)

Dadas as observa¸c˜oes y1, y2, . . . , ym, o valor “mais plaus´ıvel” de x neste enquadramento ser´a

o que corresponde `a estimativa de m´axima verosimilhan¸ca. Ou seja, a que corresponde a maximizar ℘(y; x, σ) relativamente ao vector x.

Quando se assume que as discrepˆancias seguem uma distribui¸c˜ao normal, temos gσ() = 1 √ 2πσ2 exp  −  2 2σ2  . Substituindo em (15) obtemos ℘(y; x, σ) = (2πσ2)−m/2 exp − 1 2σ2 m X j=1 [φ(x; tj) − yj]2 ! .

Ora, para qualquer valor fixo da variˆancia σ2, ´e ´obvio que ℘ ´e maximizado quando a soma

de quadrados (10) ´e minimizada. Para sumarizar: Quando as discrepˆancias se assumem como independentes e identicamente distribu´ıdas seguindo uma fun¸c˜ao distribui¸c˜ao normal, a estimativa da m´axima verosimilhan¸ca ´e obtida minimizando a soma de quadrados dos desvios.

3 Na verdade, a melhor abordagem destes problemas ´e uma formula¸ao de optimiza¸ao n˜ao linear com

restri¸c˜oes envolvendo algoritmos espec´ıficos para esses casos.

4 Esta hip´otese ´e muito plaus´ıvel, por exemplo, quando o modelo reflete bem as caracter´ısticas do

fen´omeno em estudo e quando o erro nas observa¸c˜oes n˜ao est˜ao afetadas de um erro sistem´atico sempre do mesmo sinal.

(23)

Objetivos Gerais do Trabalho

Nesta disserta¸c˜ao pretende-se estudar problemas de optimiza¸c˜ao de m´ınimos quadrados usando uma abordagem algor´ıtmica e computacional baseada em exemplos. Dizendo de outra forma, pretendemos apresentar um estudo de m´etodos construtivos para resolver problemas de optimiza¸c˜ao n˜ao linear sem restri¸c˜oes quando a fun¸c˜ao objectivo ´e uma soma de quadrados. Assim, o objectivo ´e n˜ao s´o um estudo te´orico dos m´etodos mas tamb´em a sua aplica¸c˜ao a exemplos selecionados na literatura usando o ambiente MATLAB para efetuar ensaios computacionais. A an´alise comparativa da performance dos v´arios algoritmos ´e tamb´em um objectivo do trabalho. Essa an´alise dever´a ser ligada `as vantagens e desvantagens dos diferentes m´etodos descritos na literatura.

Pretende-se fazer uma revis˜ao da regress˜ao linear como introdu¸c˜ao `a regress˜ao n˜ao linear. N˜ao podendo ser exaustivo na pan´oplia de m´etodos a estudar escolhemos os m´etodos de gradiente. Assim, os importantes m´etodos de grau zero (derivative-free optimization) ficam fora do ˆambito deste trabalho. No entanto, nos resultados computacionais esses m´etodos s˜ao referidos porque o comando fminsearch do MATLAB implementa um m´etodo desse tipo.

Descrevem-se os conhecidos m´etodos de Gauss-Newton e de Levenberg-Marquardt. Para efeitos de compara¸c˜ao tamb´em se estudam os m´etodos Quasi-Newton (DFP e BFGS). Inclui-se um grande n´umero de exemplos que permitem atribuir um cariz pr´atico e com-putacional a esta disserta¸c˜ao.

Organiza¸

ao da Disserta¸

ao

No Cap´ıtulo 1 iniciaremos o nosso estudo pelos modelos mais simples de regress˜ao linear. Apresentamos a dedu¸c˜ao do sistema linear de equa¸c˜oes que conduz `a reta dos m´ınimos quadrados e aos polin´omios de m´ınimos quadrados. Faz-se uma referˆencia ao uso de polin´omios ortogonais nesse contexto. O caso da regress˜ao linear m´ultipla ´e abordado com base num exemplo. Apresenta-se depois o problema da regress˜ao linear geral. Ainda no Cap´ıtulo 1, passa-se ao tratamento do caso n˜ao linear. Discutem-se algumas t´ecnicas de lineariza¸c˜ao que d˜ao bons resultados no ajuste de algumas classes de fun¸c˜oes n˜ao lineares. Este cap´ıtulo termina com dois exemplos apresentando modelos intrinsecamente n˜ao linea-res (que n˜ao admitem lineariza¸c˜ao poss´ıvel). Esses exemplos introduzem a necessidade de estudar algoritmos de minimiza¸c˜ao e tamb´em de algoritmos de resolu¸c˜ao de sistemas n˜ao lineares de equa¸c˜oes. A liga¸c˜ao ao cap´ıtulo seguinte fica estabelecida de forma natural.

O Cap´ıtulo 2 faz uma revis˜ao breve da teoria de optimiza¸c˜ao n˜ao linear sem restri¸c˜oes. Apresentam-se os m´etodos cl´assicos de gradiente: Steepest Descent e Newton-Raphson. Alguns resultados acerca da convergˆencia local desses m´etodos s˜ao apresentados. Dedica-se depois o devido espa¸co `as modifica¸c˜oes do m´etodo de Newton para obter convergˆencia global. Por fim, tratam-se os populares m´etodos Quasi-Newton: DFP (Davidon, Fletcher e Powell) e BFGS (Broyden, Fletcher, Goldfarb e Shanno). Exemplos de aplica¸c˜ao destes m´etodos s˜ao apresentados em detalhe.

(24)

A optimiza¸c˜ao dos m´ınimos quadrados est´a intimamente relacionada com m´etodos de resolu¸c˜ao de sistemas n˜ao lineares de equa¸c˜oes. Esta constata¸c˜ao ´e explicada na abertura do Cap´ıtulo 3. Torna-se natural reintroduzir o m´etodo de Newton no enquadramento dos sistemas n˜ao lineares de equa¸c˜oes. Discutem-se condi¸c˜oes suficientes de convergˆencia do M´etodo de Newton e do M´etodo de Newton modificado. Estrat´egias de aproxima¸c˜ao da matriz Jacobiana por processos de atualiza¸c˜ao relaxada ou por meio de diferen¸cas finitas completam o cap´ıtulo.

O Cap´ıtulo 4 dedica-se exclusivamente a algoritmos de optimiza¸c˜ao n˜ao linear de m´ınimos quadrados. Estes algoritmos fazem sentido quando a fun¸c˜ao objectivo ´e uma soma de quadrados. Cada uma dessas parcelas designa-se por res´ıduo. Na hip´otese dos res´ıduos serem pequenos o m´etodo de Newton pode ser simplificado conduzindo ao conhe-cido m´etodo de Gauss-Newton. Este m´etodo apresenta bom comportamento local, ou seja, pr´oximo do ´optimo mas pode ter dificuldades de convergˆencia global. Para obviar isso, somos conduzidos ao moderno m´etodo de Levenberg-Marquardt que usa uma dire¸c˜ao de busca que varia entre a dire¸c˜ao de Cauchy e a dire¸c˜ao de Newton. Ainda no Cap´ıtulo 4 s˜ao abordados alguns t´opicos mais avan¸cados:

ˆ Problemas de m´ınimos quadrados com grandes res´ıduos; ˆ Problemas de grande dimens˜ao;

ˆ Problemas de m´ınimos quadrados ponderados; ˆ Problemas de distˆancias ortogonais.

O Cap´ıtulo 4 termina com a apresenta¸c˜ao de alguns exemplos resolvidos pelos v´arios algorit-mos estudados nesta disserta¸c˜ao. Fazem-se algumas an´alises comparativas da performance dos v´arios m´etodos. Para isso usam-se comandos da optimization toolbox do MATLAB (fminsearch e fminunc ) e tamb´em programas publicados por v´arios autores nos sites que acompanham livros da ´area da optimiza¸c˜ao n˜ao linear.

Deixou-se para apˆendice o estudo de algumas propriedades das matrizes de Hankel que garantem a existˆencia e a unicidade da solu¸c˜ao dos problemas de regress˜ao linear geral. Esse ´e o tema do Apˆendice A. No Apˆendice B s˜ao apresentadas as defini¸c˜oes de ordem e raz˜ao de convergˆencia de uma sucess˜ao convergente.

No Apˆendice A fizemos uma abordagem original nas se¸c˜oes A2 e A3, apresentando uma prova sobre a existˆencia e unicidade da solu¸c˜ao do problema de m´ınimos quadrados no caso polinomial e provamos tamb´em a existˆencia de solu¸c˜ao para o problema de m´ınimos quadrados linear geral.

(25)

Problemas de M´ınimos Quadrados

Em v´arios campos cient´ıficos s˜ao feitas experiˆencias e s˜ao encontrados conjuntos de valores que podem ser apresentados numa tabela. Neste caso temos uma fun¸c˜ao f (x) conhecida s´o numa tabela de valores, onde as abcissas xi s˜ao valores exatos e os f (xi)

x0 x1 x2 . . . xm

f (x0) f (x1) f (x2) . . . f (xm)

s˜ao dados observados que normalmente est˜ao sujeitos a erros experimentais. Considera-se Considera-sempre que xi 6= xj para i 6= j. A partir desses resultados, procuram-se encontrar

rela¸c˜oes matem´aticas entre as vari´aveis em estudo. Noutros casos tem-se em m˜aos fun¸c˜oes f (x) definidas por express˜oes alg´ebricas muito complexas (por exemplo fun¸c˜oes definidas por integrais, fun¸c˜oes definidas por soma de s´eries, etc). Surge assim a necessidade de encontrar uma nova fun¸c˜ao g(x) que melhor se ajusta aos dados no primeiro caso ou melhor se aproxima de f (x), num intervalo [a, b] de R, no segundo caso.Sendo assim podemos destacar dois casos de ajuste de fun¸c˜oes:

1. O caso discreto em que a fun¸c˜ao f (x) ´e conhecida numa tabela de valores.

0

y

(26)

2. O caso cont´ınuo em que f (x) ´e uma fun¸c˜ao cont´ınua definida por uma express˜ao alg´ebrica num intervalo [a, b] ⊂ R.

0 y x a b f (x) g(x)

Neste trabalho faremos uma abordagem sobre o caso discreto do ajuste de fun¸c˜oes. Dada uma fun¸c˜ao atrav´es de uma tabela de valores (xi, f (xi)), i = 0, 1, 2, . . . , m e

x0, x1, x2, . . . , xm pertencentes a um intervalo [a, b] de R, pretende-se determinar uma

fun¸c˜ao g(x) que melhor se aproxima de f (x), isto ´e, uma fun¸c˜ao g(x) deve ser deter-minada de tal modo que a diferen¸ca f (x) − g(x) seja m´ınima. Esta diferen¸ca ´e chamada desvio ou res´ıduo. Assim considerando di = f (xi) − g(xi) deve-se obter g(x) de forma que

di seja pequeno para cada i ∈0, 1, 2, . . . , m .

0 x d0 d1 d2 d3 d4 d5 d6 dm x y

H´a v´arios crit´erios para determinar a fun¸c˜ao g(x). Um desses crit´erios ´e minimizar a soma dos desvios, isto ´e, minimizar Pm

i=0di. Esse crit´erio ´e inadequado na medida em que

os di podem ter sinais contr´arios e, neste caso, corre-se o risco de ter um valor m´ınimo da

soma dos desvios sem que necessariamente cada um dos desvios seja m´ınimo.

Outro crit´erio para encontrar g(x) ´e atrav´es da minimiza¸c˜ao da soma dos valores ab-solutos dos desvios. Este crit´erio tamb´em se revela-se inadequado visto que quando se

(27)

aplicam as condi¸c˜oes necess´arias de m´ınimo, ou seja, quando se aplicam as derivadas sur-gem problemas j´a que, como sabemos a fun¸c˜ao modular n˜ao ´e diferenci´avel na origem.

O crit´erio mais adequado ´e o crit´erio dos m´ınimos quadrados, como vimos na In-trodu¸c˜ao. Esse crit´erio consiste em minimizar o quadrado dos desvios, ou seja, minimizar Pm

i=0d 2 i.

Segundo [6] esse m´etodo ´e o que apresenta maiores vantagens, de entre as quais a convexidade da fun¸c˜ao aproximante g(x), no caso linear.

O M´etodo dos M´ınimos Quadrados ´e uma das t´ecnicas de ajuste de curvas mais utili-zadas. Este facto ´e derivado da sua simplicidade e tamb´em da capacidade de reduzir os erros provenientes das medi¸c˜oes, pois geralmente assumimos que o n´umero de pontos que ser˜ao ajustados s˜ao muito maiores do que o n´umero de parˆametros a determinar da fun¸c˜ao aproximante g(x).

1.1

Regress˜

ao Linear

O caso mais simples de aproxima¸c˜ao por m´ınimos quadrados consiste em ajustar uma reta a uma tabela de dados, onde os xi s˜ao valores exatos e os yi = f (xi) s˜ao valores

provenientes de experiˆencias, com erros de observa¸c˜ao. Assim, dados um conjunto de pontos distintos (xi, yi) , i = 0, 1, 2, . . . , m, m > 2, devemos determinar a reta que melhor

se aproxima de f (x) segundo o crit´erio de m´ınimos quadrados.

0

y

x

O modelo para ajustar os pontos por uma reta ´e y = a1x + a0 + , em que a0 e a1 s˜ao

coeficientes a determinar e  o erro, desvio ou res´ıduo entre o modelo e conjunto dos pontos observados. Assim, pretendemos determinar a0 e a1de modo que [

Pm

i=0(a1xi+ a0− yi)2] 1/2

seja m´ınimo. Isto equivale a determinar o minimizante dePm

i=0(a1xi+ a0− yi) 2.

di = a1xi + a0− yi representa o erro da reta no ponto i.

d2i = (a1xi+ a0− yi)2 representa o erro quadr´atico da reta no ponto i.

q(a0, a1) = m

X

i=0

(28)

´

e soma dos erros quadr´aticos que pretendemos minimizar. Para determinar os parˆametros a1 e a0 da equa¸c˜ao (1.1), devemos aplicar a condi¸c˜ao necess´aria de otimalidade, isto ´e,

calcular as derivadas parciais de q em rela¸c˜ao a cada um dos parˆametros e igual´a-las a zero. ∂q ∂a0 = 2 m X i=0 (a1xi+ a0− yi) = 0 (1.2) ∂q ∂a1 = 2 m X i=0 (a1xi+ a0− yi)xi = 0. (1.3) Considerando que, m X i=0 (a1xi + a0− yi) = m X i=0 a1xi+ m X i=0 a0 − m X i=0 yi = m X i=0 xi ! a1+ (m + 1) a0− m X i=0 yi e que m X i=0 (a1xi+a0−yi)xi = m X i=0 a1x2i+ m X i=0 a0xi− m X i=0 xiyi = m X i=0 x2i ! a1+ m X i=0 xi ! a0− m X i=0 xiyi,

formamos o seguinte sistema de equa¸c˜oes, denominadas “equa¸c˜oes normais” do problema, cujas inc´ognitas s˜ao os parˆametros a1 e a0 da equa¸c˜ao y = a1x + a0.

( (m + 1) a0+ ( Pm i=0xi) a1 = Pm i=0yi (Pm i=0xi) a0+ ( Pm i=0x 2 i) a1 = Pm i=0xiyi . (1.4)

Resolvendo o sistema (1.4) usando a regra de Cramer, obtemos:

a1 = (m + 1)Pm i=0xiyi− Pm i=0xi Pm i=0yi (m + 1)Pm i=0x2i − ( Pm i=0xi) 2 (1.5)

e substituindo na primeira equa¸c˜ao, vem a0 = Pm i=0yi− ( Pm i=0xi) a1 (m + 1) . (1.6)

Com isso levantamos as seguintes quest˜oes: O sistema linear definido em (1.4) tem sempre solu¸c˜ao? E tendo solu¸c˜ao essa solu¸c˜ao ´e ´unica? Al´em disso, essa solu¸c˜ao ´e sempre um minimizante local (e global) da fun¸c˜ao q(a0, a1)?

Para responder a essas quest˜oes comecemos por mostrar que o sistema de equa¸c˜oes (1.4) pode ser escrito em nota¸c˜ao matricial como

(29)

onde X =        1 x0 1 x1 1 x2 .. . ... 1 xm        (1.8) a =a0 a1  e y =      y0 y1 .. . ym     

. Com efeito, considerando X definido em (1.8), temos que

XTX = 1 1 1 · · · 1 x0 x1 x2 · · · xm         1 x0 1 x1 1 x2 .. . ... 1 xm        = m + 1 Pm i=0xi Pm i=0xi Pm i=0x 2 i  e XTy = 1 1 1 · · · 1 x0 x1 x2 · · · xm       y0 y1 .. . ym      =  Pm i=0yi Pm i=0xiyi  .

De seguida apresentaremos uma proposi¸c˜ao que garante a existˆencia e unicidade da solu¸c˜ao do sistema (1.4), desde que a caracter´ıstica da matriz X seja dois, isto ´e, as colunas de X devem ser linearmente independentes.

Proposi¸c˜ao 1.1 Se X ∈ R(m+1)×n, tem caracter´ıstica n, a matriz A = XTX, de dimens˜ao

n × n, ´e sim´etrica e definida positiva.

Prova: A matriz A = XTX ´e sempre sim´etrica. Por outro lado A ´e definida positiva se

zTAz > 0 para todo z ∈ Rn\{0}. Com efeito, zTAz = zTXTXz = (Xz)TXz = kXzk2 2 > 0

para todo z 6= {0}, uma vez que rank(X) = n. 2

Agora para provar que o sistema (1.4) tem sempre solu¸c˜ao e a solu¸c˜ao ´e ´unica, basta provar que a caracter´ıstica da matriz X definida em (1.8) ´e dois. Para isso consideremos λ1 e λ2

reais e mostremos que

(30)

Com efeito, de (1.9), vem que                λ1+ λ2x0 = 0 λ1+ λ2x1 = 0 λ1+ λ2x2 = 0 .. . λ1+ λ2xm = 0 ⇒                λ2(x0− x1) = 0 .. . ⇒                λ2 = 0 ∨ x0− x1 = 0 .. . ⇒                λ2 = 0 .. .

uma vez que x0− x1 6= 0, por serem os xi todos diferentes. Da´ı segue tamb´em que λ1 = 0.

Logo conclu´ımos que rank(X) = 2. Deste modo, fica provado que o sistema de equa¸c˜oes (1.4) tem sempre solu¸c˜ao e a solu¸c˜ao ´e ´unica.

Falta-nos provar que essa solu¸c˜ao representa sempre um minimizante local (e global) da fun¸c˜ao q(a0, a1). Para isso devemos provar que a matriz Hessiana de q(a0, a1) ´e definida

positiva, o que implica ser q(a0, a1) estritamente convexa1.

Seja H a matriz Hessiana de q(a0, a1). Assim temos:

H = " 2q ∂a2 0 ∂2q ∂a0∂a1 ∂2q ∂a1∂a0 ∂2q ∂a2 1 # = 2(m + 1) 2 P m i=0xi 2Pm i=0xi 2 Pm i=0x 2 i  =h11 h12 h21 h22  .

Como H = 2A = 2XTX, ent˜ao H ´e definida positiva, uma vez que j´a provamos que A

´

e definida positiva. Assim, fica provado que a solu¸c˜ao do sistema de equa¸c˜oes (1.4) ´e um minimizante global de q(a0, a1) visto que, sendo a fun¸c˜ao estritamente convexa, qualquer

ponto de estacionaridade ´e um minimizante global.

Exemplo 1.1 Determinar pelo m´etodo dos m´ınimos quadrados a equa¸c˜ao da reta que me-lhor se ajusta aos pontos da tabela

xi 0 2 4 6 9 11 12 15 17 19

yi 5 6 7 6 9 8 7 10 12 12

.

Resolu¸c˜ao: Neste caso pretendemos determinar os parˆametros a1 e a0 da equa¸c˜ao

y = a1x + ao. Para isso constru´ımos a Tabela 1.1.

P xi 0 2 4 6 9 11 12 15 17 19 95 yi 5 6 7 6 9 7 10 12 12 12 82 x2 i 0 4 16 36 81 121 144 225 289 361 1277 xiyi 0 12 28 36 81 88 84 150 204 228 911 Tabela 1.1: 1Ver Cap´ıtulo 2.

(31)

Agora aplicando (1.5) e (1.6) temos a1 = 10 × 911 − 95 × 82 10 × 1277 − 952 ∼= 0.35247 e a0 ∼= 82 − 0.35247 × 95 10 ∼ = 4.85154.

Utilizando o MATLAB, facilmente obtemos os parˆametros a1 e a0 do modelo. Primeiro

introduzimos os vetores com os valores de x e y da tabela. A fun¸c˜ao em MATLAB para estimar parˆametros em modelos lineares polinomiais, pelo processo dos m´ınimos quadrados ´

e a fun¸c˜ao polyfit. Assim, fazendo polyfit(x,y,1) (em que 1 indica que o polin´omio ´

e de grau ≤ 1 e x e y respectivamente as abcissas e as ordenadas dos pontos), obtemos a1 ∼= 0.3525 e a0 ∼= 4.8515, ou seja, a reta que melhor se ajusta aos pontos da tabela em

termos de m´ınimos quadrados ´e y ∼= 0.3525x + 4.8515.

Exemplo 1.2 (Regress˜ao linear de grau zero) O per´ıodo de um pˆendulo foi medido por um cron´ometro seis vezes. Como em cada medi¸c˜ao ocorreram erros experimentais, obteve-se a seguinte tabela

Medi¸c˜ao i 0 1 2 3 4 5

Valor Medido pi (segundos) 31.7 30.8 32.1 31.9 30.9 32.0

Determine o melhor valor P para o per´ıodo do pˆendulo, usando o crit´erio dos m´ınimos quadrados. Resolu¸c˜ao: 1 2 3 4 5 6 10 20 30 0 x y P

O modelo para este exemplo ´e y = P + ε, sendo ε o erro experimental. (P − pi) ´e o erro da reta no ponto i.

(32)

E(P ) =P5

i=0(P − pi)2 ´e a soma dos erros quadr´aticos a minimizar.

A condi¸c˜ao necess´aria de m´ınimo de E(P ) ´e d E d P = 5 X i=0 d d P(P − pi) 2 = 0 ⇔ 5 X i=0 2(P − pi) = 0 ⇔ 5 X i=0 (P − pi) = 0 ⇔ 5 X i=0 P − 5 X i=0 pi = 0 ⇔ 6P = 5 X i=0 pi ⇔ P = 1 6 5 X i=0 pi.

Portanto, o valor de P ´e a m´edia aritm´etica dos valores dos pi.

Em [37, pag. 260-261] encontramos um teorema que permite tra¸car a reta de regress˜ao linear com muita facilidade.

Teorema 1.1 A reta de regress˜ao linear y = a0+ a1x passa pelo ponto M , de coordenadas

(x, y), sendo x = Pm i=0xi m+1 e y = Pm i=0yi m+1 .

Prova: Este resultado ´e consequˆencia imediata de (1.6). 2

Agora para tra¸car a reta de regress˜ao precisamos de mais um ponto. Esse ponto pode ser o ponto em que a abcissa ´e zero. J´a vimos que a0 = y − xa1. Substituindo a1 por (1.5)

vem: a0 = y − x (m + 1)Pm i=0xiyi− Pm i=0xi Pm i=0yi (m + 1)Pm i=0x2i − ( Pm i=0xi) 2 = y[(m + 1) Pm i=0x 2 i − ( Pm i=0xi) 2 ] − x[(m + 1)Pm i=0xiyi − Pm i=0xi Pm i=0yi] (m + 1)Pm i=0x 2 i − ( Pm i=0xi) 2 , ou seja, a0 = P yiP x2i −P xiP xiyi (m + 1)P x2 i − (P xi)2 .

A obten¸c˜ao dos pontos P1 = (x, y) e P2 = (0, a0) permite-nos tra¸car a reta de regress˜ao.

1.2

Regress˜

ao Polinomial

Na sec¸c˜ao anterior, foi apresentado um procedimento para determinar a equa¸c˜ao da reta usando o m´etodo dos m´ınimos quadrados. Mas acontece que na maioria dos casos os dados representam fen´omenos que n˜ao s˜ao bem ajustados por uma reta mas sim por uma curva. Nesses casos pode ser conveniente ajustar os dados usando um polin´omio de grau superior a um.

Seja pn(x) ∈ P , com P o conjunto dos polin´omios, assim definido:

(33)

Pretende-se ent˜ao minimizar S = m X i=0 [f (xi) − pn(xi)] 2 , (1.11) onde m > n ou mesmo m  n2.

A determina¸c˜ao dos parˆametros a0, a1, . . . an−1, an ´e feita calculando as n + 1 derivadas

parciais de (1.11) e impondo que ∂a∂S

k = 0, k = 0, 1, 2, . . . , n. Assim temos: ∂S ∂a0 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni) = 0 ∂S ∂a1 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)xi = 0 ∂S ∂a2 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)x 2 i = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)x n i = 0.

Com isso, formamos um sistema de n + 1 equa¸c˜oes lineares,                (m + 1)a0 + a1 Pm i=0xi+ · · · + an Pm i=0x n i = Pm i=0fi a0 Pm i=0xi+ a1 Pm i=0x 2 i + · · · + an Pm i=0x n+1 i = Pm i=0fixi a0 Pm i=0x 2 i + a1 Pm i=0x 3 i + · · · + an Pm i=0x n+2 i = Pm i=0fix2i .. . a0 Pm i=0x n i + a1 Pm i=0x n+1 i + · · · + an Pm i=0x 2n i = Pm i=0fix n i (1.12)

que ´e um sistema de equa¸c˜oes lineares de Cramer com n + 1 equa¸c˜oes e n + 1 inc´ognitas. Este problema ´e mal condicionado se n ´e elevado, isto ´e, a solu¸c˜ao deste sistema ´e muito sens´ıvel a pequenas altera¸c˜oes nos dados. A matriz deste sistema ´e uma forma especial de matrizes de Hankel. Estas matrizes s˜ao sempre invert´ıveis (ver Apˆendice A). Logo o sistema (1.12) tem uma e uma s´o solu¸c˜ao. No Apˆendice A prova-se ainda que essa solu¸c˜ao ´

e um minimizante global de S.

Exemplo 1.3 Ajustar, pelo m´etodo dos m´ınimos quadrados os pontos da Tabela 1.2 a um polin´omio do terceiro grau.

Resolu¸c˜ao: Com o comando polyfit(x,y,3) do MATLAB obtemos os parˆametros a3,

a2, a1 e a0 do polin´omio do terceiro grau. Neste caso, obtemos a3 ∼= 0.0467, a2 ∼= −1.0412,

a1 ∼= 7.1438 e a0 ∼= −11.4887. Ent˜ao, o polin´omio do terceiro grau que melhor se ajusta

aos dados da tabela ´e p3(x) ∼= 0.0467x3− 1.0412x2+ 7.1438x − 11.4887. O gr´afico da Figura

1.1 ilustra o ajuste deste exemplo.

2Se m ≤ n, ent˜ao p

(34)

xi 3 4 5 7 8 9 11 12 yi 1.6 3.6 4.4 3.4 2.2 2.8 3.8 4.6 Tabela 1.2: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 −2 2 4 6 8 0

Figura 1.1: Gr´afico do Exemplo 1.3.

1.2.1

Modelo com Polin´

omios Ortogonais

Dissemos anteriormente que o sistema (1.12) ´e mal condicionado se n ´e elevado, por ser muito sens´ıvel a pequenas altera¸c˜oes nos dados (as matrizes de Hankel tˆem, nesse caso, um n´umero de condi¸c˜ao muito elevado). Assim, a resolu¸c˜ao num´erica do sistema de equa¸c˜oes (1.12) ´e cr´ıtica em termos de acumula¸c˜ao de erros de arredondamento, podendo haver instabilidade num´erica. Uma forma de superar esta limita¸c˜ao ´e a utiliza¸c˜ao de polin´omios ortogonais que faz com que o sistema de equa¸c˜oes resultante seja de f´acil resolu¸c˜ao por ser um sistema diagonal.

Em [17, pag. 200-201] encontramos uma defini¸c˜ao de polin´omios ortogonais e uma propriedade sobre a rela¸c˜ao de recorrˆencia dos polin´omios ortogonais que apresentaremos de seguida.

Defini¸c˜ao 1.1 Duas fun¸c˜oes f (x) e g(x) dizem-se ortogonais se o seu produto interno for nulo, ou seja, se hf (x), g(x)i = 0.

Propriedade 1.1 Os polin´omios ortogonais satisfazem a seguinte rela¸c˜ao de recorrˆencia, Pi+1(x) = Ai(x − Bi)Pi(x) − CiPi−1(x), i = 1, 2, . . . , n − 1, (1.13)

(35)

sendo P0(x) = 1 (P−1 = 0 por conven¸c˜ao) e os coeficientes da rela¸c˜ao, Ai, Bi e Ci, definidos por: Ai = 1, para todo i (1.14) Bi = hxPi(x), Pi(x)i hPi(x), Pi(x)i , para todo i (1.15) C0 = 0 e Ci = hPi(x), Pi(x)i

hPi−1(x), Pi−1(x)i

, para i > 0. (1.16)

Suponhamos agora que pretendemos minimizar S =Pm

i=0[f (xi) − pn(x)] 2

, em que pn(x) =

a0P0(x) + a1P1(x) + a2P2(x) + · · · + anPn(x), sendo P0(x), P1(x), . . . , Pn(x) polin´omios

ortogonais e f ´e conhecida em m + 1 pontos. Calculando as derivadas parciais de S em ordem aos parˆametros a0, a1, a2, . . . , an e igualando a zero as derivadas parciais, vem:

∂S ∂a0 = 2 m X i=0 (fi− a0P0(xi) − a1P1(xi) − · · · − anPn(xi))P0(xi) = 0 ∂S ∂a1 = 2 m X i=0 (fi − a0P0(xi) − a1P1(xi) − · · · − anPn(xni))P1(xi) = 0 ∂S ∂a2 = 2 m X i=0 (fi − a0P0(xi) − a1P1(xi) − · · · − anPn(xni))P2(xi) = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0P0(xi) − a1P1(xi) − · · · − anPn(xi))Pn(xi) = 0,

deste modo, formamos o seguinte sistema de equa¸c˜oes lineares:               

a0Pmi=0P0(xi)P0(xi) + a1Pmi=0P0(xi)P1(xi) + · · · + anPmi=0P0(xi)Pn(xi) =Pmi=0fiP0(xi)

a0Pmi=0P1(xi)P0(xi) + a1Pmi=0P1(xi)P1(xi) + · · · + anPmi=0P1(xi)Pn(xi) =Pmi=0fiP1(xi)

a0Pmi=0P2(xi)P0(xi) + a1Pmi=0P2(xi)P1(xi) + · · · + anPmi=0P2(xi)Pn(xi) =Pmi=0fiP2(xi)

.. . a0 Pm i=0Pn(xi)P0(xi) + a1 Pm i=0Pn(xi)P1(xi) + · · · + an Pm i=0Pn(xi)Pn(xi) = Pm i=0fiPn(xi) .

Mas sendo os polin´omios P0(x), P1(x), . . . , Pn(x) ortogonais, teremos que Pj(xi)Pk(xi) = 0,

∀j 6= k, da´ı o sistema reduz-se `a forma diagonal, tendo-se desta forma:

aj = Pm i=0Pj(xi)fi Pm i=0Pj(xi)Pj(xi) , j = 0, 1, 2, . . . , n. (1.17)

(36)

Exemplo 1.4 Calcular a solu¸c˜ao do problema min 9 X i=0 [fi− g(xi, a)] 2 (1.18)

a partir da Tabela 1.3 da fun¸c˜ao f .

xi 0 1 2 3 4 6 8 10 15 20

fi 4.0 4.7 4.9 5.3 6.1 6.7 6.9 7.2 7.1 7.5

Tabela 1.3:

Para o caso em que g(x; a) = a0P0(x) + a1P1(x) + a2P2(x), com P0(x), P1(x) e P2(x)

polin´omios ortogonais e a = [a0, a1, a2]T.

Resolu¸c˜ao: Primeiro, determinemos os polin´omios P0(x), P1(x) e P2(x), aplicando as

rela¸c˜oes de recorrˆencia dadas por (1.13). Assim, temos que: P0(x) = 1 e P1(x) = A0(x −

B0)P0(x) − C0P−1(x). Sendo C0 = 0, A0 = 1 e P0(x) = 1, temos que P1(x) = (x − B0), e

B0 = hxP0(x), P0(x)i hP0(x), P0(x)i = P9 i=0xi P9 i=01 = 69 10 = 6.9. Assim, P1(x) = x − 6.9. P2(x) = A1(x − B1)P1(x) − C1P0(x), com B1 = hxP1(x), P1(x)i hP1(x), P1(x)i = P9 i=0xi(xi− 6.9)2 P9 i=0(xi− 6.9)2 = 4689.09 378.9 ∼ = 12.37553 e C1 = hP1(x), P1(x)i hP0(x), P0(x)i = P9 i=0(xi− 6.9) 2 P9 i=0 = 378.9 10 = 37.8, da´ı, temos ent˜ao P2(x) = (x − 12.37553)(x − 6.9) − 38.89.

a0 = P9 i=0P0(xi)f (xi) P9 i=0P0(xi)P0(xi) = 63.4 10 = 6.34 a1 = P9 i=0P1(xi)f (xi) P9 i=0P1(xi)P1(xi) = 59.24 378.9 ∼ = 0.156347 a2 = P9 i=0P2(xi)f (xi) P9 i=0P2(xi)P2(xi) = −284.682 12489.63 ∼= −0.02279 logo, g(x) = 6.34 + 0.156347(x − 6.9) − 0.02279[(x − 12.37553)(x − 6.9) − 37.89].

(37)

−1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2 4 6 8 0 x y g(x)

Figura 1.2: Gr´afico do Exemplo 1.4.

1.3

Regress˜

ao Linear M´

ultipla

Um caso particular da regress˜ao linear ´e o caso em que a vari´avel dependente y ´e uma fun¸c˜ao linear de duas ou mais vari´aveis independentes. Neste caso pretende-se avaliar a rela¸c˜ao de uma vari´avel de interesse y em rela¸c˜ao a k vari´aveis zj, j = 1, 2, . . . , k. O modelo

para avaliar essa rela¸c˜ao ´e dado por

y = a0+ a1z1+ a2z2+ · · · + akzk+ ε, (1.19)

onde os zi representam as k vari´aveis independentes, os ai, i = 0, 1, . . . , k s˜ao os parˆametros

do modelo e ε o erro aleat´orio. Este modelo descreve um hiperplano no espa¸co k − dimensional dos {zi}.

As condi¸c˜oes subjacentes `a regress˜ao linear m´ultipla s˜ao an´alogas `as condi¸c˜oes da re-gress˜ao linear simples.

1.3.1

Regress˜

ao linear Bidimensional

Em muitos casos h´a necessidade de ajustar os dados experimentais, utilizando fun¸c˜oes de duas vari´aveis. Nesse caso est´a-se perante uma regress˜ao linear bidimensional, cujo modelo ´e y = a0+ a1z1+ a2z2+ ε.

Em regress˜ao linear bidimensional, pretende-se determinar a equa¸c˜ao do plano que melhor se ajusta a um conjunto de pontos de R3, em termos de m´ınimos quadrados, ou

(38)

Figura 1.3: Regress˜ao M´ultipla – Caso Bidimensional

Exemplo 1.5 Pretende-se estimar pelo m´etodo dos m´ınimos quadrados os parˆametros ao,

a1 e a2 do modelo Y = a0+ a1z1+ a2z2 a partir dos dados apresentados na Tabela 1.4. Os

dados representam as vendas efetuadas por dez empregados de uma dada empresa, o n´umero de anos de experiˆencia de cada vendedor e a respetiva pontua¸c˜ao no teste de inteligˆencia. O problema da regress˜ao consiste em determinar se o sucesso nas vendas pode ser medido em fun¸c˜ao das duas vari´aveis explicativas utilizadas.

Vendedor A B C D E F G H I J Y 9 6 4 3 3 5 8 2 7 4 z1 6 5 3 1 4 3 6 2 4 2 z2 3 2 2 1 1 3 3 1 2 2 Tabela 1.4: Sendo:

Y → Vendas (em milh˜oes de euros). z1 → Anos de experiˆencia como vendedor.

(39)

Para determinar a rela¸c˜ao linear de Y com as vari´aveis z1 e z2, calculemos os somat´orios:                                    P 1 = 10 P z1 = 36 P z2 = 20 P z2 1 = 156 P z2 2 = 46 P z1z2 = 80 P Y = 51 P Y z1 = 214 P Y z2 = 116

e com isso formamos o sistema de equa¸c˜oes normais   10 36 20 36 156 80 20 80 46     a0 a1 a2  =   51 214 116  ,

cuja solu¸c˜ao ´e a0 ∼= −0.2627, a1 ∼= 0.74 e a2 ∼= 1.3390. Sendo os coeficientes de z1 e z2

ambos positivos, conclui-se que varia¸c˜oes positivas nas vari´aveis explicativas z1 e z2 levam

a aumentos nas vendas m´edias.

1.4

Regress˜

ao dos M´ınimos Quadrados Linear Geral

Os modelos de regress˜ao linear simples e polinomial abordados anteriormente podem ser ambos inclu´ıdos no seguinte modelo de regress˜ao linear de m´ınimos quadrados geral:

g(x) = a0h0(x) + a1h1(x) + a2h2(x) + · · · + anhn(x) (1.20)

em que h0(x), h1(x), h2(x), . . . , hn(x), s˜ao as n+1 fun¸c˜oes base (subfun¸c˜oes), a0, a1, a2, . . . , an

s˜ao os parˆametros a determinar os seus valores e m ≥ n + 1.

Para o caso de regress˜ao linear simples temos que h0(x) = 1 e h1(x) = x. Para o modelo

polinomial os hi(x), i = 0, 1, · · · , n s˜ao as potˆencias de x.

De notar que a linearidade neste caso ´e relativa aos parˆametros ai, i = 0, 1, . . . , n e n˜ao

em rela¸c˜ao `as fun¸c˜oes h0(x), h1(x), h2(x), . . . , hn(x) que podem ser fun¸c˜oes n˜ao lineares de

x, como por exemplo, h0(x) = ex, h1(x) = cos x, h2(x) = (1 − x3) sin x, etc.

Seja S(a0, a1, . . . , an) = m X i=0 [f (xi) − a0h0(xi) + a1h1(xi) + a2h2(xi) + · · · + anhn(xi)] 2 . (1.21) Para determinar os parˆametros a0, a1, . . . , an que minimizam S procede-se como nos casos

(40)

derivadas parciais de S em ordem aos ai e igualam-se a zero. ∂S ∂a0 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xi))h0(xi) = 0 ∂S ∂a1 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xni))h1(xi) = 0 ∂S ∂a2 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xni))h2(xi) = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xi))hn(xi) = 0.

Agora vem o sistema de equa¸c˜oes normais representada na forma matricial,      P h0(xi)h0(xi) P h0(xi)h1(xi) · · · P h0(xi)hn(xi) P h1(xi)h0(xi) P h1(xi)h1(xi) · · · P h1(xi)hn(xi) .. . ... · · · ... P hn(xi)h0(xi) P hn(xi)h1(xi) · · · P hn(xi)hn(xi)           a0 a1 .. . an      =      P f (xi)h0(xi) P f (xi)h1(xi) .. . P f (xi)hn(xi)      . (1.22) Exemplo 1.6 Aproximar f dada pela Tabela 1.5, por uma fun¸c˜ao do tipo g(x) = a0sin(x)+

a1cos(x), usando o crit´erio dos m´ınimos quadrados.

x 0 π/4 π/2

f (x) −1 0.71 2

Tabela 1.5:

Resolu¸c˜ao: Neste caso temos h0(x) = sin(x) e h1(x) = cos(x). Para determinar os

parˆametros a0 e a1 vamos resolver o sistema de equa¸c˜oes,

 P2

i=0sin 2(x

i)

P2

i=0sin(xi) cos(xi)

P2

i=0cos(xi) sin(xi)

P2 i=0cos 2(x i)  a0 a1  =  P2 i=0f (xi) sin(xi) P2 i=0f (xi) cos(xi)  . Agora calculando os somat´orios passamos a ter o sistema de equa¸c˜oes

 1.5 0.25 0.25 1.5  a0 a1  ∼= 2.502046 −0.49795  ,

(41)

No exemplo anterior verificou-se que o sistema normal tinha uma e uma s´o solu¸c˜ao. Tamb´em sabemos que o conjunto de fun¸c˜oes C = {sin x, cos x} ´e linearmente independente. Pode pensar-se que, desde que o conjunto de fun¸c˜oes {h0(x), h1(x), . . . , hn(x)} seja l.i.,

ent˜ao estar´a garantido que o sistema (1.22) tem solu¸c˜ao ´unica. Em princ´ıpio ser´a assim, mas no caso geral n˜ao se pode afirmar isso. Vejamos o exemplo seguinte.

Exemplo 1.7 Aproximar f dada pela Tabela 1.6, por uma fun¸c˜ao do tipo g(x) = a0sin(x)+

a1cos(x), usando o crit´erio dos m´ınimos quadrados.

x π/4 π/4 + 2π π/4 + 4π

f (x) √2/2 √2/2 √2/2

Tabela 1.6:

Resolu¸c˜ao: Temos de novo h0(x) = sin(x) e h1(x) = cos(x). Tal como no exemplo

anterior, a determina¸c˜ao dos parˆametros a0 e a1 passa por resolver o sistema normal,

 P2

i=0sin 2(x

i)

P2

i=0sin(xi) cos(xi)

P2

i=0cos(xi) sin(xi)

P2 i=0cos2(xi)  a0 a1  =  P2 i=0f (xi) sin(xi) P2 i=0f (xi) cos(xi)  .

Como sin(π/4 + 2kπ) = cos(π/4 + 2kπ) =√2/2, k = 0, 1, 2, ent˜ao chegamos ao sistema 1.5 1.5 1.5 1.5  a0 a1  =1.5 1.5  .

Este sistema ´e poss´ıvel mas indeterminado. Na verdade, a matriz do sistema n˜ao ´e in-vert´ıvel. O conjunto infinito de solu¸c˜oes ´e {(a0, a1) ∈ R2 : a0+ a1 = 1}. Desta maneira

verificamos que a aproxima¸c˜ao dos m´ınimos quadrados existe mas n˜ao ´e ´unica. Note, por exemplo, que g(x) = sin(x) permite um ajuste ´optimo com res´ıduos nulos. Da mesma forma, g(x) = cos(x) tamb´em permite um ajuste ´optimo com res´ıduos nulos.

Considere-se a matriz Z, Z =        h0(x0) h1(x0) h2(x0) h3(x0) · · · hn(x0) h0(x1) h1(x1) h2(x1) h3(x1) · · · hn(x1) h0(x2) h1(x2) h2(x2) h3(x2) · · · hn(x2) .. . ... ... ... . .. ... h0(xm) h1(xm) h2(xm) h3(xm) · · · hn(xm)        . (1.23)

No Apˆendice A provamos que o sistema de equa¸c˜oes normais (1.22) tem uma e uma s´o solu¸c˜ao se e somente se a matriz Z dada por (1.23) tem as colunas linearmente indepen-dentes. Obviamente estamos a supor que os pontos xj, j = 0, 1, . . . , m s˜ao distintos.

Tamb´em no Apˆendice A se prova que a fun¸c˜ao S(a0, a1, . . . , an) definida por (1.21) ´e

sempre convexa (mesmo no caso em que a solu¸c˜ao do sistema (1.22) n˜ao ´e ´unica). Ent˜ao, o sistema normal de equa¸c˜oes obt´em pontos de estacionariedade que s˜ao minimizantes globais de S.

(42)

1.5

ecnicas de Lineariza¸

ao

De acordo com [6] o modelo de regress˜ao linear ´e uma t´ecnica poderosa para ajustar a modelos lineares a um conjunto de dados. No entanto, a maioria dos fen´omenos reais, sejam eles f´ısicos, qu´ımicos, biol´ogicos ou outros dados experimentais obtidos em laborat´orios representam uma rela¸c˜ao n˜ao linear entre o modelo e os seus parˆametros. Sendo assim ´

e de extrema importˆancia descobrir de que tipo ´e essa rela¸c˜ao e quais os parˆametros que a caracterizam. De entre os modelos que representam rela¸c˜oes n˜ao lineares com os seus parˆametros podemos distinguir dois tipos:

1. Modelos com fun¸c˜oes intrinsecamente lineares. 2. Modelos com fun¸c˜oes intrinsecamente n˜ao lineares.

O caso 1 ´e o nosso objeto de estudo nesta se¸c˜ao, enquanto que o caso 2 ser´a abordado na se¸c˜ao seguinte.

Para o caso 1, podemos sempre atrav´es de mudan¸cas de vari´aveis ou aplicando trans-forma¸c˜oes convenientes, encontrar uma rela¸c˜ao linear entre o modelo e os parˆametros.

De seguida apresentaremos algumas t´ecnicas de lineariza¸c˜ao de fun¸c˜oes.

1.5.1

Modelo Exponencial

Em muitos casos o diagrama de dispers˜ao sugere que a fun¸c˜ao pode ser aproximada por uma fun¸c˜ao exponencial da forma y = αeβx, em que α e β s˜ao constantes reais positi-vas. Segundo [6] esse modelo ´e usado em muitos campos da engenharia para caracterizar quantidades que aumentam ou diminuem a uma taxa proporcional a seu valor absoluto. Supondo y > 0, podemos linearizar este modelo, aplicando logaritmo natural a ambos os membros da equa¸c˜ao, passando assim a ter:

ln y = ln α + βx, (1.24)

desta forma, encontramos uma rela¸c˜ao linear de ln y em fun¸c˜ao de x, com declive β e ordenada na origem ln α. Este processo ´e chamado por vezes lineariza¸c˜ao dos dados, visto que os pontos (xi, ln yi) est˜ao “linearizados”.

(43)

y = αeβ x y x ln y ln α ln y = ln α + βx

Figura 1.4: Gr´aficos do modelo exponencial e do modelo linearizado.

Exemplo 1.8 Ajustar os dados da tabela seguinte a um modelo exponencial.

x −1.0 −0.5 0 0.5 1 1.5 2.0 2.5 3.0

y 0.157 0.234 0.350 0.522 0.778 1.162 1.733 2.586 3.858

Resolu¸c˜ao: Neste caso pretendemos ajustar os dados da tabela ao modelo y = αeβx.

Apliquemos (1.24) e de seguida consideremos a seguinte mudan¸ca de vari´avel: ln y = t e ln α = γ. Assim, passamos a ter o modelo de regress˜ao linear simples.

t = γ + βx (1.25)

Consideremos a tabela seguinte com os valores das novas vari´aveis.

xi −1.0 −0.5 0 0.5 1 1.5 2.0 2.5 3.0

ti −1.852 −1.452 −1.050 −0.650 −0.251 0.150 0.550 0.95 1.35

xiti 1.852 0.726 0 −0.325 −0.251 0.225 1.1 2.375 4.05

.

Da tabela acima temos que: P xi = 9, P ti = −2.255, P xiti = 9.752 e P x2i = 24.

Aplicando (1.5) e (1.6), obtemos

β = 9 × 9.752 − 9 × (−2.255) 9 × 24 − 81

(44)

e

γ = −2.255 − 0.800 × 9 9

= −1.0511.

Voltando agora `as vari´aveis iniciais, temos que ln α = −1.0511, de onde vem α ∼= e−1.0511 ∼= 0.3496. Logo, temos que g(x) ∼= 0.3496e0.8005x.

´

E de real¸car que os valores dos parˆametros a0 e a1 determinados no exemplo anterior

n˜ao minimizam a fun¸c˜ao S(α, β) = 8 X i=0 yi− αeβxi 2 . Minimizam sim a fun¸c˜ao:

T (α, β) = 8 X i=0 [ln yi− (ln α + βxi)] 2 .

Deste modo a solu¸c˜ao obtida aplicando esta t´ecnica de lineariza¸c˜ao n˜ao ´e ´otima3.

1.5.2

Modelo com Equa¸

ao de Potˆ

encia Simples

Um outro caso de modelo n˜ao linear e que pode ser linearizado ´e a equa¸c˜ao de potˆencia simples que utiliza uma fun¸c˜ao do tipo:

y = αxβ , x > 0 , (1.26)

em que α e β s˜ao reais positivos e β 6= 1. Uma t´ecnica para linearizar este modelo ser´a tamb´em aplicar logaritmos a ambos os membros da igualdade, obtendo-se desta forma

ln y = ln α + β ln x,

que ´e uma rela¸c˜ao linear de ln y em fun¸c˜ao de ln x, com declive β e ordenada na origem ln α.

1.5.3

Modelo Hiperb´

olico

O modelo hiperb´olico ´e dado por

y = αx

β + x, (1.27)

com α e β constantes reais.

Segundo [6, pag. 390] esse modelo ´e adequado para caracterizar a taxa de crescimento populacional sob condi¸c˜oes limitantes.

Para linearizar este modelo podemos inverter (1.27), obtendo-se deste modo a rela¸c˜ao 1 y = β α 1 x + 1 α, (1.28)

que ´e uma rela¸c˜ao linear de 1y em fun¸c˜ao de 1x, com declive βα e ordenada na origem α1.

(45)

Exemplo 1.9 (Sugerido por [6, pag. 407])

Um investigador relatou os dados da Tabela 1.7 para uma experiˆencia para determinar a taxa de crescimento k de uma bact´eria (por dia), como uma fun¸c˜ao da concentra¸c˜ao de oxig´enio c (mg/L). Sabe-se que tais dados podem ser modelados pela seguinte equa¸c˜ao:

k = kmaxc

2

cs+ c2

, (1.29)

onde cs e kmax s˜ao parˆametros. Use uma transforma¸c˜ao para linearizar essa equa¸c˜ao. A

seguir, use regress˜ao linear para fazer uma estimativa de cs e kmax e prever a taxa de

crescimento em c = 2 mg/L.

c 0.5 0.8 1.5 2.5 4

k 1.1 2.4 5.3 7.6 8.9 Tabela 1.7:

Resolu¸c˜ao: Para linearizar a equa¸c˜ao vamos inverter (1.29) e da´ı passamos a ter

1 k = cs+c2 kmaxc2 = cs kmax 1 c2+ 1

kmax, que ´e uma rela¸c˜ao linear de

1

k em fun¸c˜ao de 1

c2. Para encontrar uma estimativa para os parˆametros cs e kmax, fa¸camos a seguinte tabela

c k c12 1 k 1 c4 1 c2k 0.5 1.1 4 0.9091 16 3.6364 0.8 2.4 1.5625 0.4167 2.4414 0.5610 1.5 5.3 0.4444 0.1887 0.1975 0.0839 2.5 7.6 0.16 0.1316 0.0256 0.0211 4 8.9 0.0625 0.1123 0.0039 0.0070 P 9.3 25.3 6.2294 1.7584 18.6684 4.3993

Agora para obter cs

kmax e

1

kmax basta aplicarmos (1.5) e (1.6). Assim, cs kmax = 5 × 4.3993 − 6.2294 × 1.7584 5 × 18.6684 − 6.22942 ∼= 0.2025 e 1 kmax = 1.7584 − 0.2025 × 6.2294 5 ∼= 0.0994.

Deste modo kmax ∼= 0.09941 ∼= 10.0604 e cs = 0.2025 × 10.0604 ∼= 2.0372. Para encontrar

uma previs˜ao da taxa de crescimento para uma concentra¸c˜ao de oxig´enio de c = 2 mg/L, utilizamos equa¸c˜ao k ∼= 2.0372+c10.0604c22, e neste caso obtemos k ∼= 6.6656.

(46)

1.6

Regress˜

ao n˜

ao Linear

Na se¸c˜ao anterior referimos dois modelos n˜ao lineares de ajustes de dados pelo m´etodo dos m´ınimos quadrados, e fizemos uma abordagem sobre o modelo com fun¸c˜oes intrinse-camente lineares nos seus parˆametros, onde vimos que mediante t´ecnicas adequadas trans-formamos esses modelos de modo a termos fun¸c˜oes lineares nos parˆametros. Nesta sec¸c˜ao abordaremos o caso com fun¸c˜oes intrinsecamente n˜ao lineares. Nesse tipo de modelos n˜ao h´a nenhuma transforma¸c˜ao finita exata atrav´es da qual possamos exprimir o modelo de uma forma linear em rela¸c˜ao aos seus parˆametros, isto ´e, n˜ao ´e poss´ıvel escrever o modelo na forma de (1.20) e consequentemente n˜ao ´e poss´ıvel transformar o problema de m´ınimos quadrados na resolu¸c˜ao de um sistema de equa¸c˜oes lineares. S˜ao exemplos de modelos intrinsecamente n˜ao lineares nos parˆametros:

g(x; a0, a1) = a0(1 − e−a1x),

v(t; α, β) = e−αt+ β sin t,

h(x; a0, a1, a2) = a0sin x + cos(a1x) + e−a2x,

etc.

O modelo de regress˜ao n˜ao linear para ajuste de dados assume a forma:

y = f (X, a) (1.30) Em que y =      y0 y1 .. . ym     

designa um vetor (m+1)×1 de observa¸c˜oes, X =      x01 x02 · · · x0k x11 x12 · · · x1k .. . ... · · · ... xm1 xm2 · · · xmk      ´

e uma matriz (m+1)×k dos m+1 valores exatos das k vari´aveis independentes, a =      a0 a1 .. . an      ´e

um vetor (n + 1) × 1 dos parˆametros e f ´e uma fun¸c˜ao n˜ao linear em rela¸c˜ao aos parˆametros a0, a1, · · · , an.

A soma da m´edia dos erros quadr´aticos entre os dados e o modelo pode ser expressa por:  = m X i=0 (yi− f (xi1, xi2, . . . , xik; a0, a1, . . . , an))2. (1.31)

Considerando m > n, podemos definir a fun¸c˜ao S : Rn+1 −→ R por

S(a0, a1, a2, . . . , an) = m

X

i=0

(47)

O nosso objetivo ´e determinar os parˆametros a0, a1, · · · , an que minimizam (1.32). A

solu¸c˜ao ´otima a∗ = [a∗0, a∗1, . . . , a∗n]T ajusta os dados experimentais no sentido dos m´ınimos

quadrados. A condi¸c˜ao necess´aria para que a∗ = [a∗0, a∗1, . . . , a∗n]T seja minimizante de S ´e

termos as derivadas parciais de S em rela¸c˜ao a cada um dos parˆametros a0, a1, . . . , an iguais

a zero. Com isso formamos um sistema de equa¸c˜oes normais n˜ao linear nos parˆametros a0, a1, . . . , an. A solu¸c˜ao do sistema ´e um ponto estacion´ario da fun¸c˜ao S que pode n˜ao ser

um m´ınimo. Conv´em real¸car que n˜ao existem m´etodos diretos para o ajuste de fun¸c˜oes pelo m´etodo dos m´ınimos quadrados n˜ao lineares, sendo a solu¸c˜ao obtida por m´etodos iterativos. Nos cap´ıtulos seguintes abordaremos os m´etodos iterativos para o ajuste n˜ao linear dos m´ınimos quadrados.

A seguir mostraremos alguns exemplos desse tipo de problemas.

Exemplo 1.10 No estudo laboratorial de um fen´omeno, uma certa grandeza f´ısica y(t) va-ria no tempo. Prevendo-se que siga uma lei dada pela express˜ao anal´ıtica: ypredicted(k1, k2, t) =

k1

k1−k2 e

−k2t− e−k1t, sendo k

1 e k2 parˆametros reais desconhecidos. No laborat´orio

simula-se o fen´omeno e obtˆem-se os dados experimentais da tabela seguinte: Pontos ti(s) yobserved(ti)

t1 = 0.5 yo1 = 0.263

t2 = 1.0 yo2 = 0.455

t3 = 1.5 yo3 = 0.548

.

Pretende-se calcular os valores dos parˆametros reais k1 e k2 por minimiza¸c˜ao dos

qua-drados dos desvios: min (k1,k2)∈R = φ(k1, k2) = m X i=1 [yobserved(ti) − ypredicted(k1, k2, ti)] 2 .

Ou seja, pretende-se encontrar os valores ´otimos (k∗1, k2∗) dos parˆametros k1 e k2 por forma

a minimizar a fun¸c˜ao φ(k1, k2). Trata-se do crit´erio dos m´ınimos quadrados no caso n˜ao

linear (regress˜ao n˜ao linear).

(a) Escreva uma function MATLAB para implementar computacionalmente a fun¸c˜ao φ(k1, k2).

(b) Use o comando fminsearch da Optimization Toolbox do MATLAB para calcular os valores ´otimos k1∗ e k2∗.

(c) Fa¸ca um gr´afico MATLAB da fun¸c˜ao ypredicted(k1, k2, t), com t ∈ [0, 2] e assinale nesse

gr´afico os pontos (ti, yoi), i = 1, 2, 3 da tabela acima.

Resolu¸c˜ao:

(a) Neste caso, a fun¸c˜ao a minimizar, segundo o crit´erio dos m´ınimos quadrados ´e φ(k1, k2) =

3

X

i=1

(48)

com yp(k1, k2, t) = k1k−k1 2 e

−k2t− e−k1t.

Para implementar computacionalmente a fun¸c˜ao φ(k1, k2) no MATLAB, criamos as

seguintes fun¸c˜oes:

(1) function yp=ypredicted (k1, k2,t) E1=exp(-k1*t); E2=exp(-k2*t); k=k1/(k1-k2); yp=k*(E2-E1); (2) function S=phisum (k) t=[0.5 1.0 1.5]; yo=[0.263 0.455 0.548]; P=(yo-ypredicted(k(1), k(2), t)).^ 2; S=sum(P); (b) Com o comando >> fminsearch(’phisum’,[1 1]), obtivemos k1∗ ∼= 0.6630 e k2∗ ∼= 0.1546.

(c) Para obtermos a representa¸c˜ao gr´afica da fun¸c˜ao e os pontos (ti, yoi), i = 1, 2, 3

implementamos a seguinte function no MATLAB: function phigraf(a,b,h) t=a:h:b; ti=[0.5 1.0 1.5]; yo=[0.263 0.455 0.548] k=fminsearch(’phisum’,[2 2]); yp=ypredicted(k(1), k(2), t); plot(t,yp); hold on plot(ti,yo,’or’) figure(gcf)

Agora com o comando phigraf(0,3,0.001), obtivemos o gr´afico da Figura 1.5.

No Cap´ıtulo 3 vamos abordar m´etodos de minimiza¸c˜ao para resolver este tipo de pro-blemas.

(49)

Figura 1.5: Ilustra¸c˜ao gr´afica do Exemplo 1.10.

Exemplo 1.11 Num circuito eletr´onico a tens˜ao el´etrica de sa´ıda ´e mostrada a intervalos de 0.5 segundos, obtendo-se a tabela

ti 0 0.5 1 1.5 2 2.5 3

vi 1.0950 −0.1569 −1.0157 −1.4740 −1.3616 −0.8342 −0.0135

. Tabela 1.8:

Sabemos que a tens˜ao ser´a da forma

v(t) = e−αt+ β sin t onde α e β s˜ao valores desconhecidos.

(a) Formular o problema de minimiza¸c˜ao que permite determinar α e β por forma a obter um melhor ajuste de v(t) aos dados da tabela no sentido dos m´ınimos quadrados. (b) Encontrar o sistema de estacionariedade (sistema de equa¸c˜oes normais).

(50)

(a) Como pretendemos aplicar o m´etodo dos m´ınimos quadrados, devemos ent˜ao mini-mizar a soma dos erros quadr´aticos, isto ´e, devemos ter

min (α,β)∈R2E(α, β) = 7 X i=1 vi− e−αti− β sin(ti) 2 .

(b) Os valores de α e β que minimizam E(α, β), encontram-se entre os que anulam o gradiente da referida fun¸c˜ao.

∇E(α, β) = ∂E ∂α(α, β) ∂E ∂β(α, β)  ⇒ ∇E(α, β) =  2P7 i=1[(vi− e−αti − β sin(ti))(tie−αti)] 2P7

i=1[(vi− e−αti − β sin(ti))(− sin(ti))]

 .

O sistema de estacionariedade ´e ∇E(α, β) = 0 0 

. Fazendo x ←− α e y ←− β, passamos a ter o sistema de equa¸c˜oes:

( f (x, y) =P7 j=1[(vj − e −xtj− y sin(t j))(tje−xtj)] = 0 g(x, y) =P7 j=1[(vj− e −xtj − y sin(t j))(− sin(tj))] = 0 .

Trata-se de um sistema de equa¸c˜oes n˜ao lineares cuja resolu¸c˜ao abordaremos no Cap´ıtulo 3.

Propomos agora a resolu¸c˜ao desse sistema atrav´es do comando fsolve do MATLAB. Assim, criamos a seguinte function:

function F=dcircuit(x) ti=0:0.5:3; Vi=[1.0950 -0.1569 -1.0157 -1.4740 -1.3616 -0.8342 -0.0135]; phi=exp(-x(1)*ti)+x(2)*sin(ti); df=sum((Vi-phi).*(ti.*exp(-x(1)*ti))); dg=sum((Vi-phi).*(-sin(ti))); F=[df dg]’; end

Agora, utilizando o comando: >> [x F]=fsolve(’dcircuit’,[0 0]’), obtemos x =

0.4295 -1.9842 F =

1.0e-006 * -0.1559 0.0639

Sendo assim, temos α ∼= 0.4295 e β ∼= −1.9842. Portanto, o modelo que melhor se ajusta aos dados da Tabela 1.8 em termos de m´ınimos quadrados ´e

(51)
(52)

Referências

Documentos relacionados

Para a atribuição de cada um dos níveis/classificações/menções na avaliação sumativa do aluno são tidas em consideração não só os Conhecimentos e Capacidades

Para a perfeita conservação de suas características alguns cuidados deverão ser seguidos, para tal, a Polipiso do Brasil desenvolveu este Manual de Manutenção,

O objetivo do presente estudo foi verificar a presença de alodínia e hiperalgesia cefálica e extracefálica em indivíduos com DTM dolorosa e livres de condições

Esse trabalho apresenta um relato sobre a experiência usando o teatro para apresentar a cultura regional, local inserida em um trecho da peça o Auto de Compadecida,

Uma vez sabendo a natureza (ou causas) da filosofia, o professor no ensino médio, segundo Aristóteles, necessariamente deve direcionar o ensino para o exercício da

O Projeto de Transposição do São Francisco é apontado como um elemento fundamental para garantir segurança hídrica ao semiárido nordestino. Apresentado como instrumento capaz

A quitação das verbas rescisórias será efetuada pela empresa num prazo de 10(dez) dias consecutivos em se tratando de aviso prévio indenizado ou dispensado, é até o primeiro

Foram realizados 18000 treinamentos com o time implementado e os resultados in- dicam que a convergˆ encia desse m´ etodo ´ e lenta, indicando a necessidade de defini¸c˜ ao de