Agostinho Jorge
Tavares Monteiro
Agostinho Jorge
Tavares Monteiro
Otimiza¸
c˜
ao N˜
ao Linear de M´ınimos Quadrados
Disserta¸c˜ao apresentada `a Universidade de Aveiro para cumprimento dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Matem´atica e Aplica¸c˜oes, ´area de especializa¸c˜ao Matem´atica Empresarial e Tecnol´ogica, realizada sob a orienta¸c˜ao cient´ıfica do Doutor Jorge Manuel S´a Esteves, Professor Auxiliar do Departamento de Matem´atica da Universidade de Aveiro.
presidente / president Professora Doutora Isabel Maria Sim˜oes Pereira
Professora Auxiliar do Departamento de Matem´atica da Universidade de Aveiro
vogais / examiners committee Professora Doutora Ana Cristina Soares De Lemos
Professora Coordenadora do Instituto Polit´ecnico de Leiria - Escola Superior de Tecnologia e Gest˜ao
Professor Doutor Jorge Manuel S´a Esteves
Professor Auxiliar do Departamento de Matem´atica da Universidade de Aveiro (orientador)
bilidade na orienta¸c˜ao deste trabalho, pelas sugest˜oes apresentadas e pela revis˜ao final deste trabalho.
Ao Instituto Portuguˆes de Apoio ao Desenvolvimento (IPAD) pela con-cess˜ao da bolsa de estudos.
Ao Departamento de Matem´atica da Universidade de Aveiro e, em par-ticular, `a diretora do curso de Mestrado em Matem´atica e Aplica¸c˜oes, Doutora Isabel Maria Sim˜oes Pereira pelo acolhimento e apoio presta-dos.
`
A Dire¸c˜ao Geral do Ensino Superior de Cabo Verde que conduziu todo o processo de candidatura `a bolsa de estudos.
Ao Governo de Cabo Verde por ter aceite o pedido de Comiss˜ao Even-tual de Servi¸cos.
`
A minha fam´ılia e aos meus amigos pelo carinho e motiva¸c˜ao apresen-tados.
Resumo O problema de otimiza¸c˜ao de m´ınimos quadrados ´e apresentado como uma classe importante de problemas de minimiza¸c˜ao sem restri¸c˜oes. A importˆancia dessa classe de problemas deriva das bem conhecidas aplica¸c˜oes `a estima¸c˜ao de parˆametros no contexto das an´alises de re-gress˜ao e de resolu¸c˜ao de sistemas de equa¸c˜oes n˜ao lineares. Apresenta-se uma revis˜ao dos m´etodos de otimiza¸c˜ao de m´ınimos quadrados li-neares e de algumas t´ecnicas conhecidas de lineariza¸c˜ao. Faz-se um estudo dos principais m´etodos de gradiente usados para problemas n˜ao lineares gerais: M´etodos de Newton e suas modifica¸c˜oes incluindo os m´etodos Quasi-Newton mais usados (DFP e BFGS). Introduzem-se depois m´etodos espec´ıficos de gradiente para problemas de m´ınimos quadrados: Gauss-Newton e Levenberg-Marquardt. Apresenta-se uma variedade de exemplos selecionados na literatura para testar os diferen-tes m´etodos usando rotinas MATLAB. Faz-se uma an´alise comparativa dos algoritmos baseados nesses ensaios computacionais que exibem as vantagens e desvantagens dos diferentes m´etodos.
Abstract The least squares optimization problem is presented as an important class of unconstrained minimization problems. The importance of that class of problems is due to the well-known applications to parameter estimation in the context of regression analysis and from methods for solving systems of nonlinear equations. A review of linear least squa-res optimization methods and some linearization techniques is carried out. A study of the major gradient methods used for general nonlinear problems is presented: Newton Methods and its modifications, inclu-ding the frequently used Quasi-Newton methods (DFP and BFGS). Some specific gradient methods for non-linear least squares problems: Gauss-Newton and Levenberg-Marquardt methods. Several selected examples are used for testing the methods using MATLAB routines. Finally, based on those computational tests, a comparative analysis of the algorithms is made in order to highlight the advantages and disadvantages of the different methods.
or minimum does not appear.”
Conte´udo i
Introdu¸c˜ao 1
1 Problemas de M´ınimos Quadrados 9
1.1 Regress˜ao Linear . . . 11
1.2 Regress˜ao Polinomial . . . 16
1.2.1 Modelo com Polin´omios Ortogonais . . . 18
1.3 Regress˜ao Linear M´ultipla . . . 21
1.3.1 Regress˜ao linear Bidimensional . . . 21
1.4 Regress˜ao dos M´ınimos Quadrados Linear Geral . . . 23
1.5 T´ecnicas de Lineariza¸c˜ao . . . 26
1.5.1 Modelo Exponencial . . . 26
1.5.2 Modelo com Equa¸c˜ao de Potˆencia Simples . . . 28
1.5.3 Modelo Hiperb´olico . . . 28
1.6 Regress˜ao n˜ao Linear . . . 30
2 Algoritmos de Otimiza¸c˜ao sem Restri¸c˜oes 37 2.1 Otimiza¸c˜ao n˜ao Linear sem Restri¸c˜oes . . . 37
2.1.1 Forma Geral de um Problema de Otimiza¸c˜ao n˜ao Linear . . . 37
2.1.2 Otimiza¸c˜ao sem Restri¸c˜oes . . . 38
2.2 Conceitos B´asicos de Otimiza¸c˜ao Multidimensional sem Restri¸c˜oes . . . 38
2.2.1 Condi¸c˜oes de Otimalidade . . . 39
2.2.2 Classifica¸c˜ao dos Pontos de Estacionaridade . . . 40
2.3 Problema de M´ınimos Quadrados sem Restri¸c˜oes . . . 42
2.3.1 Existˆencia da solu¸c˜ao de m´ınimos quadrados . . . 43
2.3.2 Unicidade da solu¸c˜ao de m´ınimos quadrados . . . 45
2.3.3 Existˆencia de m´ultiplos minimizantes locais distintos . . . 45
2.4 M´etodos Num´ericos de Minimiza¸c˜ao . . . 47
2.4.1 M´etodo da Descida mais R´apida (Steepest Descent) . . . 47
2.4.2 M´etodo de Newton . . . 51
2.4.3 M´etodo de Newton Modificado . . . 54
2.5.1 Abordagem dos M´etodos Quasi-Newton B´asico . . . 55
2.5.2 M´etodo DFP (Davidon-Fletcher-Powell) . . . 57
2.5.3 M´etodo de Broyden-Fletcher-Goldfarb-Shanno (BFGS) . . . 58
3 M´etodo de Newton para resolu¸c˜ao de Sistemas n˜ao Lineares de Equa¸c˜oes 61 3.1 Forma geral do Problema . . . 62
3.1.1 Sistemas n˜ao Lineares de Equa¸c˜oes versus Problemas de Otimiza¸c˜ao 62 3.2 M´etodo de Newton . . . 63
3.2.1 Algoritmo de Newton para Sistemas n˜ao Lineares de Equa¸c˜oes . . . 64
3.2.2 Crit´erios de paragem . . . 66
3.3 Convergˆencia Local do M´etodo de Newton . . . 70
3.4 M´etodo de Newton Modificado . . . 73
3.4.1 Atualiza¸c˜ao Peri´odica da Matriz Jacobiana . . . 73
3.4.2 Aproxima¸c˜ao da Matriz Jacobiana por Diferen¸cas Divididas . . . . 74
4 Algoritmos para Otimiza¸c˜ao n˜ao Linear de M´ınimos Quadrados 75 4.1 M´etodo de Gauss-Newton . . . 76
4.2 M´etodo de Levenberg-Marquardt . . . 83
4.3 Problemas de M´ınimos Quadrados com Res´ıduos Grandes . . . 85
4.3.1 Problemas de Grande Escala . . . 86
4.4 Regress˜ao de Distˆancias Ortogonais . . . 86
4.5 Compara¸c˜ao de Algoritmos . . . 89
Conclus˜oes 97 A Matrizes de Hankel 101 A.1 Caso da regress˜ao linear polinomial quando m = n . . . 101
A.2 Caso da regress˜ao linear polinomial geral (m > n) . . . 104
A.3 Caso da regress˜ao linear geral . . . 105
A.3.1 Existˆencia de solu¸c˜ao . . . 105
A.3.2 Condi¸c˜oes para a unicidade da solu¸c˜ao . . . 106
A.3.3 Qualifica¸c˜ao das solu¸c˜oes como minimizantes globais . . . 107
B Ordens de Convergˆencia 109
Enquadramento
Em todas as situa¸c˜oes o ser humano procura melhorar, isto ´e, optimizar o que tem, o que ´e. O mesmo se passa na Natureza. Por exemplo: os corpos tendem a ocupar a posi¸c˜ao de menor energia poss´ıvel; a luz escolhe o caminho mais r´apido entre dois pontos. . . Da´ı que seja natural a importˆancia de estudar a optimiza¸c˜ao, dado que melhoramos a nossa vida e entendemos melhor a natureza.
Supondo que conseguimos quantificar os principais descritores de uma dada situa¸c˜ao podemos estabelecer um modelo matem´atico baseado em vari´aveis que suporemos reais. Dessa forma, o esfor¸co requerido para obter um benef´ıcio desejado em qualquer situa¸c˜ao pr´atica pode ser expresso como uma fun¸c˜ao (de vari´aveis de decis˜ao). A optimiza¸c˜ao pode ser definida como o processo de encontrar as condi¸c˜oes que nos d˜ao o m´ınimo ou o m´aximo valor de uma fun¸c˜ao. O termo ´optimo refere-se a um m´ınimo ou a um m´aximo dependente das circunstˆancias. Na verdade, ´optimo ´e um termo t´ecnico que implica a possibilidade de medi¸c˜oes quantitativas e ´e mais forte que o termo melhor que ´e mais apropriado no uso da linguagem natural quotidiana. Da mesma forma, o termo optimizar ´e mais forte que o termo melhorar. A Teoria da Optimiza¸c˜ao ´e o ramo da Matem´atica que engloba o estudo quantitativo dos ´otimos e dos m´etodos que permitem encontr´a-los.
Com o advento dos computadores digitais de elevada velocidade de processamento os m´etodos de optimiza¸c˜ao sofreram avan¸cos gigantescos. Na verdade, nos ´ultimos cin-quenta anos foram estabelecidos muitos m´etodos de optimiza¸c˜ao definidos por algoritmos. Ao mesmo tempo que esse desenvolvimento se dava, os computadores eletr´onicos digitais tornaram-se sucessivamente mais r´apidos e com acesso a muito mais mem´oria. Ou seja, tornaram-se mais vers´ateis e mais eficientes. Como consequˆencia, ´e agora poss´ıvel resolver problemas de optimiza¸c˜ao muito complexos que eram considerados intrat´aveis no passado. A abordagem mais poderosa para desenvolver algoritmos pr´aticos de optimiza¸c˜ao ´e a que se baseia em m´etodos num´ericos iterativos, tendo como finalidade a sua implementa¸c˜ao em programas executados por computadores digitais. Na verdade, estes processos permi-tem resolver problemas de elevada complexidade que nunca poderiam ser resolvidos por m´etodos anal´ıticos e gr´aficos (ou outros baseados em simula¸c˜oes experimentais).
O Problema de Optimiza¸
c˜
ao B´
asico
Antes da optimiza¸c˜ao ser levada a cabo, o problema deve ser corretamente formulado. Um crit´erio de performance tem de ser estabelecido em fun¸c˜ao de n vari´aveis de decis˜ao x1, x2, . . . , xn, como
F = f (x1, x2, . . . , xn) (1)
onde F ´e uma fun¸c˜ao real.
O mais b´asico problema de optimiza¸c˜ao consiste em ajustar as vari´aveis de decis˜ao x1, x2, . . . , xn de tal forma que minimizem a fun¸c˜ao F . Para simplificar a nota¸c˜ao deve
usar-se nota¸c˜ao vetorial. Assim, se x for um vector coluna de componentes x1, x2, . . . , xn,
temos
x> = [x1, x2, . . . , xn] ∈ Rn.
Usando esta nota¸c˜ao, o problema b´asico de optimiza¸c˜ao pode formular-se como1:
minimize F = f (x) para x ∈ Rn. (2)
Um problema similar surge em aplica¸c˜oes cient´ıficas e de engenharia quando uma fun¸c˜ao de x que se pretende optimizar ´e tamb´em uma fun¸c˜ao de uma vari´avel real independente t (i.e. tempo, posi¸c˜ao, velocidade) que toma valores num intervalo [a, b] ⊂ R. Neste caso, a optimiza¸c˜ao visar´a ajustar os valores de x1, x2, . . . , xn de tal forma que se optimize a
fun¸c˜ao objectivo quando t varia ao longo de [a, b]. Nestas aplica¸c˜oes ´e comum amostrar (ou tabelar) a fun¸c˜ao objectivo fazendo variar a vari´avel t. Neste caso, define-se a fun¸c˜ao vetorial
F(x) = [f (x, t1), f (x, t2), . . . , f (x, tm)] >
∈ Rm. (3)
cujas componentes s˜ao os valores obtidos quando a vari´avel t toma os valores t = t1, t2, . . . , tm.
Adicionalmente, se definirmos
fi ≡ f (x, ti) , i = 1, 2, . . . , m
podemos de novo escrever
F(x) = [f1(x), f2(x), . . . , fm(x)] >
∈ Rm. (4)
Uma solu¸c˜ao de um tal problema pode ser obtida optimizando simultaneamente as fun¸c˜oes fi para i = 1, 2, . . . , m. Esta solu¸c˜ao pode, evidentemente, ser apenas aproximada porque
qualquer varia¸c˜ao de f (x, t) entre pontos da tabela ´e ignorada. Contudo, uma solu¸c˜ao razo´avel pode ser obtida na pr´atica usando um n´umero suficientemente grande de pontos amostrais.
Problemas deste tipo podem ser resolvidos se definirmos uma fun¸c˜ao objectivo escalar em termos das componentes da fun¸c˜ao vetorial F(x). A fun¸c˜ao objectivo deve ser escalar
1Se o objectivo consistir em encontrar o m´aximo da fun¸c˜ao f , ent˜ao esse problema pode ser convertido
facilmente num problema de minimiza¸c˜ao uma vez que max [f (x)] = − min [−f (x)]. Consequentemente, trataremos s´o problemas de minimiza¸c˜ao sem perda de generalidade.
e a optimiza¸c˜ao tem de conduzir `a optimiza¸c˜ao de todas as componentes de F(x) usando um qualquer crit´erio. ´E f´acil de verificar que uma boa escolha ´e fazer uso de uma norma. Assim, uma fun¸c˜ao objectivo pode ser definida em termos da norma Lp de Holder como
F ≡ Lp = ( m X i=1 |fi(x)| p )1/p (5) onde p ∈ N.
Alguns casos especiais da norma Lp assumem interesse particular. Se p = 1
F ≡ L1 = m
X
i=1
|fi(x)| (6)
e, portanto, trata-se de minimizar a soma dos valores absolutos das componentes. Este problema designa-se habitualmente por problema L1.
Fazendo tender p para infinito e se assumirmos que existe um ´unico m´aximo de |fi(x)|
designado por ˆF tal que
ˆ
F = max
1≤i≤m|fi(x)|
ent˜ao podemos escrever
F ≡ L∞ = lim p→+∞ ( m X i=1 |fi(x)|p )1/p = Fˆ lim p→+∞ ( m X i=1 fi(x) ˆ F p)1/p
Como todos os termos do somat´orio excepto um s˜ao estritamente menores que um, a potˆencia p desses termos tender´a para zero quando p → +∞. Ent˜ao, obtemos que
F = ˆF = max
1≤i≤m|fi(x)| .
Usando este crit´erio, estaremos a tomar a norma L∞. Neste caso vai-se minimizar a
componente que em valor absoluto ´e a maior. Trata-se de um problema minimax.
No entanto, o caso mais not´avel resulta de tomarmos p = 2. Nesse caso a norma Euclideana F ≡ L2 = ( m X i=1 |fi(x)| 2 )1/2 (7) ´
e minimizada, e se a raiz quadrada for omitida, a soma dos quadrados das componentes ´e minimizada. Este problema ´e designado normalmente por problema de m´ınimos quadrados. Dedicaremos esta disserta¸c˜ao ao estudo desta classe de problemas.
Uma variante interessante destes problemas resulta se tomarmos coeficientes de pon-dera¸c˜ao w1, w2, . . . , wn∈ R+ (tamb´em designados por pesos). Neste caso, a fun¸c˜ao
objec-tivo de m´ınimos quadrados ser´a
F =
m
X
i=1
|wifi(x)|2
para enfatizar certas componentes como importantes ou cr´ıticos e para relaxar outras com-ponentes por serem menos importantes. Esta variante costuma ser designada por problema de m´ınimos quadrados ponderados. Se F for minimizada, os erros residuais wifi(x) no fim
da minimiza¸c˜ao tender˜ao a ser da mesma ordem de grandeza, ou seja erro em |wifi(x)| ≈
e ent˜ao
erro em |fi(x)| ≈
|wi|
Daqui decorre que se for usado um valor positivo elevado para wi (correspondente a fi(x)),
obter-se-´a um pequeno erro residual |fi(x)|, tal como pretendido.
Modelos de Regress˜
ao
Nos problemas de optimiza¸c˜ao de m´ınimos quadrados, a fun¸c˜ao objectivo f tem a seguinte forma especial:
f (x) =
m
X
j=1
r2j(x) (8)
onde cada rj ´e uma fun¸c˜ao suave de Rn em R. Designa-se cada rj como fun¸c˜ao res´ıduo e
assume-se que m ≥ n.
Os problemas de optimiza¸c˜ao de m´ınimos quadrados surgem em muitas ´areas de aplica¸c˜ao e podem mesmo ser considerados a fonte da maior parte dos problemas de optimiza¸c˜ao n˜ao linear sem restri¸c˜oes. Muitos dos cientistas e engenheiros que formulam modelos parame-trizados para uma aplica¸c˜ao qu´ımica, f´ısica, financeira ou econ´omica usam uma formula¸c˜ao do tipo (8) para medir a discrepˆancia entre o modelo e o comportamento observado para o sistema em estudo. Por minimiza¸c˜ao dessa fun¸c˜ao, selecionam-se os valores dos parˆametros que melhor ajustam o modelo aos dados no sentido dos m´ınimos quadrados. Este processo ´
e conhecido na ´area da Estat´ıstica como regress˜ao.
Discutiremos um modelo parametrizado simples e mostraremos como as t´ecnicas de m´ınimos quadrados fazem sentido na escolha de parˆametros que melhor se ajustam um modelo a dados experimentais observados.
Exemplo: Concentra¸c˜ao sangu´ınea de um f´armaco Suponha-se que estamos in-teressados em estudar o efeito de um certo medicamento no tratamento de um paciente. Faremos colheitas de amostras do sangue sucessivas ap´os a administra¸c˜ao do f´armaco ao doente. Ap´os cada colheita determina-se experimentalmente a concentra¸c˜ao do medica-mento no sangue do doente. Constr´oi-se assim uma tabela dessa concentra¸c˜ao yj que foi
registada na colheita tomada no instante tj.
Baseados nas nossas experiˆencias anteriores e conhecimento dos fen´omenos bioqu´ımicos envolvidos, sabemos que a seguinte fun¸c˜ao φ(x; t) permite uma boa predi¸c˜ao da concen-tra¸c˜ao no instante t, para valores apropriados do parˆametro vectorial x = [x1, x2, x3, x4, x5]T:
φ(x; t) = x1+ tx2+ t2x3+ x4e−x5t. (9)
Escolheremos o parˆametro vectorial x por forma que o modelo melhor se ajuste `as ob-serva¸c˜oes experimentais seguindo um certo crit´erio. Veremos `a frente que uma boa medida das discrepˆancias entre a predi¸c˜ao do modelo e as observa¸c˜oes experimentais ´e a seguinte fun¸c˜ao de m´ınimos quadrados:
1 2 m X j=1 [φ(x, tj) − yj]2, (10)
que soma os quadrados das diferen¸cas entre as predi¸c˜oes do modelo e as observa¸c˜oes em cada tj. Esta fun¸c˜ao tem a forma da fun¸c˜ao (8) se definirmos
rj(x) = φ(x; tj) − yj , j = 1, 2, . . . , m. (11)
Este modelo ´e um exemplo do que em Estat´ıstica se chama modelo fixo de regress˜ao. Assume-se que os instantes tj das colheitas de sangue s˜ao medidos com grande precis˜ao,
enquanto que as observa¸c˜oes yj est˜ao afetados de um erro experimental devido `as limita¸c˜oes
do equipamento e das t´ecnicas de medida.
Em geral, nos problemas deste tipo (ajuste de curvas a dados observados), a vari´avel t no modelo φ(x; t) pode ser um vector em vez de um escalar2.
A fun¸c˜ao soma de quadrados (10) n˜ao ´e o ´unico processo para medir as discrepˆancias entre o modelo e as observa¸c˜oes. Outras medidas comuns incluem o m´aximo valor absoluto
max
j=1,2,...,m|φ(x; tj) − yj| (12)
e a soma dos valores absolutos
m
X
j=1
|φ(x; tj) − yj| . (13)
2 No exemplo descrito, a vari´avel t pode ter duas dimens˜oes, com a primeira dimens˜ao a representar o
tempo decorrido desde a administra¸c˜ao do f´armaco e a segunda dimens˜ao a representar o peso do paciente. Podemos recolher uma tabela referente a uma popula¸c˜ao de doentes em vez de nos fixarmos num s´o indiv´ıduo. Desta forma podia-se obter os “melhores” parˆametros para o modelo tendo em conta toda a popula¸c˜ao de doentes
Usando a defini¸c˜ao das normas L∞ e L1, podemos reescrever estas medidas como
f (x) = kr(x)k∞ e f (x) = kr(x)k1, (14)
respectivamente. N˜ao nos dedicaremos aqui a estes problemas3. Neste trabalho
dedicar-nos-emos `a formula¸c˜ao em termos da norma L2 (10). Se admitirmos algumas hip´oteses
muito razo´aveis h´a motiva¸c˜oes de ordem estat´ıstica que apontam para o crit´erio dos m´ınimos quadrados como sendo o melhor crit´erio a usar. Mudando um pouco a nota¸c˜ao, denotaremos as discrepˆancias entre o modelo e as observa¸c˜oes por j, ou seja
j = φ(x; tj) − yj.
Por vezes ´e razo´avel assumir que os j’s s˜ao vari´aveis aleat´orias independentes e
iden-ticamente distribu´ıdas4 com uma certa variˆancia σ2 e fun¸c˜ao densidade de
probabili-dade gσ(·). Assim, a fun¸c˜ao verosimilhan¸ca de um conjunto particular de observa¸c˜oes
yj, j = 1, 2, . . . , m, dado que o parˆametro vectorial ´e x, ´e dada por
℘(y; x, σ) = m Y j=1 g (j) = m Y j=1 g (φ(x; tj) − yj) . (15)
Dadas as observa¸c˜oes y1, y2, . . . , ym, o valor “mais plaus´ıvel” de x neste enquadramento ser´a
o que corresponde `a estimativa de m´axima verosimilhan¸ca. Ou seja, a que corresponde a maximizar ℘(y; x, σ) relativamente ao vector x.
Quando se assume que as discrepˆancias seguem uma distribui¸c˜ao normal, temos gσ() = 1 √ 2πσ2 exp − 2 2σ2 . Substituindo em (15) obtemos ℘(y; x, σ) = (2πσ2)−m/2 exp − 1 2σ2 m X j=1 [φ(x; tj) − yj]2 ! .
Ora, para qualquer valor fixo da variˆancia σ2, ´e ´obvio que ℘ ´e maximizado quando a soma
de quadrados (10) ´e minimizada. Para sumarizar: Quando as discrepˆancias se assumem como independentes e identicamente distribu´ıdas seguindo uma fun¸c˜ao distribui¸c˜ao normal, a estimativa da m´axima verosimilhan¸ca ´e obtida minimizando a soma de quadrados dos desvios.
3 Na verdade, a melhor abordagem destes problemas ´e uma formula¸c˜ao de optimiza¸c˜ao n˜ao linear com
restri¸c˜oes envolvendo algoritmos espec´ıficos para esses casos.
4 Esta hip´otese ´e muito plaus´ıvel, por exemplo, quando o modelo reflete bem as caracter´ısticas do
fen´omeno em estudo e quando o erro nas observa¸c˜oes n˜ao est˜ao afetadas de um erro sistem´atico sempre do mesmo sinal.
Objetivos Gerais do Trabalho
Nesta disserta¸c˜ao pretende-se estudar problemas de optimiza¸c˜ao de m´ınimos quadrados usando uma abordagem algor´ıtmica e computacional baseada em exemplos. Dizendo de outra forma, pretendemos apresentar um estudo de m´etodos construtivos para resolver problemas de optimiza¸c˜ao n˜ao linear sem restri¸c˜oes quando a fun¸c˜ao objectivo ´e uma soma de quadrados. Assim, o objectivo ´e n˜ao s´o um estudo te´orico dos m´etodos mas tamb´em a sua aplica¸c˜ao a exemplos selecionados na literatura usando o ambiente MATLAB para efetuar ensaios computacionais. A an´alise comparativa da performance dos v´arios algoritmos ´e tamb´em um objectivo do trabalho. Essa an´alise dever´a ser ligada `as vantagens e desvantagens dos diferentes m´etodos descritos na literatura.
Pretende-se fazer uma revis˜ao da regress˜ao linear como introdu¸c˜ao `a regress˜ao n˜ao linear. N˜ao podendo ser exaustivo na pan´oplia de m´etodos a estudar escolhemos os m´etodos de gradiente. Assim, os importantes m´etodos de grau zero (derivative-free optimization) ficam fora do ˆambito deste trabalho. No entanto, nos resultados computacionais esses m´etodos s˜ao referidos porque o comando fminsearch do MATLAB implementa um m´etodo desse tipo.
Descrevem-se os conhecidos m´etodos de Gauss-Newton e de Levenberg-Marquardt. Para efeitos de compara¸c˜ao tamb´em se estudam os m´etodos Quasi-Newton (DFP e BFGS). Inclui-se um grande n´umero de exemplos que permitem atribuir um cariz pr´atico e com-putacional a esta disserta¸c˜ao.
Organiza¸
c˜
ao da Disserta¸
c˜
ao
No Cap´ıtulo 1 iniciaremos o nosso estudo pelos modelos mais simples de regress˜ao linear. Apresentamos a dedu¸c˜ao do sistema linear de equa¸c˜oes que conduz `a reta dos m´ınimos quadrados e aos polin´omios de m´ınimos quadrados. Faz-se uma referˆencia ao uso de polin´omios ortogonais nesse contexto. O caso da regress˜ao linear m´ultipla ´e abordado com base num exemplo. Apresenta-se depois o problema da regress˜ao linear geral. Ainda no Cap´ıtulo 1, passa-se ao tratamento do caso n˜ao linear. Discutem-se algumas t´ecnicas de lineariza¸c˜ao que d˜ao bons resultados no ajuste de algumas classes de fun¸c˜oes n˜ao lineares. Este cap´ıtulo termina com dois exemplos apresentando modelos intrinsecamente n˜ao linea-res (que n˜ao admitem lineariza¸c˜ao poss´ıvel). Esses exemplos introduzem a necessidade de estudar algoritmos de minimiza¸c˜ao e tamb´em de algoritmos de resolu¸c˜ao de sistemas n˜ao lineares de equa¸c˜oes. A liga¸c˜ao ao cap´ıtulo seguinte fica estabelecida de forma natural.
O Cap´ıtulo 2 faz uma revis˜ao breve da teoria de optimiza¸c˜ao n˜ao linear sem restri¸c˜oes. Apresentam-se os m´etodos cl´assicos de gradiente: Steepest Descent e Newton-Raphson. Alguns resultados acerca da convergˆencia local desses m´etodos s˜ao apresentados. Dedica-se depois o devido espa¸co `as modifica¸c˜oes do m´etodo de Newton para obter convergˆencia global. Por fim, tratam-se os populares m´etodos Quasi-Newton: DFP (Davidon, Fletcher e Powell) e BFGS (Broyden, Fletcher, Goldfarb e Shanno). Exemplos de aplica¸c˜ao destes m´etodos s˜ao apresentados em detalhe.
A optimiza¸c˜ao dos m´ınimos quadrados est´a intimamente relacionada com m´etodos de resolu¸c˜ao de sistemas n˜ao lineares de equa¸c˜oes. Esta constata¸c˜ao ´e explicada na abertura do Cap´ıtulo 3. Torna-se natural reintroduzir o m´etodo de Newton no enquadramento dos sistemas n˜ao lineares de equa¸c˜oes. Discutem-se condi¸c˜oes suficientes de convergˆencia do M´etodo de Newton e do M´etodo de Newton modificado. Estrat´egias de aproxima¸c˜ao da matriz Jacobiana por processos de atualiza¸c˜ao relaxada ou por meio de diferen¸cas finitas completam o cap´ıtulo.
O Cap´ıtulo 4 dedica-se exclusivamente a algoritmos de optimiza¸c˜ao n˜ao linear de m´ınimos quadrados. Estes algoritmos fazem sentido quando a fun¸c˜ao objectivo ´e uma soma de quadrados. Cada uma dessas parcelas designa-se por res´ıduo. Na hip´otese dos res´ıduos serem pequenos o m´etodo de Newton pode ser simplificado conduzindo ao conhe-cido m´etodo de Gauss-Newton. Este m´etodo apresenta bom comportamento local, ou seja, pr´oximo do ´optimo mas pode ter dificuldades de convergˆencia global. Para obviar isso, somos conduzidos ao moderno m´etodo de Levenberg-Marquardt que usa uma dire¸c˜ao de busca que varia entre a dire¸c˜ao de Cauchy e a dire¸c˜ao de Newton. Ainda no Cap´ıtulo 4 s˜ao abordados alguns t´opicos mais avan¸cados:
Problemas de m´ınimos quadrados com grandes res´ıduos; Problemas de grande dimens˜ao;
Problemas de m´ınimos quadrados ponderados; Problemas de distˆancias ortogonais.
O Cap´ıtulo 4 termina com a apresenta¸c˜ao de alguns exemplos resolvidos pelos v´arios algorit-mos estudados nesta disserta¸c˜ao. Fazem-se algumas an´alises comparativas da performance dos v´arios m´etodos. Para isso usam-se comandos da optimization toolbox do MATLAB (fminsearch e fminunc ) e tamb´em programas publicados por v´arios autores nos sites que acompanham livros da ´area da optimiza¸c˜ao n˜ao linear.
Deixou-se para apˆendice o estudo de algumas propriedades das matrizes de Hankel que garantem a existˆencia e a unicidade da solu¸c˜ao dos problemas de regress˜ao linear geral. Esse ´e o tema do Apˆendice A. No Apˆendice B s˜ao apresentadas as defini¸c˜oes de ordem e raz˜ao de convergˆencia de uma sucess˜ao convergente.
No Apˆendice A fizemos uma abordagem original nas se¸c˜oes A2 e A3, apresentando uma prova sobre a existˆencia e unicidade da solu¸c˜ao do problema de m´ınimos quadrados no caso polinomial e provamos tamb´em a existˆencia de solu¸c˜ao para o problema de m´ınimos quadrados linear geral.
Problemas de M´ınimos Quadrados
Em v´arios campos cient´ıficos s˜ao feitas experiˆencias e s˜ao encontrados conjuntos de valores que podem ser apresentados numa tabela. Neste caso temos uma fun¸c˜ao f (x) conhecida s´o numa tabela de valores, onde as abcissas xi s˜ao valores exatos e os f (xi)
x0 x1 x2 . . . xm
f (x0) f (x1) f (x2) . . . f (xm)
s˜ao dados observados que normalmente est˜ao sujeitos a erros experimentais. Considera-se Considera-sempre que xi 6= xj para i 6= j. A partir desses resultados, procuram-se encontrar
rela¸c˜oes matem´aticas entre as vari´aveis em estudo. Noutros casos tem-se em m˜aos fun¸c˜oes f (x) definidas por express˜oes alg´ebricas muito complexas (por exemplo fun¸c˜oes definidas por integrais, fun¸c˜oes definidas por soma de s´eries, etc). Surge assim a necessidade de encontrar uma nova fun¸c˜ao g(x) que melhor se ajusta aos dados no primeiro caso ou melhor se aproxima de f (x), num intervalo [a, b] de R, no segundo caso.Sendo assim podemos destacar dois casos de ajuste de fun¸c˜oes:
1. O caso discreto em que a fun¸c˜ao f (x) ´e conhecida numa tabela de valores.
0
y
2. O caso cont´ınuo em que f (x) ´e uma fun¸c˜ao cont´ınua definida por uma express˜ao alg´ebrica num intervalo [a, b] ⊂ R.
0 y x a b f (x) g(x)
Neste trabalho faremos uma abordagem sobre o caso discreto do ajuste de fun¸c˜oes. Dada uma fun¸c˜ao atrav´es de uma tabela de valores (xi, f (xi)), i = 0, 1, 2, . . . , m e
x0, x1, x2, . . . , xm pertencentes a um intervalo [a, b] de R, pretende-se determinar uma
fun¸c˜ao g(x) que melhor se aproxima de f (x), isto ´e, uma fun¸c˜ao g(x) deve ser deter-minada de tal modo que a diferen¸ca f (x) − g(x) seja m´ınima. Esta diferen¸ca ´e chamada desvio ou res´ıduo. Assim considerando di = f (xi) − g(xi) deve-se obter g(x) de forma que
di seja pequeno para cada i ∈0, 1, 2, . . . , m .
0 x d0 d1 d2 d3 d4 d5 d6 dm x y
H´a v´arios crit´erios para determinar a fun¸c˜ao g(x). Um desses crit´erios ´e minimizar a soma dos desvios, isto ´e, minimizar Pm
i=0di. Esse crit´erio ´e inadequado na medida em que
os di podem ter sinais contr´arios e, neste caso, corre-se o risco de ter um valor m´ınimo da
soma dos desvios sem que necessariamente cada um dos desvios seja m´ınimo.
Outro crit´erio para encontrar g(x) ´e atrav´es da minimiza¸c˜ao da soma dos valores ab-solutos dos desvios. Este crit´erio tamb´em se revela-se inadequado visto que quando se
aplicam as condi¸c˜oes necess´arias de m´ınimo, ou seja, quando se aplicam as derivadas sur-gem problemas j´a que, como sabemos a fun¸c˜ao modular n˜ao ´e diferenci´avel na origem.
O crit´erio mais adequado ´e o crit´erio dos m´ınimos quadrados, como vimos na In-trodu¸c˜ao. Esse crit´erio consiste em minimizar o quadrado dos desvios, ou seja, minimizar Pm
i=0d 2 i.
Segundo [6] esse m´etodo ´e o que apresenta maiores vantagens, de entre as quais a convexidade da fun¸c˜ao aproximante g(x), no caso linear.
O M´etodo dos M´ınimos Quadrados ´e uma das t´ecnicas de ajuste de curvas mais utili-zadas. Este facto ´e derivado da sua simplicidade e tamb´em da capacidade de reduzir os erros provenientes das medi¸c˜oes, pois geralmente assumimos que o n´umero de pontos que ser˜ao ajustados s˜ao muito maiores do que o n´umero de parˆametros a determinar da fun¸c˜ao aproximante g(x).
1.1
Regress˜
ao Linear
O caso mais simples de aproxima¸c˜ao por m´ınimos quadrados consiste em ajustar uma reta a uma tabela de dados, onde os xi s˜ao valores exatos e os yi = f (xi) s˜ao valores
provenientes de experiˆencias, com erros de observa¸c˜ao. Assim, dados um conjunto de pontos distintos (xi, yi) , i = 0, 1, 2, . . . , m, m > 2, devemos determinar a reta que melhor
se aproxima de f (x) segundo o crit´erio de m´ınimos quadrados.
0
y
x
O modelo para ajustar os pontos por uma reta ´e y = a1x + a0 + , em que a0 e a1 s˜ao
coeficientes a determinar e o erro, desvio ou res´ıduo entre o modelo e conjunto dos pontos observados. Assim, pretendemos determinar a0 e a1de modo que [
Pm
i=0(a1xi+ a0− yi)2] 1/2
seja m´ınimo. Isto equivale a determinar o minimizante dePm
i=0(a1xi+ a0− yi) 2.
di = a1xi + a0− yi representa o erro da reta no ponto i.
d2i = (a1xi+ a0− yi)2 representa o erro quadr´atico da reta no ponto i.
q(a0, a1) = m
X
i=0
´
e soma dos erros quadr´aticos que pretendemos minimizar. Para determinar os parˆametros a1 e a0 da equa¸c˜ao (1.1), devemos aplicar a condi¸c˜ao necess´aria de otimalidade, isto ´e,
calcular as derivadas parciais de q em rela¸c˜ao a cada um dos parˆametros e igual´a-las a zero. ∂q ∂a0 = 2 m X i=0 (a1xi+ a0− yi) = 0 (1.2) ∂q ∂a1 = 2 m X i=0 (a1xi+ a0− yi)xi = 0. (1.3) Considerando que, m X i=0 (a1xi + a0− yi) = m X i=0 a1xi+ m X i=0 a0 − m X i=0 yi = m X i=0 xi ! a1+ (m + 1) a0− m X i=0 yi e que m X i=0 (a1xi+a0−yi)xi = m X i=0 a1x2i+ m X i=0 a0xi− m X i=0 xiyi = m X i=0 x2i ! a1+ m X i=0 xi ! a0− m X i=0 xiyi,
formamos o seguinte sistema de equa¸c˜oes, denominadas “equa¸c˜oes normais” do problema, cujas inc´ognitas s˜ao os parˆametros a1 e a0 da equa¸c˜ao y = a1x + a0.
( (m + 1) a0+ ( Pm i=0xi) a1 = Pm i=0yi (Pm i=0xi) a0+ ( Pm i=0x 2 i) a1 = Pm i=0xiyi . (1.4)
Resolvendo o sistema (1.4) usando a regra de Cramer, obtemos:
a1 = (m + 1)Pm i=0xiyi− Pm i=0xi Pm i=0yi (m + 1)Pm i=0x2i − ( Pm i=0xi) 2 (1.5)
e substituindo na primeira equa¸c˜ao, vem a0 = Pm i=0yi− ( Pm i=0xi) a1 (m + 1) . (1.6)
Com isso levantamos as seguintes quest˜oes: O sistema linear definido em (1.4) tem sempre solu¸c˜ao? E tendo solu¸c˜ao essa solu¸c˜ao ´e ´unica? Al´em disso, essa solu¸c˜ao ´e sempre um minimizante local (e global) da fun¸c˜ao q(a0, a1)?
Para responder a essas quest˜oes comecemos por mostrar que o sistema de equa¸c˜oes (1.4) pode ser escrito em nota¸c˜ao matricial como
onde X = 1 x0 1 x1 1 x2 .. . ... 1 xm (1.8) a =a0 a1 e y = y0 y1 .. . ym
. Com efeito, considerando X definido em (1.8), temos que
XTX = 1 1 1 · · · 1 x0 x1 x2 · · · xm 1 x0 1 x1 1 x2 .. . ... 1 xm = m + 1 Pm i=0xi Pm i=0xi Pm i=0x 2 i e XTy = 1 1 1 · · · 1 x0 x1 x2 · · · xm y0 y1 .. . ym = Pm i=0yi Pm i=0xiyi .
De seguida apresentaremos uma proposi¸c˜ao que garante a existˆencia e unicidade da solu¸c˜ao do sistema (1.4), desde que a caracter´ıstica da matriz X seja dois, isto ´e, as colunas de X devem ser linearmente independentes.
Proposi¸c˜ao 1.1 Se X ∈ R(m+1)×n, tem caracter´ıstica n, a matriz A = XTX, de dimens˜ao
n × n, ´e sim´etrica e definida positiva.
Prova: A matriz A = XTX ´e sempre sim´etrica. Por outro lado A ´e definida positiva se
zTAz > 0 para todo z ∈ Rn\{0}. Com efeito, zTAz = zTXTXz = (Xz)TXz = kXzk2 2 > 0
para todo z 6= {0}, uma vez que rank(X) = n. 2
Agora para provar que o sistema (1.4) tem sempre solu¸c˜ao e a solu¸c˜ao ´e ´unica, basta provar que a caracter´ıstica da matriz X definida em (1.8) ´e dois. Para isso consideremos λ1 e λ2
reais e mostremos que
Com efeito, de (1.9), vem que λ1+ λ2x0 = 0 λ1+ λ2x1 = 0 λ1+ λ2x2 = 0 .. . λ1+ λ2xm = 0 ⇒ λ2(x0− x1) = 0 .. . ⇒ λ2 = 0 ∨ x0− x1 = 0 .. . ⇒ λ2 = 0 .. .
uma vez que x0− x1 6= 0, por serem os xi todos diferentes. Da´ı segue tamb´em que λ1 = 0.
Logo conclu´ımos que rank(X) = 2. Deste modo, fica provado que o sistema de equa¸c˜oes (1.4) tem sempre solu¸c˜ao e a solu¸c˜ao ´e ´unica.
Falta-nos provar que essa solu¸c˜ao representa sempre um minimizante local (e global) da fun¸c˜ao q(a0, a1). Para isso devemos provar que a matriz Hessiana de q(a0, a1) ´e definida
positiva, o que implica ser q(a0, a1) estritamente convexa1.
Seja H a matriz Hessiana de q(a0, a1). Assim temos:
H = " ∂2q ∂a2 0 ∂2q ∂a0∂a1 ∂2q ∂a1∂a0 ∂2q ∂a2 1 # = 2(m + 1) 2 P m i=0xi 2Pm i=0xi 2 Pm i=0x 2 i =h11 h12 h21 h22 .
Como H = 2A = 2XTX, ent˜ao H ´e definida positiva, uma vez que j´a provamos que A
´
e definida positiva. Assim, fica provado que a solu¸c˜ao do sistema de equa¸c˜oes (1.4) ´e um minimizante global de q(a0, a1) visto que, sendo a fun¸c˜ao estritamente convexa, qualquer
ponto de estacionaridade ´e um minimizante global.
Exemplo 1.1 Determinar pelo m´etodo dos m´ınimos quadrados a equa¸c˜ao da reta que me-lhor se ajusta aos pontos da tabela
xi 0 2 4 6 9 11 12 15 17 19
yi 5 6 7 6 9 8 7 10 12 12
.
Resolu¸c˜ao: Neste caso pretendemos determinar os parˆametros a1 e a0 da equa¸c˜ao
y = a1x + ao. Para isso constru´ımos a Tabela 1.1.
P xi 0 2 4 6 9 11 12 15 17 19 95 yi 5 6 7 6 9 7 10 12 12 12 82 x2 i 0 4 16 36 81 121 144 225 289 361 1277 xiyi 0 12 28 36 81 88 84 150 204 228 911 Tabela 1.1: 1Ver Cap´ıtulo 2.
Agora aplicando (1.5) e (1.6) temos a1 = 10 × 911 − 95 × 82 10 × 1277 − 952 ∼= 0.35247 e a0 ∼= 82 − 0.35247 × 95 10 ∼ = 4.85154.
Utilizando o MATLAB, facilmente obtemos os parˆametros a1 e a0 do modelo. Primeiro
introduzimos os vetores com os valores de x e y da tabela. A fun¸c˜ao em MATLAB para estimar parˆametros em modelos lineares polinomiais, pelo processo dos m´ınimos quadrados ´
e a fun¸c˜ao polyfit. Assim, fazendo polyfit(x,y,1) (em que 1 indica que o polin´omio ´
e de grau ≤ 1 e x e y respectivamente as abcissas e as ordenadas dos pontos), obtemos a1 ∼= 0.3525 e a0 ∼= 4.8515, ou seja, a reta que melhor se ajusta aos pontos da tabela em
termos de m´ınimos quadrados ´e y ∼= 0.3525x + 4.8515.
Exemplo 1.2 (Regress˜ao linear de grau zero) O per´ıodo de um pˆendulo foi medido por um cron´ometro seis vezes. Como em cada medi¸c˜ao ocorreram erros experimentais, obteve-se a seguinte tabela
Medi¸c˜ao i 0 1 2 3 4 5
Valor Medido pi (segundos) 31.7 30.8 32.1 31.9 30.9 32.0
Determine o melhor valor P para o per´ıodo do pˆendulo, usando o crit´erio dos m´ınimos quadrados. Resolu¸c˜ao: 1 2 3 4 5 6 10 20 30 0 x y P
O modelo para este exemplo ´e y = P + ε, sendo ε o erro experimental. (P − pi) ´e o erro da reta no ponto i.
E(P ) =P5
i=0(P − pi)2 ´e a soma dos erros quadr´aticos a minimizar.
A condi¸c˜ao necess´aria de m´ınimo de E(P ) ´e d E d P = 5 X i=0 d d P(P − pi) 2 = 0 ⇔ 5 X i=0 2(P − pi) = 0 ⇔ 5 X i=0 (P − pi) = 0 ⇔ 5 X i=0 P − 5 X i=0 pi = 0 ⇔ 6P = 5 X i=0 pi ⇔ P = 1 6 5 X i=0 pi.
Portanto, o valor de P ´e a m´edia aritm´etica dos valores dos pi.
Em [37, pag. 260-261] encontramos um teorema que permite tra¸car a reta de regress˜ao linear com muita facilidade.
Teorema 1.1 A reta de regress˜ao linear y = a0+ a1x passa pelo ponto M , de coordenadas
(x, y), sendo x = Pm i=0xi m+1 e y = Pm i=0yi m+1 .
Prova: Este resultado ´e consequˆencia imediata de (1.6). 2
Agora para tra¸car a reta de regress˜ao precisamos de mais um ponto. Esse ponto pode ser o ponto em que a abcissa ´e zero. J´a vimos que a0 = y − xa1. Substituindo a1 por (1.5)
vem: a0 = y − x (m + 1)Pm i=0xiyi− Pm i=0xi Pm i=0yi (m + 1)Pm i=0x2i − ( Pm i=0xi) 2 = y[(m + 1) Pm i=0x 2 i − ( Pm i=0xi) 2 ] − x[(m + 1)Pm i=0xiyi − Pm i=0xi Pm i=0yi] (m + 1)Pm i=0x 2 i − ( Pm i=0xi) 2 , ou seja, a0 = P yiP x2i −P xiP xiyi (m + 1)P x2 i − (P xi)2 .
A obten¸c˜ao dos pontos P1 = (x, y) e P2 = (0, a0) permite-nos tra¸car a reta de regress˜ao.
1.2
Regress˜
ao Polinomial
Na sec¸c˜ao anterior, foi apresentado um procedimento para determinar a equa¸c˜ao da reta usando o m´etodo dos m´ınimos quadrados. Mas acontece que na maioria dos casos os dados representam fen´omenos que n˜ao s˜ao bem ajustados por uma reta mas sim por uma curva. Nesses casos pode ser conveniente ajustar os dados usando um polin´omio de grau superior a um.
Seja pn(x) ∈ P , com P o conjunto dos polin´omios, assim definido:
Pretende-se ent˜ao minimizar S = m X i=0 [f (xi) − pn(xi)] 2 , (1.11) onde m > n ou mesmo m n2.
A determina¸c˜ao dos parˆametros a0, a1, . . . an−1, an ´e feita calculando as n + 1 derivadas
parciais de (1.11) e impondo que ∂a∂S
k = 0, k = 0, 1, 2, . . . , n. Assim temos: ∂S ∂a0 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni) = 0 ∂S ∂a1 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)xi = 0 ∂S ∂a2 = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)x 2 i = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0− a1xi− · · · − anxni)x n i = 0.
Com isso, formamos um sistema de n + 1 equa¸c˜oes lineares, (m + 1)a0 + a1 Pm i=0xi+ · · · + an Pm i=0x n i = Pm i=0fi a0 Pm i=0xi+ a1 Pm i=0x 2 i + · · · + an Pm i=0x n+1 i = Pm i=0fixi a0 Pm i=0x 2 i + a1 Pm i=0x 3 i + · · · + an Pm i=0x n+2 i = Pm i=0fix2i .. . a0 Pm i=0x n i + a1 Pm i=0x n+1 i + · · · + an Pm i=0x 2n i = Pm i=0fix n i (1.12)
que ´e um sistema de equa¸c˜oes lineares de Cramer com n + 1 equa¸c˜oes e n + 1 inc´ognitas. Este problema ´e mal condicionado se n ´e elevado, isto ´e, a solu¸c˜ao deste sistema ´e muito sens´ıvel a pequenas altera¸c˜oes nos dados. A matriz deste sistema ´e uma forma especial de matrizes de Hankel. Estas matrizes s˜ao sempre invert´ıveis (ver Apˆendice A). Logo o sistema (1.12) tem uma e uma s´o solu¸c˜ao. No Apˆendice A prova-se ainda que essa solu¸c˜ao ´
e um minimizante global de S.
Exemplo 1.3 Ajustar, pelo m´etodo dos m´ınimos quadrados os pontos da Tabela 1.2 a um polin´omio do terceiro grau.
Resolu¸c˜ao: Com o comando polyfit(x,y,3) do MATLAB obtemos os parˆametros a3,
a2, a1 e a0 do polin´omio do terceiro grau. Neste caso, obtemos a3 ∼= 0.0467, a2 ∼= −1.0412,
a1 ∼= 7.1438 e a0 ∼= −11.4887. Ent˜ao, o polin´omio do terceiro grau que melhor se ajusta
aos dados da tabela ´e p3(x) ∼= 0.0467x3− 1.0412x2+ 7.1438x − 11.4887. O gr´afico da Figura
1.1 ilustra o ajuste deste exemplo.
2Se m ≤ n, ent˜ao p
xi 3 4 5 7 8 9 11 12 yi 1.6 3.6 4.4 3.4 2.2 2.8 3.8 4.6 Tabela 1.2: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 −2 2 4 6 8 0
Figura 1.1: Gr´afico do Exemplo 1.3.
1.2.1
Modelo com Polin´
omios Ortogonais
Dissemos anteriormente que o sistema (1.12) ´e mal condicionado se n ´e elevado, por ser muito sens´ıvel a pequenas altera¸c˜oes nos dados (as matrizes de Hankel tˆem, nesse caso, um n´umero de condi¸c˜ao muito elevado). Assim, a resolu¸c˜ao num´erica do sistema de equa¸c˜oes (1.12) ´e cr´ıtica em termos de acumula¸c˜ao de erros de arredondamento, podendo haver instabilidade num´erica. Uma forma de superar esta limita¸c˜ao ´e a utiliza¸c˜ao de polin´omios ortogonais que faz com que o sistema de equa¸c˜oes resultante seja de f´acil resolu¸c˜ao por ser um sistema diagonal.
Em [17, pag. 200-201] encontramos uma defini¸c˜ao de polin´omios ortogonais e uma propriedade sobre a rela¸c˜ao de recorrˆencia dos polin´omios ortogonais que apresentaremos de seguida.
Defini¸c˜ao 1.1 Duas fun¸c˜oes f (x) e g(x) dizem-se ortogonais se o seu produto interno for nulo, ou seja, se hf (x), g(x)i = 0.
Propriedade 1.1 Os polin´omios ortogonais satisfazem a seguinte rela¸c˜ao de recorrˆencia, Pi+1(x) = Ai(x − Bi)Pi(x) − CiPi−1(x), i = 1, 2, . . . , n − 1, (1.13)
sendo P0(x) = 1 (P−1 = 0 por conven¸c˜ao) e os coeficientes da rela¸c˜ao, Ai, Bi e Ci, definidos por: Ai = 1, para todo i (1.14) Bi = hxPi(x), Pi(x)i hPi(x), Pi(x)i , para todo i (1.15) C0 = 0 e Ci = hPi(x), Pi(x)i
hPi−1(x), Pi−1(x)i
, para i > 0. (1.16)
Suponhamos agora que pretendemos minimizar S =Pm
i=0[f (xi) − pn(x)] 2
, em que pn(x) =
a0P0(x) + a1P1(x) + a2P2(x) + · · · + anPn(x), sendo P0(x), P1(x), . . . , Pn(x) polin´omios
ortogonais e f ´e conhecida em m + 1 pontos. Calculando as derivadas parciais de S em ordem aos parˆametros a0, a1, a2, . . . , an e igualando a zero as derivadas parciais, vem:
∂S ∂a0 = 2 m X i=0 (fi− a0P0(xi) − a1P1(xi) − · · · − anPn(xi))P0(xi) = 0 ∂S ∂a1 = 2 m X i=0 (fi − a0P0(xi) − a1P1(xi) − · · · − anPn(xni))P1(xi) = 0 ∂S ∂a2 = 2 m X i=0 (fi − a0P0(xi) − a1P1(xi) − · · · − anPn(xni))P2(xi) = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0P0(xi) − a1P1(xi) − · · · − anPn(xi))Pn(xi) = 0,
deste modo, formamos o seguinte sistema de equa¸c˜oes lineares:
a0Pmi=0P0(xi)P0(xi) + a1Pmi=0P0(xi)P1(xi) + · · · + anPmi=0P0(xi)Pn(xi) =Pmi=0fiP0(xi)
a0Pmi=0P1(xi)P0(xi) + a1Pmi=0P1(xi)P1(xi) + · · · + anPmi=0P1(xi)Pn(xi) =Pmi=0fiP1(xi)
a0Pmi=0P2(xi)P0(xi) + a1Pmi=0P2(xi)P1(xi) + · · · + anPmi=0P2(xi)Pn(xi) =Pmi=0fiP2(xi)
.. . a0 Pm i=0Pn(xi)P0(xi) + a1 Pm i=0Pn(xi)P1(xi) + · · · + an Pm i=0Pn(xi)Pn(xi) = Pm i=0fiPn(xi) .
Mas sendo os polin´omios P0(x), P1(x), . . . , Pn(x) ortogonais, teremos que Pj(xi)Pk(xi) = 0,
∀j 6= k, da´ı o sistema reduz-se `a forma diagonal, tendo-se desta forma:
aj = Pm i=0Pj(xi)fi Pm i=0Pj(xi)Pj(xi) , j = 0, 1, 2, . . . , n. (1.17)
Exemplo 1.4 Calcular a solu¸c˜ao do problema min 9 X i=0 [fi− g(xi, a)] 2 (1.18)
a partir da Tabela 1.3 da fun¸c˜ao f .
xi 0 1 2 3 4 6 8 10 15 20
fi 4.0 4.7 4.9 5.3 6.1 6.7 6.9 7.2 7.1 7.5
Tabela 1.3:
Para o caso em que g(x; a) = a0P0(x) + a1P1(x) + a2P2(x), com P0(x), P1(x) e P2(x)
polin´omios ortogonais e a = [a0, a1, a2]T.
Resolu¸c˜ao: Primeiro, determinemos os polin´omios P0(x), P1(x) e P2(x), aplicando as
rela¸c˜oes de recorrˆencia dadas por (1.13). Assim, temos que: P0(x) = 1 e P1(x) = A0(x −
B0)P0(x) − C0P−1(x). Sendo C0 = 0, A0 = 1 e P0(x) = 1, temos que P1(x) = (x − B0), e
B0 = hxP0(x), P0(x)i hP0(x), P0(x)i = P9 i=0xi P9 i=01 = 69 10 = 6.9. Assim, P1(x) = x − 6.9. P2(x) = A1(x − B1)P1(x) − C1P0(x), com B1 = hxP1(x), P1(x)i hP1(x), P1(x)i = P9 i=0xi(xi− 6.9)2 P9 i=0(xi− 6.9)2 = 4689.09 378.9 ∼ = 12.37553 e C1 = hP1(x), P1(x)i hP0(x), P0(x)i = P9 i=0(xi− 6.9) 2 P9 i=0 = 378.9 10 = 37.8, da´ı, temos ent˜ao P2(x) = (x − 12.37553)(x − 6.9) − 38.89.
a0 = P9 i=0P0(xi)f (xi) P9 i=0P0(xi)P0(xi) = 63.4 10 = 6.34 a1 = P9 i=0P1(xi)f (xi) P9 i=0P1(xi)P1(xi) = 59.24 378.9 ∼ = 0.156347 a2 = P9 i=0P2(xi)f (xi) P9 i=0P2(xi)P2(xi) = −284.682 12489.63 ∼= −0.02279 logo, g(x) = 6.34 + 0.156347(x − 6.9) − 0.02279[(x − 12.37553)(x − 6.9) − 37.89].
−1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2 4 6 8 0 x y g(x)
Figura 1.2: Gr´afico do Exemplo 1.4.
1.3
Regress˜
ao Linear M´
ultipla
Um caso particular da regress˜ao linear ´e o caso em que a vari´avel dependente y ´e uma fun¸c˜ao linear de duas ou mais vari´aveis independentes. Neste caso pretende-se avaliar a rela¸c˜ao de uma vari´avel de interesse y em rela¸c˜ao a k vari´aveis zj, j = 1, 2, . . . , k. O modelo
para avaliar essa rela¸c˜ao ´e dado por
y = a0+ a1z1+ a2z2+ · · · + akzk+ ε, (1.19)
onde os zi representam as k vari´aveis independentes, os ai, i = 0, 1, . . . , k s˜ao os parˆametros
do modelo e ε o erro aleat´orio. Este modelo descreve um hiperplano no espa¸co k − dimensional dos {zi}.
As condi¸c˜oes subjacentes `a regress˜ao linear m´ultipla s˜ao an´alogas `as condi¸c˜oes da re-gress˜ao linear simples.
1.3.1
Regress˜
ao linear Bidimensional
Em muitos casos h´a necessidade de ajustar os dados experimentais, utilizando fun¸c˜oes de duas vari´aveis. Nesse caso est´a-se perante uma regress˜ao linear bidimensional, cujo modelo ´e y = a0+ a1z1+ a2z2+ ε.
Em regress˜ao linear bidimensional, pretende-se determinar a equa¸c˜ao do plano que melhor se ajusta a um conjunto de pontos de R3, em termos de m´ınimos quadrados, ou
Figura 1.3: Regress˜ao M´ultipla – Caso Bidimensional
Exemplo 1.5 Pretende-se estimar pelo m´etodo dos m´ınimos quadrados os parˆametros ao,
a1 e a2 do modelo Y = a0+ a1z1+ a2z2 a partir dos dados apresentados na Tabela 1.4. Os
dados representam as vendas efetuadas por dez empregados de uma dada empresa, o n´umero de anos de experiˆencia de cada vendedor e a respetiva pontua¸c˜ao no teste de inteligˆencia. O problema da regress˜ao consiste em determinar se o sucesso nas vendas pode ser medido em fun¸c˜ao das duas vari´aveis explicativas utilizadas.
Vendedor A B C D E F G H I J Y 9 6 4 3 3 5 8 2 7 4 z1 6 5 3 1 4 3 6 2 4 2 z2 3 2 2 1 1 3 3 1 2 2 Tabela 1.4: Sendo:
Y → Vendas (em milh˜oes de euros). z1 → Anos de experiˆencia como vendedor.
Para determinar a rela¸c˜ao linear de Y com as vari´aveis z1 e z2, calculemos os somat´orios: P 1 = 10 P z1 = 36 P z2 = 20 P z2 1 = 156 P z2 2 = 46 P z1z2 = 80 P Y = 51 P Y z1 = 214 P Y z2 = 116
e com isso formamos o sistema de equa¸c˜oes normais 10 36 20 36 156 80 20 80 46 a0 a1 a2 = 51 214 116 ,
cuja solu¸c˜ao ´e a0 ∼= −0.2627, a1 ∼= 0.74 e a2 ∼= 1.3390. Sendo os coeficientes de z1 e z2
ambos positivos, conclui-se que varia¸c˜oes positivas nas vari´aveis explicativas z1 e z2 levam
a aumentos nas vendas m´edias.
1.4
Regress˜
ao dos M´ınimos Quadrados Linear Geral
Os modelos de regress˜ao linear simples e polinomial abordados anteriormente podem ser ambos inclu´ıdos no seguinte modelo de regress˜ao linear de m´ınimos quadrados geral:
g(x) = a0h0(x) + a1h1(x) + a2h2(x) + · · · + anhn(x) (1.20)
em que h0(x), h1(x), h2(x), . . . , hn(x), s˜ao as n+1 fun¸c˜oes base (subfun¸c˜oes), a0, a1, a2, . . . , an
s˜ao os parˆametros a determinar os seus valores e m ≥ n + 1.
Para o caso de regress˜ao linear simples temos que h0(x) = 1 e h1(x) = x. Para o modelo
polinomial os hi(x), i = 0, 1, · · · , n s˜ao as potˆencias de x.
De notar que a linearidade neste caso ´e relativa aos parˆametros ai, i = 0, 1, . . . , n e n˜ao
em rela¸c˜ao `as fun¸c˜oes h0(x), h1(x), h2(x), . . . , hn(x) que podem ser fun¸c˜oes n˜ao lineares de
x, como por exemplo, h0(x) = ex, h1(x) = cos x, h2(x) = (1 − x3) sin x, etc.
Seja S(a0, a1, . . . , an) = m X i=0 [f (xi) − a0h0(xi) + a1h1(xi) + a2h2(xi) + · · · + anhn(xi)] 2 . (1.21) Para determinar os parˆametros a0, a1, . . . , an que minimizam S procede-se como nos casos
derivadas parciais de S em ordem aos ai e igualam-se a zero. ∂S ∂a0 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xi))h0(xi) = 0 ∂S ∂a1 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xni))h1(xi) = 0 ∂S ∂a2 = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xni))h2(xi) = 0 .. . ∂S ∂an = 2 m X i=0 (fi− a0h0(xi) − a1h1(xi) − · · · − anhn(xi))hn(xi) = 0.
Agora vem o sistema de equa¸c˜oes normais representada na forma matricial, P h0(xi)h0(xi) P h0(xi)h1(xi) · · · P h0(xi)hn(xi) P h1(xi)h0(xi) P h1(xi)h1(xi) · · · P h1(xi)hn(xi) .. . ... · · · ... P hn(xi)h0(xi) P hn(xi)h1(xi) · · · P hn(xi)hn(xi) a0 a1 .. . an = P f (xi)h0(xi) P f (xi)h1(xi) .. . P f (xi)hn(xi) . (1.22) Exemplo 1.6 Aproximar f dada pela Tabela 1.5, por uma fun¸c˜ao do tipo g(x) = a0sin(x)+
a1cos(x), usando o crit´erio dos m´ınimos quadrados.
x 0 π/4 π/2
f (x) −1 0.71 2
Tabela 1.5:
Resolu¸c˜ao: Neste caso temos h0(x) = sin(x) e h1(x) = cos(x). Para determinar os
parˆametros a0 e a1 vamos resolver o sistema de equa¸c˜oes,
P2
i=0sin 2(x
i)
P2
i=0sin(xi) cos(xi)
P2
i=0cos(xi) sin(xi)
P2 i=0cos 2(x i) a0 a1 = P2 i=0f (xi) sin(xi) P2 i=0f (xi) cos(xi) . Agora calculando os somat´orios passamos a ter o sistema de equa¸c˜oes
1.5 0.25 0.25 1.5 a0 a1 ∼= 2.502046 −0.49795 ,
No exemplo anterior verificou-se que o sistema normal tinha uma e uma s´o solu¸c˜ao. Tamb´em sabemos que o conjunto de fun¸c˜oes C = {sin x, cos x} ´e linearmente independente. Pode pensar-se que, desde que o conjunto de fun¸c˜oes {h0(x), h1(x), . . . , hn(x)} seja l.i.,
ent˜ao estar´a garantido que o sistema (1.22) tem solu¸c˜ao ´unica. Em princ´ıpio ser´a assim, mas no caso geral n˜ao se pode afirmar isso. Vejamos o exemplo seguinte.
Exemplo 1.7 Aproximar f dada pela Tabela 1.6, por uma fun¸c˜ao do tipo g(x) = a0sin(x)+
a1cos(x), usando o crit´erio dos m´ınimos quadrados.
x π/4 π/4 + 2π π/4 + 4π
f (x) √2/2 √2/2 √2/2
Tabela 1.6:
Resolu¸c˜ao: Temos de novo h0(x) = sin(x) e h1(x) = cos(x). Tal como no exemplo
anterior, a determina¸c˜ao dos parˆametros a0 e a1 passa por resolver o sistema normal,
P2
i=0sin 2(x
i)
P2
i=0sin(xi) cos(xi)
P2
i=0cos(xi) sin(xi)
P2 i=0cos2(xi) a0 a1 = P2 i=0f (xi) sin(xi) P2 i=0f (xi) cos(xi) .
Como sin(π/4 + 2kπ) = cos(π/4 + 2kπ) =√2/2, k = 0, 1, 2, ent˜ao chegamos ao sistema 1.5 1.5 1.5 1.5 a0 a1 =1.5 1.5 .
Este sistema ´e poss´ıvel mas indeterminado. Na verdade, a matriz do sistema n˜ao ´e in-vert´ıvel. O conjunto infinito de solu¸c˜oes ´e {(a0, a1) ∈ R2 : a0+ a1 = 1}. Desta maneira
verificamos que a aproxima¸c˜ao dos m´ınimos quadrados existe mas n˜ao ´e ´unica. Note, por exemplo, que g(x) = sin(x) permite um ajuste ´optimo com res´ıduos nulos. Da mesma forma, g(x) = cos(x) tamb´em permite um ajuste ´optimo com res´ıduos nulos.
Considere-se a matriz Z, Z = h0(x0) h1(x0) h2(x0) h3(x0) · · · hn(x0) h0(x1) h1(x1) h2(x1) h3(x1) · · · hn(x1) h0(x2) h1(x2) h2(x2) h3(x2) · · · hn(x2) .. . ... ... ... . .. ... h0(xm) h1(xm) h2(xm) h3(xm) · · · hn(xm) . (1.23)
No Apˆendice A provamos que o sistema de equa¸c˜oes normais (1.22) tem uma e uma s´o solu¸c˜ao se e somente se a matriz Z dada por (1.23) tem as colunas linearmente indepen-dentes. Obviamente estamos a supor que os pontos xj, j = 0, 1, . . . , m s˜ao distintos.
Tamb´em no Apˆendice A se prova que a fun¸c˜ao S(a0, a1, . . . , an) definida por (1.21) ´e
sempre convexa (mesmo no caso em que a solu¸c˜ao do sistema (1.22) n˜ao ´e ´unica). Ent˜ao, o sistema normal de equa¸c˜oes obt´em pontos de estacionariedade que s˜ao minimizantes globais de S.
1.5
T´
ecnicas de Lineariza¸
c˜
ao
De acordo com [6] o modelo de regress˜ao linear ´e uma t´ecnica poderosa para ajustar a modelos lineares a um conjunto de dados. No entanto, a maioria dos fen´omenos reais, sejam eles f´ısicos, qu´ımicos, biol´ogicos ou outros dados experimentais obtidos em laborat´orios representam uma rela¸c˜ao n˜ao linear entre o modelo e os seus parˆametros. Sendo assim ´
e de extrema importˆancia descobrir de que tipo ´e essa rela¸c˜ao e quais os parˆametros que a caracterizam. De entre os modelos que representam rela¸c˜oes n˜ao lineares com os seus parˆametros podemos distinguir dois tipos:
1. Modelos com fun¸c˜oes intrinsecamente lineares. 2. Modelos com fun¸c˜oes intrinsecamente n˜ao lineares.
O caso 1 ´e o nosso objeto de estudo nesta se¸c˜ao, enquanto que o caso 2 ser´a abordado na se¸c˜ao seguinte.
Para o caso 1, podemos sempre atrav´es de mudan¸cas de vari´aveis ou aplicando trans-forma¸c˜oes convenientes, encontrar uma rela¸c˜ao linear entre o modelo e os parˆametros.
De seguida apresentaremos algumas t´ecnicas de lineariza¸c˜ao de fun¸c˜oes.
1.5.1
Modelo Exponencial
Em muitos casos o diagrama de dispers˜ao sugere que a fun¸c˜ao pode ser aproximada por uma fun¸c˜ao exponencial da forma y = αeβx, em que α e β s˜ao constantes reais positi-vas. Segundo [6] esse modelo ´e usado em muitos campos da engenharia para caracterizar quantidades que aumentam ou diminuem a uma taxa proporcional a seu valor absoluto. Supondo y > 0, podemos linearizar este modelo, aplicando logaritmo natural a ambos os membros da equa¸c˜ao, passando assim a ter:
ln y = ln α + βx, (1.24)
desta forma, encontramos uma rela¸c˜ao linear de ln y em fun¸c˜ao de x, com declive β e ordenada na origem ln α. Este processo ´e chamado por vezes lineariza¸c˜ao dos dados, visto que os pontos (xi, ln yi) est˜ao “linearizados”.
y = αeβ x y x ln y ln α ln y = ln α + βx
Figura 1.4: Gr´aficos do modelo exponencial e do modelo linearizado.
Exemplo 1.8 Ajustar os dados da tabela seguinte a um modelo exponencial.
x −1.0 −0.5 0 0.5 1 1.5 2.0 2.5 3.0
y 0.157 0.234 0.350 0.522 0.778 1.162 1.733 2.586 3.858
Resolu¸c˜ao: Neste caso pretendemos ajustar os dados da tabela ao modelo y = αeβx.
Apliquemos (1.24) e de seguida consideremos a seguinte mudan¸ca de vari´avel: ln y = t e ln α = γ. Assim, passamos a ter o modelo de regress˜ao linear simples.
t = γ + βx (1.25)
Consideremos a tabela seguinte com os valores das novas vari´aveis.
xi −1.0 −0.5 0 0.5 1 1.5 2.0 2.5 3.0
ti −1.852 −1.452 −1.050 −0.650 −0.251 0.150 0.550 0.95 1.35
xiti 1.852 0.726 0 −0.325 −0.251 0.225 1.1 2.375 4.05
.
Da tabela acima temos que: P xi = 9, P ti = −2.255, P xiti = 9.752 e P x2i = 24.
Aplicando (1.5) e (1.6), obtemos
β = 9 × 9.752 − 9 × (−2.255) 9 × 24 − 81
e
γ = −2.255 − 0.800 × 9 9
∼= −1.0511.
Voltando agora `as vari´aveis iniciais, temos que ln α = −1.0511, de onde vem α ∼= e−1.0511 ∼= 0.3496. Logo, temos que g(x) ∼= 0.3496e0.8005x.
´
E de real¸car que os valores dos parˆametros a0 e a1 determinados no exemplo anterior
n˜ao minimizam a fun¸c˜ao S(α, β) = 8 X i=0 yi− αeβxi 2 . Minimizam sim a fun¸c˜ao:
T (α, β) = 8 X i=0 [ln yi− (ln α + βxi)] 2 .
Deste modo a solu¸c˜ao obtida aplicando esta t´ecnica de lineariza¸c˜ao n˜ao ´e ´otima3.
1.5.2
Modelo com Equa¸
c˜
ao de Potˆ
encia Simples
Um outro caso de modelo n˜ao linear e que pode ser linearizado ´e a equa¸c˜ao de potˆencia simples que utiliza uma fun¸c˜ao do tipo:
y = αxβ , x > 0 , (1.26)
em que α e β s˜ao reais positivos e β 6= 1. Uma t´ecnica para linearizar este modelo ser´a tamb´em aplicar logaritmos a ambos os membros da igualdade, obtendo-se desta forma
ln y = ln α + β ln x,
que ´e uma rela¸c˜ao linear de ln y em fun¸c˜ao de ln x, com declive β e ordenada na origem ln α.
1.5.3
Modelo Hiperb´
olico
O modelo hiperb´olico ´e dado por
y = αx
β + x, (1.27)
com α e β constantes reais.
Segundo [6, pag. 390] esse modelo ´e adequado para caracterizar a taxa de crescimento populacional sob condi¸c˜oes limitantes.
Para linearizar este modelo podemos inverter (1.27), obtendo-se deste modo a rela¸c˜ao 1 y = β α 1 x + 1 α, (1.28)
que ´e uma rela¸c˜ao linear de 1y em fun¸c˜ao de 1x, com declive βα e ordenada na origem α1.
Exemplo 1.9 (Sugerido por [6, pag. 407])
Um investigador relatou os dados da Tabela 1.7 para uma experiˆencia para determinar a taxa de crescimento k de uma bact´eria (por dia), como uma fun¸c˜ao da concentra¸c˜ao de oxig´enio c (mg/L). Sabe-se que tais dados podem ser modelados pela seguinte equa¸c˜ao:
k = kmaxc
2
cs+ c2
, (1.29)
onde cs e kmax s˜ao parˆametros. Use uma transforma¸c˜ao para linearizar essa equa¸c˜ao. A
seguir, use regress˜ao linear para fazer uma estimativa de cs e kmax e prever a taxa de
crescimento em c = 2 mg/L.
c 0.5 0.8 1.5 2.5 4
k 1.1 2.4 5.3 7.6 8.9 Tabela 1.7:
Resolu¸c˜ao: Para linearizar a equa¸c˜ao vamos inverter (1.29) e da´ı passamos a ter
1 k = cs+c2 kmaxc2 = cs kmax 1 c2+ 1
kmax, que ´e uma rela¸c˜ao linear de
1
k em fun¸c˜ao de 1
c2. Para encontrar uma estimativa para os parˆametros cs e kmax, fa¸camos a seguinte tabela
c k c12 1 k 1 c4 1 c2k 0.5 1.1 4 0.9091 16 3.6364 0.8 2.4 1.5625 0.4167 2.4414 0.5610 1.5 5.3 0.4444 0.1887 0.1975 0.0839 2.5 7.6 0.16 0.1316 0.0256 0.0211 4 8.9 0.0625 0.1123 0.0039 0.0070 P 9.3 25.3 6.2294 1.7584 18.6684 4.3993
Agora para obter cs
kmax e
1
kmax basta aplicarmos (1.5) e (1.6). Assim, cs kmax = 5 × 4.3993 − 6.2294 × 1.7584 5 × 18.6684 − 6.22942 ∼= 0.2025 e 1 kmax = 1.7584 − 0.2025 × 6.2294 5 ∼= 0.0994.
Deste modo kmax ∼= 0.09941 ∼= 10.0604 e cs = 0.2025 × 10.0604 ∼= 2.0372. Para encontrar
uma previs˜ao da taxa de crescimento para uma concentra¸c˜ao de oxig´enio de c = 2 mg/L, utilizamos equa¸c˜ao k ∼= 2.0372+c10.0604c22, e neste caso obtemos k ∼= 6.6656.
1.6
Regress˜
ao n˜
ao Linear
Na se¸c˜ao anterior referimos dois modelos n˜ao lineares de ajustes de dados pelo m´etodo dos m´ınimos quadrados, e fizemos uma abordagem sobre o modelo com fun¸c˜oes intrinse-camente lineares nos seus parˆametros, onde vimos que mediante t´ecnicas adequadas trans-formamos esses modelos de modo a termos fun¸c˜oes lineares nos parˆametros. Nesta sec¸c˜ao abordaremos o caso com fun¸c˜oes intrinsecamente n˜ao lineares. Nesse tipo de modelos n˜ao h´a nenhuma transforma¸c˜ao finita exata atrav´es da qual possamos exprimir o modelo de uma forma linear em rela¸c˜ao aos seus parˆametros, isto ´e, n˜ao ´e poss´ıvel escrever o modelo na forma de (1.20) e consequentemente n˜ao ´e poss´ıvel transformar o problema de m´ınimos quadrados na resolu¸c˜ao de um sistema de equa¸c˜oes lineares. S˜ao exemplos de modelos intrinsecamente n˜ao lineares nos parˆametros:
g(x; a0, a1) = a0(1 − e−a1x),
v(t; α, β) = e−αt+ β sin t,
h(x; a0, a1, a2) = a0sin x + cos(a1x) + e−a2x,
etc.
O modelo de regress˜ao n˜ao linear para ajuste de dados assume a forma:
y = f (X, a) (1.30) Em que y = y0 y1 .. . ym
designa um vetor (m+1)×1 de observa¸c˜oes, X = x01 x02 · · · x0k x11 x12 · · · x1k .. . ... · · · ... xm1 xm2 · · · xmk ´
e uma matriz (m+1)×k dos m+1 valores exatos das k vari´aveis independentes, a = a0 a1 .. . an ´e
um vetor (n + 1) × 1 dos parˆametros e f ´e uma fun¸c˜ao n˜ao linear em rela¸c˜ao aos parˆametros a0, a1, · · · , an.
A soma da m´edia dos erros quadr´aticos entre os dados e o modelo pode ser expressa por: = m X i=0 (yi− f (xi1, xi2, . . . , xik; a0, a1, . . . , an))2. (1.31)
Considerando m > n, podemos definir a fun¸c˜ao S : Rn+1 −→ R por
S(a0, a1, a2, . . . , an) = m
X
i=0
O nosso objetivo ´e determinar os parˆametros a0, a1, · · · , an que minimizam (1.32). A
solu¸c˜ao ´otima a∗ = [a∗0, a∗1, . . . , a∗n]T ajusta os dados experimentais no sentido dos m´ınimos
quadrados. A condi¸c˜ao necess´aria para que a∗ = [a∗0, a∗1, . . . , a∗n]T seja minimizante de S ´e
termos as derivadas parciais de S em rela¸c˜ao a cada um dos parˆametros a0, a1, . . . , an iguais
a zero. Com isso formamos um sistema de equa¸c˜oes normais n˜ao linear nos parˆametros a0, a1, . . . , an. A solu¸c˜ao do sistema ´e um ponto estacion´ario da fun¸c˜ao S que pode n˜ao ser
um m´ınimo. Conv´em real¸car que n˜ao existem m´etodos diretos para o ajuste de fun¸c˜oes pelo m´etodo dos m´ınimos quadrados n˜ao lineares, sendo a solu¸c˜ao obtida por m´etodos iterativos. Nos cap´ıtulos seguintes abordaremos os m´etodos iterativos para o ajuste n˜ao linear dos m´ınimos quadrados.
A seguir mostraremos alguns exemplos desse tipo de problemas.
Exemplo 1.10 No estudo laboratorial de um fen´omeno, uma certa grandeza f´ısica y(t) va-ria no tempo. Prevendo-se que siga uma lei dada pela express˜ao anal´ıtica: ypredicted(k1, k2, t) =
k1
k1−k2 e
−k2t− e−k1t, sendo k
1 e k2 parˆametros reais desconhecidos. No laborat´orio
simula-se o fen´omeno e obtˆem-se os dados experimentais da tabela seguinte: Pontos ti(s) yobserved(ti)
t1 = 0.5 yo1 = 0.263
t2 = 1.0 yo2 = 0.455
t3 = 1.5 yo3 = 0.548
.
Pretende-se calcular os valores dos parˆametros reais k1 e k2 por minimiza¸c˜ao dos
qua-drados dos desvios: min (k1,k2)∈R = φ(k1, k2) = m X i=1 [yobserved(ti) − ypredicted(k1, k2, ti)] 2 .
Ou seja, pretende-se encontrar os valores ´otimos (k∗1, k2∗) dos parˆametros k1 e k2 por forma
a minimizar a fun¸c˜ao φ(k1, k2). Trata-se do crit´erio dos m´ınimos quadrados no caso n˜ao
linear (regress˜ao n˜ao linear).
(a) Escreva uma function MATLAB para implementar computacionalmente a fun¸c˜ao φ(k1, k2).
(b) Use o comando fminsearch da Optimization Toolbox do MATLAB para calcular os valores ´otimos k1∗ e k2∗.
(c) Fa¸ca um gr´afico MATLAB da fun¸c˜ao ypredicted(k1, k2, t), com t ∈ [0, 2] e assinale nesse
gr´afico os pontos (ti, yoi), i = 1, 2, 3 da tabela acima.
Resolu¸c˜ao:
(a) Neste caso, a fun¸c˜ao a minimizar, segundo o crit´erio dos m´ınimos quadrados ´e φ(k1, k2) =
3
X
i=1
com yp(k1, k2, t) = k1k−k1 2 e
−k2t− e−k1t.
Para implementar computacionalmente a fun¸c˜ao φ(k1, k2) no MATLAB, criamos as
seguintes fun¸c˜oes:
(1) function yp=ypredicted (k1, k2,t) E1=exp(-k1*t); E2=exp(-k2*t); k=k1/(k1-k2); yp=k*(E2-E1); (2) function S=phisum (k) t=[0.5 1.0 1.5]; yo=[0.263 0.455 0.548]; P=(yo-ypredicted(k(1), k(2), t)).^ 2; S=sum(P); (b) Com o comando >> fminsearch(’phisum’,[1 1]), obtivemos k1∗ ∼= 0.6630 e k2∗ ∼= 0.1546.
(c) Para obtermos a representa¸c˜ao gr´afica da fun¸c˜ao e os pontos (ti, yoi), i = 1, 2, 3
implementamos a seguinte function no MATLAB: function phigraf(a,b,h) t=a:h:b; ti=[0.5 1.0 1.5]; yo=[0.263 0.455 0.548] k=fminsearch(’phisum’,[2 2]); yp=ypredicted(k(1), k(2), t); plot(t,yp); hold on plot(ti,yo,’or’) figure(gcf)
Agora com o comando phigraf(0,3,0.001), obtivemos o gr´afico da Figura 1.5.
No Cap´ıtulo 3 vamos abordar m´etodos de minimiza¸c˜ao para resolver este tipo de pro-blemas.
Figura 1.5: Ilustra¸c˜ao gr´afica do Exemplo 1.10.
Exemplo 1.11 Num circuito eletr´onico a tens˜ao el´etrica de sa´ıda ´e mostrada a intervalos de 0.5 segundos, obtendo-se a tabela
ti 0 0.5 1 1.5 2 2.5 3
vi 1.0950 −0.1569 −1.0157 −1.4740 −1.3616 −0.8342 −0.0135
. Tabela 1.8:
Sabemos que a tens˜ao ser´a da forma
v(t) = e−αt+ β sin t onde α e β s˜ao valores desconhecidos.
(a) Formular o problema de minimiza¸c˜ao que permite determinar α e β por forma a obter um melhor ajuste de v(t) aos dados da tabela no sentido dos m´ınimos quadrados. (b) Encontrar o sistema de estacionariedade (sistema de equa¸c˜oes normais).
(a) Como pretendemos aplicar o m´etodo dos m´ınimos quadrados, devemos ent˜ao mini-mizar a soma dos erros quadr´aticos, isto ´e, devemos ter
min (α,β)∈R2E(α, β) = 7 X i=1 vi− e−αti− β sin(ti) 2 .
(b) Os valores de α e β que minimizam E(α, β), encontram-se entre os que anulam o gradiente da referida fun¸c˜ao.
∇E(α, β) = ∂E ∂α(α, β) ∂E ∂β(α, β) ⇒ ∇E(α, β) = 2P7 i=1[(vi− e−αti − β sin(ti))(tie−αti)] 2P7
i=1[(vi− e−αti − β sin(ti))(− sin(ti))]
.
O sistema de estacionariedade ´e ∇E(α, β) = 0 0
. Fazendo x ←− α e y ←− β, passamos a ter o sistema de equa¸c˜oes:
( f (x, y) =P7 j=1[(vj − e −xtj− y sin(t j))(tje−xtj)] = 0 g(x, y) =P7 j=1[(vj− e −xtj − y sin(t j))(− sin(tj))] = 0 .
Trata-se de um sistema de equa¸c˜oes n˜ao lineares cuja resolu¸c˜ao abordaremos no Cap´ıtulo 3.
Propomos agora a resolu¸c˜ao desse sistema atrav´es do comando fsolve do MATLAB. Assim, criamos a seguinte function:
function F=dcircuit(x) ti=0:0.5:3; Vi=[1.0950 -0.1569 -1.0157 -1.4740 -1.3616 -0.8342 -0.0135]; phi=exp(-x(1)*ti)+x(2)*sin(ti); df=sum((Vi-phi).*(ti.*exp(-x(1)*ti))); dg=sum((Vi-phi).*(-sin(ti))); F=[df dg]’; end
Agora, utilizando o comando: >> [x F]=fsolve(’dcircuit’,[0 0]’), obtemos x =
0.4295 -1.9842 F =
1.0e-006 * -0.1559 0.0639
Sendo assim, temos α ∼= 0.4295 e β ∼= −1.9842. Portanto, o modelo que melhor se ajusta aos dados da Tabela 1.8 em termos de m´ınimos quadrados ´e