mínimos quadrados

(1)

Capítulo 5: Ajuste de curvas pelo método dos mínimos quadrados

1. Diagrama de dispersão

No capítulo anterior estudamos uma forma de lidar com funções matemáticas definidas por uma tabela de valores. Frequentemente, no entanto, estas tabelas são obtidas com base em dados experimentais contendo erros inerentes ao método de medição utilizado.

Para ilustrar o problema, considere-se uma série de medições de natureza física (xi,yi), i=0,...,n, onde cada yi foi obtido experimentalmente e aproxima o valor de uma função no ponto xi, i.e., yi≅f(xi).

Estes valores podem representar-se num gráfico cartesiano formando uma “nuvem de pontos”, a este gráfico chamamos diagrama de dispersão. Exemplo 30 40 50 60 70 80 90 20 40 60 80 100 120 140 160

Figura 1: Diagrama de dispersão

A relação funcional y=f(x) pode ser completamente desconhecida e a sua forma sugerida pelo gráfico dos pontos, consistindo o problema na procura da curva y=g(x) que melhor se ajusta, num dado sentido, à “nuvem de pontos” observada. Nestas condições a função g(x) diz-se uma

(2)

Como os valores tabelados não são “exactos” não é razoável nestes casos utilizar interpolação, ou seja, exigir que a função aproximante satisfaça exactamente os dados. De facto, em vez de recorrer a um polinómio que passe exactamente por todos os pares de valores (xi,f(xi)), i=0,..,n, uma melhor abordagem será a fazer passar a função aproximante, g(x), o mais próximo possível dos pontos (xi,f(xi)), i=0,..,n.

2. Rectas de regressão. Coeficiente de determinação e resíduos O modelo mais simples que relaciona duas variáveis x e y é dado por

y=β0+β1x

que é a equação de uma recta. β0 e β1 são os parâmetros do modelo. Consideremos o seguinte diagrama de dispersão

-2 -1 0 1 2 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Figura 2: Diagrama de dispersão e recta ajustada

E consideremos uma recta arbitrária, y=β0+β1x, desenhada no diagrama. A xi chamamos valor da variável explicativa ou independente e à imagem de xi pela recta y=β0+β1x chamamos valor predito, que denotamos por , y

i yˆ

(3)

A diferença entre yi e yˆ_i, i.e., d_i = y_i − yˆ_i chama-se desvio e é a distância vertical do ponto à linha recta. Se consideramos a soma dos quadrados dos desvios anteriores, i.e.,

∑

= = n i i d D 1 2

obtemos uma medida do desvio total dos pontos observados à recta estimada.

A medida anterior depende da recta considerada, ou seja depende de β0 e β1. Assim, podemos escrever

∑

= = − = = n i i i n i i y y d D 1 2 1 2 1 0, ) ( ˆ ) (β β ou ainda,

∑

. = = + − = = n i i i n i i y x d D 1 2 1 0 1 2 1 0, ) ( ( )) (β β β β

Pretendemos então os valores de β0 e β1 que minimizem D(β0, β1), i.e., pretendemos o valo mínimo de D(β0, β1).

Um modo de estimar os coeficientes β0 e β1 é determinar o mínimo da função D(β0,β1) em relação a β0 e β1 e resolver as equações normais.

Temos então que:

∑

= = − − = = n i i i n i i y x d D 1 2 1 0 1 2 1 0, ) ( ) (β β β β e

∑

= − − − = ∂ ∂ n i i i x y D 1 1 0 0 1 0, ) ₂₍ ₎ ( β β β β β

∑

= − − − = ∂ ∂ n i i i i y x x D 1 1 0 1 1 0, ) ₂ ₍ ₎ ( β β β β β

(4)

Os valores de b0 e b1 para os quais a função D(β0,β1) apresenta um valor mínimo são obtidos igualando as equações anteriores a zero, i.e., resolvendo as equações normais. Assim,

(1) ⇔ ⇔ ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ = − − − = − − −

∑

= = 0 ) ( 2 0 ) ( 2 1 2 1 0 1 1 0 n i i i i i n i i i x x x y x y β β β β ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ = − − = − −

∑

= = = = = 0 0 1 1 2 1 1 0 1 1 0 1 n i n i i n i i i i n i i n i i x b x b x y x b nb y ⎪ ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎪ ⎨ ⎧ − = − − − − =

∑

∑ ∑

∑

= = = = = = = = n i i i n i n i n i i n i i i i n i i n i i n i i y x n x x b y x x b n x b y b 1 1 1 1 1 1 1 2 1 1 1 1 0 ⇔ ⇔ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ + − = ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −

∑

= = = = = n i i n i n i i i i n i i n i i x y n y x x n x b 1 1 1 2 1 1 2 1 1 1 __________ ⇔ ⇔ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − =

∑

= = = = = 2 1 1 2 1 1 1 1 __________ n i i n i i n i i n i n i i i i x x n y x y x n b ⇔

Temos então que

n x b y b n i n i i i

∑

= = − = 1 1 1 0 e ₂ 1 1 2 1 1 1 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − =

∑

∑ ∑

= = = = = n i i n i i n i n i n i i i i i x x n y x y x n b 1

(5)

ou b₀ = y−b₁x e 2 2 1 2 1 2 1 x n x n y x n y x n b n i i n i i i − − =

∑

= = _,

são as soluções dos sistema (1) sendo além disso os valores de β0 e β1 que minimizam D(β0,β1).

Este método é conhecido pelo método dos mínimos quadrados, uma vez que estamos a minimizar uma função quadrática.

A melhor recta, no sentido dos mínimos quadrados, que melhor se ajusta aos dados do diagrama de dispersão é dada por: y=b0 + b1x.

Exemplo: Determinar a recta dos mínimos quadrados que melhor se ajusta aos dados da tabela abaixo.

xi yi xi2 xiyi 1.3 2.0 1.69 2.6 3.4 5.2 11.56 17.68 5.1 3.8 26.01 19.36 6.8 6.1 46.24 41.48 8.0 5.8 64 46.4 ∑ 24.6 22.9 149.5 127.54 Temos então que

2 1 6 . 24 5 . 149 5 9 . 22 6 . 24 54 . 127 5 − × × − × = b ⇔ b1=0.522 e, 5 6 . 24 522 . 0 9 . 22 0 × − = b ⇔ b0=2.012

A recta pedida é: y=2.012+0.522x.

Um modo de medir a qualidade do ajuste linear simples efectuado é através do coeficiente de determinação dado por:

(6)

⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − =

∑

∑ ∑

∑

= = = = = = = n i n i i i n i n i i i n i n i i i n i i i y n y x n x y x n y x R 2 1 2 2 1 2 2 1 1 1 2 1 1 1

Note-se que 0≤R2_{≤1. Quanto mais próximo o coeficiente de} determinação estiver da unidade melhor será o ajuste.

Exemplo: Medir a qualidade do ajustamento efectuado no exemplo anterior. xi yi xi2 yˆi di di2 yi2 1.3 2.0 1.69 2.7 -0.7 0.49 4 3.4 5.2 11.56 3.8 1.4 1.96 27.04 5.1 3.8 26.01 4.7 -0.9 0.81 14.44 6.8 6.1 46.24 5.6 0.5 0.25 37.21 8.0 5.8 64 6.2 -0.4 0.16 33.64 ∑ 24.6 22.9 149.5 3.67 116.33 Temos que ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₋ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₋ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₋ × = 2 2 2 2 9 . 22 5 1 33 . 116 6 . 24 5 1 5 . 149 5 9 . 22 6 . 24 51 . 127 R ⇔R2=0.679

ou seja, o ajuste efectuado é relativamente bom.

Outra maneira de verificar a adequação do modelo é comparar cada valor observado yi com o respectivo valor predito pelo modelo yˆ_i, i é, os resíduos

(7)

Quando b0 e b1 são estimadores dos mínimos quadrados de β0 e β1 dados por (2) então os desvios di são idênticos aos resíduos ri.

3. Ajuste linear múltiplo

Um modelo linear para relacionar uma variável resposta ou dependente y com P+1 variáveis explicativas ou independentes é dado por:

Y=β0+β1x1+β2x2+...+βPxP ou na forma matricial ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ Pn P P n n n n x x x x x x x x x x x x y y y y ... 1 ... ... ... ... ... ... 1 ... 1 ... 1 ... 2 1 3 32 31 2 22 21 1 12 11 3 2 1 ou Y=Xβ.

Mostra-se, de maneira análoga à efectuada para o ajuste linear simples, que o vector das estimativas do vector β que minimiza a soma dos quadrados dos resíduos é a solução do sistema de equações lineares:

⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ∑ ∑ ∑ ∑ P Pi Pi i Pi i Pi i Pi i i i i i Pi i i i i Pi i i Pi i i i i i i b b b b x x x x x x x x x x x x x x x x x x x x x n x y x y x y y ... ... ... ... ... ... ... ... ... ... ... 2 1 0 2 2 1 2 2 2 2 1 2 1 1 2 2 1 1 2 1 2 1

Conhecido por sistema de equações normais. A matriz do sistema anterior é simétrica e tem solução única se det(XTX)≠0.

O coeficiente de determinação goza ainda das mesmas propriedades que no caso linear e é dado por:

2 2 2 Y n Y Y Y n Y X b R T T T − − =

(8)

ou por

(

)

2 1 1 2 1 2 2 1 ˆ 1

∑

= = = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − − = n i n i i i n i i i y n y y y

R onde yˆ_i é o valor estimado de yi pela

equação ajustada.

4. Ajuste Polinomial

Um caso especial de ajuste linear múltiplo ocorre quando x1=x, x2=x2,...,xP=xP. Neste caso a equação do modelo é dada por:

Y=β0+β1x+β2x2+...+βPxP

ou seja, estamos perante um ajuste polinomial, i.e., estamos a ajustar os dados a um polinómio de grau P.

O sistema normal é agora dado por:

⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡

∑

+ + + + P P i P i P i P i P i i i i P i i i i P i i i P i i i i i i i b b b b x x x x x x x x x x x x x x x n x y x y x y y ... ... ... ... ... ... ... ... ... ... ... 2 1 0 2 2 1 2 4 3 2 1 3 2 2 2

O coeficiente de determinação e os resíduos determinam-se de modo análogo ao caso do ajuste linear múltiplo.

5. Transformações de modelos não lineares

O procedimento anterior pode aplicar-se a qualquer modelo não linear g(x) para o qual possam encontrar-se transformações de linearização, por exemplo, X=X(x,y) e Y=Y(x,y) que transformem a curva y=g(x) numa recta y=ax+b.

(9)

Exemplo: Ajustar os pontos da tabela abaixo à equação y=aebx. xi yi ln(yi) xi ln(yi) xi 2 ln2(yi) 0.1 5.9 1.77 0.177 0.01 3.1229 1.5 8.8 2.17 3.255 2.25 4.7089 3.3 12.0 2.48 8.184 10.89 6.1504 4.5 19.8 2.99 13.455 20.25 8.9401 5.0 21.5 3.07 15.35 25 9.4249 ∑ 14.4 12.48 58.4 32.3572

Temos que y=aebx ⇔ ln(y)=b0+b1x com b0=ln(a) e b1=b. Então

2 1 4 . 14 4 . 58 5 48 . 12 4 . 14 421 . 40 5 − × × − × = b ⇔ b1=0.2646 e, b₀ =2.496−0.2646×2.88 ⇔ b0=1.734. Então, ln(y)=1.734+0.2646x ⇔ y=e1.734 e0.2646x ⇔ y=5.6633e0.2646x. O coeficiente de determinação é dado por:

⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − = ∑ ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = = n i n i i i n i n i i i n i n i i i n i i i y n y x n x y x n y x R 2 1 2 2 1 2 2 1 1 1 2 ) ln( 1 ) ( ln 1 ) ln( 1 ) ln( ⇔ 981 . 0 ) 48 . 12 ( 5 1 3572 . 32 ) 4 . 14 ( 5 1 4 . 58 48 . 12 4 . 14 5 1 421 . 40 2 2 2 2 ₌ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₋ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₋ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₋ _× _× = R