• Nenhum resultado encontrado

Problemas de mínimos quadrados: resolução e aplicações

N/A
N/A
Protected

Academic year: 2021

Share "Problemas de mínimos quadrados: resolução e aplicações"

Copied!
90
0
0

Texto

(1)

Instituto de Ciências Exatas

Curso de Matemática

Problemas de Mínimos Quadrados: Resolução e

Aplicações

Ana Beatriz Rodrigues de Andrade Graça

Volta Redonda

Julho de 2016

(2)
(3)

Instituto de Ciências Exatas

Curso de Matemática

Problemas de Mínimos Quadrados: Resolução e

Aplicações

Trabalho de Conclusão de Curso na área de conhecimento Matemática Aplicada, apresentado ao Curso de Matemática, ICEx, da Universidade Federal Fluminense, como parte dos requisitos necessários à obtenção do título de Bacharel em Matemática.

Ana Beatriz Rodrigues de Andrade Graça

Orientador: Prof

a

. Dr

a

. Marina Sequeiros Dias de

Freitas

Volta Redonda Julho de 2016

(4)
(5)

principalmente a minha professora e orientadora: Marina Sequeiros que fez a grande diferença para a realização deste trabalho.

(6)
(7)

Os agradecimentos principais são direcionados a Deus, que iluminou o meu trajeto, com farol alto, durante esse percurso. Deu-me força e coragem para seguir em frente e pisar fundo nas subidas mais ingrimes. Propôs um novo mundo de possibilidades. Ele permitiu que tudo isso acontecesse, não somente nesses anos, como universitária, mas em todos os momentos de minha vida. À minha família, por sua capacidade de acreditar e investir em mim. À minha mãe, Simone, obrigada pelos seus cuidados, sua imensa dedicação e incentivo. Nas horas de desânimo e cansaço, agradeço pelos conselhos que me deram um gás para continuar trilhando por este caminho sinuoso. Ao meu pai, Ernani, apesar de todas as dificuldades e bloqueios diferenciais, sua presença significou segurança e certeza de que não estou sozinha nessa jornada. Aos dois, obrigada pelo carinho, paciência e capacidade de me trazerem paz na correria acelerada de cada semestre. Em especial, agradeço aos membros da banca: minha orientadora e vice-chefe do departamento, professora e doutora Marina Sequeiros que dedicou horas do seu tempo emprestando-me seus ouvidos com paciência e deu-me suporte o tempo todo. Agradeço suas correções, incentivos e amizade; Ao chefe de departamento, professor e doutor Ivan Aguilar, agradeço pela revisão e correção ortográfica, convívio, amizade, conselhos e suporte; Ao professor e doutor Honório Joaquim por contagiar a todos com sua alegria, bom humor, orientações, apoio e amizade. Agradeço aos meus amigos: Aline e Lucas, pelas horas que passamos estudando Análise. O espaço aqui é pouco para agradecer a cada um em particular. Por isso, no geral, agradeço a todos os professores que me proporcionaram o conhecimento e, além disso, manifestaram caráter e afetividade. A todos aqueles que, de alguma forma, estiveram e estão próximos de mim, fazendo esta vida valer cada vez mais a pena. Até mesmo os que estão longe, abasteceram e ainda abastecem meu coração de sentimentos bons com certos aditivos.

Agradeço ao Instituto de Ciências Exatas (ICEx) da Universidade Federal Fluminense (UFF) e a todos que fazem parte corpo docente e discente que, direta ou indiretamente, contribuí-ram para o meu desempenho.

(8)
(9)

Grite, chore, encha-se de energia para os desafios seguintes.” (Buscando meu ‘Eu’ através das mensagens, Maria Elena, 68)

(10)
(11)

O problema de mínimos quadrados é um problema computacional de primordial importância. O originalmente surgiu da necessidade de se ajustar um modelo matemático linear para observações dadas com o propósito de reduzir a influência de erros nas observações. Trata-se de uma técnica de otimização matemática que procura encontrar o melhor ajuste para um conjunto de dados através da minimização da soma dos quadrados da diferença entre os dados observados e os valores estimados (tais diferenças são chamadas resíduos). Este tipo de problema é muito frequente em ciências experimentais; em problemas geodésicos, como o formulado por Gauss para resolver um problema de demarcação de fronteiras para o governo alemão; problemas estatísticos; processamentos de sinais; fotogrametria; entre outros. Na linguagem da Álgebra Linear, o problema de mínimos quadrados pode ser definido como a solução de um sistema de equações Ax = b sobredeterminado, isto é, com mais equações do que incógnitas. Para resolver esse problema, requer-se conhecimento de diferentes áreas, como por exemplo: alguns conceitos de Álgebra Linear; probabilidade; estatística para analisar os dados; ciência da computação para implementação eficiente de algoritmos e programação matemática para formular e resolver problemas de otimização. Entre as soluções apresentadas para resolver o sistema de equações, foram estudados: o método de equações normais; decomposição em valores singulares e fatoração QR. Para exemplificar, foram feitas aplicações no ajuste de curvas e na área de Estatística, em exemplos de regressão linear simples e múltipla, além de discutir brevemente sobre os problemas de condicionamento e estabilidade.

Palavras-chave: Mínimos Quadrados. Ajuste polinomial. Regressão Linear. Métodos de Fatora-ção Matricial.

(12)
(13)

Figura 1 – Uma projeção oblíqua . . . 19

Figura 2 – Uma projeção ortogonal . . . 21

Figura 3 – Perpendicular . . . 23

Figura 4 – Formulação do problema de mínimos quadrados em termos da projeção ortogonal. . . 24

Figura 5 – Interpretação Geométrica do SVD aplicada em uma esfera de raio igual a 1. 28 Figura 6 – SVD Reduzido . . . 31

Figura 7 – SVD Completo . . . 32

Figura 8 – QR Reduzido (m > n) . . . 36

Figura 9 – QR Completo (m > n) . . . 37

Figura 10 – Restrições para atualizar um banco de dados geodésicos. . . 43

Figura 11 – f (x)= x senxπ5 . . . 44

Figura 12 – Dados sem perturbação - Grau 1 . . . 45

Figura 13 – Dados sem perturbação - Grau 2 . . . 45

Figura 14 – Dados sem perturbação - Grau 4 . . . 45

Figura 15 – Dados sem perturbação - Grau 7 . . . 45

Figura 16 – Dados sem perturbação - Grau 8 . . . 46

Figura 17 – Dados sem perturbação - Grau 11 . . . 46

Figura 18 – Dados sem perturbação - Grau 12 . . . 46

Figura 19 – Dados sem perturbação - Grau 15 . . . 46

Figura 20 – Dados sem perturbação - Grau 17 . . . 46

Figura 21 – Dados sem perturbação - Grau 18 . . . 46

Figura 22 – Dados sem perturbação - Grau 20 . . . 47

Figura 23 – Dados sem perturbação - Grau 22 . . . 47

Figura 24 – Dados com perturbação gaussiana - Grau 1 . . . 47

Figura 25 – Dados com perturbação gaussiana - Grau 2 . . . 47

Figura 26 – Dados com perturbação gaussiana - Grau 4 . . . 48

Figura 27 – Dados com perturbação gaussiana - Grau 7 . . . 48

Figura 28 – Dados com perturbação gaussiana - Grau 8 . . . 48

Figura 29 – Dados com perturbação gaussiana - Grau 11 . . . 48

Figura 30 – Dados com perturbação gaussiana - Grau 12 . . . 48

Figura 31 – Dados com perturbação gaussiana - Grau 15 . . . 48

Figura 32 – Dados com perturbação gaussiana - Grau 17 . . . 49

Figura 33 – Dados com perturbação gaussiana - Grau 18 . . . 49

Figura 34 – Dados com perturbação gaussiana - Grau 20 . . . 49

(14)

Figura 36 – Reta que melhor se ajusta a esse conjunto de pontos . . . 55

(15)

Tabela 1 – Dados simulados - função linear . . . 61

Tabela 2 – Dados simulados - função não linear . . . 62

Tabela 3 – Variáveis Aleatórias . . . 63

(16)
(17)

FRP Função de Regressão Populacional L.D. Linearmente Dependente

L.I. Linearmente Independente

MQO Mínimos Quadrados Ordinários (ou Método dos Mínimos Quadrados ) MAD Mean Absolute Deviation (Desvio Absoluto Médio)

MSD Mean Squared Deviation (Desvio Quadrático Médio) MSE Mean Squared Error (Erro Quadrático Médio)

ON Ortonormal

SQR Soma dos Quadrados dos Resíduos SVD Decomposição em Valores Singulares VA Variável Aleatória

(18)
(19)

Im(A) Imagem da matriz A N (A) Espaço Nulo da matriz A

In Matriz Identidade de dimensão n × n

AT Matriz A transposta

A−1 Matriz A inversa

(20)
(21)

1 Introdução . . . . 1

2 Objetivos . . . . 3

3 Revisão de Álgebra Linear . . . . 5

3.1 Vetores e Matrizes . . . 5

3.2 Normas . . . 16

4 Métodos de Fatoração Matricial . . . . 19

4.1 Equações Normais. . . 23

4.2 Decomposição em Valores Singulares (SVD) . . . 27

4.3 Fatoração QR . . . 35

5 Métodos de Mínimos Quadrados e Aplicações . . . . 39

5.1 O Método de Mínimos Quadrados . . . 39

5.2 Aplicações . . . 42

5.3 Condicionamento e Estabilidade . . . 49

5.4 Regressão Linear Simples e Múltipla . . . 52

6 Conclusões e Trabalhos Futuros . . . . 65

(22)
(23)

1 Introdução

Em 1809, Carl Friedrich Gauss (1777-1855) publicou um artigo no Werke, 4, 1-931, demonstrando que a melhor maneira de determinar um parâmetro desconhecido de uma equação de condições é minimizando a soma dos quadrados dos resíduos (SQR). Mais tarde, este método foi chamado de Mínimos Quadrados.

Em termos matriciais, seja A uma matriz de dimensão m × n e um vetor b ∈ Rm. O objetivo é encontrar um vetor x ∈ Rntal que Ax é a melhor aproximação para b, ou seja, obter um x que minimize ||Ax − b||2, onde || · ||2 é norma vetorial euclidiana. Se m = n e A é uma

matriz não singular, a resposta é simples: x= A−1b. Mas, se m > n então há mais equações do que variáveis, o problema é conhecido como sobredeterminado e geralmente nenhum x satisfaz Ax = b exatamente. Ocasionalmente, encontram-se problemas indeterminados, onde m < n. Neste trabalho serão estudados apenas os problemas mais comuns: os casos sobredeterminados. Para resolver os sistemas lineares Ax = b, são utilizados os seguintes métodos de fatoração matricial: Equações Normais; Decomposição em Valores Singulares (SVD) e QR.

As equações normais são as mais utilizadas (especialmente em Estatística) para calcular a solução de mínimos quadrados. O sistema é não singular se A tem posto completo e, nesse caso, existe a solução de mínimos quadrados e é uma solução única. O método padrão de resolver tal sistema é a fatoração de Cholesky, que decompõe uma matriz A em duas outras matrizes L e LT, onde L é uma matriz inferior com elementos positivos na diagonal principal. A solução desse

sistema de equações normais dá o resultado desejado para o problema de mínimos quadrados. A SVD é uma fatoração matricial de grande importância teórica e prática para tratar o problema de mínimos quadrados. Essa decomposição, atualmente, também é a principal ferramenta em inúmeras áreas de aplicação, tais como processamento de sinal e processamento de imagem, teoria de controle, reconhecimento de padrões, análise de séries temporais, entre outras.

A Fatoração QR é uma fatoração de uma matriz A em um produto de uma matriz ortogonal Q e uma matriz triangular R. Essa é uma das fatorações mais importantes da álgebra linear numérica. Esses três métodos de fatoração de matrizes serão utilizados na resolução dos problemas de mínimos quadrados que serão vistos nas aplicações apresentadas.

Neste trabalho, também será abordado um pouco sobre o condicionamento de problemas de mínimos quadrados e a estabilidade dos algoritmos. Dentre as aplicações, será exibido o problema formulado por Gauss, o ajuste polinomial de curvas e a aplicação do método em estatística, conhecido como regressão linear simples e múltipla.

(24)

2 Capítulo 1. Introdução

As definições e resultados discutidos no decorrer do trabalho são válidos para o conjunto dos números reais e complexos. Quando se considera o caso complexo, há algumas alterações que não serão mencionadas ao longo dos textos. Neste trabalho, o foco é aplicar o problema de mínimos quadrados para casos no conjunto dos reais. Por isso, não serão feitas observações sobre números complexos.

Os capítulos são organizados da seguinte maneira: os dois primeiros capítulos foram reservados para introduzir o tema do trabalho e comentar sobre os objetivos. No capítulo3é feita uma revisão de alguns conceitos de álgebra linear, apresentação das principais definições e resultados envolvendo matrizes e vetores ortogonais, normas de vetores e de matrizes que serão usados nos capítulos seguintes. No capítulo4são apresentados, em detalhes, três métodos de fatoração matricial. São eles: equações normais; SVD e a Fatoração QR. Já no capítulo5, é introduzida a ideia do método de mínimos quadrados, mostrando como resolvê-los usando as fatorações aprendidas e, também é dado o passo a passo dessas fatorações. Nesta etapa, discute-se brevemente o condicionamento de problemas de mínimos quadrados e a estabilidade dos algoritmos. Além disso, discutem-se algumas aplicações. Por fim, o capítulo6é feita uma análise do comportamento dos métodos descritos nas seções anteriores. Assim, conclui-se o trabalho expondo os resultados obtidos e encerra-se mostrando os trabalhos futuros.

Uma das principais referências usadas neste texto é [1], utilizado para introduzir conceitos necessários, juntamente com exemplos e algumas aplicações. Podem-se encontrar definições semelhantes em [2], [3], [4], [5], [6], [7], [8], [9].

Alguns conceitos de básicos Álgebra Linear e outras definições podem ser vistos em [10], [11], [12], [13], [14] e [15], [16].

Para regressão linear, pode-se tomar como referência [17], [18], [19] e [20].

Sobre inferência estatística e definições de probabilidade e estatística básica pode-se consultar [21] e [22].

(25)

2 Objetivos

O objetivo principal deste trabalho é resolver um sistema de equações Ax = b sobre-determinado (isto é, com mais equações do que incógnitas) usando mínimos quadrados. Para resolver esse sistema, estudam-se os métodos de equações normais, a SVD e a Fatoração QR. Como aplicações do método, pretende-se estudar o ajuste polinomial de curvas e a regressão linear simples e múltipla, além de discutir brevemente sobre condicionamento do problema e estabilidade dos algoritmos.

(26)
(27)

3 Revisão de Álgebra Linear

Neste capítulo é feita uma breve revisão de alguns conceitos de Álgebra Linear que serão indispensáveis no decorrer do trabalho.

Algumas definições e resultados importantes da teoria são introduzidas. Para mais detalhes, veja [1], [2], [5], juntamente com os livros de Álgebra Linear: [14], [10] e Análise Real: [12].

3.1

Vetores e Matrizes

Produto Interno

As definições a seguir se encontram no livro de Álgebra Linear [10] e do livro Análise Real [12].

Um produto interno é uma função que associa a cada par de vetores x, y do espaço vetorial um número real denotado por hx, yi, chamado produto interno de x por y.

Neste trabalho, o produto interno é definido do seguinte modo: considere x, y dois vetores colunas de Rm, então, xTy= m X i=1 xiyi

Para quaisquer x, y, z pertencentes ao espaço vetorial e α ∈ R um escalar, tem-se as propriedades a seguir:

Bilinearidade:

hx, y + zi = hx, yi + hx, zi hαx, yi = αhx, yi

Segue-se que hx+ y, zi = hx, zi + hy, zi e hx, αyi = αhx, yi. Positividade: hx, xi > 0 se x , 0.

Como h0, xi= h0 + 0, xi = h0, xi + h0, xi, segue-se que h0, xi = hx, 0i = 0 para todo x pertencente ao espaço vetorial.

Resulta da positividade que se hx, yi = 0 para todo y pertencente ao espaço vetorial, então x = 0. Com efeito, se fosse x , 0 teríamos hx, yi , 0 pelo menos quando x = y.

(28)

6 Capítulo 3. Revisão de Álgebra Linear

Note que se x, y pertencentes ao espaço vetorial são vetores tais que hx, zi= hy, zi para todo z pertencente ao espaço vetorial então x= y. Com efeito, isto implica que hx − y, zi = 0 para todo z pertencente ao espaço vetorial, logo x − y= 0 e x = y.

O comprimento euclidiano de x, denotado por ||x||, é definido como ||x||= √ xTx=        n X i=1 |xi|2        1/2 .

O cosseno do ângulo α entre x e y também pode ser expresso em termos do produto interno: cos(α) = x T y ||x||||y||, x, y , 0

Vetores Ortogonais

Definição 1. Um par de vetores x e y são ortogonais se xT

y= 0. Isto significa que eles formam um ângulo reto entre si, em Rm. Dois conjuntos de vetores X e Y são ortogonais (ou X é ortogonal

a Y) se todo x ∈ X é ortogonal a todo y ∈ Y.

Um conjunto S de vetores diferentes de zero é ortogonal se os seus elementos são ortogonais aos pares, isto é, se para x, y ∈ S , x , y ⇒ xTy = 0. Um conjunto de vetores é

ortonormal(ON) se é ortogonal e, além disso, todo x ∈ S possui ||x||= 1.

A demonstração do Teorema1a seguir pode ser encontrada de duas maneiras diferentes em [13] e [1].

Teorema 1. Os vetores de um conjunto ortogonal S são linearmente independentes.

Demonstração. Se os vetores em S não são independentes, então algum vk ∈ S pode ser expresso

como uma combinação linear de outros membros v1, ..., vn∈ S,

vk = n X i=1 i,k civi,

desde que vk , 0, vk.vk = ||vk||2 > 0. Usando a bilinearidade de produto interno e a

ortogonalidade de S , calculamos vTk.vk = n X i=1 i,k civTkvi = 0,

o que contradiz a suposição de que os vetores em S são diferentes de zero.

 Como corolário do Teorema1acima, conclui-se que, se um conjunto ortogonal S ⊆ Rm contém m vetores, então é uma base para Rm.

(29)

Componentes de um vetor

Produtos internos podem ser usados para decompor vetores arbitrários em componentes ortogonais. Por exemplo, sejam {q1, q2, . . . , qn} um conjunto ON e v um vetor arbitrário. A

quantidade qTjvé um escalar.

Pode-se utilizar esses escalares como coordenadas em uma expansão, obtendo o vetor r= v − (qT1v)q1− (q2Tv)q2− · · · − (qTnv)qn (3.1)

Note que este vetor é ortogonal a {q1, q2, . . . , qn}, pois

qTi r= q T i v −(q T 1v)(q T i q1) − (qT2v)(q T iq2) − · · · − (qTnv)(q T i qn), onde qT i qj = 0, para i , j. Assim, qTi r= q T i v −(q T iv)(q T i qi)= 0.

Portanto, v pode ser decomposto em n+ 1 componentes ortogonais: v= r + m X i=1 (qTi v)qi = r + m X i=1 (qiqTi )v.

Nesta decomposição, r é a parte de v ortogonal ao conjunto de vetores {q1, q2, . . . , qn},

ou, de modo equivalente, ao subespaço gerado por este conjunto de vetores, e (qTi v)qié a parte

de v na direção de qi.

Se {qi} é uma base para Rm, então n deve ser igual a m e r deve ser o vetor nulo, assim, v

é completamente decomposto em m componentes ortogonais nas direções de qi :

v= m X i=1 (qTi v)qi = m X i=1 (qiqTi )v.

Posto de uma Matriz

As definições a seguir podem ser encontradas nos livros [10] e [1].

O posto coluna de uma matriz é a dimensão do seu espaço coluna. E, analogamente, pode-se definir o posto linha de uma matriz como sendo a dimensão do espaço gerado por suas linhas.

O posto linha é sempre igual ao posto coluna1. Assim, esse número será mencionado simplesmente como o posto de uma matriz.

Pode-se, então, definir o posto de uma matriz como o número máximo de linhas, ou de colunas L.I (Linearmente Independentes) dessa matriz, mesmo quando a matriz é quadrada.

(30)

8 Capítulo 3. Revisão de Álgebra Linear

Uma matriz m × n de posto completo é uma matriz que tem o máximo possível do posto, ou seja: o mínimo de m ou n. Isto significa que uma matriz de posto completo com m ≥ n tem que ter n colunas L.I.

Teorema 2. Uma matriz A ∈ Rm×n com m ≥ n tem posto completo se, e somente se, ela não mapeia dois vetores distintos para um mesmo vetor.

A demonstração do teorema2pode ser encontrada em [1].

Multiplicação de Matrizes

As definições e os exemplos a seguir podem ser encontrados em [1].

Seja x = (xj) um vetor coluna de dimensão n e seja A = (ai j) uma matriz de tamanho

m × n. O produto de A por x resulta no vetor coluna b = (bi)= Ax, donde b ∈ Rn. Note que

bi = n X j=1 ai jxj, i= 1, . . . , m. (3.2) • bi é a i-ésima entrada de b,

• ai j corresponde à entrada i, j de A (i-ésima linha, j-ésima coluna),

• xj é a j-ésima entrada de x.

Uma matriz multiplicada por um vetor

Seja Aj, j ∈ {1, . . . , n}, a j-ésima coluna de A, um vetor de dimensão m, ou seja, com m

entradas. Dessa forma, a equação (3.2) pode ser rescrita como a combinação linear das colunas de A, isto é: b= Ax = n X j=1 xjAj. (3.3)

A equação (3.3) pode ser apresentada esquematicamente como:

                           b1 b2 ... bm                            =                           A1 A2 . . . An                                                x1 x2 ... xn                      = x1                           A1                           + x2                           A2                           + · · · + xn                           An                          

Observe que da equação (3.2) para equação (3.3) não aconteceu nada além de uma ligeira alteração na notação.

(31)

Exemplo 1 (Matriz de Vandermonde). Considere uma sequência de números {x1, x2, . . . , xm}.

Se p e q são polinômios de grau < n e α é um escalar, então p+ q e αq também são polinômios de grau < n. Além disso, os valores destes polinômios nos pontos xisatisfazem as propriedades

lineares a seguir:

(p+ q)(xi) = p(xi)+ q(xi)

(αp)(xi) = α(p(xi)).

Portanto, o mapeamento dos vetores de coeficientes dos polinômios p de grau < n para vetores (p(x1), p(x2), . . . , p(xm)) de valores polinomiais amostrados é linear. Qualquer

mapeamento linear pode ser expresso como a multiplicação por uma matriz.

Na verdade, é expresso por uma matriz de Vandermonde de dimensão m × n:

A=                      1 x1 x21 x31 . . . xn−11 1 x2 x22 x32 . . . xn−12 ... ... ... ... ... ... 1 xm xm2 x3m . . . xn−1m                      .

Se c é o vetor coluna dos coeficientes de p,

c=                            c0 c1 c2 ... cn−1                            , p(x)= c0+ c1x+ c2x2+ · · · + cn−1xn−1,

então o produto Ac dá os valores polinomiais amostrados. Ou seja, para cada i de 1 até m, tem-se:

(Ac)i = c0+ c1xi+ c2x2i + · · · + cn−1xn−1i = p(xi) (3.4)

Nesse exemplo, está claro que o produto matriz-vetor Ac não precisa ser pensado como msomatórios escalares distintos, cada um dando uma combinação linear diferente das entradas de c, como (3.2) pode sugerir. Ao invés disso, A pode ser vista como uma matriz de colunas, cada uma com valores amostrados de um monômio ,

A=              1 X X2 . . . Xn−1              , (3.5)

e o produto Ac deve ser entendido como a soma de um único vetor na forma (3.3), que fornece uma combinação linear destes monômios, Ac = c0+ c1x+ c2x2+ · · · + cn−1xn−1 = p(x).

(32)

10 Capítulo 3. Revisão de Álgebra Linear

Uma matriz multiplicada por uma matriz

Para o produto de uma matriz A por uma matriz C, B = AC, cada coluna de B é uma combinação linear das colunas de A. Para deduzir este fato, considere inicialmente a fórmula usual para produto de matrizes. Considere a matriz A de dimensão l × m e a matriz C de dimensão m × n. Assim, B necessariamente deve possuir dimensão l × n. Suas entradas são definidas por

bi j = m

X

k=1

aikck j. (3.6)

Em termos de colunas, tem-se:                           B1 B2 . . . Bn                           =                           A1 A2 . . . An                                               C1 C2 . . . Cn                     ,

onde aik, bi j e ck jsão as entradas das matrizes A, B e C, respectivamente.

A equação (3.6) é denotada da seguinte forma:

Bj = Ac j = m

X

k=1

ck jAk. (3.7)

Portanto, Bjé uma combinação linear das colunas Akcom coeficientes c k j.

Exemplo 2 (Produto Exterior). Este é um produto de um vetor-coluna u, de dimensão m, com um vetor-linha v cuja dimensão é n. O resultado é uma matriz m × n de posto 1.

             u              h v1 v2 . . . vn i =              v1u v2u . . . vnu              =               v1u1 . . . vnu1 ... ... v1um . . . vnun               .

As colunas são sempre multiplicadas pelo mesmo vetor, chamado de u, e igualmente, as linhas são multiplicadas pelo mesmo vetor, denotado por v.

Exemplo 3. Considere B= AU, onde U é uma matriz triangular superior cuja dimensão é n × n com entradas ui j = 1 se i ≤ j e ui j = 0 se i > j. Pode-se escrever esse produto da seguinte forma:

                          B1 B2 . . . Bn                           =                           A1 A2 . . . An                                         1 . . . 1 ... ... 1               .

(33)

Agora, a equação (3.7) é dada por: Bj = Au j = j X k=1 Ak. (3.8)

Isto significa que a j−ésima coluna de B é a soma das primeiras j colunas de A.

Núcleo e Imagem de uma matriz

Imagem

Seja A uma matriz m × n, correspondendo a uma aplicação linear de Rnem Rm.

Definição 2. A imagem de A é o espaço

Im(A)= {Au : u ∈ Rn}.

Note que Im(A) ⊂ Rm. Pode-se, também, ver a Im(A) como o espaço das colunas da

matriz A, conforme mostra o teorema3.

Teorema 3. Im(A) é o espaço gerado pelas colunas de A.

Demonstração. Por (3.3) qualquer Ax é uma combinação linear das colunas de A. Por outro lado, qualquer vetor y no espaço gerado pelas colunas de A pode ser escrito como uma combinação linear das colunas, y = Pnj=1xjAj. Formando um vetor x com os coeficientes de xj, obtém-se

y= Ax, e, assim, y está na imagem de A. 

A imagem de uma matriz A também pode ser chamada de espaço-coluna de A.

Núcleo

O núcleo de uma matriz A é denotado por N(A).

Para uma transformação linear dada como uma matriz A, o núcleo é simplesmente o conjunto de soluções da equação Ax = 0, onde x e 0 são interpretados como vetores coluna. A dimensão do espaço nulo de A é denominada nulidade de A.

Definição 3. O núcleo de A é o espaço

N (A)= {u : Au = 0}

Note que N(A) ⊂ Rn. Se o produto interno canônico é assumido, pode-se mostrar que o núcleo de A é o espaço dos vetores ortogonais a todas as linhas de A.

(34)

12 Capítulo 3. Revisão de Álgebra Linear

Matriz Inversa

Considere In a matriz identidade n × n. Tem-se In = [δi j], onde δi j é o símbolo de

Kronecker: δi j = 0 se i , j e δii= 1. Quando não houver ambiguidade, será simplesmente escrito

I em vez de In.

Definição 4. Uma matriz A chama-se invertível ou não-singular quando é quadrada de posto completo. Qualquer matriz A quadrada não-singular possui uma única matriz A−1, chamada a inversade A, tal que A−1A= AA−1= I.

O teorema a seguir fornece uma série de condições equivalentes quando a matriz é quadrada não-singular.

Teorema 4. Para A ∈ Rm×m

(a) A possui uma inversa A−1, (b) Im(A)= m,

(c) Im(A)= Rm,

(d) N(A)= {0},

(e) 0 não é um autovalor de A, (f) 0 não é um valor singular de A, (g) det(A) , 0.

A demonstração do teorema4acima pode ser encontrada facilmente nos livros de Álgebra Linear, como por exemplo [10], [14] e [16].

A seguir, enuncia-se o Teorema de Binet, que será utilizado em uma demonstração na seção4.2sobre SVD.

Teorema 5 (de Binet). O determinante do produto de duas matrizes quadradas de mesma ordem é igual ao produto dos determinantes destas matrizes, ou seja,det(AB) = det(A) det(B), onde A, B são matrizes de ordem n.

Para mais detalhes sobre a demonstração do teorema5, veja a página 219 do livro [14].

Matriz Simétrica

Definição 5. Uma matriz A ∈ Rn×né chamada de simétrica se A = AT. E se A = −AT, a matriz é

(35)

Matriz Transposta

Seja A= (ai j) ∈ Rm×n. A matriz transposta de A é a matriz AT = (aji), onde AT ∈ Rn×m.

Ou seja: A=                      a1,1 a1,2 . . . a1,n a2,1 a2,2 . . . a2,n ... ... ... ... am,1 am,2 . . . am,n                      ⇔ AT =                      a1,1 a2,1 . . . am,1 a1,2 a2,2 . . . am,2 ... ... ... ... a1,n a2,n . . . am,n                     

Algumas propriedades sobre matrizes simétricas e suas respectivas demonstrações são dadas. Considere A, B ∈ Rm×n

e c ∈ R uma constante qualquer.

1. ATT = A,

2. (A+ B)T = AT+ BT, 3. (cA)T = cAT,

4. (AB)T = BTAT,

5. (AT)−1= (A−1)T, se A é uma matriz não singular,

Para facilitar o entendimento das demonstrações a seguir, uma matriz A será denotada da seguinte maneira: A= [ai, j]m,ni, j=1. Demonstração. 1. Seja A= [ai, j]m,ni, j=1. Então, AT = [ai, j]n,mj,i=1e, portanto,  ATT = [ai, j]m,ni, j=1= A. 2. Sejam A= [ai, j]m,ni, j=1e B= [bi, j] m,n i, j=1. Então, (A+ B)T =[ai, j+ bi, j]m,ni, j=1 T = [ai, j+ bi, j]n,mj,i=1= AT+ BT. 3. Seja A= [ai, j]m,ni, j=1. Então, (cA)T =c[ai, j]m,ni, j=1 T = [cai, j]m,ni, j=1 T

(36)

14 Capítulo 3. Revisão de Álgebra Linear 4. Sejam A= [ai, j]m,ni, j=1e B= [bi, j] n,p i, j=1. Então, (AB)T = [ai, j]m,ni, j=1[bi, j] n,p i, j=1 T =                 n X k=1 ai,kbk, j        m,p i, j=1          T =        n X k=1 ai,kbk, j        p,m j,i=1 =        n X k=1 bk, jai,k        p,m j,i=1 = [bi, j]p,nj,i=1[ai, j] n,m j,i = BT AT .

5. Se A é uma matriz não singular, então AA−1 = A−1A= I. Daí, segue que:

I = IT =AA−1T = ATA−1T e

I = IT =A−1AT =A−1TAT ou seja, a inversa de AT é a transposta de A−1.



Matriz Definida Positiva

Definição 6. Chama-se matriz definida positiva a uma matriz A tal que xTAx > 0 para todo

x , 0.

Teorema 6. Se A ∈ Rn×né uma matriz definida positiva então A é invertível.

Demonstração. Supondo que A seja não-invertível, então existe um vetor não-nulo x ∈ Rntal

que Ax= 0 e, portanto, xTAx= 0, o que é uma contradição.



Matrizes Ortogonais

Para mais detalhes sobre as definições a seguir, veja [1].

Definição 7. Uma matriz quadrada Q ∈ Rm×mé ortogonal se QT = Q−1, isto é, se QT

(37)

Em termos das colunas de Q, o produto pode ser escrito como:                      Q1T Q2T ... QmT                                          Q1 Q2 . . . Qm                     =                      1 1 ... 1                      . Em outras palavras, QiTQj = δ i j.

Veja algumas propriedades sobre matrizes ortogonais e suas respectivas demonstrações. Considere A ∈ Rm×m

uma matriz quadrada e c ∈ R uma constante qualquer. 1. Se A é uma matriz ortogonal, então det(A)= ±1.

2. A matriz A é ortogonal se, e somente se, suas colunas formam um conjunto ortonormal. 3. A matriz A é ortogonal se, e somente se, suas linhas formam um conjunto ortonormal. 4. A matriz A é ortogonal se, e somente se, sua transposta AT também é.

5. Se A é uma matriz ortogonal, então cA é ortogonal se, e somente se, c= ±1. Demonstração.

1. Por hipótese, AT = A−1 ⇒ det(AT)= det(A−1) ⇒ det(A)= det(A)1 . Então: [det(A)]2= 1 ⇒ det(A) = ±1. 2. Seja A=                           A1 A2 . . . An                          

uma matriz ortogonal, onde Ai indica a i-ésima coluna de

A.

Por hipótese, ATA= In, donde: ai· aj =

       1 , i= j 0 , i , j

isto é, o conjunto formado pelos vetores coluna {A1, A2, . . . , An} é um conjunto ON.

Reci-procamente, se as colunas de A formam um conjunto ON de vetores, então por cálculo direto ATA= In.

3. O raciocínio é análogo ao item 2. 4. Imediatamente tem-se:

(38)

16 Capítulo 3. Revisão de Álgebra Linear

5. Por hipótese, AT = A−1.

Com isso, tem-se: (cA)T = cAT = cA−1.

Porém cA−1= (cA)−1se, e somente se, c= ±1.

 Multiplicação por uma matriz ortogonal

O processo de multiplicação por uma matriz ortogonal preserva estrutura geométrica no sentido euclidiano, porque produtos internos são preservados. Isto é, para matrizes ortogonais,

(Qx)T(Qy)= xTy, (3.9)

A invariância de produtos internos significa que ângulos entre vetores são preservados, assim como seus comprimentos:

||Qx||= ||x|| (3.10)

No caso real, que é o que está sendo tratado neste trabalho, a multiplicação por uma matriz ortogonal Q corresponde a uma rotação rígida (se det Q= 1) ou reflexão (se det Q = −1) do espaço vetorial.

3.2

Normas

As noções essenciais de tamanho e distância em um espaço vetorial são obtidas por normas.

Norma Vetorial

A norma é uma função || · || : Rm

→ R que atribui um comprimento de valor real para cada vetor. Uma norma deve satisfazer as 3 condições a seguir. Para todos vetores x e y e todos escalares α ∈ R,

1. ||x|| ≥ 0, e ||x|| = 0 se, e somente se, x = 0, 2. ||αx||= |α|||x||,

3. ||x+ y|| ≤ ||x|| + ||y||.

(39)

p-normas

A classe mais importante de normais vetorias, a p-norma, é definida abaixo. ||x||1 = m X i=1 |xi| ||x||2 =        m X i=1 |xi|2        1/2 = √xTx ||x||∞ = max 1≤i≤m|xi | ||x||p =        m X i=1 |xi| p        1/p , (1 ≤ p < ∞)

Norma Matricial Induzida pela Norma Vetorial

Pode-se visualizar uma matriz de dimensão m × n como um vetor no espaço de dimensão correspondente, basta considerar cada uma das mn entradas da matriz como uma coordenada independente. Portanto, qualquer norma neste espaço pode ser utilizada para medir o “tamanho” da matriz. Mas, ao lidar com um espaço de matrizes, algumas normas especiais são mais úteis do que as normas vetoriais definidas anteriormente. Essas normas serão chamadas de normas matriciais induzidas.

Sejam || · ||(n)e || · ||(m)as normas vetoriais no domínio e na imagem de A ∈ Rm×n,

respecti-vamente. A norma matricial induzida ||A||(m,n)é o menor número c que satisfaz a desigualdade

abaixo para todo x ∈ Rn.

||Ax||(m) ≤ c||x||(n)

Isto é, ||A||(m,n)é o supremo da razão ||Ax||(m)

||x||(n) para todos os vetores x ∈ R

n. Informalmente,

pode-se dizer que é o fator máximo pelo qual A pode “esticar” um vetor x.

Também denota-se || · ||(m,n)como a norma matricial induzida por || · ||(m)e || · ||(n).

Equivalentemente, define-se a norma matricial como: ||A||(m,n)= sup x∈Rn x,0 ||Ax||(m) ||x||(n) = sup x∈Rn ||x||(n)=1 ||Ax||(m). (3.11)

Limitando

||AB||

numa Norma Matricial Induzida

Sejam || · ||(l), || · ||(m)e || · ||(n)normas de Rl, Rme Rn, respectivamente, e seja A uma matriz

l × me B uma matriz m × n. Para todo x ∈ Rn :

||ABx||(l) ≤ ||A||(l,m)||Bx||(m)≤ ||A||(l,m)||B||(m,n)||x||n.

Portanto, a norma induzida de AB deve satisfazer: ||AB||(l,n) ≤ ||A||(l,m)||B||(m,n).

(40)

18 Capítulo 3. Revisão de Álgebra Linear

Em geral, essa desigualdade não é uma igualdade, isto é: estritamente menor.

Normas Matriciais Gerais

Como se pode notar, as normas matriciais não precisam ser induzidas pelas normas vetoriais. Em geral, uma norma matricial deve satisfazer as condições de norma vetorial aplicadas no espaço vetorial de dimensão mn de matrizes:

1. ||A|| ≥ 0, e ||A|| = 0 se, e somente se, A = 0, 2. ||αA||= |α|||A||,

3. ||A+ B|| ≤ ||A|| + ||B||.

Uma norma importante é a norma de Hilbert-Schmidt ou norma de Frobenius, definida por: ||A||F =         m X i=1 n X j=1 |ai j|2         1 2 (3.12)

Esta norma não é induzida pela norma de um vetor.

Note que esta norma é a mesma norma-2 da matriz quando considerada como um vetor mn−dimensional. A fórmula da norma de Frobenius pode ser escrita em termos de linhas ou colunas individuais. Por exemplo, se Aj é a j−ésima coluna de A, tem-se:

||A||F =         n X j=1 ||Aj||22         1/2 = ||A||2

Esta identidade, bem como sua análoga baseada em linhas ao invés de colunas, pode ser expressa compactamente pela equação:

||A||F =

p

tr(ATA)= ptr(AAT), (3.13)

onde tr(A) denota o traço de A, a soma dos seus elementos na diagonal com A sendo uma matriz quadrada.

Invariância sobre Multiplicação por Matriz Ortogonal

Teorema 7. Para qualquer matriz A ∈ Rm×n e matriz ortogonal Q ∈ Rm×m, vale: ||QA||2= ||A||2, ||QA||F = ||A||F.

Demonstração. Desde que ||Qx||2 = ||x||2 para todo x, pelo item3.10, a invariância na norma 2,

(41)

4 Métodos de Fatoração Matricial

Neste capítulo estudam-se três tipos de decomposição de matrizes. Na sequência, estes métodos serão utilizados para resolver problemas de mínimos quadrados. Antes, será apresentado um conceito introdutório sobre projetores e suas particularidades.

Projetores

A definição a seguir pode ser vista com mais detalhes em [1].

Um projetor é uma matriz quadrada P que satisfaz

P2 = P (4.1)

Uma matriz deste tipo também é definida como matriz idempotente. Esta definição inclui projetores ortogonais e não-ortogonais. Será utilizado o termo “Projetor Oblíquo” para o caso em que o projetor é não-ortogonal.

Note que se v ∈ Im(P), tem-se v= Px para algum x e Pv= P2x= Px = v.

Figura 1 – Uma projeção oblíqua

Se v < Im(P) então v , Pv e aplicando o projetor ao vetor Pv − v obtém-se: P(Pv − v)= P2v − Pv= 0,

(42)

20 Capítulo 4. Métodos de Fatoração Matricial

Projetores Complementares

Se P é um projetor, I − P também é um projetor: (I − P)2 = I − 2P + P2 = I − P. A matriz I − P é chamada de Projetor Complementar a P. Mostra-se que o projetor I − P projeta no N(P).

De fato, Im(I − P) ⊇ N(P), pois se Pv = 0, temos (I − P)v = v. Também vale que Im(I − P) ⊆ N(P), porque para qualquer v, (I − P)v= v − Pv ∈ N(P). Portanto, para qualquer projeto P, vale a igualdade

Im(I − P)= N(P).

Como vale para qualquer P, escreve-se P= I − (I − P). Dessa forma, obtém-se: N (I − P)= Im(P).

Além disso, observe que N(I − P) ∩ N (P) = {0}, pois qualquer vetor v em ambos conjuntos satisfazem v= v − Pv = (I − P)v = 0. Equivalentemente segue que,

Im(P) ∩ N(P)= {0}.

Sejam S1 e S2 dois subespaços de Rm tais que S1 ∩ S2 = {0} e S1 + S2 = Rm, onde

S1 + S2 indica a extensão de S1 e S2, isto é, o conjunto de vetores s1 + s2 com s1 ∈ S1 e

s2 ∈ S2. (Tal par é chamado de subespaços complementares.) Então existe um projetor P tal que

Im(P)= S1e N(P)= S2. Diz-se que P é um projetor sobre S1na direção de S2. Esse projetor e

seu complementar podem ser vistos como uma única solução para o seguinte problema: Dado v, encontre os vetores v1∈ S1e v2 ∈ S2tais que v1+ v2 = v.

O projetor Pv dá v1, e a projeção complementar (I − P)v dá v2. Esses vetores são únicos

porque todas as soluções precisam ser da forma

(Pv+ v3)+ ((I − P)v − v3)= v,

onde está claro que v3pertence a ambos subespaços S1e S2, isto é, v3 = 0.

Projetores Ortogonais

Um Projetor Ortogonal (Figura2) é um projetor que projeta sobre um subespaço S1 na

direção de S2, onde S1e S2são ortogonais.

Observação 1. É importante dizer que projetores ortogonais não são matrizes ortogonais. Existe também uma definição algébrica: Um projetor ortogonal é qualquer projetor que é simétrico, satisfazendo PT = P e (4.1). É claro que esta definição é equivalente à primeira.

(43)

Figura 2 – Uma projeção ortogonal

Teorema 8. Um projetor P é ortogonal se e somente se P= PT.

Demonstração. (⇐) Seja P um projetor ortogonal. Aqui, será usada a SVD (Veremos este método com mais detalhes na seção4.2). Suponha que P projeta sobre S1 na direção de S2,

onde S1 ⊥ S2 e S1 tem dimensão n. Então um SVD de P pode ser construído da seguinte

maneira: seja {q1, q2, . . . , qm} uma base ON para Rm, onde {q1, q2, . . . , qn} é uma base para S1

e {qn+1, qn+2, . . . , qm} é uma base para S2. Para j ≤ n, tem-se PQj = Qj e para j > n tem-se

PQj = 0. Agora, seja Q uma matriz ortogonal na qual as j-ésimas colunas são preenchidas por Qj. Logo, tem-se: PQ=                           Q1 . . . Qn 0 . . .                           , e dessa forma, QTPQ=                             1 ... 1 0 ...                             = Σ,

ondeΣ é uma matriz diagonal com uns nas primeiras n entradas e zeros nas demais. Assim, construi-se uma decomposição em valores singulares de P :

(44)

22 Capítulo 4. Métodos de Fatoração Matricial

Note que P é simétrico, desde que PT = (QΣQT)T = QΣT

QT = QΣQT = P.

(⇒) Suponha que P= PT. Então o produto interno entre um vetor Px ∈ S1e um vetor

(I − P)y ∈ S2é zero, ou seja, xTPT(I − P)y= 0.

Mas,

xTPT(I − P)y= xT(PT − PTP)y= xT(P − PP)y = xT(P − P2)y. Logo, xT(P − P2)y= 0.

Portanto, o projetor é ortogonal, como queríamos mostrar.  Projetor com uma Base Arbitrária

Pode-se construir um projetor ortogonal sobre um espaço Rmcomeçando com uma base

arbitrária, não necessariamente ortogonal. Suponha que o subespaço é gerado pelos vetores L.I. {a1, . . . , an} e seja A um matriz m × n tal que a j-ésima coluna é Aj.

Ao passar de v para sua projeção ortogonal y ∈ Im(A), a diferença y − v tem que ser ortogonal com relação a Im(A). Equivalentemente, pode-se dizer que y tem que satisfazer AjT(y − v)= 0 para todo j. Desde que y ∈ Im(A), pode-se definir y = Ax e escrever esta condição

da seguinte maneira: AjT(Ax − v) = 0 para cada j, ou equivalentemente, AT(Ax − v) = 0 ou

ATAx= ATv. É fácil mostrar que, como A tem posto máximo então ATAé não-singular. Portanto, x= (ATA)−1ATv.

Finalmente, a projeção de v, y= Ax, é y = A(ATA)−1ATv. Assim, o projetor ortogonal na

Im(A) pode ser expresso pela fórmula a seguir:

P= A(ATA)−1AT.

(45)

4.1

Equações Normais

Os conceitos e definições a seguir podem ser encontrados em [7].

Uma das abordagens mais utilizadas (especialmente em Estatística) para calcular a solução de mínimos quadrados é o método de Equações Normais.

Interpretação Geométrica do problema de mínimos quadrados

Seja A uma matriz m × n com m > n. Então A é um mapeamento linear de Rn

→ Rm.

Im(A) é um subespaço de Rm. Todo vetor u ∈ Im(A) pode ser escrito como u = Ax para algum

x ∈ Rn. Seja b ∈ Rm. Devido a || · ||2 ser a norma Euclidiana, ||b − Ax||2 é distância entre os

pontos de b e Ax. Está claro que esta distância é a distância minimal se, e somente se, b − Ax for perpendicular a Im(A) (Figura3). Neste caso, ||b − Ax||2é a distância do ponto final de b até o

“plano” Im(A).

Figura 3 – Perpendicular

Por essa interpretação, é fácil entender que uma solução de problema de mínimos quadrados para o sistema linear Ax = b sempre vai existir. Essa solução existe porque pode-se projetar b no “plano” Im(A) para obter o vetor u ∈ Im(A), e existe x ∈ Rntal que u= Ax. Esse x é a solução. Porque b − Ax é perpendicular a Im(A) e todo vetor em Im(A) é uma combinação linear dos vetores colunas de A, então b − Ax é ortogonal a todas colunas de A, ou seja,

AT(b − Ax)= 0 ou

ATAx= ATb. (4.2)

(46)

24 Capítulo 4. Métodos de Fatoração Matricial

Projeção Ortogonal e Equações Normais

A ideia é ilustrar a Figura 4. Nosso objetivo é encontrar o ponto Ax ∈ Im(A) mais próximo de b, de modo que a norma do resíduo r= b − Ax seja minimizada. Geometricamente, fica evidente que Ax= Pb onde P ∈ Rm×mé o projetor ortogonal (como visto anteriormente) que mapeia Rmpara Im(A). Em outras palavras, o resíduo r= b − Ax tem que ser, necessariamente ortogonal a Im(A).

Figura 4 – Formulação do problema de mínimos quadrados em termos da projeção ortogonal.

Teorema 9. Seja uma matriz A ∈ Rm×n

(m ≥ n) e b ∈ Rmo vetor dado. Um vetor x minimiza a

norma residual ||r||2 = ||b − Ax||2, resolvendo assim, o problema de mínimos quadrados, se e

somente se r é ortogonal a Im(A), isto é,

ATr= 0, ou equivalentemente,

ATAx= ATb, ou novamente equivalente,

Pb= Ax onde Pm×mé o projetor ortogonal sobre A.

Então, a solução x para o problema de mínimos quadrados é única e dada por x = (ATA)−1ATb. A matriz (ATA)−1AT é conhecida como a pseudoinversa de A.

(47)

Fatoração Cholesky

As definições e exemplos discutidos aqui podem ser encontrados em [9].

Antes de definir a fatoração Cholesky, será vista a fatoração LU para melhor entendi-mento.

Fatoração LU

Definição 8. Se A é uma matriz quadrada que pode ser fatorada na forma A = LU, onde L é triangular inferior e U triangular superior, então dizemos que A= LU é uma fatoração LU de A. Pode-se chamar a fatoração LU de decomposição LU de A ou de decomposição triangu-lar de A, onde as letras L e U são abreviações das palavras inglesas “lower” (inferior) e “upper” (superior).

A definição da decomposição LU acima, considera A como uma matriz quadrada. Mas, também existe essa decomposição para matrizes retangulares pertencentes a Rm×n. Detalhes e passo a passo sobre a fatoração LU de uma matriz retangular podem ser encontrados em [9].

São exemplos de fatoração LU as decomposições abaixo: A=        1 2 3 8       =        1 0 3 1       .        1 2 0 2       = L1U1 B=              3 −1 2 4 3 7 −2 1 5              =              3 0 0 4 133 0 −2 13 6              .              1 −13 23 0 1 1 0 0 1              = L2U2 C=              2 6 4 4 4 −1 −2 2 5              =              1 0 0 2 1 0 −1 −1 1              .              2 6 4 0 −8 −9 0 0 0              = L3U3

Observação 2. Uma matriz quadrada só admitirá a decomposição LU se no seu escalonamento não for necessária a troca de linhas. Para mais detalhes e passo a passo da decomposição, veja [9]. Outras referências para tal decomposição podem ser encontradas em: [5], [4] e [13].

Depois de observar como é feita a decomposição LU, será discutida a decomposição de interesse, que é a fatoração de Cholesky.

Definição 9. Chama-se fatoração de Cholesky de uma matriz quadrada A à fatoração A = LLT , onde L é uma matriz triangular inferior com elementos positivos na diagonal principal.

Claramente, pode-se notar que a diferença entre a fatoração LU e fatoração Cholesky está na matriz U. Basta considerar U = LT para obter a decomposição desejada e com menos

(48)

26 Capítulo 4. Métodos de Fatoração Matricial

custo computacional. O que é óbvio, porque bastou encontrar apenas a matriz L e sua transposta. Ou seja, o cálculo da matriz U, neste caso, se reduz ao cálculo de LT.

Veja a seguir dois exemplos de fatoração de Cholesky:

A=              2 −1 0 −1 2 −1 0 −1 2              =                  √ 2 0 0 −√1 2 q 3 2 0 0 − q 2 3 2 √ 3                  .                 √ 2 −√1 2 0 0 q 3 2 − q 2 3 0 0 √2 3                 = L1LT1 B=                     4 −2 4 10 −2 10 1 −2 4 1 6 13 10 −2 13 31                     =                     2 0 0 0 −1 3 0 0 2 1 1 0 5 1 2 1                     .                     2 −1 2 5 0 3 1 1 0 0 1 2 0 0 0 1                     = L2LT2

Observação 3. Observe que as matrizes A e B acima, são matrizes simétricas. E possuir essa propriedade é uma das condições necessárias para aplicar a fatoração de Cholesky.

Teorema 10. Uma matriz simétrica A é definida positiva se, e somente se, pode ser fatorada como LLT, onde L é uma matriz triangular inferior com elementos positivos na diagonal.

Para obter mais detalhes e passo a passo sobre a fatoração de Cholesky, a referência indicada é [9].

Para resolver o problema de mínimos quadrados utilizando o método de equações normais, será aplicada a fatoração Cholesky em ATA.

Dessa forma, AT A= LLT tal que ATA=                                    a11 a12 · · · a1n a21 a22 · · · a2n ... ... ... ... ak1 ak2 · · · akn ... ... ... ... an1 an2 · · · ann                                    é uma matriz simétrica e positiva e

LLT =                                    l11 0 0 0 · · · 0 l21 l22 0 0 · · · 0 ... ... ... 0 ... 0 lk1 lk2 · · · lkk · · · 0 ... ... ... ... ... 0 ln1 ln2 · · · lnk · · · lnn                                    .                                    l11 l21 · · · lk1 · · · ln1 0 l22 · · · lk2 · · · ln2 0 ... ... ... ... ... 0 0 · · · lkk · · · lnk 0 ... ... ... ... ... 0 0 · · · 0 · · · lnn                                   

Depois da decomposição de Cholesky, basta resolver os seguintes sistemas, com os métodos de soluções para sistemas triangular inferior e triangular superior:

(49)

1. Lz= AT

be, em seguida 2. LT

xT = z, onde z é um vetor que se obtém resolvendo o primeiro sistema. Assim, têm-se os valores de x.

A seguir, serão discutidas a decomposição SVD e a fatoração QR.

4.2

Decomposição em Valores Singulares (SVD)

Podemos encontrar mais detalhes sobre SVD em [4], [2], [6], [3], [7] e [23].

Nesta seção será apresentada uma decomposição geral para matrizes m × n, que será chamada de decomposição em valores singulares (SVD). Essa decomposição lida com as linhas e colunas de uma forma simétrica e, portanto fornece mais informações sobre a matriz.

O SVD de uma matriz A ∈ Rm×n é uma fatoração matricial de grande importância teórica e prática para tratar o problema de mínimos quadrados, tendo aplicações em muitas áreas diferentes, onde sua fatoração é um passo em muitos algoritmos.

Observe que o SVD se aplica a matrizes pertencentes ao conjunto dos números reais e ao conjunto dos números complexos. No entanto, será tratado apenas os casos em que as matrizes são pertencentes ao conjunto dos números reais.

Ideia Geométrica

Mais detalhes sobre o método podem ser encontrados em [1].

A ideia do método baseia-se no fato geométrico de que a imagem da esfera unitária sob qualquer matriz m × n é uma hiperelipse.

Sejam S a esfera Euclidiana usual em Rn, isto é, a esfera unitária na norma-2 e AS a

imagem de S sob o mapeamento de A: uma hiperelipse.

Considere o termo “hiperelipse” como sendo uma generalização m-dimensional de uma elipse. Pode-se definir uma hiperelipse em Rm como a superfície obtida quando se “estica” a

esfera unitária em Rm por alguns fatores σ

1, . . . , σm(podendo ser zero) em algumas direções

ortogonais u1, . . . , um∈ Rm.

Considere os vetores ui unitários, ou seja, ||ui||2 = 1. Os vetores {σiui} são os

semi-eixos principais da hiperelipse, com comprimentos σ1, . . . , σm. Se A tem posto r, então teremos

exatamente r dos comprimentos de σidiferentes de zero, e, em particular, se m ≥ n, no máximo

ndeles serão diferentes de zero.

Suponha, por enquanto, que A ∈ Rm×n(m ≥ n) possui posto completo n. Então a imagem AS é uma hiperelipse em Rm.

(50)

28 Capítulo 4. Métodos de Fatoração Matricial

Primeiro, serão definidos os n valores singulares de A. Denotados como σ1, σ2, . . . , σn,

estes são os comprimentos dos n semi-eixos principais de AS . É convencional assumir que os valores singulares são numerados em ordem decrescente, σ1 ≥σ2 ≥ · · · ≥σn> 0.

Em seguida, definem-se os n vetores singulares a esquerda de A. São vetores unitários denotados por {u1, u2, . . . , un} e numerados para corresponder com os valores singulares. Estes

são orientados nas direções dos semi-eixos principais de AS .

Finalmente, definem-se os n vetores singulares a direita de A. Também são vetores unitários {v1, v2, . . . , vn} ∈ S que são as pré-imagens dos semi-eixos principais de AS . São

numerados de modo que Avj = σjuj.

Figura 5 – Interpretação Geométrica do SVD aplicada em uma esfera de raio igual a 1.

A imagem da esfera unitária em Rn sob um mapeamento A = UΣVT deve ser uma

hiperelipse em Rm.

Na Figura5, observe que o mapeamento VT preserva a esfera. Apenas faz uma rotação.

Em seguida, a matriz diagonalΣ “estica” a esfera transformando-a em uma hiperelipse alinhada com a base canônica, ondeΣ = diag(2; 1/2) =

       2 0 0 12      

; e, por fim, o mapeamento U rotaciona ou reflete a hiperelipse.

Definição Formal

Seja A ∈ Rm×numa matriz arbitrária. Uma decomposição em valores singulares de A é

uma fatoração tal que A= UΣVT, onde:

U ∈ Rm×mé ortogonal,

(51)

Σ ∈ Rm×né diagonal.

Note que U e V são matrizes ortogonais quadradas e Σ possui a mesma forma de A mesmo quando A não é quadrada. As entradas diagonais da matriz Σ são os valores singulares defi-nidos anteriormente. Ou seja, Σ = diag(σ1, σ2, . . . , σn). As colunas de U são compostas por

u1, u2, . . . , une as colunas de V são compostas por v1, v2, . . . , vn, ambos definidos anteriormente.

A seguir mostra-se que toda matriz possui uma fatoração SVD. Portanto, mostra-se que a imagem de uma esfera unitária sob qualquer mapa linear é uma hiperelipse.

Teorema 11 (Existência e Unicidade do SVD). Toda matriz A ∈ Rm×npossui uma decomposição em valores singulares. Além disso, os valores singulares {σj} são unicamente determinados, e,

se A é quadrada e osσj são distintos então os vetores singulares a esquerda e a direita {uj} e

{vj} são unicamente determinados.

Antes da demonstração, veja uma reapresentação geométrica desse teorema. Dada uma matriz A, qualquer, de dimensão m × n, ela pode ser vista como um mapeamento de um vetor x ∈ Rnpara um vetor y= Ax ∈ Rm. Desse modo, pode-se escolher um sistema de coordenadas

ortogonal para Rn(onde os eixos unitários são as colunas de V) e outro sistema de coordenadas

ortogonal para Rm(onde os eixos unitários são as colunas de U) tal que A é uma matriz diagonal

(Σ), isto é, mapeia um vetor x =

n P i=1 βivi ∈ Rnpara um vetor y= Ax = n P i=1 σiβiui ∈ Rm. Em outras

palavras, qualquer matriz é diagonal desde que se escolha o sistema de coordenadas ortogonal apropriado para seu domínio e imagem.

Para demonstrar esse teorema, será feita indução sobre m e, em seguida, indução sobre n.

Demonstração. Assuma que a decomposição em valores singulares existe para matrizes A(m−1)×(n−1).

Será provado que essa decomposição existe para matrizes de dimensão m × n. Suponha que A , 0, pois se A fosse igual a 0, poderia-se tomar Σ = 0 e U e V poderiam ser matrizes ortogonais quaisquer.

O passo básico ocorre quando n= 1 (desde que m > n). Assim, Am×1 = Um×1Σ1×1V1×1,

com U = ||A||A

2, Σ = ||A||2, e V = 1.

Para a indução sobre n, suponha que vale para n−1. E, assim, será provado que vale para n. Tome v tal que ||v||2 = 1 e ||A||2 = ||Av||2 > 0. Tal v existe pela definição de ||A||2 = max||v||2=1||Av||2.

Seja u = ||Av||Av

2, tal que u é um vetor unitário. Escolha ˘U e ˘Vde modo que U =

h

um×1 U˘m×(n−1)

i

é uma matriz ortogonal e possui dimensão m × n, e V =h vn×1 V˘n×(n−1)

i

(52)

30 Capítulo 4. Métodos de Fatoração Matricial

ortogonal e possui dimensão n × n. Escreva

UTAV =        uT1×m ˘ UT(n−1)×m        n×m · Am×n· h vn×1 V˘n×(n−1) i n×n =        uT 1×m ˘ UT (n−1)×m        n×m ·h (Av)m×1 (A ˘V)m×(n−1) i =        (uTAv)1×1 (uTA ˘V)1×(n−1) ( ˘UTAv)(n−1)×1 ( ˘UTA ˘V)(n−1)×(n−1)        n×n =        σ1×1 01×(n−1) 0(n−1)×1 ( ˘UTA ˘V)(n−1)×(n−1)       =        σ 0 0 A˘       .

As igualdades seguem, pois:

uTAv = (Av) T (Av) ||Av||2 = ||Av||22 ||Av||2 = ||Av||2 = ||A||2 ≡σ; ˘ UTAv = ˘UTu||A||2 = 0; uTA ˘V = 0.

Note que o último item também é zero, porque caso contrário σ= ||A||2 = ||UTAV||2 ≥

||[1, 0, . . . , 0]UT

AV||2 = ||[σ|uTA ˘V]||2 > σ, que é uma contradição. Agora pode-se aplicar a

hipótese de indução em ˘Apara conseguir ˘A = U1Σ1V1T, onde U1, Σ1 e V1possuem dimensões

(m − 1) × (n − 1), (n − 1) × (n − 1) e (n − 1) × (n − 1), respectivamente. Logo, UTAV =        σ 0 0 A.˘       =        σ 0 0 U1Σ1V1T.       =        1 0 0 U1.       .        σ 0 0 Σ1.       .        1 0 0 V1.        T ou seja, A=       U        1 0 0 U1.              .        σ 0 0 Σ1.       .               1 0 0 V1.               T , que é a decomposição que se queria encontrar.



SVD Reduzido

Foi visto que as equações referentes aos vetores singulares à esquerda e aos vetores singulares à direita podem ser escritas como:

(53)

Pode-se expressar esse conjunto de equações vetoriais como uma equação matricial, isto é: AV =UbbΣ. Ou então, mais precisamente, tem-se

                          A                                               v1 v2 . . . vn                     =                           u1 u2 . . . un                                                σ1 σ2 ... σn                     

onde bΣ é uma matriz diagonal n × n com entradas reais positivas (Lembre-se de que assumimos que A possui posto completo n); bU é uma matriz m × n com colunas ortonormais; V é uma matriz n × n com colunas ortonormais.

Assim, V é ortogonal e, portanto, pode-se multiplicar por sua transposta para obter:

A= UbbΣVT. (4.3)

Esta fatoração é chamada de decomposição em valores singulares reduzido ou SVD reduzido, de A. Essa decomposição está representada esquematicamente na Figura6.

Figura 6 – SVD Reduzido

SVD Completo

Na maioria das aplicações, o SVD é usado exatamente da forma descrita acima. No entanto, esta não é a maneira mais comum de se formular um SVD. Com isso, serão introduzidos os termos “reduzido” (com os chapéus nas matriz U e Σ) e “completo” com o objetivo de diferenciar a fatoração (4.3), que vista anteriormente, da fatoração (4.4), que será vista a seguir.

Veja a ideia do SVD completo: As colunas de bU são n vetores ortonormais no espaço m-dimensional Rm. Mas, se m = n, eles não formam uma base de Rm, e nemUbé uma matriz ortogonal. No entanto, adicionando m − n colunas ortonormais, bUpode ser estendida para uma matriz ortogonal. Isso será feito de modo arbitrário e o resultado obtido será denotado de U (sem chapéu).

(54)

32 Capítulo 4. Métodos de Fatoração Matricial

Para substituir bUpor U em (4.3), bΣ precisa mudar também. Para que o produto permaneça inalterado, as últimas m − n colunas de U devem ser multiplicadas por zero. Logo, a matrizΣ de dimensão m × n será obtida tomando-se a matriz bΣ na parte na superior (bloco n × n) junto com m − nlinhas de zeros abaixo. Assim, obtém-se uma nova fatoração, chamada de SVD completo de A:

A= UΣVT. (4.4)

onde U e V são matrizes ortogonais e possuem dimensão m×m e m×n, respectivamente. E Σ é uma matriz diagonal com entradas reais positivas e possui dimensão m×n. Essa decomposição também está representada esquematicamente na Figura7.

Figura 7 – SVD Completo

As linhas tracejadas indicam as colunas “silenciosas” de U e as linhas de Σ que são descartadas na passagem de (4.4) para (4.3).

Uma vez descrito o SVD completo, pode-se descartar a suposição de que A tem posto completo. Se A não possui posto completo, a fatoração (4.4) continua sendo apropriada, pois o que vai mudar é a quantidade de vetores singulares a esquerda de A. Em vezes de n vetores, haverá apenas r. Para isso, basta construir uma matriz ortogonal U acrescentando m − r colunas ortonormais arbitrárias em vez de m − n. Como consequência, a matriz V também vai precisar de n − rcolunas ortonormais arbitrárias para estender as r colunas determinadas pela geometria. A matrizΣ precisa ter r entradas diagonais positivas, com as restantes n − r iguais a zero.

Note que, da mesma forma, pode-se usar o SVD reduzido para matrizes que não possuem posto completo. Basta tomar bUcom dimensão m × n, bΣ com n × n e alguns zeros na diagonal, ou comprimir ainda mais a representação de modo que bU tenha dimensão m × r e bΣ de dimensão r × rcom entradas estritamente positivas na diagonal.

Mudança de Base

O método SVD permite dizer que toda matriz é diagonal, desde que se faça uma escolha adequada para as bases dos espaços domínio e imagem. Veja como funciona esta escolha.

(55)

Seja b ∈ Rm arbitrário. Pode-se expandir b na base de vetores singulares à esquerda

de A, que são as colunas da matriz U. Do mesmo modo, também pode-se expandir x ∈ Rmna

base de vetores singulares à direita de A (colunas de V). As coordenadas dos vetores para essas expansões são:

b0= UTb, x0 = VTx

A relação b = Ax pode ser expressa em termos de b0 e x0. Para isso, basta utilizar a equação (4.4) e as expansões acima. Logo,

b= Ax ⇔ b0 = UTb= UTAx= UTUΣVTx= ΣVTx= Σx0. Desa forma, b0 = Σx0.

Assim, conclui-se que A se reduz à matriz diagonalΣ quando se expressa a imagem nas bases das colunas de U e o domínio nas colunas de V. E, portanto, o SVD permite afirmar que toda matriz é diagonal quando se usam as bases apropriadas para o domínio e para imagem.

SVD e Decomposição em Autovalores

Os conceitos a seguir podem ser encontrados em [1]. Para estudos complementares veja [3].

Existem três principais diferenças entre o SVD e a decomposição em autovalores. A primeira é que o SVD usa bases diferentes: os vetores singulares à esquerda e os vetores singulares à direita. Enquanto que a decomposição em autovalores usa somente uma: a base dos autovetores.

A segunda diferença, ainda sobre as bases, é que o SVD utiliza bases ortonormais. Já a decomposição em autovalores geralmente usa uma base que não é ortogonal.

Por fim, a terceira diferença decorre do Teorema11sobre existência e unicidade do SVD. Todas a matrizes, até mesmo as matrizes retangulares, possuem uma decomposição em valores singulares. Mas, nem todas as matrizes possuem uma decomposição em autovalores, incluindo as matrizes quadradas.

Além disso, em aplicações, autovalores tendem a ser relevantes para problemas en-volvendo o comportamento de formas iteradas de A, tais como potências de matrizes Ak ou exponenciais etA, enquanto que vetores singulares tendem a ser relevantes para problemas envolvendo o comportamento de A em si, ou de sua inversa.

A diagonalização de uma matriz expressando-a em termos de uma nova base também pode ser feita com estudo de autovalores. Seja A uma matriz quadrada diagonalizável então A pode ser expressa como uma matriz diagonal de autovaloresΛ, com a condição de que a imagem e o domínio estão representados em uma base de autovetores.

Referências

Documentos relacionados

Concluída a unidade curricular, espera-se que o estudante saiba: Discutir e resolver sistemas de equações lineares e utilizar o conceito de matriz na resolução de problemas de gestão

Concluída a unidade curricular, espera-se que o estudante saiba: Discutir e resolver sistemas de equações lineares e utilizar o conceito de matriz na resolução de problemas de gestão

Apresentar um exemplo real de sistema de produção de suínos que não utiliza antimicrobianos nas dietas.. Como escolher ingredientes funcionais para a saúde intestinal

Métodos para o cálculo de raízes de equações; Métodos diretos para resolução de sistemas lineares; Modelagem de processos e projetos de software; Padrões da Web;

 Aplicar corretamente os métodos de resolução de equações do 1º grau para resolver problemas que às envolvem..

Nesse trabalho foram realizados ensaios para tratar solo contaminado artificialmente com fenantreno por oxidação química in situ utilizando diatomita modificada por ferro

2.4 SISTEMA DE FREQUÊNCIA MODULADA E INTELIGIBILIDADE DE FALA Indivíduos deficientes auditivos frequentemente utilizam a prótese auditiva para amplificação sonora, porém o

A solução de sistemas lineares é uma ferramenta matemática muito importante na engenharia. Normalmente os problemas não-lineares são solucionados por ferramentas