• Nenhum resultado encontrado

Tópicos de Álgebra Linear

N/A
N/A
Protected

Academic year: 2021

Share "Tópicos de Álgebra Linear"

Copied!
41
0
0

Texto

(1)

Paulo Lopes dos Santos

Departamento de Engenharia Electrot´ecnica e Computadores

Faculdade de Engenharia da Universidade do Porto

Rua Dr Roberto Frias, s/n

4200-464 Porto, Portugal

Email: [email protected]

(2)

Conte´

udo

1 Vectores Linearmente Independentes 2

2 Subespa¸cos e Bases 4

3 Subespa¸cos Associados a Matrizes e Decomposi¸c˜ao QR 6

4 Decomposi¸c˜ao em Valores Singulares 11

5 Norma Quadr´atica de Matrizes 16

6 Aproxima¸c˜ao de uma Matriz por Outra de Caracter´ıstica Inferior 22

7 Projec¸c˜oes Ortogonais de Subespa¸cos 25

8 Projec¸c˜oes Obl´ıquas de Subespa¸cos 32

9 Projec¸c˜oes nos Subespa¸cos gerados pelas linhas duma matriz 33

10 Produto de Kronecker e Vectoriza¸c˜ao de Matrizes 34

(3)

1

Vectores Linearmente Independentes

Sejam v1, v2, . . . , vnvectores em IRn. Diz-se que estes vectores s˜ao linearmente independentes

se, para um conjunto de escalares αi ∈ IR, i = 1, . . . , n n

X

i=1

αivi = 0n ⇒ α1 = α2 = · · · = αn= 0,

em que 0n ´e o vector de IRn com todas as entradas nulas. Se v1 =

· v11 v12 ¸ ∈ IR2 e v 2 = · v21 v22 ¸

∈ IR2, ent˜ao, qualquer ponto z =

·

z1

z2

¸

, pertencente ao subespa¸co S ⊆ IR2 gerado

por v1 e v2, pode ser expresso atrav´es da combina¸c˜ao linear

α1v1+ α2v2 = z ⇔ · v11 v12 ¸ α1+ · v21 v22 ¸ α2 = · z1 z2 ¸ · v11 v21 v12 v22 ¸ · α1 α2 ¸ = · z1 z2 ¸ . Se a matriz V = · v11 v21 v12 v22 ¸

for n˜ao singular e se z = 02, ent˜ao

· α1 α2 ¸ = · v11 v21 v12 v22 ¸−1· z1 z2 ¸ = · 0 0 ¸

e, consequentemente, s´o para α1 = α2 = 0 ´e que v1 e v2 se anulam. Conclu´ımos, assim,

que v1 e v2 s˜ao independentes se e s´o se (sse) V for uma matriz n˜ao singular, ou seja, sse

det V 6= 0. Como det V = v11v22− v21v12 ent˜ao det V = 0 ⇔ v11v22− v21v12 = 0 ⇔ v21 v11 = v22 v12 = k ⇒ ½ v21 = kv11 v22 = kv12 ⇔ v2 = kv1

significando isto que v1 e v2 s˜ao independentes sse n˜ao forem colineares.

v1

v2

u1

u2

Figura 1: v1 e v2 s˜ao linearmente independentes e u1 e u2 s˜ao linearmente dependentes

Em IR2 o m´aximo que conseguimos ´e um conjunto de dois vectores linearmente inde-pendentes. Qualquer conjunto com mais de dois vectores n˜ao ´e de vectores linearmente independentes.

(4)

Exemplo 1 :

Seja {v1, v2, v3} um conjunto de vectores n˜ao nulos em IR2. Acabamos de ver que se os

vec-tores v1 = · v11 v12 ¸ e v2 = · v21 v22 ¸

forem linearmente independentes ent˜ao det

½· v11 v21 v12 v22 ¸¾ 6= 0 Nestas condi¸c˜oes, · α1 α2 ¸ = · v11 v21 v12 v22 ¸−1· v31 v32 ¸ 6= 02

´e a solu¸c˜ao da equa¸c˜ao α1v1+ α2v2 = v3 · v11 v21 v12 v22 ¸ · α1 α2 ¸ = · v31 v32 ¸ e, consequentemente, α1v1+ α2v2− v3 = 02

significando isto que {v1, v2, v3} nunca pode ser um conjunto de vectores independentes.

x1 x2 α2v2 α1v1 v 3 v1 v2 v31 v11 v21 α2v21 v12 v22 v32 α2v22 α1v11 α1v12

Figura 2: v1,v2 e v3 s˜ao vectores no mesmo plano e, por isso, s˜ao linearmente dependentes

Pode-se provar de forma idˆentica que, no espa¸co IRn nunca se conseguem mais do que n

(5)

2

Subespa¸cos e Bases

Seja S um subconjunto do espa¸co vectorial E, isto ´e, S ⊆ E. Se, para quaisquer elementos v1

e v2 pertencentes a S e quaisquer escalares α1 e α2 a combina¸c˜ao linear α1v1+ α2v2 pertencer

a S, ent˜ao S ´e um subespa¸co de E. Deste modo, todas as combina¸c˜oes lineares dos vectores

{v1, v2, . . . , vm} com vi ∈ IRn formam um subespa¸co de IRn. Esse subespa¸co ´e designado

como S = span {v1, v2, . . . , vm} = ( x : x = m X i=1 αivi, ∀αi∈IR ) .

Dizemos, ent˜ao, que qualquer conjunto de vectores {v1, v2, . . . , vm} gera um subespa¸co.

Exemplo 2 :

Todas as combina¸c˜oes lineares do vector v1 s˜ao vectores colineares com v1. Isto significa

que o subespa¸co gerado pelo vector v1 (span {v1}) ´e a recta que o cont´em.

x2

x1

span{v1}

v1

Figura 3: O subespa¸co gerado por v1 ´e a recta span{v1}

Exemplo 3 :

O subespa¸co definido pelo conjunto de vectores {v1, v2} ´e o plano que cont´em v1 e v2

(span{v1, v2}) se estes vectores forem linearmente independentes. Se forem dependentes ´e a

recta que os cont´em.

A dimens˜ao dum subespa¸co ´e o n´umero de vectores linearmente independentes que s˜ao necess´arios para o gerar. Assim, qualquer recta que passe pela origem ´e um subespa¸co de

(6)

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

00000000000000000000

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

11111111111111111111

x1 x2 x3 span {v1, v 2} v2 v1

Figura 4: O subespa¸co gerado por v1 e v2 ´e o plano span{v1, v2}

dimens˜ao um, pois, pode ser gerada por um ´unico vector. Qualquer plano que contenha a origem ´e um subespa¸co de dimens˜ao dois (pode ser gerado por dois vectores linearmente independentes).

Seja S um subespa¸co de IRn com dimens˜ao p. Qualquer conjunto de vectores

indepen-dentes {v1, v2, . . . , vp} pertencentes a S ´e uma base de S. Deste modo, qualquer elemento x ∈ S pode ser representado pela combina¸c˜ao linear

x = β1v1 + β2v2+ · · · + βpvp

em que β1, β2, . . . , βps˜ao as componentes (coordenadas) de x relativamente `a base {v1, v2, . . . , vp}.

Notemos que qualquer subespa¸co S tem um n´umero infinito de bases. No entanto, o n´umero de elementos de cada base ´e sempre igual `a dimens˜ao de S.

Sejam x, y ∈ IRn. Se xTy = yTx = 0 dizemos que x e y s˜ao ortogonais o que representamos

(7)

y⊥S. O conjunto de todos os vectores perpendiculares a S ´e o complemento ortogonal de S

e ´e representado por S. Formalmente, podemos definir S por

S=©y ∈ IRn: yTx = 0, ∀x ∈ Sª.

Pode-se provar que S ´e um subespa¸co de IRn mesmo que S o n˜ao seja.

Sejam S e V subespa¸cos de IRn. A soma de S e V, designada por S ∨ V, ´e o subespa¸co

gerado por todos os elementos de S e V. A sua defini¸c˜ao formal ´e S ∨ V = {x + y : x ∈ S ∧ y ∈ V} .

´

E importante assinalar que este subespa¸co n˜ao ´e a uni˜ao de S e V (S∪V n˜ao ´e um subespa¸co). Se S ∩ V = {0}, designamos S ∨ V por soma directa. Se, para quaisquer vectores x ∈ S,

y ∈ V, yTx = 0, dizemos que S ´e ortogonal a V o que representamos por S⊥V. Neste caso,

S ∨ V ´e a soma ortogonal directa e ´e representada por S ⊕ V.

Para qualquer subespa¸co S ∈ IRn existe uma ´unica decomposi¸c˜ao IRn = S ⊕ S. Isto

significa que para todo z ∈ IRn existe uma ´unica decomposi¸c˜ao z = x + y em que x ∈ S e y ∈ S⊥.

3

Subespa¸cos Associados a Matrizes e Decomposi¸c˜

ao

QR

Dado um conjunto de vectores em IRn como ´e que podemos verificar se s˜ao linearmente

independentes? A forma mais simples ´e formar uma matriz cujas colunas (ou linhas) s˜ao as coordenadas desses vectores e calcular a sua caracter´ıstica (recordemos que a caracter´ıstica duma matriz ´e o seu n´umero de linhas ou colunas linearmente independentes).

Exemplo 4 : Sejam v1 =       1 2 3 4 5       e v2 =       3 6 9 12 15       dois vectores em IR 5. Se formarmos a matriz M = £ v1 v2 ¤ =       1 3 2 6 3 9 4 12 5 15      

(8)

podemos ver que car(M) = 1 e concluir que v1 e v2 s˜ao linearmente dependentes (´e f´acil ver

que v2 = 3v1 e que, consequentemente, estes dois vectores s˜ao colineares).

Como car(MT) = car(M) chegar´ıamos ao mesmo resultado atrav´es do c´alculo da carac-ter´ıstica de MT = · vT 1 vT 2 ¸ = · 1 2 3 4 5 3 6 9 12 15 ¸ .

Uma forma interessante de vermos uma matriz A ∈ IRn×m, ´e encarar as suas colunas (ou as

suas linhas) como um conjunto de vectores que geram um subespa¸co em IRn(ou IRm no caso

das linhas). Deste modo, podemos associar a A dois subespa¸cos:

1 - Subespa¸co gerado pelas suas colunas (column-space) que designaremos por im(A) (im-agem de A);

2 - Subespa¸co gerado pelas suas linhas (row-space) que designaremos por im(AT) (imagem

de AT);

Consideremos agora um vector x ∈ IRm. Se multiplicarmos A por x vamos obter um vector

em IRn, isto ´e, v = Ax ∈ IRn

Podemos, ent˜ao, afirmar que a matriz A define uma transforma¸c˜ao do espa¸co IRm para IRn (IRm → IRn). Sendo A = £ a1 a2 · · · am ¤ em que ai ∈ IRn, i = 1, . . . , m e x =      x1 x2 ... xm      ent˜ao v = Ax = £ a1 a2 · · · am ¤      x1 x2 ... xm     = a1x1+ a2x2+ · · · + amxm,

(9)

ou seja, v = Ax ´e uma combina¸c˜ao linear das colunas de A, cujos coeficientes s˜ao os elementos

x1, x2, . . . , xm de x. Deste modo, v pertence sempre ao subespa¸co gerado pelas colunas de A,

isto ´e, im(A). Se as colunas de A forem linearmente independentes, ent˜ao constituem uma base para im(A). Nestas condi¸c˜oes, diz-se que A ´e uma matriz de caracter´ıstica completa (car(A) = m = n´umero de colunas). Identicamente, AT define uma transforma¸c˜ao IRn

IRm, sendo a imagem dessa transforma¸c˜ao (im(AT)) o subespa¸co gerado pelas linhas de A.

Se as linhas de A constitu´ırem uma base de im(AT), ent˜ao AT e, consequentemente A, s˜ao

matrizes de caracter´ıstica completa. Assim, A ∈ IRn×m ´e uma matriz de caracter´ıstica

completa se e s´o se

car(A) = n ou car(A) = m ⇔ car(A) = min(n, m)

Notemos que, sendo v = Ax uma combina¸c˜ao linear das colunas de A, podemos exprimir

v atrav´es duma outra combina¸c˜ao linear de outro conjunto de vectores que gere a imagem

de A. Isto significa que podemos escrever

v = Ax = ¯A¯x

em que im( ¯A) = im(A) e ¯x s˜ao os coeficientes da referida combina¸c˜ao linear das colunas

de ¯A. Aqui a ´unica restri¸c˜ao ´e car( ¯A) = car(A) e, consequentemente, o n´umero de colunas

de ¯A, igual ao n´umero de linhas de ¯x, n˜ao tem que ser igual ao n´umero de colunas de A.

Frequentemente procuramos que as colunas de ¯A sejam uma base que, termos num´ericos,

seja o mais robusta poss´ıvel. A robustez m´axima ´e alcan¸cada quando as colunas de ¯A

constituem uma base ortonormal, isto ´e, quando s˜ao um conjunto de vectores com m´odulo unit´ario e perpendiculares entre si. Matrizes cujas colunas formam uma base ortonormal s˜ao chamadas matrizes ortonormais e s˜ao frequentemente designadas pela letra Q. Notemos que se Q ∈ IRn×m for uma matriz ortonormal ent˜ao

QTQ = Im

Se Q for uma matriz quadrada (m = n) ent˜ao

QTQ = Im = In⇔ Q−1 = QT.

´

E esta propriedade que faz com que estas matrizes sejam numericamente muito robustas e que frequentemente se procure representar im(A) atrav´es destas matrizes. Uma das formas

(10)

mais utilizadas na ´algebra linear para atingir este objectivo ´e a decomposi¸c˜ao QR, onde uma matriz A ∈ IRn×m com n ≥ m e car(A) = r, ´e decomposta no produto de matrizes

A = Q · R 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ = QRR em que Q = £ QR Q¯R ¤ ∈ IRn×n com Q

R ∈ IRn×r e ¯QR ∈ IRn×(n−r). Q ´e uma matriz

ortonormal (QTQ = I

n) e, consequentemente, QR e ¯QR tamb´em o s˜ao (QTRQR = Ir e

¯

QT

RQ¯R = In−r), sendo im( ¯QR) o complemento ortogonal de im(QR) o que representamos por

¯

QR= Q⊥R. R ∈ IRr×r ´e uma matriz triangular superior.

Exemplo 5 : Transforma¸c˜ao QR na resolu¸c˜ao do sistema de equa¸c˜oes Ax = y

Consideremos o sistema de equa¸c˜oes Ax = y

em que A ∈ IRn×n, x, y ∈ IRn e car(A) = n. Fazendo uma decomposi¸c˜ao QR teremos QRx = y ⇔ Rx = QTy

ficando este sistema de equa¸c˜oes reduzido a

     r11 r12 · · · r1n 0 r22 · · · r2n ... ... ... ... 0 0 · · · rnn           x1 x2 ... xn     =      ¯ y1 ¯ y2 ... ¯ yn      em que ¯ y =      ¯ y1 ¯ y2 ... ¯ yn     = Q Ty.

Como R ´e uma matriz triangular superior, as solu¸c˜oes xn, xn−1, . . . , x1 podem ser calculadas

recursivamente por substitui¸c˜ao `a retaguarda (back substitution), come¸cando por xn = ry¯nnn . Com este processo, substitu´ımos a invers˜ao de A pela transposi¸c˜ao de Q e pela invers˜ao da matriz triangular superior R, que s˜ao opera¸c˜oes numericamente mais robustas.

Exemplo 6 : Resolu¸c˜ao do problema de m´ınimos quadrados

O problema de m´ınimos quadrados consiste no c´alculo de vector θ ∈ IRm que minimiza kY − Xθk2 = (Y − Xθ)T(Y − Xθ)

(11)

com Y ∈ IRn, X ∈ IRn×m, n ≥ m e car(X) = m. Efectuando a seguinte decomposi¸c˜ao QR de X X = Q   R− − −− 0(n−m)×m   Q ∈ IRn×n, R ∈ IRm×m

e, uma vez que Q ´e uma matriz ortonormal quadrada e que consequentemente QQT = In, teremos kY − Xθk2 = (Y − Xθ)T(Y − Xθ) = (Y − Xθ)TQQT(Y − Xθ) = £ QT(Y − Xθ)¤T £QT(Y − Xθ)¤ =°°QTY − QTXθ)°°2 = ° ° ° ° · ¯ Y1 ¯ Y2 ¸ − QTQ · R 0(n−m)×m ¸ θ ° ° ° ° 2 = ° ° ° ° · ¯ Y1 ¯ Y2 ¸ · R 0(n−m)×m ¸ θ ° ° ° ° 2 = ° ° ° ° · ¯ Y1− Rθ ¯ Y2 ¸°° ° ° 2 = h ( ¯Y1 − Rθ)T Y¯2T i · ¯Y1− Rθ ¯ Y2 ¸ = = ( ¯Y1− Rθ)T( ¯Y1− Rθ) + ¯Y2TY¯2 = ° ° ¯Y1 − Rθ°° 2+ ° ° ¯Y2°° 2 em que · ¯ Y1 ¯ Y2 ¸ = QTY, Y¯ 1 ∈ IRm, Y¯2 ∈ IRn−m.

A solu¸c˜ao do problema de m´ınimos quadrados ser´a, ent˜ao, a solu¸c˜ao do sistema de equa¸c˜oes Rˆθ = ¯Y1

idˆentico ao do exemplo anterior. Como, para θ = ˆθ, ¯Y1− Rθ = 0m, ent˜ao min kY − Xθk2 =

kY2k2.

Existem v´arias formas de obter uma decomposi¸c˜ao QR sendo, talvez, as transforma¸c˜oes de Householder e a ortogonaliza¸c˜ao de Gram-Schimdt, os m´etodos mais utilizados.

Al´em de im(A), tamb´em se define o subespa¸co N´ucleo de A (kernel ou null space em inglˆes) designado por ker(A) e que ´e definido por

ker(A) = {x : Ax = 0n} ,

ou seja, o subespa¸co de IRm que ´e transformado na origem (de IRn) pela matriz A ∈ IRn×m. Como este subespa¸co ´e formado por todos os vectores perpendiculares `as linhas de A, pode-mos afirmar que ker(A)⊥im(AT), sendo, por isso, ker(A) ∩ im(AT) = 0

(12)

como a dimens˜ao do n´ucleo duma matriz ´e igual ao seu n´umero de colunas (m) menos a sua caracter´ıstica, ent˜ao, dim [ker(A)] + dim£im(AT)¤ = m e, consequentemente,

ker(A) ⊕ im(AT) = Rm ⇒ ker(A) = im(AT).

Identicamente, o n´ucleo de AT, designado por ker(AT), ´e o complemento ortogonal de im(A).

4

Decomposi¸c˜

ao em Valores Singulares

Na decomposi¸c˜ao QR ´e explicitada uma base ortonormal para a imagem duma matriz A. Nesta sec¸c˜ao iremos ver a decomposi¸c˜ao em valores singulares onde, al´em duma base ortonor-mal para este subespa¸co, tamb´em s˜ao explicitadas bases ortonormais para a imagem de AT

e para os n´ucleos de A e AT. Antes de introduzirmos esta decomposi¸c˜ao vamos recordar a

diagonaliza¸c˜ao de matrizes sim´etricas.

Lema 1

Se B ∈ IRn×n for uma matriz sim´etrica, isto ´e, se BT = B, ent˜ao pode ser decomposta na forma B = UBΛBUBT em que ΛB =      λ1 0 · · · 0 0 λ2 · · · 0 ... ... ... ... 0 0 · · · λn      (1) UBUBT = UBTUB = In (2) ou seja, ΛB ´e uma matriz diagonal e UB uma matriz ortonormal.

Demonstra¸c˜ao:

Como B ´e sim´etrica os seus valores pr´oprios s˜ao reais e ´e diagonaliz´avel. Para simplificar, vamos admitir todos os valores pr´oprios de B s˜ao distintos. Nestas condi¸c˜oes podemos escrever

(13)

em que ΛB est´a definida em (1) e T ´e uma matriz cujas colunas s˜ao os vectores pr´oprios de B. Definindo UB = T det(T ) ⇔ U −1 B = det(T )T−1 podemos escrever B = T ΛBT−1 = UBΛBUB−1. (3)

Como B = BT podemos concluir que

B = UBΛBUB−1 = UB−TΛBUBT ⇒ UB−1 = UBT ⇔ UBUBT = UBTUB= In.

Se B tiver valores pr´oprios repetidos as suas multiplicidades alg´ebrica e geom´etrica s˜ao iguais, continuando a express˜ao(3) a ser v´alida para estes casos.

2

Estamos agora em condi¸c˜oes de apresentar a decomposi¸c˜ao em valores singulares.

Teorema 1 : Decomposi¸c˜ao em valores singulares (svd)

Se A ∈ IRn×m tiver caracter´ıstica r ≤ min(n, m) ent˜ao existem duas matrizes ortonormais U ∈ IRn×n e V ∈ IRm×m tal que A = U · S+ 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ VT (4) S+ =      σ1 0 · · · 0 0 σ2 · · · 0 ... ... ... ... 0 0 · · · σr     ∈ IR r×r (5) com σ1 ≥ σ2 ≥ · · · ≥ σr> 0. Demonstra¸c˜ao:

Como a matriz ATA ∈ Rm×m ´e sim´etrica e, pelo menos, semidefinida positiva, pode ser

decomposta na forma ATA = V Λ AVT ΛA =      λ1 0 · · · 0 0 λ2 · · · 0 ... ... ... ... 0 0 · · · λm      λi ≥ 0, i = 1, . . . , m. V VT = VTV = I m

(14)

Sendo car(A) = r ≤ m, podemos definir λ1 ≥ λ2 ≥ · · · > λr > 0, λr+1 = λr+2 = · · · = λm =

0 e σi =

λi, i = 1, . . . , m. As colunas de V s˜ao vectores pr´oprios de ATA, isto ´e, V = £ v1 v2 · · · vm

¤

ATAv

i = λivi = σi2vi, i = 1, . . . , m.

Se Vr ∈ IRm×r for a matriz cujas colunas s˜ao os vectores pr´oprios associados aos valores

pr´oprios n˜ao nulos e ¯Vr ∈ IRm×(m−r) a matriz com as restantes colunas de V , ou seja, Vr = £ v1 v2 · · · vr ¤ (6) ¯ Vr = £ vr+1 vr+2 · · · vm ¤ , (7) ent˜ao ATAV r = ATA £ v1 v2 · · · vr ¤ =£ ATAv 1 ATAv2 · · · ATAvr ¤ (8) = £ σ2 1v1 σ22v2 · · · σ2rvr ¤ =      σ2 1 0 · · · 0 0 σ2 2 · · · 0 ... ... ... ... 0 0 · · · σ2 m      £ v1 v2 · · · vr ¤ = S+2Vr ATA ¯V r = ATA £ vr+1 vr+2 · · · vm ¤ =£ ATAv r+1 ATAvr+2 · · · ATAvm ¤ = = £ 0m 0m · · · 0m ¤ = 0m×(m−r) (9)

onde S+ ´e a matriz definida em (5). Seja

Ur = AVrS+−1 ∈ IRn×r. (10)

Pr´e-multiplicando Ur pelo seu transposto

UrTUr = (AVrS+−1)T(AVrS+−1) = (S+−1VrTAT)(AVrS+−1) = S−1

+ VrT(ATAVr)S+−1 = S+−1VrT(VrS+2)S+−1

= S−1

+ (VrTVr)(S+2S+−1) = S+−1S+ = Ir

verificamos que Ur´e uma matriz ortonormal cujas colunas geram um subespa¸co de dimens˜ao r em IRn. Se ¯Ur for uma matriz ortonormal cuja imagem ´e o complemento ortogonal da

imagem de Ur ( ¯Ur = Ur⊥), ent˜ao

(15)

isto ´e, a imagem de ¯Ur tamb´em ´e o complemento ortogonal de A, o que nos permite concluir

que im(Ur) = im(A) e que, consequentemente, as colunas de Ur s˜ao uma base ortonormal de

im(A). Definindo U = £ Ur | ¯Ur ¤ (11) podemos calcular UTAV = · UT r ¯ UT r ¸ A£ Vr | ¯Vr ¤ = · UT r A ¯ UT r A ¸ £ Vr | ¯Vr ¤ = · UT r AVr UrTA ¯Vr ¯ UT r AVr U¯rTA ¯Vr ¸ .(12) Como UT

r Ur = Ir, ent˜ao, substituindo, nesta equa¸c˜ao, Ur pelo seu valor definido em (10),

teremos

UrTAVrS+−1 = Ir ⇒ UrTAVr = S+.

Por outro lado, fazendo a mesma substitui¸c˜ao no bloco (1, 2) da ´ultima matriz na express˜ao (12), podemos escrever

UT

r A ¯Vr = (AVrS+−1)TA ¯Vr = S+−1VrT(ATA ¯Vr) = 0(n−r)×(m−r)

pois, de (9), ATA ¯V

r = 0m×(m−r). Finalmente, como as colunas de ¯Ur geram o complemento

ortogonal do subespa¸co gerado pelas colunas de A, ¯ UrTAVr = 0(n−r)×r ¯ UT r A ¯Vr = 0(n−r)×(m−r). Deste modo, UTAV = · S+ 0r×(m−r) 0(n−r)×r) 0(n−r)×(m−r) ¸ . Como UUT = I

n e V VT = Im, pr´e-multiplicando e p´os-multiplicando UTAV por U e VT,

respectivamente, obtemos U(UTAV )VT = U · S+ 0r×(m−r) 0(n−r)×r) 0(n−r)×(m−r) ¸ VT = (UUT)A(V VT) = A ficando assim conclu´ıda a demonstra¸c˜ao.

2 Normalmente define-se S = · S+ 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ ∈ IRn×m

(16)

e exprime-se a decomposi¸c˜ao em valores singulares na forma

A = USVT.

Se n > m, ou seja, se A tiver mais colunas do que linhas, ent˜ao

S =            σ1 0 · · · 0 0 σ2 · · · 0 ... ... ... ... 0 0 · · · σm 0 0 · · · 0 ... ... ... ... 0 0 · · · 0            e se n < m, S =      σ1 0 · · · 0 0 · · · 0 0 σ2 · · · 0 0 · · · 0 ... ... ... ... ... ... ... 0 0 · · · σn 0 · · · 0     

Os elementos da diagonal principal de S est˜ao ordenados por ordem decrescente, isto ´e,

σ1 ≥ σ2 ≥ · · · ≥ σp, com p = min(n, m), e s˜ao designados por valores singulares de A. Na

demonstra¸c˜ao da decomposi¸c˜ao em valores singulares vimos que estes s˜ao as ra´ızes quadradas positivas de valores pr´oprios de ATA. ´E f´acil demonstrar que os valores singulares s˜ao as

ra´ızes quadradas positivas dos valores pr´oprios de ATA quando n ≥ m e dos valores

pr´oprios de AAT quando n ≤ m. S

+, definida em (5), ´e a matriz dos valores singulares

n˜ao nulos. Como car(S) = car(S+), ent˜ao car(A) = car(S+), ou seja, a caracter´ıstica duma

matriz ´e igual ao n´umero de valores singulares n˜ao nulos pois, U e V s˜ao matrizes n˜ao singulares1. Vimos, tamb´em, que V ´e uma matriz (ortonormal) cujas colunas s˜ao os vectores

pr´oprios de ATA. pode-se provar, identicamente, que U ´e uma matriz cujas colunas s˜ao

os vectores pr´oprios de AAT. As colunas de U e V tamb´em s˜ao designadas por vectores

singulares de A. As de U, s˜ao os vectores singulares ´a esquerda e as de V , os vectores singulares `a direita.

Utilizando as decomposi¸c˜oes de V e U definidas em (6)-(7) e (11), respectivamente, podemos rescrever a decomposi¸c˜ao em valores singulares na forma

A = £ Ur | ¯Ur ¤· S+ 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ · VT r ¯ VT r ¸ =£ UrS+ | 0n×(m−r) ¤· VT r ¯ VT r ¸ = = UrS+VrT.

1Recordemos que matrizes n˜ao singulares s˜ao matrizes de caracter´ıstica completa e que se G for uma matriz de caracter´ıstica completa ent˜ao a caracter´ıstica de F = GH ´e igual `a caracter´ıstica de H.

(17)

Chegamos assim `a forma reduzida da decomposi¸c˜ao em valores singulares. Se, na transforma¸c˜ao IRm → IRn z = Ax, definirmos ¯x = S

+VrTx, teremos z = Ax = Urx.¯

Com car(A) = car(Ur), A e Ur tˆem a mesma imagem e , consequentemente, as colunas

de Ur s˜ao uma base ortonormal do subespa¸co gerado pelas colunas de A (im(A)). Como AT = VrS

+UrT, conclu´ımos, identicamente, que im(Vr) = im(AT) e que as colunas de Vr

s˜ao uma base ortnormal para o subespa¸co gerado pelas linhas de A. Dado que as colunas de ¯Vr s˜ao perpendiculares `as de Vr,

A ¯Vr = UrS+VrTV¯r = 0n×(m−r),

o que nos permite afirmar que as colunas de ¯Vr pertencem ao n´ucleo de A (ker(A)). Como

car( ¯Vr)=car (ker(A)) = m − r, ent˜ao im( ¯Vr) = ker(A), sendo as colunas de ¯Vr uma base

ortonormal do n´ucleo de A. Analogamente, as colunas de ¯Ur s˜ao uma base ortonormal do

n´ucleo de AT. Resumindo, im(Ur) = im(A) im(Vr) = im(AT) im( ¯Vr) = ker(A) im( ¯Ur) = ker(AT).

5

Norma Quadr´

atica de Matrizes

Os vectores dum espa¸co IRns˜ao habitualmente definidos pela combina¸c˜ao linear dos vectores

ei =              0 0 ... 0 1 0 ... 0              ∈ IRn ig´esima linha i = 1, . . . , n,

(18)

que formam a base can´onica de IRn. Seja U = £ u 1 u2 · · · un ¤ ∈ IRn uma matriz ortonormal. Como In = £ e1 e2 · · · en ¤ = UTU = UT £ u1 u2 · · · un ¤ =£ UTu 1 UTu2 · · · UTun ¤ podemos concluir que

UTui = ei.

Isto significa que a transforma¸c˜ao UTx roda os eixos da base ortonormal {u

1, . . . , un} para

os eixos da base can´onica {e1, . . . , en}. Por outras palavras, a transforma¸c˜ao UTx ´e uma

rota¸c˜ao que alinha os eixos u1, . . . , un com e1, . . . , en. Assim, chamaremos alinhador `a

matriz UT.

Exemplo 7 : Alinhador no espa¸co IR2 Se

U = £ u1 u2

¤

for uma matriz ortogonal em IR2 ent˜ao UTu 1 = · uT 1 uT 2 ¸ u1 = · uT 1u1 uT 2u1 ¸ = · 1 0 ¸ = e1 UTu 2 = · uT 1 uT 2 ¸ u2 = · uT 1u2 uT 1u2 ¸ = · 0 1 ¸ = e2

pois, sendo U uma matriz ortonormal, as suas colunas u1 e u2 tˆem m´odulo unit´ario e s˜ao

mutuamente ortogonais. Podemos, ent˜ao, concluir, que esta transforma¸c˜ao roda todos os vectores de um ˆangulo θ (ˆangulo que u1 faz com e1 (ver figura 5). Seja agora

x = α1u1+ α2u2 O vector z = UTx ser´a z = UT 1u1+ α2u2) = α1UTu1+ α2UTu2 = α1e1+ α2e2 = · α1 α2 ¸

ou seja, z ´e um vector cujas coordenadas s˜ao as de x no referencial definido pelos vectores u1 e u2 (ver figura 5). Verificamos, assim, que os eixos de u1 e u2 foram alinhados pelos de

e1 e e2 e que, consequentemente, UT ´e o alinhador do referencial constitu´ıdo pelos vectores

(19)

x UTx u1 u2 α1u1 α2u2 1 1 −1 φ −1 θ −1 −1 α2e2 α1e1 1 φ 1 e1 = UTu1 e2 = UTu2 UT

Figura 5: UT ´e o alinhador de {u

1, u2} no espa¸co IR2 Como U = £ u1 u2 · · · un ¤ = UIn = U £ e1 e2 · · · en ¤ , ent˜ao Uei = ui, i = 1, . . . , n.

Vemos, deste modo, que a transforma¸c˜ao y = Ux roda os eixos da base can´onica {e1, . . . , en}

para os da base ortonormal {u1, . . . , un}. Como os eixos da base can´onica s˜ao pendurados

nos da base ortonormal, chamaremos cabide a U.

Exemplo 8 : Cabide no espa¸co IR2

Dado que a matriz U, definida no exemplo anterior, ´e ortonormal, U−1 = UT. Consequente-mente z = UTx e x = Uz s˜ao transforma¸c˜oes inversas. Se a transforma¸c˜ao definida por UT roda as colunas u1 e u2 de U para e1 e e2, respectivamente, ent˜ao a que ´e definida por U

roda e1 e e2 para u1 e u2. O vector

z =

·

α1

α2

¸

´e transformado no vector x = Uz =£ u1 u2

¤· α1

α2

¸

= α1u1+ α2u2.

Podemos, ent˜ao, afirmar que as coordenadas α1 e α2 de z foram penduradas em u1 e u2 pelo

(20)

z Uz −1 −1 α2e2 α1e1 1 e1 φ e2 1 U α1u1 α2u2 1 1 −1 φ −1 θ u1 = Ue1 u2 = Ue2

Figura 6: U ´e o cabide em {u1, u2} no espa¸co IR2

Seja D ∈ IRn×n uma matriz diagonal, isto ´e,

D =      d1 0 · · · 0 0 d2 · · · 0 ... ... ... ... 0 0 · · · dn     .

Se multiplicarmos D, ´a direita, pelo vector

x =      α1 α2 ... αn      obtemos xd =      d1α1 d2α2 ... dnαn     

onde as coordenadas nos eixos de e1, e2, . . . , enest˜ao multiplicadas pelos elementos d1, d2, . . . , dn,

respectivamente, de D. podemos afirmar, ent˜ao, que as coordenadas de x foram deformadas pelos elementos de D e designaremos D por deformador .

Exemplo 9 : Deformador no espa¸co IR2

Seja D = · 1 0 0 0, 5 ¸

(21)

uma matriz diagonal em IR2×2 e C

2(1) = {x : kxk2 = 1}, isto ´e, a circunferˆencia de raio

unit´ario. A transforma¸c˜ao z = Dx transforma esta circunferˆencia numa elipse E2(1, 0.5)

com semi-eixos de comprimento 1 e 0, 5. Vemos, assim, que a circunferˆencia C2 foi

defor-mada pelo deformador D.

D 1 e1 e2 −0, 5 0, 5 −1 −1 −1 1 C2(1) e2 1 e1

Figura 7: D ´e um deformador no espa¸co IR2

Como, atrav´es da decomposi¸c˜ao em valores singulares, podemos decompor uma matriz na forma

A = UrS+VrT

onde Ur e Vr s˜ao matrizes ortonormais e S+ ´e uma matriz diagonal, podemos ver a

trans-forma¸c˜ao

z = Ax = UrS+VrTx

como a sequˆencia das seguintes opera¸c˜oes:

Alinhamento dos eixos de v1, v2, . . . , vr com os eixos de e1, e2, . . . , er da base can´onica

efectuado pelo alinhador VT r

Deforma¸c˜ao da novas coordenadas de x pelo deformador S+.

Suspens˜ao das novas coordenadas deformadas de x no cabide Ur.

Por outras palavras, os eixos v1, v2, . . . , vr s˜ao deformados de σ1, σ2, . . . , σr e rodados para u1, u2, . . . , ur.

(22)

Exemplo 10 : Transforma¸c˜ao de uma elipse de IR2 para IR2 por uma matriz A matriz A = · 1, 44 0, 92 0, 08 1, 44 ¸

com a seguinte decomposi¸c˜ao em valores singulares A = · 0, 8 −0, 6 0, 6 0, 8 ¸ · 2 0 0 1 ¸ · 0, 6 0, 8 −0, 8 0, 6 ¸

transforma a elipse com os eixos alinhados com v1 = · 0.6 −0.8 ¸ e v2 = · 0.8 0.6 ¸

de comprimentos 4 e 2, respectivamente, numa outra elipse com os eixos alinhados com u1 = · 0.8 0.6 ¸ e u2 = · −0.6 0.8 ¸ e comprimentos 8 e 2.

Exemplo 11 : Transforma¸c˜ao da hiperesfera de raio unit´ario

A hiperesfera de ordem m de raio unit´ario ´e transformada pela matriz A ∈ IRn×m com decomposi¸c˜ao em valores singulares

A =£ u1 u2 · · · ur ¤      σ1 0 · · · 0 0 σ2 · · · 0 ... ... ... ... 0 0 · · · σr           vT 1 vT 2 ... vT r     

numa elipsoide de ordem r, com semi-eixos de comprimentos σ1, σ2, . . . , σr alinhados com os vectores u1, u2, . . . , ur.

A norma quadr´atica duma matriz A ∈ IRn×m ´e designada por kAk

2 e definida por

kAk2 = sup

kxk2=1

kAxk2

isto ´e, ´e o m´odulo do maior vector z = Ax quando x tem m´odulo unit´ario. Como a hiperesfera de ordem m de raio unit´ario ´e transformada por A numa elips´oide com semi-eixos de compri-mentos iguais aos seus valores singulares, ent˜ao o maior vector z = Ax desta transforma¸c˜ao tem o m´odulo igual ao do maior valor singular de A e, consequentemente,

(23)

A 1 1 1 σ3u3 σ1u1 σ2u2

Figura 8: Transforma¸c˜ao da esfera unit´aria numa elips´oide em IR3 por uma matriz

A ∈ IR3×3 com vectores singulares `a esquerda u

1, u2 e u3 e valores singulares σ1, σ2 e σ3.

Exemplo 12 : Norma quadr´atica duma matriz 2 por 2 Como a matriz A = · 1, 44 0, 92 0, 08 1, 44 ¸

com a seguinte decomposi¸c˜ao em valores singulares A = · 0, 8 −0, 6 0, 6 0, 8 ¸ · 2 0 0 1 ¸ · 0, 6 0, 8 −0, 8 0, 6 ¸

transforma a circunferˆencia unit´aria numa elipse com semi-eixos de comprimentos 2 e 1, ent˜ao

kAk2 = 2 = maior valor singular de A

6

Aproxima¸c˜

ao de uma Matriz por Outra de

Carac-ter´ıstica Inferior

Seja A uma matriz com caracter´ıstica r pertencente a IRn×m em que n > m. A sua

decom-posi¸c˜ao em valores singulares

(24)

A 1 1 −1 −1 2 = kAk2 σ1u1 = 2u1 σ2u2 = u2

Figura 9: A norma da matriz A ´e o comprimento do maior semi-eixo da elipse em que ´e transformada a circunferˆencia de raio unit´ario

permite-nos chegar `a decomposi¸c˜ao di´atica, dada por

A = m

X

i=1

σiuivTi

Para x = αjvj, um vector na direc¸c˜ao de vj, teremos Ax = m X i=1 σiuivTi x = m X i=1 σiαjuiviTvj = σjαjujvTjvj = σjαjuj

pois vj tem m´odulo unit´ario e ´e perpendicular a vi para i 6= j. Esta express˜ao evidencia

o facto mencionado na sec¸c˜ao anterior, de que os pontos no eixo de vj s˜ao reescalados

(deformados) de um factor σj e rodados para o eixo de uj.

Consideremos, agora, um vector x com componentes em todos os eixos vi, i = 1, . . . , m,

ou seja,

x = α1v1+ α2v2+ · · · + αrvr+ αr+1vr+1+ · · · + αmvm.

Se car(A) = r e r < m, ent˜ao σr+1 = σr+2 = · · · = σm = 0, significando isto que as

componentes αr+1vr+1, αr+2vr+2, . . . , αmvm est˜ao no n´ucleo de A sendo, por isso, eliminadas

na transforma¸c˜ao Ax. Teremos, assim,

(25)

Se os valores singulares σk+1, . . . , σr forem muito pequenos, podemos fazer Ax ≈ α1σ1u1+ σ2α2u2+ · · · + σkαkuk= Akx, em que Ak= £ u1 u2 · · · uk ¤      σ1 0 · · · 0 0 σ2 · · · 0 ... ... ... ... 0 0 · · · σk           vT 1 vT 2 ... vT k     . O erro desta aproxima¸c˜ao ´e

Ax − Akx = (A − Ak) x = σk+1αk+1uk+1+ σk+2αk+1uk+2+ · · · + αrσrur, sendo kAx − Akxk2 = q σ2 k+1α2k+1+ σk+22 αk+22 + · · · + σ2rαr2

pois uk+1, uk+2, . . . , ur s˜ao vectores de norma unit´aria mutuamente ortogonais. Como

(Ax − Akx)TAkx = (σk+1αk+1uk+1+ · · · + αrσrur)T(σ1α1u1+ · · · + αkσkuk) =

= σk+1αk+1uTk+1(σ1α1u1+ · · · + αkσkuk) + · · · +

+σrαruTr 1α1u1+ · · · + αkσkuk) =

= σk+1αk+1σ1α1uTk+1u1+ · · · + σk+1αk+1σkαkuTk+1uk+ · · · +

+σrαrσ1α1uTru1+ · · · + σrαrσkαkuTruk = 0,

Ax − Akx e Akx s˜ao ortogonais. Isto significa que Akx ´e a projec¸c˜ao ortogonal de Ax

no subespa¸co gerado por u1, u2, . . . , uk, sendo, por isso, a sua melhor aproxima¸c˜ao neste

subespa¸co e , consequentemente, im(Ak) ´e a melhor aproxima¸c˜ao de dimens˜ao k do subespa¸co

im(A).

Se z ∈ IRn for decomposto na forma z = β1u1+ β2u2+ · · · + βnun,

podemos concluir , de forma semelhante, que AT

kz ´e a melhor aproxima¸c˜ao de ATz no

sube-spa¸co gerado por v1, v2, . . . vk sendo im(ATk) a melhor aproxima¸c˜ao de dimens˜ao k de im(AT)

Como im(Ak) e im(ATk) s˜ao as melhores aproxima¸c˜oes de im(A) e im(AT),

(26)

7

Projec¸c˜

oes Ortogonais de Subespa¸cos

Sejam x e y dois vectores em IRn. A projec¸c˜ao ortogonal de y em x, que designaremos por

y\x ´e um vector na direc¸c˜ao de x com m´odulo kyk2cos φ em que φ ´e o ˆangulo entre y e x.

Sendo o produto interno entre x e y dado por

−1 φ y x y\x y − y\x ex 1 1 −1

Figura 10: Projec¸c˜ao ortogonal de y em x.

xTy = kxk

2kyk2cos φ, (13)

podemos exprimir y\x na forma y\x = ex

xTy kxk2

em que ex ´e um vector unit´ario na direc¸c˜ao de x, ou seja, ex=

x kxk2

.

Substituindo ex pelo seu valor em (13), teremos y\x = x xTy kxk2 2 = xkxk−2 2 xTy. Como kxk2 2 = xTx

podemos, finalmente, escrever,

y\x = x

¡

(27)

Como y − y\x ´e perpendicular a x, ent˜ao y\x ´e a melhor aproxima¸c˜ao na direc¸c˜ao de x.

Notemos, ainda, que a projec¸c˜ao y\x ´e uma combina¸c˜ao linear de x, isto ´e, y\x = xˆθ

em que ˆ

θ = ¡xTx¢−1xTy.

Vemos, assim, que ˆθ ´e o estimador de m´ınimos quadrados

ˆ

θ = min ky − xθk2. θ

Se x for um vector na direc¸c˜ao de um dos vectores da base can´onica, isto ´e, se x =

Kxei, Kx ∈ IR, ent˜ao y\x = (Kxei) £ (Kxei)T(Kxei) ¤−1 (Kxei)Ty = Kxei ¡ K2 xeTi ei ¢−1 KxeTi y = = Kx(Kx)−2Kxei ¡ eT i ei ¢−1 eT i y = eieTi y = = i        0 0 · · · 0 · · · 0 ... ... ... ... ... ... 0 0 · · · 1 · · · 0 ... ... ... ... ... ... 0 0 · · · 0 · · · 0        i        y1 ... yi ... yn        =        0 ... yi ... 0        = yiei

Como esta express˜ao ´e independente de Kxa projec¸c˜ao y\x, depende unicamente da direc¸c˜ao

de x, ou seja, y\z = y\x para qualquer z na direc¸c˜ao de x. Vemos, deste modo, que projectar y em x ´e o mesmo que projectar y no subespa¸co gerado por x.

Vamos agora ver o que acontece quando x ´e um vector com direc¸c˜ao arbitr´aria. Come-cemos por definir uma base ortonormal {u1, . . . , un} em que x = Kxu1. A seguir podemos

efectuar as seguintes opera¸c˜oes Alinhar u1 com e1.

Projectar y em e1 no novo referencial.

(28)

1 −1 −1 1 e1 y1 y2 y Kxe1 y1e1

Figura 11: Projec¸c˜ao ortogonal de y no eixo de e1.

x e1 y u2 e2 u1 x e1 y u2 u 1 e2 y\x UTy Uu1 UTu 2 UTy\ UTx UTx

Figura 12: Projec¸c˜ao ortogonal de y em x: 1 - O plano ´e rodado para alinhar o eixo de x com o de e1. 2 - y rodado ´e projectado no eixo de e1. 3 - O plano ´e rodado para a posi¸c˜ao

inicial.

Estas opera¸c˜oes traduzem-se na seguinte express˜ao

y\x = P y em que P = £ u1 u2 · · · un ¤      1 0 · · · 0 0 0 · · · 0 ... ... ... ... 0 0 · · · 0           uT 1 uT 2 ... uT n     = u1u T 1 (14)

Pode-se provar que P = x(xTx)−1xT. Como (14) ´e a decomposi¸c˜ao em valores singulares de P , conclu´ımos que esta matriz tem caracter´ıstica 1. Notemos que P ´e uma matriz sim´etrica

(29)

Suponhamos, agora, que pretendemos projectar y no plano gerado pelo par de vectores linearmente independentes x1 e x2. Seja {u1, u2} uma base ortonormal desse plano inclu´ıda

na base ortonormal {u1, u2, . . . , un}. Uma vez mais, a projec¸c˜ao pode ser feita atrav´es das

seguintes opera¸c˜oes:

Alinhar u1 e u2 com e1 e e2, respectivamente.

Projectar y no novo referencial no plano gerado e1 e e2.

Pendurar e1 e e2 em u1 e u2, respectivamente.

tal como anteriormente, estas projec¸c˜oes traduzem-se na express˜ao

y\X = P y em que P = £ u1 u2 u3 · · · un ¤        1 0 0 · · · 0 0 1 0 · · · 0 0 0 0 · · · 0 ... ... ... ... ... 0 0 0 · · · 0               uT 1 uT 2 uT 3 ... uT n        = u1uT1 + u2uT2 (15) e X =£ x1 x2 ¤

. Pode-se provar que

P = X(XTX)−1XT

sendo (15) a decomposi¸c˜ao em valores singulares de P .

Podemos alargar este conceito de projec¸c˜ao de um vector num plano, ao da projec¸c˜ao dum subespa¸co noutro subespa¸co. Neste contexto, a projec¸c˜ao da imagem de Y na imagem de X em que Y = £ y1 · · · y` ¤ ∈ IRn×`, n > ` X = £ x1 · · · xm ¤ ∈ IRn×m, n > m

´e a imagem da matriz

Y \X = P Y (16) em que P = £ Ur U¯r ¤· Ir 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ · UT r ¯ UT r ¸ = UrUrT (17)

(30)

Se as colunas x1, . . . , xm de X forem linearmente independentes, ent˜ao r = m e P = X(XTX)−1XT

pois XTX ´e uma matriz n˜ao singular. Nestas condi¸c˜oes, a projec¸c˜ao de Y em X ´e a

com-bina¸c˜ao linear das colunas de X

Y \X = X ˆθ,

em que ˆθ tem uma s´o solu¸c˜ao, dada por

ˆ

θ = ¡XTX¢−1XTY, (18)

que podemos reconhecer como sendo o estimador de m´ınimos quadrados ˆ

θ = min kY − Xθk2.

θ (19)

A projec¸c˜ao Y \X existe sempre mesmo quando as colunas de X n˜ao s˜ao linearmente

independentes. No entanto, (19) deixa de ter uma ´unica solu¸c˜ao pois XTX ´e singular.

Como obter uma solu¸c˜ao θ nestas condi¸c˜oes? Se

X = UrS+VrT (20)

for a forma reduzida da decomposi¸c˜ao em valores singulares de X, e se em (18) substituirmos ¡ XTX¢−1XT por X† = V rS+−1UrT, (21) obtemos a estimador ˆ θ = X†Y (22)

que adiante provaremos ser o menor estimador de m´ınimos quadrados de θ. Pode-se provar que X†´e a ´unica matriz que obedece `as seguintes condi¸c˜oes (condi¸c˜oes de Moore-Penrose):

1. XX†X = X

2. X†XX= X

(31)

4. ¡X†X¢T = XX

X† ´e designada como o inverso generalizado ou pseudo-inverso de X. Se car(X) = m, ent˜ao X†= (XTX)−1XT e XX = I

m. Se car(X) = n, ent˜ao teremos X†= XT(XXT)−1

e XX†= I n.

Vamos agora provar que ˆθ definido em (22) ´e o menor estimador de m´ınimos quadrados.

Lema 2 Se X ∈ IRn×m onde n > m for uma matriz com caracter´ıstica r < m e y ∈ IRn com n > `, ent˜ao

¯

θ(Ψ) = X†y +¡Im− X†X¢Ψ, ∀Ψ ∈ IRm

´e a solu¸c˜ao geral do problema de m´ınimos quadrados

min ky − Xθk2.

θ ∈ IRm×` (23)

e

ˆ

θ = ¯θ(0m×`) = X†y

´e a ´unica solu¸c˜ao de norma m´ınima, isto ´e, ´e a ´unica solu¸c˜ao tal que kˆθk2 ° °¯θ(Ψ)°° 2, ∀Ψ ∈ IR m. Demonstra¸c˜ao:

Todas solu¸c˜oes de (23) devem ser coeficientes de todas as combina¸c˜oes lineares de X que geram y\X, isto ´e, o conjunto Θ =

©¯

θ : X ¯θ = y\X

ª

. Utilizando a forma reduzida da decom-posi¸c˜ao em valores singulares de X em (20) e as defini¸c˜oes de P e de X† em (17) e (21),

respectivamente,

X ˆθ = XX†y = (U

rS+VrT)(VrS+−1UrT)y = UrS+(VrTVr)S+−1UrTy =

= Ur(S+S+−1)UrTy = UrUrTy = P y = y\X.

Vemos, deste modo, que ˆθ = X†y ∈ Θ sendo, por isso, uma solu¸c˜ao de (23). As outras

solu¸c˜oes s˜ao do tipo ˆθ + Υ tal que X

³ ˆ

θ + Υ

´

= y\X. Como X ˆθ = y\X, ent˜ao XΥ =

0n×`. Isto significa que Υ pode ser qualquer vector no n´ucleo de X, ker(X). Υ pode ent˜ao

ser gerado atrav´es da projec¸c˜ao ortogonal de um vector qualquer Ψ ∈ IRm em ker(X).

(32)

o subespa¸co gerado pelas linhas de X. Se Vr for uma base ortonormal de im(XT), ent˜ao, de

(16) e de (17), a projec¸c˜ao de Ψ em im(XT) ´e dada por

Ψ\XT = VrVrTΨ,

sendo

Υ = Ψ\(XT) = Ψ − Ψ\XT

a projec¸c˜ao ortogonal de Ψ em (XT). Se V

r for a base calculada na decomposi¸c˜ao em

valores singulares de X, ent˜ao podemos gerar Υ atrav´es de Υ = Ψ − Ψ\XT = Ψ − VrVrTΨ = ¡ Im− VrVrT ¢ Ψ = ¡Im− X†X ¢ Ψ, ∀Ψ ∈ IRm. pois, X†X = V rS+−1UrTUrS+VrT = VrVrT.

A solu¸c˜ao geral de (23) ser´a ¯

θ(Ψ) = ˆθ +¡Im− X†X¢Ψ, ∀Ψ ∈ IRm

em que Ψ ´e qualquer matriz de IRm. Como ˆ θ = X† |{z} VrS+−1UrT y = VrS| {z }+−1UrTy ¯ y = Vry ∈ im(X¯ T) e Υ = ¡Im− X†X ¢ Ψ ∈ ker(X),

ent˜ao ˆθ e Υ s˜ao perpendiculares pois ker(X) ´e o complemento ortogonal de im(XT). Teremos,

assim, ° °¯θ(Ψ)°°2 2 = kˆθk 2 2+ kΥk22 = kˆθk22+ ° °(Im− X†X)Ψ°°2 2 e, finalmente, kˆθk2 = ° °X†y°° 2 ° °¯θ(Ψ)°° 2

onde s´o se verifica igualdade para Ψ = 0m, ficando assim conclu´ıda a demonstra¸c˜ao. 2

(33)

O estimador de m´ınimos quadrados de norma m´ınima pode ser expresso atrav´es de ˆ θ = X†Y = V rS+−1UrY = r X i=1 uT i viY σi

Esta express˜ao mostra que, se o menor valor singular σr for muito menor que os outros,

pequenas perturba¸c˜oes na matriz que provoquem pequenas altera¸c˜oes em ur ou vr causam,

seguramente, perturba¸c˜oes muito significativas em ˆθ. Se, no entanto, os valores singulares

n˜ao forem muito diferentes uns dos outros, as perturba¸c˜oes nos diferentes vectores singulares tendem-se a compensar umas `as outras, n˜ao fazendo variar significativamente ˆθ. Vemos,

assim, que a sensibilidade de ˆθ depende, fundamentalmente, da diferen¸ca entre os valores

singulares de X. O n´umero de condi¸c˜ao de X definido por

κ(X) = kXk2kX†k2 =

σ1

σr

´e utilizado como medida de sensibilidade de θ. Por defini¸c˜ao ´e superior ou igual a 1. Se for muito grande, ent˜ao X ´e uma matriz mal condicionada. Se se mantiver pequeno X ´e bem condicionada. Uma matriz ortonormal tem n´umero de condi¸c˜ao igual a 1 e, por isso, ´e perfeitamente condicionada.

8

Projec¸c˜

oes Obl´ıquas de Subespa¸cos

Seja y ∈ IRn dado por

y = a1x1 + a2x2

onde a1 e a2 ∈ IR, x1 e x2 ∈ IRn. A projec¸c˜ao obl´ıqua de y em x1 segundo x2, designada por

y\x2

x1, ´e a1x1. Se y n˜ao estiver no plano gerado por x1 e x2, a projec¸c˜ao obl´ıqua de y em x1

segundo x2 ´e a projec¸c˜ao obl´ıqua de y\h x 1 x2 i em x 1 segundo x2. Como y\h x1 x2 i= x 1θˆ1+ x2θˆ2 onde · ˆ θ1 ˆ θ2 ¸ = £ x1 x2 ¤ y

(34)

y\x1 x2 = a2x1 y x2 x1 y\x2 x1 = a1x1 Figura 13: y\x2

x1 ´e a projec¸c˜ao obl´ıqua de y em x1segundo a direc¸c˜ao de x2. y\

x1

x2 ´e a projec¸c˜ao

obl´ıqua de y em x2 segundo a direc¸c˜ao de x1.

ent˜ao

y\x2

x1 = x1θˆ1.

Dum modo geral, dizemos que a projec¸c˜ao de Y ∈ IRn×` em X

1 ∈ IRn×m1 segundo X2 IRn×m2 com n > ` e n > m 1 + m2 ´e Y \X2 X1 = X1θˆ1 onde · ˆ θ1 ˆ θ2 ¸ = £ X1 X2 ¤ Y.

9

Projec¸c˜

oes nos Subespa¸cos gerados pelas linhas duma

matriz

Quando o n´umero de colunas duma matriz ´e superior ao das linhas (m > n) as projec¸c˜oes s˜ao no subespa¸co gerado pelas linhas. Como, transpondo uma matriz, trocamos as linhas pelas colunas, tudo o que se disse sobre projec¸c˜oes nos subespa¸cos gerados pelas colunas continua v´alido desde que todas as matrizes sejam transpostas. Se, no fim de todas as projec¸c˜oes, voltarmos a transpor as matrizes, obtemos

Y /X =

¡

YT\XT

¢T

= Y X†X = ˆθX = Y VrVrT

em que ˆθ ´e o estimador de m´ınimos quadrados de menor norma dado por

ˆ

θ = Y X†.

Se car(X) = n, ent˜ao X†= XT(XXT)−1 e Y /X = Y XT(XXT)−1X

(35)

A projec¸c˜ao obl´ıqua de Y em X1 segundo X2 ´e definida como Y /X2 X1 = ³ YT\X2T XT 1 ´T = ˆθ1X1 onde £ ˆ θ2 θˆ2 ¤ = Y · X1 X2 ¸

10

Produto de Kronecker e Vectoriza¸c˜

ao de Matrizes

Em controlo, especialmente nas ´areas de estima¸c˜ao e redu¸c˜ao de ordem do modelo, ´e frequente ter que se resolver equa¸c˜oes de Lyapunov. Estas, s˜ao equa¸c˜oes matriciais, do tipo

ΠA1+ A2Π + A3ΠA4+ Q = 0n×n. (24)

Embora sejam lineares na inc´ognita Π ∈ IRn×n, n˜ao podem ser resolvidas de uma forma

directa porque, nuns termos a inc´ognita aparece multiplicada `a direita , noutros ´e multi-plicada `a esquerda, podendo ainda ser multimulti-plicada simultaneamente `a direita e ´a esquerda noutros termos. Estas equa¸c˜oes podem ser resolvidas de forma iterativa. No entanto, o facto de serem lineares na inc´ognita Π, indicia que existem m´etodos n˜ao iterativos para a sua resolu¸c˜ao. Nesta sec¸c˜ao iremos constatar que isso ´e verdade. Para esse efeito, iremos transformar a equa¸c˜ao matricial num sistema de n2 equa¸c˜oes lineares a n2 inc´ognitas que

pode ser resolvido por qualquer algoritmo de resolu¸c˜ao de sistemas de equa¸c˜oes lineares. Esta transforma¸c˜ao ir´a utilizar o produto de Kronecker e, por isso, antes de a estudarmos iremos ver em que ´e que consiste e quais s˜ao as suas propriedades.

O produto de Kronecker ´e uma forma ordenada e compacta de exprimir uma matriz (ou vector) cujos elementos s˜ao os produtos de todos os elementos de outras duas matrizes (ou vectores). Trata-se dum opera¸c˜ao bilinear muito utilizada nos modelos de sistemas n˜ao lineares. Dadas as matrizes A ∈ IRn×m e B ∈ IR`×p, o produto de Kronecker entre A e B,

designado por A ⊗ B, tem a seguinte defini¸c˜ao

A ⊗ B =      a11B a12B · · · a1mB a21B a22B · · · a2mB ... ... ... ... an1B an2B · · · anmB     ∈ IR n`×mp,

(36)

Propriedade 1 - Associativa (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C) Propriedade 2 - Distributiva (A + B) ⊗ (C + D) = A ⊗ C + A ⊗ D + B ⊗ C + B ⊗ D Propriedade 3 - Transposi¸c˜ao (A ⊗ B)T = AT ⊗ BT

Propriedade 4 - Produto misturado

(A ⊗ B)(C ⊗ D) = AC ⊗ BD

Propriedade 5 - Matriz inversa

(A × B)−1 = (A−1⊗ B−1) ∀A ∈ IRn×n, B ∈ IRm×m

Propriedade 6 - Valores e vectores pr´oprios

½

AvA= λAvA

BvB = λBvB ⇒ (A ⊗ B)(vA⊗ vB) = λAλB(vA⊗ vB), ∀A ∈ IR

n×n, B ∈ IRm×m, isto ´e, se λA for um valor pr´oprio de A ∈ IRn×n associado ao vector pr´oprio vA ∈ IRn e se λB for um valor pr´oprio de B ∈ IRm×m associado ao vector pr´oprio vB ∈ IRm, ent˜ao λAλB ´e um valor pr´oprio de A ⊗ B ∈ IRnm×nm associado ao vector pr´oprio vA⊗ vB ∈ IRnm.

Propriedade 7 A ⊗ B ∈ IRnm×nm´e uma matriz definida positiva se A ∈ IRn×n e B ∈ IRm×m forem matrizes sim´etricas, e ambas definidas positivas ou definidas negativas.

Iremos, em seguida, demonstrar a propriedade 4 (produto misturado) deixando a demon-stra¸c˜ao das outras como exerc´ıcio para o leitor.

Demonstra¸c˜ao da Propriedade 4:

A matriz A ⊗ B, com A ∈ IRn×m e B ∈ IR`×p pode ser expressa na forma

A ⊗ B =        a11B a12B · · · a1mB ... ... ... ... ai1B ai2B · · · aimB ... ... ... ... an1B an2B · · · anmB        =        AIB(1, :) ... AIB(i, :) ... AIB(n, :)       

(37)

em que

AIB(i, :) =£ ai1B ai2B · · · aimB

¤

∈ IR`×mp

representa o bloco constitu´ıdo pelas linhas (i − 1)` + 1 a i` de A ⊗ B. Por outro lado C ⊗ D com C ∈ IRm×q e D ∈ IRp×r pode ser expressa na forma

C ⊗ D =      c11D · · · c1jD · · · c1qD c21D · · · c2jD · · · c2qD ... ... ... ... ... cm1D · · · cmjD · · · cmqD     = £ CJD(:, 1) · · · CJD(:, j) · · · CJD(:, q) ¤ .

Nesta matriz, o bloco

CJD(:, j) =      c1jD c2jD ... cmjD     ∈ IR mp

representa o bloco constitu´ıdo pelas colunas (j − 1)r + 1 a jr de C ⊗ D. O bloco constitu´ıdo pelas linhas (i−1)`+1 a i` e as colunas (j −1)r +1 a jr de (A⊗B)(C ⊗D) que designaremos por AIBCJD(i, j), ser´a o produto dos blocos AIB(i, :) e CJD(:, j) que acabamos de definir,

ou seja AIBCJD(i, j) = AIB(i, :)CJD(:, j) = m X k=1 aikBckjD = " m X k=1 aikckj # BD.

Como Pmk=1aikckj ´e o elemento da linha i e coluna j de CA, ent˜ao AIBCJD(i, j) tamb´em

vai ser o bloco constitu´ıdo pelas linhas (i − 1)` + 1 a i` e as colunas (j − 1)r + 1 a jr de

AC ⊗ BD que designaremos por AICJBD(i, j). Como, qualquer que sejam i e j, AIBCJD(i, j) = AICJBD(i, j)

ent˜ao (A ⊗ B)(C ⊗ D) = AC ⊗ BD, ficando assim demonstrada a propriedade.

2

A opera¸c˜ao vectoriza¸c˜ao consiste em transformar uma matriz num vector, empilhando as suas colunas umas em cima das outras. Assim, dada a matriz

A =£ a1 a2 · · · ai · · · am

¤

(38)

a sua vectoriza¸c˜ao, designada por vec(A) ´e o vector vec(A) =          a1 a2 ... ai ... am          ∈ IRnm.

Iremos, agora, enunciar uma propriedade que ´e fundamental para a determina¸c˜ao duma solu¸c˜ao n˜ao iterativa de equa¸c˜oes de Lyapunov idˆenticas `a (24).

Propriedade 8

vec(ABC) = (CT ⊗ A)vec(B), ∀A ∈ IRn×m, B ∈ IRm×`, C ∈ IR`×p

Demonstra¸c˜ao: Sejam A =      aT 1 aT 2 ... aT n     , B = £ b1 b2 · · · b` ¤ , C =      c11 c12 · · · c1p c21 c22 · · · c2p ... ... ... ... c`1 c`2 · · · c`p     

com ai ∈ IRm, i = 1, . . . , n e bi ∈ IRm, i = 1, . . . , `. O produto destas trˆes matrizes ´e

ABC =      aT 1 aT 2 ... aT n      £ b1 b2 · · · b` ¤      c11 c12 · · · c1j · · · c1p c21 c22 · · · c2j · · · c2p ... ... ... ... ... ... c`1 c`2 · · · c`j · · · c`p     = =      aT 1b1 aT1b2 · · · a1b` aT 2b1 aT2b2 · · · a` ... ... ... ... aT nb1 aTnb2 · · · anb`           c11 c12 · · · c1j · · · c1p c21 c22 · · · c2j · · · c2p ... ... ... ... ... ... c`1 c`2 · · · c`j · · · c`p     = =      P` i=1aT1bici1 P` i=1aT1bici2 · · · P` i=1aT1bicij · · · P` i=1aT1bicip P` i=1aT2bici1 P` i=1aT2bici2 · · · P` i=1aT2bicij · · · P` i=1aT2bicip ... ... ... ... ... ... P` i=1aTnbici1 P` i=1aTnbici2 · · · P` i=1aTnbicij · · · P` i=1aTnbicip     .

(39)

Vemos, daqui, que a coluna j de ABC que designaremos por ABC(:, j) ´e ABC(:, j) =      P` i=1aT1bicij P` i=1aT2bicij ... P` i=1aTnbicij     =      c1jaT1 c2jaT1 · · · c`jaT1 c1jaT2 c2jaT2 · · · c`jaT2 ... ... ... ... c1jaTn c2jaTn · · · c`jaTn           b1 b2 ... b`     = =      £ c1j c2j · · · c`j ¤      aT 1 aT 2 ... aT n          vec(B) = (c T j ⊗ A)vec(B) em que cj =      c1j c2j ... c`j     ∈ IR `

´e a coluna j de C. Teremos ent˜ao

vec(ABC) =          ABC(:, 1) ABC(:, 2) ... ABC(:, j) ... ABC(:, p)          =          (cT 1 ⊗ A)vec(B) (cT 2 ⊗ A)vec(B) ... (cT j ⊗ A)vec(B) ... (cT p ⊗ A)vec(B)          = =          cT 1 ⊗ A cT 2 ⊗ A ... cT j ⊗ A ... cT p ⊗ A          vec(B) =               cT 1 cT 2 ... cT j... cT p        ⊗ A        vec(B) = (CT ⊗ A)vec(B). 2

Consideremos agora a equa¸c˜ao (24). Podemos rescrever esta equa¸c˜ao na forma

InΠA1+ A2ΠIn+ A3ΠA4 + Q = 0n×n.

Como vec(A + B) = vec(A) + vec(B), ent˜ao vec (InΠA1+ A2ΠIn+ A3ΠA4+ Q) =

Referências

Documentos relacionados