Tópicos de Álgebra Linear

(1)

Paulo Lopes dos Santos

Departamento de Engenharia Electrot´ecnica e Computadores

Faculdade de Engenharia da Universidade do Porto

Rua Dr Roberto Frias, s/n

4200-464 Porto, Portugal

Email: [email protected]

(2)

Conte´

udo

1 Vectores Linearmente Independentes 2

2 Subespa¸cos e Bases 4

3 Subespa¸cos Associados a Matrizes e Decomposi¸c˜ao QR 6

4 Decomposi¸c˜ao em Valores Singulares 11

5 Norma Quadr´atica de Matrizes 16

6 Aproxima¸c˜ao de uma Matriz por Outra de Caracter´ıstica Inferior 22

7 Projec¸c˜oes Ortogonais de Subespa¸cos 25

8 Projec¸c˜oes Obl´ıquas de Subespa¸cos 32

9 Projec¸c˜oes nos Subespa¸cos gerados pelas linhas duma matriz 33

10 Produto de Kronecker e Vectoriza¸c˜ao de Matrizes 34

(3)

1 Vectores Linearmente Independentes

Sejam v1, v2, . . . , vnvectores em IRn. Diz-se que estes vectores s˜ao linearmente independentes

se, para um conjunto de escalares αi ∈ IR, i = 1, . . . , n n

X

i=1

αivi = 0n ⇒ α1 = α2 = · · · = αn= 0,

em que 0n ´e o vector de IRn com todas as entradas nulas. Se v1 =

· v11 v12 ¸ ∈ IR2 _{e v} 2 = · v21 v22 ¸

∈ IR2_{, ent˜ao, qualquer ponto z =}

·

z1

z2

¸

, pertencente ao subespa¸co S ⊆ IR2 _gerado

por v1 e v2, pode ser expresso atrav´es da combina¸c˜ao linear

α1v1+ α2v2 = z ⇔ · v11 v12 ¸ α1+ · v21 v22 ¸ α2 = · z1 z2 ¸ ⇔ · v11 v21 v12 v22 ¸ · α1 α2 ¸ = · z1 z2 ¸ . Se a matriz V = · v11 v21 v12 v22 ¸

for n˜ao singular e se z = 02, ent˜ao

· α1 α2 ¸ = · v11 v21 v12 v22 ¸₋₁· z1 z2 ¸ = · 0 0 ¸

e, consequentemente, s´o para α1 = α2 = 0 ´e que v1 e v2 se anulam. Conclu´ımos, assim,

que v1 e v2 são independentes se e só se (sse) V for uma matriz não singular, ou seja, sse

det V 6= 0. Como det V = v11v22− v21v12 ent˜ao det V = 0 ⇔ v11v22− v21v12 = 0 ⇔ v21 v11 = v22 v12 = k ⇒ ½ v21 = kv11 v22 = kv12 ⇔ v2 = kv1

significando isto que v1 e v2 s˜ao independentes sse n˜ao forem colineares.

v1

v2

u1

u2

Figura 1: v1 e v2 s˜ao linearmente independentes e u1 e u2 s˜ao linearmente dependentes

Em IR2 o máximo que conseguimos é um conjunto de dois vectores linearmente inde-pendentes. Qualquer conjunto com mais de dois vectores não é de vectores linearmente independentes.

(4)

Exemplo 1 :

Seja {v1, v2, v3} um conjunto de vectores n˜ao nulos em IR2. Acabamos de ver que se os

vec-tores v1 = · v11 v12 ¸ e v2 = · v21 v22 ¸

forem linearmente independentes ent˜ao det

½· v11 v21 v12 v22 ¸¾ 6= 0 Nestas condi¸c˜oes, · α1 α2 ¸ = · v11 v21 v12 v22 ¸₋₁· v31 v32 ¸ 6= 02

é a solu¸cão da equa¸cão α1v1+ α2v2 = v3 ⇔ · v11 v21 v12 v22 ¸ · α1 α2 ¸ = · v31 v32 ¸ e, consequentemente, α1v1+ α2v2− v3 = 02

significando isto que {v1, v2, v3} nunca pode ser um conjunto de vectores independentes.

x1 x2 α2v2 α1v1 _v 3 v1 v2 v31 v11 v21 α2v21 v12 v22 v32 α2v22 α1v11 α1v12

Figura 2: v1,v2 e v3 s˜ao vectores no mesmo plano e, por isso, s˜ao linearmente dependentes

Pode-se provar de forma idˆentica que, no espa¸co IRn _{nunca se conseguem mais do que n}

(5)

2 Subespa¸cos e Bases

Seja S um subconjunto do espa¸co vectorial E, isto ´e, S ⊆ E. Se, para quaisquer elementos v1

e v2 pertencentes a S e quaisquer escalares α1 e α2 a combina¸c˜ao linear α1v1+ α2v2 pertencer

a S, então S é um subespa¸co de E. Deste modo, todas as combina¸cões lineares dos vectores

{v1, v2, . . . , vm} com vi ∈ IRn formam um subespa¸co de IRn. Esse subespa¸co ´e designado

como S = span {v1, v2, . . . , vm} = ( x : x = m X i=1 αivi, ∀αi∈IR ) .

Dizemos, ent˜ao, que qualquer conjunto de vectores {v1, v2, . . . , vm} gera um subespa¸co.

Exemplo 2 :

Todas as combina¸c˜oes lineares do vector v1 s˜ao vectores colineares com v1. Isto significa

que o subespa¸co gerado pelo vector v1 (span {v1}) ´e a recta que o cont´em.

x2

x1

span{v1}

v1

Figura 3: O subespa¸co gerado por v1 ´e a recta span{v1}

Exemplo 3 :

O subespa¸co definido pelo conjunto de vectores {v1, v2} ´e o plano que cont´em v1 e v2

(span{v1, v2}) se estes vectores forem linearmente independentes. Se forem dependentes ´e a

recta que os cont´em.

A dimensão dum subespa¸co é o número de vectores linearmente independentes que são necessários para o gerar. Assim, qualquer recta que passe pela origem é um subespa¸co de

(6)

00000000000000000000

11111111111111111111

x1 x2 x3 span {v₁_{, v} 2} v2 v1

Figura 4: O subespa¸co gerado por v1 e v2 ´e o plano span{v1, v2}

dimensão um, pois, pode ser gerada por um único vector. Qualquer plano que contenha a origem é um subespa¸co de dimensão dois (pode ser gerado por dois vectores linearmente independentes).

Seja S um subespa¸co de IRn _{com dimens˜ao p. Qualquer conjunto de vectores}

indepen-dentes {v1, v2, . . . , vp} pertencentes a S ´e uma base de S. Deste modo, qualquer elemento x ∈ S pode ser representado pela combina¸c˜ao linear

x = β1v1 + β2v2+ · · · + βpvp

em que β1, β2, . . . , βps˜ao as componentes (coordenadas) de x relativamente `a base {v1, v2, . . . , vp}.

Notemos que qualquer subespa¸co S tem um número infinito de bases. No entanto, o número de elementos de cada base é sempre igual à dimensão de S.

Sejam x, y ∈ IRn_{. Se x}T_{y = y}T_{x = 0 dizemos que x e y s˜ao ortogonais o que representamos}

(7)

y⊥S. O conjunto de todos os vectores perpendiculares a S ´e o complemento ortogonal de S

e ´e representado por S⊥_{. Formalmente, podemos definir S}⊥ _por

S⊥₌©_{y ∈ IR}n_{: y}T_{x = 0, ∀x ∈ S}ª_.

Pode-se provar que S⊥ _{´e um subespa¸co de IR}n _{mesmo que S o n˜ao seja.}

Sejam S e V subespa¸cos de IRn_{. A soma de S e V, designada por S ∨ V, ´e o subespa¸co}

gerado por todos os elementos de S e V. A sua defini¸c˜ao formal ´e S ∨ V = {x + y : x ∈ S ∧ y ∈ V} .

´

E importante assinalar que este subespa¸co não é a união de S e V (S∪V não é um subespa¸co). Se S ∩ V = {0}, designamos S ∨ V por soma directa. Se, para quaisquer vectores x ∈ S,

y ∈ V, yT_{x = 0, dizemos que S ´e ortogonal a V o que representamos por S⊥V. Neste caso,}

S ∨ V ´e a soma ortogonal directa e ´e representada por S ⊕ V.

Para qualquer subespa¸co S ∈ IRn _{existe uma ´unica decomposi¸c˜ao IR}n _{= S ⊕ S}⊥_{. Isto}

significa que para todo z ∈ IRn _{existe uma ´unica decomposi¸c˜ao z = x + y em que x ∈ S e} y ∈ S⊥_.

3 Subespa¸cos Associados a Matrizes e Decomposi¸c˜

ao

QR

Dado um conjunto de vectores em IRn _{como ´e que podemos verificar se s˜ao linearmente}

independentes? A forma mais simples é formar uma matriz cujas colunas (ou linhas) são as coordenadas desses vectores e calcular a sua caracter´ıstica (recordemos que a caracter´ıstica duma matriz é o seu número de linhas ou colunas linearmente independentes).

Exemplo 4 : Sejam v1 =       1 2 3 4 5       e v2 =       3 6 9 12 15       dois vectores em IR 5_{. Se formarmos a matriz} M = £ v1 v2 ¤ =       1 3 2 6 3 9 4 12 5 15      

(8)

podemos ver que car(M) = 1 e concluir que v1 e v2 são linearmente dependentes (é fácil ver

que v2 = 3v1 e que, consequentemente, estes dois vectores s˜ao colineares).

Como car(MT_{) = car(M) chegar´ıamos ao mesmo resultado atrav´es do c´alculo da} carac-ter´ıstica de MT ₌ · vT 1 vT 2 ¸ = · 1 2 3 4 5 3 6 9 12 15 ¸ .

Uma forma interessante de vermos uma matriz A ∈ IRn×m_{, ´e encarar as suas colunas (ou as}

suas linhas) como um conjunto de vectores que geram um subespa¸co em IRn_{(ou IR}m _{no caso}

das linhas). Deste modo, podemos associar a A dois subespa¸cos:

• 1 - Subespa¸co gerado pelas suas colunas (column-space) que designaremos por im(A) (im-agem de A);

• 2 - Subespa¸co gerado pelas suas linhas (row-space) que designaremos por im(AT_{) (imagem}

de AT_);

Consideremos agora um vector x ∈ IRm_{. Se multiplicarmos A por x vamos obter um vector}

em IRn_{, isto ´e,} v = Ax ∈ IRn

Podemos, então, afirmar que a matriz A define uma transforma¸cão do espa¸co IRm para IRn (IRm → IRn). Sendo A = £ a1 a2 · · · am ¤ em que ai ∈ IRn, i = 1, . . . , m e x =      x1 x2 ... xm      então v = Ax = £ a1 a2 · · · am ¤      x1 x2 ... xm     = a1x1+ a2x2+ · · · + amxm,

(9)

ou seja, v = Ax é uma combina¸cão linear das colunas de A, cujos coeficientes são os elementos

x1, x2, . . . , xm de x. Deste modo, v pertence sempre ao subespa¸co gerado pelas colunas de A,

isto é, im(A). Se as colunas de A forem linearmente independentes, então constituem uma base para im(A). Nestas condi¸cões, diz-se que A é uma matriz de caracter´ıstica completa (car(A) = m = número de colunas). Identicamente, AT _{define uma transforma¸cão IR}n _→

IRm, sendo a imagem dessa transforma¸c˜ao (im(AT_{)) o subespa¸co gerado pelas linhas de A.}

Se as linhas de A constitu´ırem uma base de im(AT_{), ent˜ao A}T _{e, consequentemente A, s˜ao}

matrizes de caracter´ıstica completa. Assim, A ∈ IRn×m _{´e uma matriz de caracter´ıstica}

completa se e s´o se

car(A) = n ou car(A) = m ⇔ car(A) = min(n, m)

Notemos que, sendo v = Ax uma combina¸c˜ao linear das colunas de A, podemos exprimir

v atrav´es duma outra combina¸c˜ao linear de outro conjunto de vectores que gere a imagem

de A. Isto significa que podemos escrever

v = Ax = ¯A¯x

em que im( ¯A) = im(A) e ¯x s˜ao os coeficientes da referida combina¸c˜ao linear das colunas

de ¯A. Aqui a única restri¸cão é car( ¯A) = car(A) e, consequentemente, o número de colunas

de ¯A, igual ao número de linhas de ¯x, não tem que ser igual ao número de colunas de A.

Frequentemente procuramos que as colunas de ¯A sejam uma base que, termos num´ericos,

seja o mais robusta poss´ıvel. A robustez m´axima ´e alcan¸cada quando as colunas de ¯A

constituem uma base ortonormal, isto é, quando são um conjunto de vectores com módulo unitário e perpendiculares entre si. Matrizes cujas colunas formam uma base ortonormal são chamadas matrizes ortonormais e são frequentemente designadas pela letra Q. Notemos que se Q ∈ IRn×m for uma matriz ortonormal então

QTQ = Im

Se Q for uma matriz quadrada (m = n) ent˜ao

QTQ = Im = In⇔ Q−1 = QT.

´

E esta propriedade que faz com que estas matrizes sejam numericamente muito robustas e que frequentemente se procure representar im(A) atrav´es destas matrizes. Uma das formas

(10)

mais utilizadas na álgebra linear para atingir este objectivo é a decomposi¸cão QR, onde uma matriz A ∈ IRn×m _{com n ≥ m e car(A) = r, é decomposta no produto de matrizes}

A = Q · R 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ = QRR em que Q = £ QR Q¯R ¤ ∈ IRn×n _{com Q}

R ∈ IRn×r e ¯QR ∈ IRn×(n−r). Q ´e uma matriz

ortonormal (QT_{Q = I}

n) e, consequentemente, QR e ¯QR tamb´em o s˜ao (QTRQR = Ir e

¯

QT

RQ¯R = In−r), sendo im( ¯QR) o complemento ortogonal de im(QR) o que representamos por

¯

QR= Q⊥R. R ∈ IRr×r ´e uma matriz triangular superior.

Exemplo 5 : Transforma¸c˜ao QR na resolu¸c˜ao do sistema de equa¸c˜oes Ax = y

Consideremos o sistema de equa¸c˜oes Ax = y

em que A ∈ IRn×n_{, x, y ∈ IR}n _{e car(A) = n. Fazendo uma decomposi¸c˜ao QR teremos} QRx = y ⇔ Rx = QTy

ficando este sistema de equa¸c˜oes reduzido a

     r11 r12 · · · r1n 0 r22 · · · r2n ... ... ... ... 0 0 · · · rnn           x1 x2 ... xn     =      ¯ y1 ¯ y2 ... ¯ yn      em que ¯ y =      ¯ y1 ¯ y2 ... ¯ yn     = Q T_y.

Como R ´e uma matriz triangular superior, as solu¸c˜oes xn, xn−1, . . . , x1 podem ser calculadas

recursivamente por substitui¸cão à retaguarda (back substitution), come¸cando por xn = _ry¯_nnn . Com este processo, substitu´ımos a inversão de A pela transposi¸cão de Q e pela inversão da matriz triangular superior R, que são opera¸cões numericamente mais robustas.

Exemplo 6 : Resolu¸c˜ao do problema de m´ınimos quadrados

O problema de m´ınimos quadrados consiste no c´alculo de vector θ ∈ IRm que minimiza kY − Xθk₂ = (Y − Xθ)T_{(Y − Xθ)}

(11)

com Y ∈ IRn_{, X ∈ IR}n×m_{, n ≥ m e car(X) = m. Efectuando a seguinte decomposi¸c˜ao QR} de X X = Q   R_{− − −−} 0(n−m)×m   _{Q ∈ IR}n×n_, _{R ∈ IR}m×m

e, uma vez que Q ´e uma matriz ortonormal quadrada e que consequentemente QQT _{= I}_n, teremos kY − Xθk₂ = (Y − Xθ)T_{(Y − Xθ) = (Y − Xθ)}T_QQT_{(Y − Xθ) =} £ QT(Y − Xθ)¤T £QT(Y − Xθ)¤ =°°QTY − QTXθ)°°₂ = ° ° ° ° · _¯ Y1 ¯ Y2 ¸ − QTQ · R 0(n−m)×m ¸ θ ° ° ° ° 2 = ° ° ° ° · _¯ Y1 ¯ Y2 ¸ − · R 0(n−m)×m ¸ θ ° ° ° ° 2 = ° ° ° ° · _¯ Y1− Rθ ¯ Y2 ¸°_° ° ° 2 = h ( ¯Y1 − Rθ)T Y¯2T i · ¯Y1− Rθ ¯ Y2 ¸ = = ( ¯Y1− Rθ)T( ¯Y1− Rθ) + ¯Y2TY¯2 = ° ° ¯_Y₁ _{− Rθ}°° 2+ ° ° ¯_Y₂°° 2 em que · _¯ Y1 ¯ Y2 ¸ = QT_Y, _Y_¯ 1 ∈ IRm, Y¯2 ∈ IRn−m.

A solu¸cão do problema de m´ınimos quadrados será, então, a solu¸cão do sistema de equa¸cões Rˆθ = ¯Y1

idˆentico ao do exemplo anterior. Como, para θ = ˆθ, ¯Y1− Rθ = 0m, ent˜ao min kY − Xθk2 =

kY2k2.

Existem várias formas de obter uma decomposi¸cão QR sendo, talvez, as transforma¸cões de Householder e a ortogonaliza¸cão de Gram-Schimdt, os métodos mais utilizados.

Além de im(A), também se define o subespa¸co Núcleo de A (kernel ou null space em inglês) designado por ker(A) e que é definido por

ker(A) = {x : Ax = 0n} ,

ou seja, o subespa¸co de IRm que é transformado na origem (de IRn) pela matriz A ∈ IRn×m. Como este subespa¸co é formado por todos os vectores perpendiculares às linhas de A, pode-mos afirmar que ker(A)⊥im(AT_{), sendo, por isso, ker(A) ∩ im(A}T_{) = 0}

(12)

como a dimensão do núcleo duma matriz é igual ao seu número de colunas (m) menos a sua caracter´ıstica, então, dim [ker(A)] + dim£im(AT₎¤ _{= m e, consequentemente,}

ker(A) ⊕ im(AT_{) = R}m _{⇒ ker(A) = im(A}T₎⊥_.

Identicamente, o n´ucleo de AT_{, designado por ker(A}T_{), ´e o complemento ortogonal de im(A).}

4 Decomposi¸c˜

ao em Valores Singulares

Na decomposi¸cão QR é explicitada uma base ortonormal para a imagem duma matriz A. Nesta seçcão iremos ver a decomposi¸cão em valores singulares onde, além duma base ortonor-mal para este subespa¸co, também são explicitadas bases ortonormais para a imagem de AT

e para os n´ucleos de A e AT_{. Antes de introduzirmos esta decomposi¸c˜ao vamos recordar a}

diagonaliza¸c˜ao de matrizes sim´etricas.

Lema 1

Se B ∈ IRn×n for uma matriz simétrica, isto é, se BT _{= B, então pode ser decomposta na} forma B = UBΛBUBT em que ΛB =      λ1 0 · · · 0 0 λ2 · · · 0 ... ... ... ... 0 0 · · · λn      (1) UBUBT = UBTUB = In (2) ou seja, ΛB é uma matriz diagonal e UB uma matriz ortonormal.

Demonstra¸c˜ao:

Como B é simétrica os seus valores próprios são reais e é diagonalizável. Para simplificar, vamos admitir todos os valores próprios de B são distintos. Nestas condi¸cões podemos escrever

(13)

em que ΛB está definida em (1) e T é uma matriz cujas colunas são os vectores próprios de B. Definindo UB = T det(T ) ⇔ U −1 B = det(T )T−1 podemos escrever B = T ΛBT−1 = UBΛBUB−1. (3)

Como B = BT _{podemos concluir que}

B = UBΛBUB−1 = UB−TΛBUBT ⇒ UB−1 = UBT ⇔ UBUBT = UBTUB= In.

Se B tiver valores próprios repetidos as suas multiplicidades algébrica e geométrica são iguais, continuando a expressão(3) a ser válida para estes casos.

2

Estamos agora em condi¸c˜oes de apresentar a decomposi¸c˜ao em valores singulares.

Teorema 1 : Decomposi¸c˜ao em valores singulares (svd)

Se A ∈ IRn×m _{tiver caracter´ıstica r ≤ min(n, m) ent˜ao existem duas matrizes ortonormais} U ∈ IRn×n e V ∈ IRm×m tal que A = U · S+ 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ VT ₍₄₎ S+ =      σ1 0 · · · 0 0 σ2 · · · 0 ... ... ... ... 0 0 · · · σr     ∈ IR r×r ₍₅₎ com σ1 ≥ σ2 ≥ · · · ≥ σr> 0. Demonstra¸c˜ao:

Como a matriz AT_{A ∈ R}m×m _{´e sim´etrica e, pelo menos, semidefinida positiva, pode ser}

decomposta na forma AT_{A = V Λ} AVT ΛA =      λ1 0 · · · 0 0 λ2 · · · 0 ... ... ... ... 0 0 · · · λm      λi ≥ 0, i = 1, . . . , m. V VT _{= V}T_{V = I} m

(14)

Sendo car(A) = r ≤ m, podemos definir λ1 ≥ λ2 ≥ · · · > λr > 0, λr+1 = λr+2 = · · · = λm =

0 e σi = √

λi, i = 1, . . . , m. As colunas de V são vectores próprios de ATA, isto é, V = £ v1 v2 · · · vm

¤

AT_Av

i = λivi = σi2vi, i = 1, . . . , m.

Se Vr ∈ IRm×r for a matriz cujas colunas s˜ao os vectores pr´oprios associados aos valores

próprios não nulos e ¯Vr ∈ IRm×(m−r) a matriz com as restantes colunas de V , ou seja, Vr = £ v1 v2 · · · vr ¤ (6) ¯ Vr = £ vr+1 vr+2 · · · vm ¤ , (7) então AT_AV r = ATA £ v1 v2 · · · vr ¤ =£ AT_Av 1 ATAv2 · · · ATAvr ¤ (8) = £ σ2 1v1 σ22v2 · · · σ2rvr ¤ =      σ2 1 0 · · · 0 0 σ2 2 · · · 0 ... ... ... ... 0 0 · · · σ2 m      £ v1 v2 · · · vr ¤ = S₊2Vr AT_{A ¯}_V r = ATA £ vr+1 vr+2 · · · vm ¤ =£ AT_Av r+1 ATAvr+2 · · · ATAvm ¤ = = £ 0m 0m · · · 0m ¤ = 0m×(m−r) (9)

onde S+ ´e a matriz definida em (5). Seja

Ur = AVrS₊−1 ∈ IRn×r. (10)

Pr´e-multiplicando Ur pelo seu transposto

U_rTUr = (AVrS₊−1)T(AVrS₊−1) = (S₊−1V_rTAT)(AVrS₊−1) = S−1

+ VrT(ATAVr)S+−1 = S+−1VrT(VrS+2)S+−1

= S−1

+ (VrTVr)(S+2S+−1) = S+−1S+ = Ir

verificamos que Uré uma matriz ortonormal cujas colunas geram um subespa¸co de dimensão r em IRn. Se ¯Ur for uma matriz ortonormal cuja imagem é o complemento ortogonal da

imagem de Ur ( ¯Ur = Ur⊥), ent˜ao

(15)

isto é, a imagem de ¯Ur também é o complemento ortogonal de A, o que nos permite concluir

que im(Ur) = im(A) e que, consequentemente, as colunas de Ur s˜ao uma base ortonormal de

im(A). Definindo U = £ Ur | ¯Ur ¤ (11) podemos calcular UTAV = · UT r ¯ UT r ¸ A£ Vr | ¯Vr ¤ = · UT r A ¯ UT r A ¸ £ Vr | ¯Vr ¤ = · UT r AVr UrTA ¯Vr ¯ UT r AVr U¯rTA ¯Vr ¸ .(12) Como UT

r Ur = Ir, ent˜ao, substituindo, nesta equa¸c˜ao, Ur pelo seu valor definido em (10),

teremos

U_rTAVrS₊−1 = Ir ⇒ UrTAVr = S+.

Por outro lado, fazendo a mesma substitui¸cão no bloco (1, 2) da última matriz na expressão (12), podemos escrever

UT

r A ¯Vr = (AVrS+−1)TA ¯Vr = S+−1VrT(ATA ¯Vr) = 0(n−r)×(m−r)

pois, de (9), AT_{A ¯}_V

r = 0m×(m−r). Finalmente, como as colunas de ¯Ur geram o complemento

ortogonal do subespa¸co gerado pelas colunas de A, ¯ U_rTAVr = 0(n−r)×r ¯ UT r A ¯Vr = 0(n−r)×(m−r). Deste modo, UTAV = · S+ 0r×(m−r) 0(n−r)×r) 0(n−r)×(m−r) ¸ . Como UUT _{= I}

n e V VT = Im, pr´e-multiplicando e p´os-multiplicando UTAV por U e VT,

respectivamente, obtemos U(UTAV )VT = U · S+ 0r×(m−r) 0(n−r)×r) 0(n−r)×(m−r) ¸ VT = (UUT)A(V VT) = A ficando assim conclu´ıda a demonstra¸c˜ao.

2 Normalmente define-se S = · S+ 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ ∈ IRn×m

(16)

e exprime-se a decomposi¸c˜ao em valores singulares na forma

A = USVT_.

Se n > m, ou seja, se A tiver mais colunas do que linhas, ent˜ao

S =            σ1 0 · · · 0 0 σ2 · · · 0 ... ... ... ... 0 0 · · · σm 0 0 · · · 0 ... ... ... ... 0 0 · · · 0            e se n < m, S =      σ1 0 · · · 0 0 · · · 0 0 σ2 · · · 0 0 · · · 0 ... ... ... ... ... ... ... 0 0 · · · σn 0 · · · 0     

Os elementos da diagonal principal de S est˜ao ordenados por ordem decrescente, isto ´e,

σ1 ≥ σ2 ≥ · · · ≥ σp, com p = min(n, m), e s˜ao designados por valores singulares de A. Na

demonstra¸cão da decomposi¸cão em valores singulares vimos que estes são as ra´ızes quadradas positivas de valores próprios de AT_{A. ´}_{E fácil demonstrar que os valores singulares são as}

ra´ızes quadradas positivas dos valores pr´oprios de AT_{A quando n ≥ m e dos valores}

pr´oprios de AAT _{quando n ≤ m. S}

+, definida em (5), ´e a matriz dos valores singulares

n˜ao nulos. Como car(S) = car(S+), ent˜ao car(A) = car(S+), ou seja, a caracter´ıstica duma

matriz é igual ao número de valores singulares não nulos pois, U e V são matrizes não singulares1_{. Vimos, também, que V é uma matriz (ortonormal) cujas colunas são os vectores}

próprios de AT_{A. pode-se provar, identicamente, que U é uma matriz cujas colunas são}

os vectores próprios de AAT_{. As colunas de U e V também são designadas por vectores}

singulares de A. As de U, são os vectores singulares á esquerda e as de V , os vectores singulares à direita.

Utilizando as decomposi¸c˜oes de V e U definidas em (6)-(7) e (11), respectivamente, podemos rescrever a decomposi¸c˜ao em valores singulares na forma

A = £ Ur | ¯Ur ¤· _S₊ ₀_r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ · VT r ¯ VT r ¸ =£ UrS+ | 0n×(m−r) ¤· _VT r ¯ VT r ¸ = = UrS+VrT.

1_{Recordemos que matrizes não singulares são matrizes de caracter´ıstica completa e que se G for uma} matriz de caracter´ıstica completa então a caracter´ıstica de F = GH é igual à caracter´ıstica de H.

(17)

Chegamos assim à forma reduzida da decomposi¸cão em valores singulares. • Se, na transforma¸cão IRm _{→ IR}n _{z = Ax, definirmos ¯}_{x = S}

+VrTx, teremos z = Ax = Urx.¯

Com car(A) = car(Ur), A e Ur tˆem a mesma imagem e , consequentemente, as colunas

de Ur s˜ao uma base ortonormal do subespa¸co gerado pelas colunas de A (im(A)). Como AT _{= V}_rS

+UrT, conclu´ımos, identicamente, que im(Vr) = im(AT) e que as colunas de Vr

são uma base ortnormal para o subespa¸co gerado pelas linhas de A. • Dado que as colunas de ¯Vr são perpendiculares às de Vr,

A ¯Vr = UrS+VrTV¯r = 0n×(m−r),

o que nos permite afirmar que as colunas de ¯Vr pertencem ao n´ucleo de A (ker(A)). Como

car( ¯Vr)=car (ker(A)) = m − r, ent˜ao im( ¯Vr) = ker(A), sendo as colunas de ¯Vr uma base

ortonormal do n´ucleo de A. Analogamente, as colunas de ¯Ur s˜ao uma base ortonormal do

n´ucleo de AT_. Resumindo, im(Ur) = im(A) im(Vr) = im(AT) im( ¯Vr) = ker(A) im( ¯Ur) = ker(AT).

5 Norma Quadr´

atica de Matrizes

Os vectores dum espa¸co IRns˜ao habitualmente definidos pela combina¸c˜ao linear dos vectores

ei =              0 0 ... 0 1 0 ... 0              ∈ IRn ig´esima linha i = 1, . . . , n,

(18)

que formam a base can´onica de IRn_{. Seja U =} £ _u 1 u2 · · · un ¤ ∈ IRn _{uma matriz} ortonormal. Como In = £ e1 e2 · · · en ¤ = UTU = UT £ u1 u2 · · · un ¤ =£ UT_u 1 UTu2 · · · UTun ¤ podemos concluir que

UTui = ei.

Isto significa que a transforma¸c˜ao UT_{x roda os eixos da base ortonormal {u}

1, . . . , un} para

os eixos da base canónica {e1, . . . , en}. Por outras palavras, a transforma¸cão UTx é uma

rota¸c˜ao que alinha os eixos u1, . . . , un com e1, . . . , en. Assim, chamaremos alinhador `a

matriz UT_.

Exemplo 7 : Alinhador no espa¸co IR2 Se

U = £ u1 u2

¤

for uma matriz ortogonal em IR2 ent˜ao UT_u 1 = · uT 1 uT 2 ¸ u1 = · uT 1u1 uT 2u1 ¸ = · 1 0 ¸ = e1 UT_u 2 = · uT 1 uT 2 ¸ u2 = · uT 1u2 uT 1u2 ¸ = · 0 1 ¸ = e2

pois, sendo U uma matriz ortonormal, as suas colunas u1 e u2 têm módulo unitário e são

mutuamente ortogonais. Podemos, então, concluir, que esta transforma¸cão roda todos os vectores de um ângulo θ (ângulo que u1 faz com e1 (ver figura 5). Seja agora

x = α1u1+ α2u2 O vector z = UT_{x ser´a} z = UT_(α 1u1+ α2u2) = α1UTu1+ α2UTu2 = α1e1+ α2e2 = · α1 α2 ¸

ou seja, z ´e um vector cujas coordenadas s˜ao as de x no referencial definido pelos vectores u1 e u2 (ver figura 5). Verificamos, assim, que os eixos de u1 e u2 foram alinhados pelos de

e1 e e2 e que, consequentemente, UT ´e o alinhador do referencial constitu´ıdo pelos vectores

(19)

x UT_x u1 u2 α1u1 α2u2 1 1 −1 φ −1 θ −1 −1 α2e2 α1e1 1 φ 1 e1 = UTu1 e2 = UTu2 UT

Figura 5: UT _{´e o alinhador de {u}

1, u2} no espa¸co IR2 Como U = £ u1 u2 · · · un ¤ = UIn = U £ e1 e2 · · · en ¤ , ent˜ao Uei = ui, i = 1, . . . , n.

Vemos, deste modo, que a transforma¸c˜ao y = Ux roda os eixos da base can´onica {e1, . . . , en}

para os da base ortonormal {u1, . . . , un}. Como os eixos da base can´onica s˜ao pendurados

nos da base ortonormal, chamaremos cabide a U.

Exemplo 8 : Cabide no espa¸co IR2

Dado que a matriz U, definida no exemplo anterior, é ortonormal, U−1 _{= U}T_. Consequente-mente z = UT_{x e x = Uz são transforma¸cões inversas. Se a transforma¸cão definida por U}T roda as colunas u1 e u2 de U para e1 e e2, respectivamente, então a que é definida por U

roda e1 e e2 para u1 e u2. O vector

z =

·

α1

α2

¸

´e transformado no vector x = Uz =£ u1 u2

¤· _α₁

α2

¸

= α1u1+ α2u2.

Podemos, ent˜ao, afirmar que as coordenadas α1 e α2 de z foram penduradas em u1 e u2 pelo

(20)

z Uz −1 −1 α2e2 α1e1 1 e1 φ e2 1 U α1u1 α2u2 1 1 −1 φ −1 θ u1 = Ue1 u2 = Ue2

Figura 6: U ´e o cabide em {u1, u2} no espa¸co IR2

Seja D ∈ IRn×n _{uma matriz diagonal, isto ´e,}

D =      d1 0 · · · 0 0 d2 · · · 0 ... ... ... ... 0 0 · · · dn     .

Se multiplicarmos D, ´a direita, pelo vector

x =      α1 α2 ... αn      obtemos xd =      d1α1 d2α2 ... dnαn     

onde as coordenadas nos eixos de e1, e2, . . . , enest˜ao multiplicadas pelos elementos d1, d2, . . . , dn,

respectivamente, de D. podemos afirmar, ent˜ao, que as coordenadas de x foram deformadas pelos elementos de D e designaremos D por deformador .

Exemplo 9 : Deformador no espa¸co IR2

Seja D = · 1 0 0 0, 5 ¸

(21)

uma matriz diagonal em IR2×2 _{e C}

2(1) = {x : kxk2 = 1}, isto ´e, a circunferˆencia de raio

unitário. A transforma¸cão z = Dx transforma esta circunferência numa elipse E2(1, 0.5)

com semi-eixos de comprimento 1 e 0, 5. Vemos, assim, que a circunferˆencia C2 foi

defor-mada pelo deformador D.

D 1 e1 e2 −0, 5 0, 5 −1 −1 −1 ₁ C2(1) e2 1 e1

Figura 7: D ´e um deformador no espa¸co IR2

Como, atrav´es da decomposi¸c˜ao em valores singulares, podemos decompor uma matriz na forma

A = UrS+VrT

onde Ur e Vr s˜ao matrizes ortonormais e S+ ´e uma matriz diagonal, podemos ver a

trans-forma¸c˜ao

z = Ax = UrS+VrTx

como a sequˆencia das seguintes opera¸c˜oes:

• Alinhamento dos eixos de v1, v2, . . . , vr com os eixos de e1, e2, . . . , er da base can´onica

efectuado pelo alinhador VT r

• Deforma¸c˜ao da novas coordenadas de x pelo deformador S+.

• Suspens˜ao das novas coordenadas deformadas de x no cabide Ur.

Por outras palavras, os eixos v1, v2, . . . , vr s˜ao deformados de σ1, σ2, . . . , σr e rodados para u1, u2, . . . , ur.

(22)

Exemplo 10 : Transforma¸c˜ao de uma elipse de IR2 _{para IR}2 _{por uma matriz} A matriz A = · 1, 44 0, 92 0, 08 1, 44 ¸

com a seguinte decomposi¸c˜ao em valores singulares A = · 0, 8 −0, 6 0, 6 0, 8 ¸ · 2 0 0 1 ¸ · 0, 6 0, 8 −0, 8 0, 6 ¸

transforma a elipse com os eixos alinhados com v1 = · 0.6 −0.8 ¸ e v2 = · 0.8 0.6 ¸

de comprimentos 4 e 2, respectivamente, numa outra elipse com os eixos alinhados com u1 = · 0.8 0.6 ¸ e u2 = · −0.6 0.8 ¸ e comprimentos 8 e 2.

Exemplo 11 : Transforma¸c˜ao da hiperesfera de raio unit´ario

A hiperesfera de ordem m de raio unitário é transformada pela matriz A ∈ IRn×m com decomposi¸cão em valores singulares

A =£ u1 u2 · · · ur ¤      σ1 0 · · · 0 0 σ2 · · · 0 ... ... ... ... 0 0 · · · σr           vT 1 vT 2 ... vT r     

numa elipsoide de ordem r, com semi-eixos de comprimentos σ1, σ2, . . . , σr alinhados com os vectores u1, u2, . . . , ur.

A norma quadr´atica duma matriz A ∈ IRn×m _{´e designada por kAk}

2 e definida por

kAk2 = sup

kxk2=1

kAxk2

isto é, é o módulo do maior vector z = Ax quando x tem módulo unitário. Como a hiperesfera de ordem m de raio unitário é transformada por A numa elipsóide com semi-eixos de compri-mentos iguais aos seus valores singulares, então o maior vector z = Ax desta transforma¸cão tem o módulo igual ao do maior valor singular de A e, consequentemente,

(23)

A 1 1 1 σ3u3 σ1u1 σ2u2

Figura 8: Transforma¸cão da esfera unitária numa elipsóide em IR3 por uma matriz

A ∈ IR3×3 _{com vectores singulares `a esquerda u}

1, u2 e u3 e valores singulares σ1, σ2 e σ3.

Exemplo 12 : Norma quadr´atica duma matriz 2 por 2 Como a matriz A = · 1, 44 0, 92 0, 08 1, 44 ¸

com a seguinte decomposi¸c˜ao em valores singulares A = · 0, 8 −0, 6 0, 6 0, 8 ¸ · 2 0 0 1 ¸ · 0, 6 0, 8 −0, 8 0, 6 ¸

transforma a circunferência unitária numa elipse com semi-eixos de comprimentos 2 e 1, então

kAk2 = 2 = maior valor singular de A

6 Aproxima¸c˜

ao de uma Matriz por Outra de

Carac-ter´ıstica Inferior

Seja A uma matriz com caracter´ıstica r pertencente a IRn×m _{em que n > m. A sua}

decom-posi¸c˜ao em valores singulares

(24)

A 1 1 −1 −1 2 = kAk2 σ1u1 = 2u1 σ2u2 = u2

Figura 9: A norma da matriz A é o comprimento do maior semi-eixo da elipse em que é transformada a circunferência de raio unitário

permite-nos chegar à decomposi¸cão diática, dada por

A = m

X

i=1

σiuivTi

Para x = αjvj, um vector na direc¸c˜ao de vj, teremos Ax = m X i=1 σiuivT_i x = m X i=1 σiαjuiv_iTvj = σjαjujvTjvj = σjαjuj

pois vj tem módulo unitário e é perpendicular a vi para i 6= j. Esta expressão evidencia

o facto mencionado na seçcão anterior, de que os pontos no eixo de vj são reescalados

(deformados) de um factor σj e rodados para o eixo de uj.

Consideremos, agora, um vector x com componentes em todos os eixos vi, i = 1, . . . , m,

ou seja,

x = α1v1+ α2v2+ · · · + αrvr+ αr+1vr+1+ · · · + αmvm.

Se car(A) = r e r < m, ent˜ao σr+1 = σr+2 = · · · = σm = 0, significando isto que as

componentes αr+1vr+1, αr+2vr+2, . . . , αmvm est˜ao no n´ucleo de A sendo, por isso, eliminadas

na transforma¸c˜ao Ax. Teremos, assim,

(25)

Se os valores singulares σk+1, . . . , σr forem muito pequenos, podemos fazer Ax ≈ α1σ1u1+ σ2α2u2+ · · · + σkαkuk= Akx, em que Ak= £ u1 u2 · · · uk ¤      σ1 0 · · · 0 0 σ2 · · · 0 ... ... ... ... 0 0 · · · σk           vT 1 vT 2 ... vT k     . O erro desta aproxima¸c˜ao ´e

Ax − Akx = (A − Ak) x = σk+1αk+1uk+1+ σk+2αk+1uk+2+ · · · + αrσrur, sendo kAx − Akxk2 = q σ2 k+1α2k+1+ σk+22 αk+22 + · · · + σ2rαr2

pois uk+1, uk+2, . . . , ur s˜ao vectores de norma unit´aria mutuamente ortogonais. Como

(Ax − Akx)TAkx = (σk+1αk+1uk+1+ · · · + αrσrur)T(σ1α1u1+ · · · + αkσkuk) =

= σk+1αk+1uTk+1(σ1α1u1+ · · · + αkσkuk) + · · · +

+σrαruTr (σ1α1u1+ · · · + αkσkuk) =

= σk+1αk+1σ1α1uTk+1u1+ · · · + σk+1αk+1σkαkuTk+1uk+ · · · +

+σrαrσ1α1uTru1+ · · · + σrαrσkαkuTruk = 0,

Ax − Akx e Akx são ortogonais. Isto significa que Akx é a projeçcão ortogonal de Ax

no subespa¸co gerado por u1, u2, . . . , uk, sendo, por isso, a sua melhor aproxima¸c˜ao neste

subespa¸co e , consequentemente, im(Ak) é a melhor aproxima¸cão de dimensão k do subespa¸co

im(A).

Se z ∈ IRn _{for decomposto na forma} z = β1u1+ β2u2+ · · · + βnun,

podemos concluir , de forma semelhante, que AT

kz ´e a melhor aproxima¸c˜ao de ATz no

sube-spa¸co gerado por v1, v2, . . . vk sendo im(ATk) a melhor aproxima¸c˜ao de dimens˜ao k de im(AT)

Como im(Ak) e im(ATk) s˜ao as melhores aproxima¸c˜oes de im(A) e im(AT),

(26)

7 Projec¸c˜

oes Ortogonais de Subespa¸cos

Sejam x e y dois vectores em IRn. A projec¸c˜ao ortogonal de y em x, que designaremos por

y\x é um vector na direçcão de x com módulo kyk2cos φ em que φ é o ângulo entre y e x.

Sendo o produto interno entre x e y dado por

−1 φ y x y\x y − y\x ex 1 1 −1

Figura 10: Projec¸c˜ao ortogonal de y em x.

xT_{y = kxk}

2kyk2cos φ, (13)

podemos exprimir y\x na forma y\x = ex

xT_y kxk2

em que ex é um vector unitário na direçcão de x, ou seja, ex=

x kxk2

.

Substituindo ex pelo seu valor em (13), teremos y\x = x xT_y kxk2 2 = xkxk−2 2 xTy. Como kxk2 2 = xTx

podemos, finalmente, escrever,

y\x = x

¡

(27)

Como y − y\x é perpendicular a x, então y\x é a melhor aproxima¸cão na direçcão de x.

Notemos, ainda, que a projeçcão y\x é uma combina¸cão linear de x, isto é, y\x = xˆθ

em que ˆ

θ = ¡xT_x¢−1_xT_y.

Vemos, assim, que ˆθ ´e o estimador de m´ınimos quadrados

ˆ

θ = min ky − xθk₂. θ

Se x for um vector na direçcão de um dos vectores da base canónica, isto é, se x =

Kxei, Kx ∈ IR, ent˜ao y\x = (Kxei) £ (Kxei)T(Kxei) ¤−1 (Kxei)Ty = Kxei ¡ K2 xeTi ei ¢−1 KxeTi y = = Kx(Kx)−2Kxei ¡ eT i ei ¢₋₁ eT i y = eieTi y = = i        0 0 · · · 0 · · · 0 ... ... ... ... ... ... 0 0 · · · 1 · · · 0 ... ... ... ... ... ... 0 0 · · · 0 · · · 0        i        y1 ... yi ... yn        =        0 ... yi ... 0        = yiei

Como esta expressão é independente de Kxa projeçcão y\x, depende unicamente da direçcão

de x, ou seja, y\z = y\x para qualquer z na direçcão de x. Vemos, deste modo, que projectar y em x é o mesmo que projectar y no subespa¸co gerado por x.

Vamos agora ver o que acontece quando x é um vector com direçcão arbitrária. Come-cemos por definir uma base ortonormal {u1, . . . , un} em que x = Kxu1. A seguir podemos

efectuar as seguintes opera¸c˜oes • Alinhar u1 com e1.

• Projectar y em e1 no novo referencial.

(28)

1 −1 −1 1 e1 y1 y2 y Kxe1 y1e1

Figura 11: Projec¸c˜ao ortogonal de y no eixo de e1.

x e1 y u2 e2 _u₁ x e1 y u2 _u 1 e2 y\x UT_y Uu1 UT_u 2 UT_y\ UT_x UT_x

Figura 12: Projeçcão ortogonal de y em x: 1 - O plano é rodado para alinhar o eixo de x com o de e1. 2 - y rodado é projectado no eixo de e1. 3 - O plano é rodado para a posi¸cão

inicial.

Estas opera¸c˜oes traduzem-se na seguinte express˜ao

y\x = P y em que P = £ u1 u2 · · · un ¤      1 0 · · · 0 0 0 · · · 0 ... ... ... ... 0 0 · · · 0           uT 1 uT 2 ... uT n     = u1u T 1 (14)

Pode-se provar que P = x(xT_x)−1_xT_{. Como (14) é a decomposi¸cão em valores singulares de} P , conclu´ımos que esta matriz tem caracter´ıstica 1. Notemos que P é uma matriz simétrica

(29)

Suponhamos, agora, que pretendemos projectar y no plano gerado pelo par de vectores linearmente independentes x1 e x2. Seja {u1, u2} uma base ortonormal desse plano inclu´ıda

na base ortonormal {u1, u2, . . . , un}. Uma vez mais, a projeçcão pode ser feita através das

seguintes opera¸c˜oes:

• Alinhar u1 e u2 com e1 e e2, respectivamente.

• Projectar y no novo referencial no plano gerado e1 e e2.

• Pendurar e1 e e2 em u1 e u2, respectivamente.

tal como anteriormente, estas projeçcões traduzem-se na expressão

y\X = P y em que P = £ u1 u2 u3 · · · un ¤        1 0 0 · · · 0 0 1 0 · · · 0 0 0 0 · · · 0 ... ... ... ... ... 0 0 0 · · · 0               uT 1 uT 2 uT 3 ... uT n        = u1uT1 + u2uT2 (15) e X =£ x1 x2 ¤

. Pode-se provar que

P = X(XTX)−1XT

sendo (15) a decomposi¸c˜ao em valores singulares de P .

Podemos alargar este conceito de projeçcão de um vector num plano, ao da projeçcão dum subespa¸co noutro subespa¸co. Neste contexto, a projeçcão da imagem de Y na imagem de X em que Y = £ y1 · · · y` ¤ ∈ IRn×`, n > ` X = £ x1 · · · xm ¤ ∈ IRn×m_, _{n > m}

´e a imagem da matriz

Y \X = P Y (16) em que P = £ Ur U¯r ¤· _I_r ₀_r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸ · UT r ¯ UT r ¸ = UrUrT (17)

(30)

Se as colunas x1, . . . , xm de X forem linearmente independentes, ent˜ao r = m e P = X(XT_X)−1_XT

pois XT_{X é uma matriz não singular. Nestas condi¸cões, a projeçcão de Y em X é a}

com-bina¸c˜ao linear das colunas de X

Y \X = X ˆθ,

em que ˆθ tem uma s´o solu¸c˜ao, dada por

ˆ

θ = ¡XT_X¢−1_XT_Y, ₍₁₈₎

que podemos reconhecer como sendo o estimador de m´ınimos quadrados ˆ

θ = min kY − Xθk₂.

θ (19)

A projeçcão Y \X existe sempre mesmo quando as colunas de X não são linearmente

independentes. No entanto, (19) deixa de ter uma única solu¸cão pois XT_{X é singular.}

Como obter uma solu¸c˜ao θ nestas condi¸c˜oes? Se

X = UrS+VrT (20)

for a forma reduzida da decomposi¸c˜ao em valores singulares de X, e se em (18) substituirmos ¡ XT_X¢−1_XT _por X† _{= V} rS+−1UrT, (21) obtemos a estimador ˆ θ = X†_Y ₍₂₂₎

que adiante provaremos ser o menor estimador de m´ınimos quadrados de θ. Pode-se provar que X†_{é a única matriz que obedece às seguintes condi¸cões (condi¸cões de Moore-Penrose):}

1. XX†_{X = X}

2. X†_XX†_{= X}†

(31)

4. ¡X†_X¢T _{= XX}†

X† _{´e designada como o inverso generalizado ou pseudo-inverso de X. Se car(X) =} m, ent˜ao X†_{= (X}T_X)−1_XT _{e X}†_{X = I}

m. Se car(X) = n, ent˜ao teremos X†= XT(XXT)−1

e XX†_{= I} n.

Vamos agora provar que ˆθ definido em (22) ´e o menor estimador de m´ınimos quadrados.

Lema 2 Se X ∈ IRn×m _{onde n > m for uma matriz com caracter´ıstica r < m e y ∈ IR}n com n > `, ent˜ao

¯

θ(Ψ) = X†y +¡Im− X†X¢Ψ, ∀Ψ ∈ IRm

´e a solu¸c˜ao geral do problema de m´ınimos quadrados

min ky − Xθk₂.

θ ∈ IRm×` (23)

e

ˆ

θ = ¯θ(0m×`) = X†y

é a única solu¸cão de norma m´ınima, isto é, é a única solu¸cão tal que kˆθk2 ≤ ° °¯_θ(Ψ)°° 2, ∀Ψ ∈ IR m_. Demonstra¸cão:

Todas solu¸cões de (23) devem ser coeficientes de todas as combina¸cões lineares de X que geram y\X, isto é, o conjunto Θ =

©_¯

θ : X ¯θ = y\X

ª

. Utilizando a forma reduzida da decom-posi¸c˜ao em valores singulares de X em (20) e as defini¸c˜oes de P e de X† _{em (17) e (21),}

respectivamente,

X ˆθ = XX†_{y = (U}

rS+VrT)(VrS+−1UrT)y = UrS+(VrTVr)S+−1UrTy =

= Ur(S+S+−1)UrTy = UrUrTy = P y = y\X.

Vemos, deste modo, que ˆθ = X†_{y ∈ Θ sendo, por isso, uma solu¸c˜ao de (23). As outras}

solu¸c˜oes s˜ao do tipo ˆθ + Υ tal que X

³ ˆ

θ + Υ

´

= y\X. Como X ˆθ = y\X, ent˜ao XΥ =

0n×`. Isto significa que Υ pode ser qualquer vector no n´ucleo de X, ker(X). Υ pode ent˜ao

ser gerado através da projeçcão ortogonal de um vector qualquer Ψ ∈ IRm _{em ker(X).}

(32)

o subespa¸co gerado pelas linhas de X. Se Vr for uma base ortonormal de im(XT), ent˜ao, de

(16) e de (17), a projeçcão de Ψ em im(XT_{) é dada por}

Ψ\XT = V_rV_rTΨ,

sendo

Υ = Ψ\(XT₎⊥ = Ψ − Ψ\_XT

a projec¸c˜ao ortogonal de Ψ em (XT₎⊥_{. Se V}

r for a base calculada na decomposi¸c˜ao em

valores singulares de X, ent˜ao podemos gerar Υ atrav´es de Υ = Ψ − Ψ\_XT = Ψ − V_rV_rTΨ = ¡ Im− VrVrT ¢ Ψ = ¡Im− X†X ¢ Ψ, ∀Ψ ∈ IRm_. pois, X†_{X = V} rS+−1UrTUrS+VrT = VrVrT.

A solu¸c˜ao geral de (23) ser´a ¯

θ(Ψ) = ˆθ +¡Im− X†X¢Ψ, ∀Ψ ∈ IRm

em que Ψ ´e qualquer matriz de IRm. Como ˆ θ = X† |{z} VrS+−1UrT y = VrS_{| {z }}+−1UrTy ¯ y = Vry ∈ im(X¯ T) e Υ = ¡Im− X†X ¢ Ψ ∈ ker(X),

então ˆθ e Υ são perpendiculares pois ker(X) é o complemento ortogonal de im(XT_{). Teremos,}

assim, ° °¯_θ(Ψ)°°2 2 = kˆθk 2 2+ kΥk22 = kˆθk22+ ° °(I_m− X†_X)Ψ°°2 2 e, finalmente, kˆθk2 = ° °X†_y°_° 2 ≤ ° °¯_θ(Ψ)°° 2

onde s´o se verifica igualdade para Ψ = 0m, ficando assim conclu´ıda a demonstra¸c˜ao. 2

(33)

O estimador de m´ınimos quadrados de norma m´ınima pode ser expresso atrav´es de ˆ θ = X†_{Y = V} rS+−1UrY = r X i=1 uT i viY σi

Esta express˜ao mostra que, se o menor valor singular σr for muito menor que os outros,

pequenas perturba¸c˜oes na matriz que provoquem pequenas altera¸c˜oes em ur ou vr causam,

seguramente, perturba¸c˜oes muito significativas em ˆθ. Se, no entanto, os valores singulares

não forem muito diferentes uns dos outros, as perturba¸cões nos diferentes vectores singulares tendem-se a compensar umas às outras, não fazendo variar significativamente ˆθ. Vemos,

assim, que a sensibilidade de ˆθ depende, fundamentalmente, da diferen¸ca entre os valores

singulares de X. O n´umero de condi¸c˜ao de X definido por

κ(X) = kXk2kX†k2 =

σ1

σr

é utilizado como medida de sensibilidade de θ. Por defini¸cão é superior ou igual a 1. Se for muito grande, então X é uma matriz mal condicionada. Se se mantiver pequeno X é bem condicionada. Uma matriz ortonormal tem número de condi¸cão igual a 1 e, por isso, é perfeitamente condicionada.

8 Projec¸c˜

oes Obl´ıquas de Subespa¸cos

Seja y ∈ IRn dado por

y = a1x1 + a2x2

onde a1 e a2 ∈ IR, x1 e x2 ∈ IRn. A projec¸c˜ao obl´ıqua de y em x1 segundo x2, designada por

y\x2

x1, é a1x1. Se y não estiver no plano gerado por x1 e x2, a projeçcão obl´ıqua de y em x1

segundo x2 é a projeçcão obl´ıqua de y\h _x 1 x2 i _{em x} 1 segundo x2. Como y\h x1 x2 i_{= x} 1θˆ1+ x2θˆ2 onde · _ˆ θ1 ˆ θ2 ¸ = £ x1 x2 ¤_† y

(34)

y\x1 x2 = a2x1 y x2 x1 y\x2 x1 = a1x1 Figura 13: y\x2

x1 é a projeçcão obl´ıqua de y em x1segundo a direçcão de x2. y\

x1

x2 é a projeçcão

obl´ıqua de y em x2 segundo a direc¸c˜ao de x1.

ent˜ao

y\x2

x1 = x1θˆ1.

Dum modo geral, dizemos que a projec¸c˜ao de Y ∈ IRn×` _{em X}

1 ∈ IRn×m1 segundo X2 ∈ IRn×m2 _{com n > ` e n > m} 1 + m2 ´e Y \X2 X1 = X1θˆ1 onde · _ˆ θ1 ˆ θ2 ¸ = £ X1 X2 ¤_† Y.

9 Projec¸c˜

oes nos Subespa¸cos gerados pelas linhas duma

matriz

Quando o número de colunas duma matriz é superior ao das linhas (m > n) as projeçcões são no subespa¸co gerado pelas linhas. Como, transpondo uma matriz, trocamos as linhas pelas colunas, tudo o que se disse sobre projeçcões nos subespa¸cos gerados pelas colunas continua válido desde que todas as matrizes sejam transpostas. Se, no fim de todas as projeçcões, voltarmos a transpor as matrizes, obtemos

Y /X =

¡

YT\XT

¢_T

= Y X†X = ˆθX = Y VrVrT

em que ˆθ ´e o estimador de m´ınimos quadrados de menor norma dado por

ˆ

θ = Y X†_.

Se car(X) = n, ent˜ao X†_{= X}T_(XXT₎−1 _e Y /X = Y XT(XXT)−1X

(35)

A projeçcão obl´ıqua de Y em X1 segundo X2 é definida como Y /X2 X1 = ³ YT\X2T XT 1 ´_T = ˆθ1X1 onde £ ˆ θ2 θˆ2 ¤ = Y · X1 X2 ¸_†

10 Produto de Kronecker e Vectoriza¸c˜

ao de Matrizes

Em controlo, especialmente nas áreas de estima¸cão e redu¸cão de ordem do modelo, é frequente ter que se resolver equa¸cões de Lyapunov. Estas, são equa¸cões matriciais, do tipo

ΠA1+ A2Π + A3ΠA4+ Q = 0n×n. (24)

Embora sejam lineares na inc´ognita Π ∈ IRn×n_{, n˜ao podem ser resolvidas de uma forma}

directa porque, nuns termos a incógnita aparece multiplicada à direita , noutros é multi-plicada à esquerda, podendo ainda ser multimulti-plicada simultaneamente à direita e á esquerda noutros termos. Estas equa¸cões podem ser resolvidas de forma iterativa. No entanto, o facto de serem lineares na incógnita Π, indicia que existem métodos não iterativos para a sua resolu¸cão. Nesta seçcão iremos constatar que isso é verdade. Para esse efeito, iremos transformar a equa¸cão matricial num sistema de n2 _{equa¸cões lineares a n}2 _{incógnitas que}

pode ser resolvido por qualquer algoritmo de resolu¸cão de sistemas de equa¸cões lineares. Esta transforma¸cão irá utilizar o produto de Kronecker e, por isso, antes de a estudarmos iremos ver em que é que consiste e quais são as suas propriedades.

O produto de Kronecker é uma forma ordenada e compacta de exprimir uma matriz (ou vector) cujos elementos são os produtos de todos os elementos de outras duas matrizes (ou vectores). Trata-se dum opera¸cão bilinear muito utilizada nos modelos de sistemas não lineares. Dadas as matrizes A ∈ IRn×m _{e B ∈ IR}`×p_{, o produto de Kronecker entre A e B,}

designado por A ⊗ B, tem a seguinte defini¸c˜ao

A ⊗ B =      a11B a12B · · · a1mB a21B a22B · · · a2mB ... ... ... ... an1B an2B · · · anmB     ∈ IR n`×mp_,

(36)

Propriedade 1 - Associativa (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C) Propriedade 2 - Distributiva (A + B) ⊗ (C + D) = A ⊗ C + A ⊗ D + B ⊗ C + B ⊗ D Propriedade 3 - Transposi¸c˜ao (A ⊗ B)T _{= A}T _{⊗ B}T

Propriedade 4 - Produto misturado

(A ⊗ B)(C ⊗ D) = AC ⊗ BD

Propriedade 5 - Matriz inversa

(A × B)−1 _{= (A}−1_{⊗ B}−1_{) ∀A ∈ IR}n×n_{, B ∈ IR}m×m

Propriedade 6 - Valores e vectores pr´oprios

½

AvA= λAvA

BvB = λBvB ⇒ (A ⊗ B)(vA⊗ vB) = λAλB(vA⊗ vB), ∀A ∈ IR

n×n_{, B ∈ IR}m×m_, isto é, se λA for um valor próprio de A ∈ IRn×n associado ao vector próprio vA ∈ IRn e se λB for um valor próprio de B ∈ IRm×m associado ao vector próprio vB ∈ IRm, então λAλB é um valor próprio de A ⊗ B ∈ IRnm×nm associado ao vector próprio vA⊗ vB ∈ IRnm.

Propriedade 7 A ⊗ B ∈ IRnm×nm´e uma matriz definida positiva se A ∈ IRn×n e B ∈ IRm×m forem matrizes sim´etricas, e ambas definidas positivas ou definidas negativas.

Iremos, em seguida, demonstrar a propriedade 4 (produto misturado) deixando a demon-stra¸c˜ao das outras como exerc´ıcio para o leitor.

Demonstra¸c˜ao da Propriedade 4:

A matriz A ⊗ B, com A ∈ IRn×m _{e B ∈ IR}`×p _{pode ser expressa na forma}

A ⊗ B =        a11B a12B · · · a1mB ... ... ... ... ai1B ai2B · · · aimB ... ... ... ... an1B an2B · · · anmB        =        AIB(1, :) ... AIB(i, :) ... AIB(n, :)       

(37)

em que

AIB(i, :) =£ ai1B ai2B · · · aimB

¤

∈ IR`×mp

representa o bloco constitu´ıdo pelas linhas (i − 1)` + 1 a i` de A ⊗ B. Por outro lado C ⊗ D com C ∈ IRm×q e D ∈ IRp×r pode ser expressa na forma

C ⊗ D =      c11D · · · c1jD · · · c1qD c21D · · · c2jD · · · c2qD ... ... ... ... ... cm1D · · · cmjD · · · cmqD     = £ CJD(:, 1) · · · CJD(:, j) · · · CJD(:, q) ¤ .

Nesta matriz, o bloco

CJD(:, j) =      c1jD c2jD ... cmjD     ∈ IR mp

representa o bloco constitu´ıdo pelas colunas (j − 1)r + 1 a jr de C ⊗ D. O bloco constitu´ıdo pelas linhas (i−1)`+1 a i` e as colunas (j −1)r +1 a jr de (A⊗B)(C ⊗D) que designaremos por AIBCJD(i, j), ser´a o produto dos blocos AIB(i, :) e CJD(:, j) que acabamos de definir,

ou seja AIBCJD(i, j) = AIB(i, :)CJD(:, j) = m X k=1 aikBckjD = " m X k=1 aikckj # BD.

Como Pm_k=1aikckj é o elemento da linha i e coluna j de CA, então AIBCJD(i, j) também

vai ser o bloco constitu´ıdo pelas linhas (i − 1)` + 1 a i` e as colunas (j − 1)r + 1 a jr de

AC ⊗ BD que designaremos por AICJBD(i, j). Como, qualquer que sejam i e j, AIBCJD(i, j) = AICJBD(i, j)

ent˜ao (A ⊗ B)(C ⊗ D) = AC ⊗ BD, ficando assim demonstrada a propriedade.

2

A opera¸c˜ao vectoriza¸c˜ao consiste em transformar uma matriz num vector, empilhando as suas colunas umas em cima das outras. Assim, dada a matriz

A =£ a1 a2 · · · ai · · · am

¤

(38)

a sua vectoriza¸c˜ao, designada por vec(A) ´e o vector vec(A) =          a1 a2 ... ai ... am          ∈ IRnm.

Iremos, agora, enunciar uma propriedade que é fundamental para a determina¸cão duma solu¸cão não iterativa de equa¸cões de Lyapunov idênticas à (24).

Propriedade 8

vec(ABC) = (CT ⊗ A)vec(B), ∀A ∈ IRn×m, B ∈ IRm×`, C ∈ IR`×p

Demonstra¸c˜ao: Sejam A =      aT 1 aT 2 ... aT n     , B = £ b1 b2 · · · b` ¤ , C =      c11 c12 · · · c1p c21 c22 · · · c2p ... ... ... ... c`1 c`2 · · · c`p     

com ai ∈ IRm, i = 1, . . . , n e bi ∈ IRm, i = 1, . . . , `. O produto destas trˆes matrizes ´e

ABC =      aT 1 aT 2 ... aT n      £ b1 b2 · · · b` ¤      c11 c12 · · · c1j · · · c1p c21 c22 · · · c2j · · · c2p ... ... ... ... ... ... c`1 c`2 · · · c`j · · · c`p     = =      aT 1b1 aT1b2 · · · a1b` aT 2b1 aT2b2 · · · a` ... ... ... ... aT nb1 aTnb2 · · · anb`           c11 c12 · · · c1j · · · c1p c21 c22 · · · c2j · · · c2p ... ... ... ... ... ... c`1 c`2 · · · c`j · · · c`p     = =      P_` i=1aT1bici1 P_` i=1aT1bici2 · · · P_` i=1aT1bicij · · · P_` i=1aT1bicip P_` i=1aT2bici1 P_` i=1aT2bici2 · · · P_` i=1aT2bicij · · · P_` i=1aT2bicip ... ... ... ... ... ... P_` i=1aTnbici1 P_` i=1aTnbici2 · · · P_` i=1aTnbicij · · · P_` i=1aTnbicip     .

(39)

Vemos, daqui, que a coluna j de ABC que designaremos por ABC(:, j) ´e ABC(:, j) =      P_` i=1aT1bicij P_` i=1aT2bicij ... P_` i=1aTnbicij     =      c1jaT1 c2jaT1 · · · c`jaT1 c1jaT2 c2jaT2 · · · c`jaT2 ... ... ... ... c1jaTn c2jaTn · · · c`jaTn           b1 b2 ... b`     = =      £ c1j c2j · · · c`j ¤ ⊗      aT 1 aT 2 ... aT n          vec(B) = (c T j ⊗ A)vec(B) em que cj =      c1j c2j ... c`j     ∈ IR `

´e a coluna j de C. Teremos ent˜ao

vec(ABC) =          ABC(:, 1) ABC(:, 2) ... ABC(:, j) ... ABC(:, p)          =          (cT 1 ⊗ A)vec(B) (cT 2 ⊗ A)vec(B) ... (cT j ⊗ A)vec(B) ... (cT p ⊗ A)vec(B)          = =          cT 1 ⊗ A cT 2 ⊗ A ... cT j ⊗ A ... cT p ⊗ A          vec(B) =               cT 1 cT 2 ... cT j... cT p        ⊗ A        vec(B) = (CT _{⊗ A)vec(B).} 2

Consideremos agora a equa¸c˜ao (24). Podemos rescrever esta equa¸c˜ao na forma

InΠA1+ A2ΠIn+ A3ΠA4 + Q = 0n×n.

Como vec(A + B) = vec(A) + vec(B), ent˜ao vec (InΠA1+ A2ΠIn+ A3ΠA4+ Q) =