Decomposição em valores singulares, pseudoinversas, normas,

(1)

Decomposi¸c˜

ao em valores

singulares, pseudoinversas,

normas,

Amit Bhaya,

Programa de Engenharia El´etrica COPPE/UFRJ

Universidade Federal do Rio de Janeiro [email protected]

(2)

Decomposi¸c˜

ao em valores singulares

(DVS)

Ponto alto de álgebra linear: diagonaliza¸cão para qualquer tipo de matriz A, retangular (AM⌊⌉ ou BG⊏⊐) Além de diagonalizar, achamos bases o.n. para os 4 espa¸cos fundamentais associados a matriz A.

Para exemplificar, come¸camos com uma matriz 2 × 2 com posto 2, i.e., r = m = n = 2.

Queremos: v₁ e v₂ base o.n. para R(AT). Também queremos Av₁ ⊥ Av₂ (esta é a parte não-óbvia). Supondo poss´ıvel, os vetores u_i = Av_i/kAv_ik, i = 1, 2 formam base o.n. para R(A).

Dois coment´arios: 1. Porque n˜ao escolher uma base em vez de duas? Porque nenhuma matriz ortogonal Q tornaria Q−1AQ diagonal.

2. Porque não escolher os −→AV de A? Porque não é uma base o.n., pois A não é simétrica e precisamos de duas bases o.n. para diagonalizá-la.

(3)

Bases ortonormais que diagonalizam

No exemplo da matriz A ∈ R2×2, quando as ‘entradas’ s˜ao v₁ e v₂ as sa´ıdas s˜ao Av₁ e Av₂. Queremos que sejam alinhados com u1 e u2: Avi = σiui, i =

1, 2. Os n´umeros σi s˜ao os comprimentos kAvik.

Colocando os v_i nas colunas de uma matriz, estamos querendo: A[v1 v2] = [σ1u1 σ2u2] = [u1 u2] · σ1 σ2 ¸ .

Em nota¸cão matricial, AV = UΣ. A matriz diagonal Σ contém os valores singulares σ_i. As matrizes U e V são ortogonais.

Comentário: Compare a decomposi¸cão acima (AV = UΣ) com a decomposi¸cão na base de autovetores que diagonaliza (AX = XΛ). As colunas de X (−→AV de A) não são o.n. (a menos que A seja simétrica).

(4)

Decomposi¸c˜

ao em valores singulares

Teorema: Dada uma matriz A ∈ Rm×n, existem duas matrizes ortogonais U ∈ Rm×m, V ∈ Rn×n e uma matriz Σ ∈ Rm×n que possui apenas a diagonal principal possivelmente não-nula composta de números não-negativos denominados valores singulares, σ_i(A), de A:

A = UΣVT

Observa¸c˜oes sobre a DVS:

1. As colunas de U s˜ao os −→AV de AAT, e as colunas de V s˜ao os −→AV de ATA.

2. Ordenando os valores singulares σ1 ≥ σ2 ≥ · · · ≥ σr >

0 = σr+1 = · · · = σm, os r valores singulares n˜ao-nulos s˜ao

os AV não-nulos de ATA (ou de AAT, veja prova na próxima transparência)

3.

Base para Colunas R(A) primeiras r de U N (AT) ´ultimas m _{− r de U} R(AT) primeiras r de V

N (A) ´ultimas n _{− r de V} 4. Posto(A) = r.

(5)

Uma identidade matricial

A partir da identidade (para A ∈ Rm×n, B ∈ Rn×m) · I −A 0 I ¸ · AB 0 B 0 ¸ · I A 0 I ¸ = · 0 0 B BA ¸ . concluimos que F := · AB 0 B 0 ¸ e G := · 0 0 B BA ¸

são similares; AV de F são os AV de AB mais n zeros; AV de G são os AV de BA mais m zeros.

Conclus˜ao: Para m ≥ n, AB possui os mesmos AV que BA mais m − n zeros.

Aplica¸cão: Escolhendo B = AT, temos o resultado citado na transparência anterior (observa¸cão 2).

(6)

Geometria da DVS

v₁ v₂ σ1 σ2 σ1u1 σ2u2 V U VT A Σ

A figura mostra a a¸cão de uma matriz A ∈ R2×2, não-singular, em termos da sua DVS: U, V são rota¸cões/reflexões, e Σ ‘estica’ os eixos. Esta matriz, e qualquer outra 2 × 2 invers´ıvel, transforma o c´ırculo unitário em elipse, cujos semi-eixos (em comprimento) são os valores singulares. Utilize o programa MATLAB eigshow (op¸cão svd) para investigar outras matrizes 2 × 2 com anima¸cão gráfica.

(7)

Exemplos da DVS

A =   2 0 0 −3 0 0   =   1 0 0 0 −1 0 0 0 1     2 0 0 3 0 0   · 1 0 0 1 ¸ A =   −1 2 2   =       −1₃ 2₃ 2₃ 2 3 − 1 3 2 3 2 3 2 3 − 1 3         3 0 0   [1]

A já ortogonal ⇒ A = QII ou A = IIQ ou até mesmo A = QQ₂IQT₂ , porém, em todos os casos, certamente Σ = I.

A ´e uma matriz de incidˆencia com AAT =

· 2 −1 −1 2 ¸ : A= · −1 1 0 0 −1 1 ¸ = · −1 1 1 1 ¸ /√2 /√2 · √ 3 0 0 0 1 0 ¸  1 ₋₂ 1 −1 0 1 1 1 1   /√6 /√2 /√3

(8)

Pseudoinversas e m´ınimos quadrados

Já vimos o problema de m´ınimos quadrados que, sob a hipótese de A AM, posto completo por colunas, leva a equa¸cão normal ATA_{bx = A}Tb. Na ausência desta hipótese, ATA não é invers´ıvel e qualquer z no seu espa¸co nulo pode ser acrescentado ao bx. Há duas possibilidades: (i) linhas de A dependentes, (ii) colunas de A dependentes.

Em (i), se b _{6∈ R(A), podemos projetar b em p ∈ R(A) e} tentar resolver Abx = p. O problema surge quando (ii) também se verifica e não há solu¸cão única a esta última equa¸cão.

Temos que achar o ‘melhor’ bx para qualquer matriz A. Isto é, escolher uma solu¸cão particular da equa¸cão Abx = p e a regra será:

A solu¸c˜ao ´_{otima de Abx = p ´e aquela que possui} comprimento m´ınimo.

Chamaremos esta solu¸cão ótima de x† e será nossa solu¸cão preferida tanto para Ax = b (que não admite solu¸cão), quanto para Abx = p (que possui infinitas solu¸cões).

Vemos agora o exemplo mais simples em que (i) e (ii) se verificam ...

(9)

Exemplo de pseudoinversa

Come¸camos pelo exemplo mais simples de A diagonal com linhas e colunas dependentes:

A =   σ1 0 0 0 0 σ₂ 0 0 0 0 0 0   .

Como as colunas todas terminam em 0, o vetor no espa¸co coluna mais pr´oximo ao b ´e p = (b₁, b₂, 0). Temos, portanto, que resolver

  σ1 0 0 0 0 σ2 0 0 0 0 0 0       ˆ x₁ ˆ x₂ ˆ x₃ ˆ x₄     =   b1 b2 0   .

Como as colunas são dependentes, bx não é única: os primeiros dois componentes são b₁/σ₁ e b₂/σ₂, porém os outros dois componentes são arbitrários.

(10)

Exemplo de pseudoinversa (cont.)

Para minimizar a norma evidentemente devemos escolher ˆx3 = ˆx4 = 0.

A solu¸c˜_{ao de norma m´ınima de Ab}x = p ´e x†:

x† =     b₁/σ₁ b₂/σ₂ 0 0     =     1/σ₁ 0 0 0 1/σ₂ 0 0 0 0 0 0 0       b1 b2 b₃   .

A matriz que produz x† a partir de b ´e chamada pseudoinversa de A e denotada A†.

Generalizando este exemplo, para qualquer matriz A ∈ Rm×n, com r elementos na diagonal principal não nulos, σ₁, . . . , σ_r (e os demais todos nulos), a matriz A† é n×m com os únicos elementos não nulos também na diagonal principal dados por 1/σ₁, . . . , 1/σ_r.

(11)

Pseudoinversa para uma matriz arbitr´

aria

Para generalizar o resultado anterior, provamos que a solu¸c˜ao mais curta x† sempre fica no espa¸co linha de A.

Pelo teorema fundamental, qualquer vetor x pode ser decomposto em um componente no espa¸co linha e outro no espa¸co nulo: bx _{= b}x_ℓ _{+ b}x_n. Agora:

1. Abx_ℓ _{= p, pois Ab}x_n = 0.

2. Como bx_ℓ _{⊥ b}x_n_{, pelo Pit´agoras kb}xk2 _{= kb}x_ℓk2 + kbx_nk2_{, consequentemente b}x _{´e mais curto quando b}x_n = 0.

3. Todas as solu¸c˜_{oes de Ab}x = p possuem o mesmo componente no espa¸co linha bx_ℓ. Este vetor ´e x†.

(12)

F´

ormula para pseudoinversa em termos

da DVS

Seja a DVS de A = UΣVT. Ent˜ao a pseudoinversa de A ´e dada por

A† = VΣ†UT.

Os rec´ıprocos dos valores singulares n˜ao nulos aparecem na diagonal principal de Σ†. A pseudoinversa de A† ´e (A†)† = A. Exemplo: [−1 2 2] = [1][3 0 0]        −13 23 23 2 3 −13 23 2 3 23 −13        [−1 2 2]† =        −13 23 23 2 3 −13 23 2 3 23 −13               1 3 0 0        [1] =        −19 2 9 2 9       

(13)

Solu¸c˜

ao de norma m´ınima

A solu¸c˜ao de norma m´ınima, no sentido de m´ınimos quadrados, a Ax = b ´e x† = A†b = VΣ†UTb.

Prova: Multiplica¸c˜ao pela matriz ortogonal UT n˜ao muda comprimentos, portanto:

kAx − bk = kUΣVTx − bk = kΣVTx − UTbk

Introduzindo a nova incógnita y = VTx = V−1x (que possui o mesmo comprimento que x), vemos que minimizar kAx − bk é o mesmo que minimizar kΣy − UTbk. Mas este último problema de minimiza¸cão possui uma matriz ‘diagonal’ Σ para a qual sabemos calcular y† que é y† = Σ†UTb. Portanto o vetor x† é dado por:

x† = Vy† = VΣ†UTb.

Coment´ario: Podemos verificar diretamente que este x† pertence ao espa¸co linha de A e que satisfaz Ax† = p.

(14)

Normas de vetores

As no¸cões essenciais de tamanho e distância em um espa¸co vetorial são capturadas pelas normas que são utilizadas para medir convergência e aproxima¸cão em álgebra linear (numérica).

Uma norma é uma fun¸cão k · k : V → R : v 7→ kvk que aloca um valor real (‘comprimento’) a cada vetor. Para que corresponda a uma idéia razoável de comprimento, uma norma deve satisfazer três axiomas: 1. ∀x ∈ V, kxk ≥ 0, e kxk = 0 somente se x = 0. 2. ∀x, y ∈ V, kx + yk ≤ kxk + kyk.

3. ∀α ∈ R, ∀x ∈ V, kαxk = αkxk.

Em palavras, estas condi¸cões expressam o seguinte. (1): Norma de um vetor não-nulo é positiva, (2) é a famosa desigualdade do triângulo, (3) é a propriedade de homogeneidade. As vezes, dizemos` que propriedades (2) e (3) juntas definem o conceito de subaditividade.

(15)

Exemplos de normas vetoriais e bolas

unit´

arias (para n = 2)

kxk1 = Pn_i=1 |xi| kxk2 = ¡Pn_i=1 |xi|2 ¢1/2 kxk∞ = max1≤i≤n |xi| kxkp = (Pn_i=1 |xi|p)1/p , 1 _{≤ p < ∞}

(16)

Normas vetoriais

A norma-2 é o comprimento euclideano: sua bola unitária é realmente uma bola (esfera). Em engenharia elétrica, a norma-2 representa a energia ou valor RMS (root-mean-square) de um sinal. É muito popular, fácil de calcular e diferenciável.

A norma-∞ é o valor máximo (pico) dos componentes de um vetor (em módulo). É fácil de calcular, porém não-diferenciável.

A norma-1 é utilizada pelas companhias áereas para definir o tamanho máximo de bagagem de mão (norma-1 de uma mala = soma das suas três dimensões lineares). Também pelo tax´ımetro em um bairro com grid de ruas planejadas (N/S/L/O: e.g. Manhattan): a distância percorrida entre a origem e o ponto x = (x₁, x₂) é kxk₁ = |x₁| + |x₂|.

Além das normas-p, outras normas úteis são as normas-p ponderadas onde cada coordenada recebe uma pondera¸cão _wi. Em geral, dada qualquer norma _{k · k}, uma norma ponderada pode ser escrita como

kx_k_W :=kWx_k,

(17)

Normas matriciais induzidas

Uma matriz m _{× n pode ser vista como um vetor no espa¸co} de dimens˜ao mn – cada um dos elementos considerado como coordenada independente. Portanto, qualquer norma vetorial pode ser utilizada para medir o ‘tamanho’ de uma matriz.

Porém, as normas induzidas, definidas em termos do comportamento da matriz encarada como transforma¸cão entre um espa¸co normado (dom´ınio) e outro (imagem), são mais úteis. Para simplicidade, utilizando a mesma norma _{k · k}p no dom´ınio

e na imagem, a p-norma induzida de A, denotado _kAkp, ´e

definida como o m´aximo da raz˜ao _kAxkp/kxkp quando x varre

o dom´ınio. Em outras palavras, é o fator máximo pelo qual uma matriz pode ‘esticar’ um vetor; ou é o máximo ganho da entrada para a sa´ıda.

Pela propriedade de homogeneidade da norma, a a¸cão de A é determinada pela sua a¸cão sobre vetores unitários. Portanto, podemos definir a norma induzida equivalentemente em termos das imagens dos vetores unitários pelo A.

kAkp = sup x_∈_Rn x₆₌0 kAxkp kxkp = sup x_∈_Rn kx_kp=1 kAxkp.

(18)

F´

ormulas para normas induzidas de

A

_{∈ R}

m×n

A norma-1 induzida de uma matriz é dada pela soma máxima das colunas (em módulo), i.e.:

kAk₁ = max 1_≤j≤n m X i=1 |a_ij|

A norma-2 induzida de uma matriz ´e dada pelo seu m´aximo valor singular:

kAk₂ = s max x₆₌₀ xTATAx xTx = q λ_max(AT_{A) = σ} max(A).

A norma-∞ induzida de uma matriz é dada pela soma máxima das linhas (em módulo), i.e.:

kAk_∞ = max 1_≤i≤m n X j=1 |a_ij|

(19)

Propriedades de normas induzidas

kABk ≤ kAkkBk (submultiplicatividade)

Axiomas de norma:

1. kAk ≥ 0, e kAk = 0 somente se A = 0. 2. kA + Bk ≤ kAk + kBk. (subaditividade) 3. kαAk = |α|kAk.

Uma norma matricial frequentemente utilizada, que não é induzida, é a norma de Frobenius ou Hilbert-Schmidt, definida como:

kAkF :=   m X i=1 n X j=i |aij|2   1/2

Para qualquer A _{∈ R}m×n, Q _{∈ R}m×m ortogonal, _kQAk2 =

(20)

Aplica¸c˜

oes da DVS

Vimos uma aplica¸cão a compressão de imagens e uma outra a busca de documentos indexados por palavras-chave em ordem de relevância a uma solicita¸cão (= combina¸cão linear de palavras-chave).

Ambas as aplica¸c˜oes s˜ao baseadas no seguinte resultado:

Se σ1 ≥ σ2 ≥ · · · ≥ σr s˜ao os valores singulares n˜ao-nulos de

A _{∈ R}m×n, então para cada k < r, a distância de A à matriz mais próxima (em norma-2 induzida) de posto k é:

σk+1 = min

posto(B)=kkA − Bk2.

Consequentemente, a matriz de posto k que melhor aproxima A ´e dada por:

(21)

Um teorema importante:

Cayley–Hamilton

Um resultado importante que não mencionamos até agora é o teorema de Cayley–Hamilton que diz, em palavras, que toda matriz quadrada satisfaz seu polinômio caracter´ıstico.

Mais formalmente, se A _{∈ R}n×n possui polinˆomio caracter´ıstico pA(s) := sn+(−1)n−1tr(A)sn−1+· · ·+(−1)n det A, ent˜ao

pA(A) := An+(−1)n−1tr(A)An−1+· · ·+(−1)n(det A)I = 0.

Note que este teorema diz que pA(A) produz a matriz nula

n _{× n. N˜ao confunda isso com o argumento trivial e errado} pA(λ) := det(λI − A), logo substitutindo λ por A, temos