ÁLGEBRA
DE
MATRIZES
Baseado no Capítulo 2 do livro: Linear Models in Statistics, A. C. Rencher, 2000
John Wiley & Sons, New York.
Material preparado pelo Prof. Dr. César Gonçalves de Lima E-mail: [email protected]
DCE/ESALQ – USP Fevereiro de 2007
Í N D I C E
2.1. Matrizes e vetores ... 2
2.1.1 Matrizes, vetores e escalares ... 2
2.1.2. Igualdade de Matrizes ... 3
2.1.3. Matriz Transposta ... 3
2.1.4. Alguns tipos especiais de matrizes ... 4
2.2. Operações com matrizes ... 6
2.2.1. Adição de duas matrizes ... 6
2.2.2. Produto de duas matrizes ... 7
2.2.3. Soma Direta ... 14
2.2.4. Produto direto ou de Kronecker ... 14
2.2.5. Potência de matriz quadrada ... 15
2.3. Matrizes particionadas ... 16
2.4. Posto (rank) de uma matriz ... 18
2.5. Inversa de uma matriz ... 22
2.6. Matrizes positivas definidas ... 25
2.7. Sistemas de equações ... 29
2.8. Inversa generalizada ... 32
2.8.1. Definição e Propriedades ... 32
2.8.2. Inversas Generalizadas e Sistemas de Equações ... 36
2.9. Determinantes ... 37
2.10. Vetores ortogonais e matrizes ... 39
2.11. Traço de uma matriz ... 41
2.12. Autovalores e autovetores ... 42
2.12.1 Definição ... 42
2.12.2. Funções de uma matriz ... 43
2.12.3. Produtos ... 45
2.12.4. Matrizes simétricas ... 45
2.12.5. Matriz positiva definida e positiva semidefinida ... 46
2.13. Matrizes idempotentes ... 47
2.14. Derivadas de funções lineares e formas quadráticas ... 48
2.15. Referências citadas no texto ... 50
2.16. Lista de exercícios adicionais ... 51
2.1. MATRIZES E VETORES 2.1.1. Matrizes, vetores e escalares.
Uma matriz é um arranjo retangular de número ou de variáveis em linhas e colunas. Nesse texto estaremos considerando matrizes de números reais, que serão denotadas por letras maiúsculas em negrito. Os seus elementos serão agrupados entre colchetes. Por exemplo: A = 39 21 12 10 ; B = 16 14 13 15 12 10 1 1 1 1 1 1 ; X = 1 0 1 1 0 1 0 1 1 0 1 1
Para representar os elementos da matriz X como variáveis, nós usamos:
X = (xij) = 43 42 41 33 32 31 23 22 21 13 12 11 x x x x x x x x x x x x
A notação X = (xij) representa uma matriz por meio de um elemento típico. O primeiro índice indica a linha e o segundo índice identifica a coluna. Uma matriz genérica X tem n linhas e p colunas. A matriz X do Exemplo 1 tem n = 4 linhas e p = 3 colunas e nós dizemos que X é 4×3, ou que a dimensão de X é 4×3. Para indicar a
dimensão da matriz, podemos usar 4X3 ou X(4x3).
Um vetor é uma matriz com uma única coluna e é denotado por letras minús-culas, em negrito. Os elementos de um vetor são muitas vezes identificados por um único índice, por exemplo,
y = 3 2 1 y y y
Geralmente o termo vetor está associado a um vetor coluna. Um vetor linha é expres-so como o transposto do vetor coluna, como por exemplo,
y’ = yt =
[
y1, y2, y3]
=[
y1 y2 y3]
(A transposta de uma matriz será definida mais adiante).
Geometricamente, um vetor de n elementos está associado a um ponto no espa-ço n-dimensional. Os elementos do vetor são as coordenadas do ponto. Em algumas situações, nós estaremos interessados em calcular:
(i) a distância (d) da origem ao ponto (vetor), (ii) a distância (d) entre dois pontos (vetores), ou
No contexto de matrizes e vetores, um número real é chamado de um escalar. Assim, os números 2,5, -9 e 3,14 são escalares. Uma variável representando um esca-lar será denotada por uma letra minúscula e sem negrito. Por exemplo: c = 3,14 indi-ca um esindi-calar.
2.1.2. Igualdade de Matrizes
Duas matrizes (ou dois vetores) são iguais se têm a mesma dimensão e se os elemen-tos de posições correspondentes são iguais. Por exemplo:
− 7 3 1 4 2 3 = − 7 3 1 4 2 3 mas − − 6 4 8 9 2 5 ≠ − − 6 4 8 9 3 5 2.1.3. Matriz Transposta
Se nós trocarmos de posição as linhas e as colunas de uma matriz A, a matriz
resul-tante é conhecida como a transposta de A e é denotada por A’ ou A . Formalmente, t
se nAp = (aij) então a sua transposta é dada por:
n pA' = A = (at ij)’ = (aji) (2.3) Por exemplo: Se A = − 7 3 1 4 2 3 ⇒A’ = − 7 4 3 2 1 3 é a sua transposta.
A notação (aji) indica que o elemento da i-ésima linha e j-ésima coluna de A é
encon-trado na j-ésima linha e i-ésima coluna de A’. Se A é n×p então A’ é p×n.
Teorema 2.1.A. Se A é uma matriz qualquer, então
2.1.4 Alguns tipos especiais de matrizes
Se a transposta de uma matriz A é a mesma da matriz original, isto é, se A’ = A ou, equivalentemente, (aji) = (aij), então dizemos que a matriz A é simétrica. Por
exem-plo, A = − − 9 7 6 7 10 2 6 2 3
é simétrica. É evidente que toda matriz simétrica é quadrada.
A diagonal de uma matriz quadrada pAp= (aij) consiste dos elementos a11, a22,
…, app, ou seja, diag(A) = (aii). No exemplo anterior, a diagonal da matriz A é
forma-da pelos elementos 3, 10 e 9.
Se a matriz nAn contém zeros em todas as posições fora da diagonal ela é uma matriz diagonal, como por exemplo,
D = − 4 0 0 0 0 0 0 0 0 0 3 0 0 0 0 8
que também pode ser denotada como
D = diag(8, –3, 0, 4)
Nós usamos a notação diag(A) para indicar a matriz diagonal com os mesmos ele-mentos da diagonal de A, como por exemplo,
A = − − 9 7 6 7 10 2 6 2 3 ⇒ diag(A) = 9 0 0 0 10 0 0 0 3
Uma matriz diagonal com o número 1 em cada posição da sua diagonal é cha-mada de matriz identidade e é denotada por I, como por exemplo,
I(3) = diag(1, 1, 1) = 1 0 0 0 1 0 0 0 1
Uma matriz triangular superior é uma matriz quadrada com zeros abaixo da diagonal, como por exemplo,
T = − − 8 0 0 0 1 4 0 0 6 2 0 0 5 3 2 7
Um vetor de 1’s é denotado por j:
j(4) = 1 1 1 1
Uma matriz quadrada de 1’s é denotada por J, como por exemplo, J(3×3) = 1 1 1 1 1 1 1 1 1
Nós denotamos um vetor de zeros por 0 e uma matriz de zeros por Ο ou ΦΦΦΦ,
por exemplo, 0(3) = 0 0 0 , Ο(3×3) = ΦΦΦΦ = 0 0 0 0 0 0 0 0 0 .
2.2. OPERAÇÕES COM MATRIZES 2.2.1 Adição de duas matrizes
Se duas matrizes têm a mesma dimensão, sua soma é encontrada adicionando os ele-mentos correspondentes. Assim, se A(n×p) e B(n×p), então C = A + B também é n×p e é
encontrada como C = (cij) = (aij + bij). Por exemplo, − − 5 8 2 4 3 7 + − 2 4 3 6 5 11 = − − 3 12 5 2 2 18
A diferença D = A – B entre as matrizes A e B é definida similarmente: D = (dij) = (aij – bij). Duas propriedades importantes da adição de matrizes são dadas a seguir: Teorema 2.2A. Se A e B são n×p, então:
(i)A + B = B + A (2.9)
(ii) (A + B)’ = A’ + B’ (2.10)
2.2.2 Produto de duas matrizes
Para que o produto AB de duas matrizes seja possível, o número de colunas da matriz A deve ser igual ao número de linhas de B. Neste caso, dizemos que as matrizes A e B são conformes. Então, o (ij)-ésimo elemento do produto C = AB é definido como:
cij =
∑
k
kj ikb
a (2.11)
que é igual à soma dos produtos dos elementos da i-ésima linha de A pelos elementos da j-ésima coluna de B. Assim, nós multiplicamos todas as linhas de A por todas as colunas de B. Se A é (n×m) e B é (m×p) então C = AB é (n×p). Por exemplo,
A(2×3) = 5 6 4 3 1 2 e B(3×2) = 8 3 6 2 4 1 Então 2AB2= 2C2 = + + + + + + + + ) 8 )( 5 ( ) 6 )( 6 ( ) 4 )( 4 ( ) 3 )( 5 ( ) 2 )( 6 ( ) 1 )( 4 ( ) 8 )( 3 ( ) 6 )( 1 ( ) 4 )( 2 ( ) 3 )( 3 ( ) 2 )( 1 ( ) 1 )( 2 ( = 92 31 38 13 3BA3 = 3D3 = 49 51 38 36 38 28 23 25 18
Se A é n×m e B é m×p, onde n ≠ p, então o produto AB é definido, mas BA não é definido. Se A é n×p e B é p×n, então AB é n×n e BA é p×p. Neste caso, certamen-te, AB ≠ BA, como ilustrado no exemplo anterior. Se A e B são n×n então AB e BA têm o mesmo tamanho, mas, em geral:
AB ≠ BA (2.12)
A matriz identidade I(n) é o elemento neutro da multiplicação de matrizes. Isto
A multiplicação de matrizes não é comutativa e algumas manipulações familia-res com números reais não podem ser feitas com matrizes. Entretanto, a multiplicação de matrizes é distributiva em relação à soma ou subtração:
A(B ± C) = AB ± AC (2.13)
(A ± B)C = AC ± BC (2.14)
Usando (2.13) e (2.14) nós podemos expandir produtos como (A – B)(C – D): (A – B)(C – D) = (A – B)C – (A – B)D
= AC – BC – AD + BD (2.15)
A multiplicação envolvendo vetores segue as mesmas regras das matrizes. Su-ponha A(n×p), b(p×1), c(p×1) e d(n×1). Então:
• Ab é um vetor coluna n×1
• d’A é um vetor linha de dimensão 1×p
• b’c é um escalar correspondendo à soma de produtos • bc’ é uma matriz p×p
• cd’ é uma matriz p×n
Desde que b’c é uma soma de produtos (um escalar!) tem-se que b’c = c’b: b’c = b1c1 + b2c2 + … + bpcp
c’b = c1b1+ c2b2 + … + cpbp
⇒ b’c = c’b (2.16)
A matriz cd’ é dada por
cd’ = p c c c M 2 1 [d1 d2 … dn] = n p p p n n d c d c d c d c d c d c d c d c d c L M O M M L L 2 1 2 2 2 1 2 1 2 1 1 1 (2.17) Similarmente: b’b = [b1 b2 … bp] p b b b M 2 1 = b12 + b22 + … + b2p =
∑
= p b 1 i 2 i (2.18)bb’ = p b b b M 2 1 [b1 b2 … bp] = 2 2 1 2 2 2 1 2 1 2 1 2 1 p p p p p b b b b b b b b b b b b b b b L M O M M L L (2.19)
Assim, b’b é uma soma de quadrados e bb’ é uma matriz quadrada e simétrica. A raiz quadrada da soma de quadrados dos elementos de um vetor bp×1 é igual à
distância da origem ao ponto b e é conhecida como a norma euclidiana, ou o com-primentodo vetor b: comprimento de b = || b || = b' = b
∑
= p i i b 1 2 (2.20)Se j é um vetor n×1 de 1’s como definido em (2.6), então por (2.18) e (2.19), nós temos que: j’j = n, jj’ = 1 1 1 1 1 1 1 1 1 L M O M M L L = J(n×n) (2.21)
onde Jn×n é uma matriz quadrada de 1’s como ilustrada em (2.7), Se a é um vetor n×1
e A é uma matriz n×p, então
a’j = j’a =
∑
= n i i a 1 (2.22) j’A =[
∑
∑
∑
]
i ip i i i ia1 a2 L a e Aj = ∑
∑
∑
j nj j j j j a a a M 2 1 (2.23)Assim, a’j = j’a é a soma dos elementos em a, j’A contem as somas das colunas de A
e Aj contem as somas das linhas de A. Note que em a’j, o vetor j é n×1; em j’A, o
Exemplo 1. Seja a matriz A = − 0 4 5 2 4 6 1 5 4 3 2 1 e o vetor a = 8 1 5 2 então: i) j'A =
[
1 1 1]
− 0 4 5 2 4 6 1 5 4 3 2 1=
[
8 4 13 8]
(totais das colunas de A)ii) Aj = − 0 4 5 2 4 6 1 5 4 3 2 1 1 1 1 1 = 11 16 6
(totais das linhas de A)
iii) a’j =
[
2 5 1 8]
1 1 1 1 = j’a =[
1 1 1 1]
8 1 5 2= 16 (total dos elementos de a)
O produto de um escalar por uma matriz é obtido multiplicando-se cada ele-mento da matriz pelo escalar:
cA = (caij) = nm n n m m ca ca ca ca ca ca ca ca ca L M O M M L L 2 1 2 22 21 1 12 11 . (2.24)
Desde que caij = aijc o produto de um escalar por uma matriz é comutativo:
cA = Ac (2.25)
A transposta do produto de duas matrizes é igual ao produto das transpostas em ordem reversa.
Teorema 2.2B. Se A é n×p e B é p×m, então:
(AB)’ = B’A’ (2.26)
Prova: Seja C = AB. Então por (2.11), temos que C = (cij) =
∑
= p k kj ikb a 1(AB)’ = C’ = (cij)’ = (cji) =
∑
= p k ki jkb a 1 = ∑
= p k jk kia b 1 = B’A’.Para ilustrar os passos dessa prova, vamos usar as matrizes A2×3 e B3×2:
AB = 23 22 21 13 12 11 a a a a a a 32 31 22 21 12 11 b b b b b b = + + + + + + + + 32 23 22 22 12 21 31 23 21 22 11 21 32 13 22 12 12 11 31 13 21 12 11 11 b a b a b a b a b a b a b a b a b a b a b a b a (AB)’ = + + + + + + + + 32 23 22 22 12 21 32 13 22 12 12 11 31 23 21 22 11 21 31 13 21 12 11 11 b a b a b a b a b a b a b a b a b a b a b a b a = + + + + + + + + 23 32 22 22 21 12 13 32 12 22 11 12 23 31 22 21 21 11 13 31 12 21 11 11 a b a b a b a b a b a b a b a b a b a b a b a b ⇒ (AB)’ = 32 22 12 31 21 11 b b b b b b 23 13 22 12 21 11 a a a a a a = B’A’
Corolário 1. Se A, B e C são conformes, então (ABC)’ = C’B’A’.
Exemplo 2. Seja y = [y1, y2, …, yn]’ um vetor de pesos de n frangos de corte. Para calcular a média e a variância dos pesos desses frangos, nós usamos:
y =
∑
= n i i y n 1 1 s2 =∑
(
)
= − − n i i y y n 1 2 1 1Matricialmente, a média pode ser calculada por y = n 1
j’y, onde j é um vetor n×1 de
1’s e n = j’j. Para calcular a variância precisamos, primeiramente, calcular o vetor de
desvios: y – y = y –j y = y – j y j' n 1 = y – n 1 jj’y = y – n 1 Jy = − J I n 1 y
Onde I é a matriz identidade n×n e J é uma matriz n×n de 1’s. Para calcular a soma
(
)
∑
= − n i i y y 1 2 = t n − J y I 1 − J I n 1 y = y’ t n − J I 1 − J I n 1 y = y’ − IJ I I' n 1 – J'I n 1 + J J' 2 1 n yMas J = J’, I’I = I, IJ = J, J’I = J’ = J, j’j = n e J’J = j’jj’j = nJ. Então:
(
)
∑
= − n i i y y 1 2 = y’ − J I n 2 + J n n2 1 y = y’ − J I n 2 + J n 1 y = y’ − J I n 1 yEntão, a variância pode ser calculada por:
s2 =
∑
(
)
= − − n i i y y n 1 2 1 1 = 1 1 − n y' I Jy − n 1Supondo que A é n×m e B é m×p, seja a a ti i-ésima linha da matriz A e bj, a j
-ésima colunada matriz B, de tal forma que:
A = nm n n m m a a a a a a a a a L M O M M L L 2 1 2 22 21 1 12 11 = t n t t a a a M 2 1 , B = mp m m p p b b b b b b b b b L M O M M L L 2 1 2 22 21 1 12 11 = [b1, b2, …, bp]
Então, por definição, o (ij)-ésimo elemento de AB é a bti j:
AB = p t n t n t n p t t t p t t t b a b a b a b a b a b a b a b a b a L M O M M L L 2 1 2 2 2 1 2 1 2 1 1 1 = ) , , , ( ) , , , ( ) , , , ( 2 1 2 1 2 2 1 1 p t n p t p t b b b a b b b a b b b a L M L L = B a B a B a t n t t M 2 1 = t n t t a a a M 2 1 B (2.27)
A primeira coluna de AB pode ser expressa em termos de A como
1 1 2 1 1 b a b a b a t n t t M = t n t t a a a M 2 1 b1 = Ab1
De forma análoga, a segunda coluna de AB é Ab2 e assim por diante. Assim AB pode
ser escrita em termos das colunas de B:
AB = A[b1, b2, …, bp] = [Ab1, Ab2, …, Abp] (2.28)
Qualquer matriz A pode ser multiplicada pela sua transposta para formar A’A ou AA’. Algumas propriedades desses produtos são dadas no próximo Teorema.
Teorema 2.2C. Seja A uma matriz n×p. Então A’A e AA’ têm as seguintes
proprie-dades:
(i) A’A é p×p e é obtida como produto das colunas de A. (ii) AA’ é n×n e é obtida como produto das linhas de A. (iii) Ambas as matrizes A’A e AA’ são simétricas.
(iv) Se A’A = ΦΦΦ então A = ΦΦ ΦΦΦ.
Seja A uma matriz quadrada n×n e D = diag(d1, d2, … , dn). No produto DA, a i-ésima linha de A é multiplicada por di e em AD, a j-ésima coluna de A é
multipli-cada por dj. Por exemplo, se n = 3, nós temos: DA = 3 2 1 0 0 0 0 0 0 d d d 33 32 31 23 22 21 13 12 11 a a a a a a a a a = 33 3 32 3 31 3 23 2 22 2 21 2 13 1 12 1 11 1 a d a d a d a d a d a d a d a d a d (2.29) AD = 33 32 31 23 22 21 13 12 11 a a a a a a a a a 3 2 1 0 0 0 0 0 0 d d d = 33 3 32 2 31 1 23 3 22 2 21 1 13 3 12 2 11 1 a d a d a d a d a d a d a d a d a d (2.30) DAD = 33 2 3 32 2 3 31 1 3 23 3 2 22 2 2 21 1 2 13 3 1 12 2 1 11 2 1 a d a d d a d d a d d a d a d d a d d a d d a d (2.31)
Vale notar que DA ≠ AD. Entretanto, no caso especial onde a matriz diagonal é a matriz identidade, (2.29) e (2.30) temos:
IA = AI = A (2.32)
Se A é retangular, (2.32) continua valendo, mas as identidades das duas
Se A é uma matriz simétrica e y é um vetor, o produto: y’Ay =
∑
i i iiy a 2 + 2∑
≠j i j i ijy y a (2.33)é chamado de forma quadrática. Se x é n×1, y é p×1 e A é n×p, o produto:
x’Ay =
∑
ij j i ijx y a (2.34)é chamado de forma bilinear.
2.2.3. Soma Direta
Dadas as matrizes A(m×n) e B(r×s) definimos a sua soma direta como
A ⊕ B = B 0 0 A = C(m+r,n+s)
Algumas propriedades da soma direta de matrizes: (i) A ⊕ (–A) ≠ ΦΦΦΦ
(ii) Se as dimensões são favoráveis, então:
(A ⊕ B) + (C ⊕ D) = (A + C) ⊕ (B + D) (A ⊕ B)(C ⊕ D) = AC ⊕ BD
Exemplo 3. Sejam as matrizes:
A =
[
10 11 15]
, B = −1 4 5 3 , C =[
−10 −11 −15]
Então, A ⊕ B = −1 4 0 0 0 5 3 0 0 0 0 0 15 11 10 A ⊕ C = − − −10 11 15 0 0 0 0 0 0 15 11 10 ≠ ΦΦΦΦ (Perceba que A+C = ΦΦΦ) Φ2.2.4. Produto direto ou de Kronecker
Dadas as matrizes A(m×n) e B(r×s) definimos o produto direto ou produto de Kronecker
C(mr × ns) = A ⊗ B = B B B B B B B B B mn 2 m 1 m n 2 22 21 n 1 12 11 a a a a a a a a a L M O M M L L
Algumas propriedades interessantes do produto direto de matrizes:
(i) A ⊗ B ≠ B ⊗ A , em geral
(ii) Se u e v são vetores, então u’ ⊗ v = v ⊗ u’ = vu’.
(iii) Se D(n) é uma matriz diagonal e A é uma matriz qualquer, então:
D ⊗ A = d11A ⊕ d22A ⊕ … ⊕ dnnA (iv) Se as dimensões são favoráveis
(A ⊗ B)(C ⊗ D) = AC ⊗ BD
Exemplo 4. Sejam as matrizes: A(2×2) = 4 3 2 1 , B(2×3) = − 6 5 3 0 1 1 , y(3×1) = − 0 1 1 . Então A⊗B = − − − − 24 20 12 18 15 9 0 4 4 0 3 3 12 10 6 6 5 3 0 2 2 0 1 1 , B⊗A = − − − − 24 18 20 15 12 9 12 6 10 5 6 3 0 0 4 3 4 3 0 0 2 1 2 1 A⊗y = − − − − 0 0 4 3 4 3 0 0 2 1 2 1 , y⊗A = − − − − 0 0 0 0 4 3 2 1 4 3 2 1
2.2.5 Potência de matriz quadrada
Dada uma matriz quadrada A e um número k ∈ Z (conjunto dos números inteiros e positivos), definimos a k-ésima potência da matriz A como:
k
A = 142L43
k vezes A AAA
Em relação à sua segunda potência, uma matriz quadrada A, será chamada de: (i) idempotente, se A = A2 .
(ii) nilpotente, se A 2 = ΦΦΦΦ. (iii) unipotente, se A 2 = I.
Teorema. Se P(n) é uma matriz idempotente e se I(n) é a matriz identidade de ordem n,
então a matriz I – P é idempotente.
2.3. MATRIZES PARTICIONADAS
Muitas vezes é conveniente particionar uma matriz em submatrizes. Por exemplo, uma partição de uma matriz A em quatro submatrizes (quadradas ou retangulares) de dimensões apropriadas, pode ser indicada simbolicamente como:
A = 22 21 12 11 A A A A
Para ilustrar, seja a matriz A(4×5) particionada como:
A = − − 6 1 2 1 3 2 5 6 3 9 7 2 0 4 3 4 8 5 2 7 = 22 21 12 11 A A A A Onde: A11 = −3 4 0 5 2 7 , A12 = 7 2 4 8 , A21 = 2 1 3 6 3 9 e A22 = − 6 1 2 5
Se duas matrizes A e B são conformes, e se A e B são particionadas de tal for-ma que as subfor-matrizes sejam apropriadamente conformes, então o produto AB pode ser encontrado usando a maneira usual de multiplicação (linha-por-coluna) tendo as submatrizes como se fossem elementos únicos. Por exemplo:
AB = 22 21 12 11 A A A A 22 21 12 11 B B B B = + + + + 22 22 12 21 21 22 11 21 22 12 12 11 21 12 11 11 B A B A B A B A B A B A B A B A (2.35)
Se B é trocada por um vetor b particionado em dois conjuntos de elementos e se A é correspondentemente particionada em dois conjuntos de colunas, então (2.35) fica: Ab = [A1, A2] 2 1 b b = A1b1 + A2b2 (2.36)
Onde o número de colunas de A1 é igual ao número de elementos de b1 e A2 e b2 são
similarmente conformes.
A multiplicação particionada em (2.36) pode ser estendida para colunas indivi-duais de A e elementos individuais de b:
Ab = [a1, a2, …………, ap] p b b b M 2 1 = b1a1 + b2a2 + ………… + bpap (2.37)
Assim, Ab pode ser expressa como uma combinação linear de colunas de A, na qual os coeficientes são os elementos de b. Nós ilustramos (2.37) no seguinte exemplo:
Exemplo 5. Sejam: A = − 2 3 4 0 1 2 3 2 6 , b = −1 2 4 ⇒ Ab = 20 10 17
Usando uma combinação linear de colunas de A como em (2.37), nós obtemos: Ab = b1a1 + b2a2 + b3a3 = 4 4 2 6 + 2 − 3 1 2 + (–1) 2 0 3 = 16 8 24 + − 6 2 4 – 2 0 3 = 20 10 17
Por (2.28) e (2.29), as colunas do produto AB são combinações lineares das co-lunas de A. Os coeficientes para a j-ésima coluna de AB são os elementos da j-ésima coluna de B.
O produto de um vetor linha por uma matriz, a’B, pode ser expresso como uma combinação linear das linhas de B, na qual os coeficientes são os elementos de a’:
a’B = [a1, a2, …, an] t n t t b b b M 2 1 = a1b1t + a2bt2 + … + an t n b (2.38)
Por (2.27) e (2.38), as linhas do produto AB são combinações lineares das linhas de B. Os coeficientes da i-ésima linha de AB são os elementos da i-ésima linha de A. Finalmente, notamos que se uma matriz A é particionada como A = [A1,A2], então:
A’ = [A1, A2]’ = t t 2 1 A A (2.39)
2.4 POSTO (RANK) DE UMA MATRIZ
Antes de definirmos o posto (ou rank) de uma matriz, nós introduziremos a noção de independência linear e dependência. Um conjunto de vetores {a1, a2, …………, ap} é dito linearmente dependente (l.d.) se pudermos encontrar um conjunto de escalares c1, c2,
…, cp (nem todos nulos) de tal forma que:
c1a1 + c2a2 + ………… + cpap = 0 (2.40) Se não encontrarmos um conjunto de escalares c1, c2, …, cp (nem todos nulos) que sa-tisfaçam (2.40), o conjunto de vetores {a1, a2, …………, ap} é dito linearmente independente (l.i.). Por (2.37), podemos reescrever essa definição da seguinte forma:
“As colunas de A são linearmente independentes se Ac = 0 implica em c = 0”. Observe que se um conjunto de vetores inclui um vetor nulo, o conjunto de vetores é linearmente dependente.
Se (2.40) é satisfeita, então existe pelo menos um vetor ai que pode ser expres-so como uma combinação linear dos outros vetores do conjunto. Entre vetores linear-mente independentes não existem redundâncias desse tipo.
Definição: O posto (rank) de qualquer matriz A (quadrada ou retangular) é definido como o número de colunas (linhas) linearmente independentes de A
Pode-se mostrar que o número de colunas l.i. de qualquer matriz é igual ao número de linhas l.i. dessa matriz.
Se a matriz A tem um único elemento diferente de zero, com todos os demais elementos iguais a zero, então rank(A) = 1. O vetor 0 e a matriz ΦΦΦ têm posto zero. Φ
Se a matriz retangular A(n×p) de posto p, onde p < n, então A tem o maior posto
possível e é dito ter posto coluna completo.
Em geral, o maior posto possível de uma matriz A(n×p) é o min(n, p). Assim, em
uma matriz retangular, as linhas, as colunas ou ambas são linearmente dependentes. Nós ilustramos esse fato no próximo exemplo.
Exemplo 6. O posto da matriz:
A = − 4 2 5 3 2 1
é igual a 2, porque as duas linhas são linearmente independentes, pois nenhuma linha é múltipla da outra. Conseqüentemente, pela definição de posto, o número de colunas l.i. também é 2. Portanto, as três colunas de A são l.d. e por (2.40) existem constantes c1, c2 e c3 (nem todas nulas) tais que:
c1 5 1 + c2 − 2 2 + c3 4 3 = 0 0 (2.41) Por (2.37) nós escrevemos (2.41) na forma
− 4 2 5 3 2 1 3 2 1 c c c = 0 0 ou Ac = 0 (2.42)
A solução (não trivial) para (2.42) é dada por qualquer múltiplo de c =
− − 12 11 14 . Neste caso o produto Ac = 0, mesmo com A ≠ 0 e c ≠ 0. Isso só é possível por causa da de-pendência linear dos vetores-colunas de A.
Nem sempre é fácil perceber que uma linha (ou coluna) é uma combinação li-near de outras linhas (ou colunas). Nesses casos pode ser difícil “calcular” o posto de uma matriz. Entretanto, se conseguirmos obter a forma escalonada canônica (f.e.c.) da matriz, o seu posto corresponderá ao número de linhas (ou colunas) que tenham o número 1 como líder. A obtenção da f.e.c. de uma matriz é feita através de operações elementares em suas linhas (ou colunas).
Definição: São chamadas de operações elementares nas linhas da matriz A (e de modo similar nas suas colunas):
(i) trocar a posição de duas linhas da matriz.
(ii) multiplicar uma linha da matriz por um escalar k ≠ 0 (li = kli).
(iii) somar a uma linha da matriz um múltiplo de outra linha (li = li + klj).
Teorema: Uma matriz A é equivalente por linhas a uma matriz B se B pode ser obti-da de A aplicando-se uma seqüência de operações elementares sobre as suas linhas. Definição: Dizemos que uma matriz A(n×m) está na sua forma escalonada canônica ou
reduzida se ocorrer simultaneamente que:
(a) o primeiro elemento não nulo de cada linha não nula é o número 1 (pivô); (b) toda coluna que tem um pivô, tem todos os outros elementos nulos;
(c) o pivô da linha i +1 ocorre à direita do pivô da linha i (i = 1, 2, …, n – 1).
(d) todas as linhas nulas (formadas inteiramente por zeros) ocorrem abaixo das linhas não nulas.
Definição: Dizemos que uma matriz está na forma escalonada se ela satisfaz as pro-priedades (c) e (d), mas não necessariamente as propro-priedades (a) e (b).
Das matrizes apresentadas a seguir, B não está na forma escalonada, A e C es-tão nas suas formas escalonadas canônicas e D, na forma escalonada.
A = 0 0 0 0 1 0 0 0 1 , B = 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 1 , C = 0 0 0 0 2 1 2 1 , D = 1 0 0 0 3 0 3 0 4
Teorema. Dada uma matriz real A(n×p) é sempre possível obtermos a sua forma
esca-lonada canônica (f.e.c.) através de operações elementares.
Assim, calcular o posto da matriz A é o mesmo que calcular o posto da f.e.c. de A, pois são equivalentes. Portanto, calcular o posto da f.e.c. de A é o mesmo que contar o seu número de 1’s pivôs.
Exemplo 7. Vamos obter a f.e.c. da matriz A do Exemplo 2.4(a): A = − 4 2 5 3 2 1 (i) Fazendo l2 = l2 – 5l1, nós obtemos:
− 4 2 5 3 2 1 ~ − − 11 12 0 3 2 1 . (ii) Fazendo l2 = l2 /12, nós obtemos:
− − 11 12 0 3 2 1 ~ − − 12 / 11 1 0 3 2 1 . (iii) Fazendo l1 = l1 + 2l2, obtemos:
− − 12 / 11 1 0 3 2 1 ~ −11/12 1 0 6 / 7 0 1
Então a f.e.c. de A é a matriz
−11/12 1 0 6 / 7 0 1 e o rank(A) = 2.
Definição: Dizemos que uma matriz quadrada está na forma de Hermite (Graybill 1969, p.120) se satisfaz as seguintes condições:
(a) é uma matriz triangular superior;
(b) tem apenas valores zero ou um na sua diagonal;
(c) se tem o valor zero na diagonal, os elementos restantes na linha são zeros; (d) se tem o valor um na diagonal, os elementos restantes da coluna em que
apare-ce o número um, são nulos.
Definição: Dizemos que uma matriz quadrada está na forma de Echelon (Graybill,
1969, p.286) se ela satisfaz as condições de uma forma de Hermite e apresenta as linhas de zeros abaixo das linhas que não são nulas.
Nós podemos estender (2.42) para produtos de matrizes. É possível encontrar matrizes A ≠ 0 e B ≠ 0, tais que:
AB = 0 (2.43) Por exemplo, 4 2 2 1 − −1 3 6 2 = 0 0 0 0
Nós também podemos explorar a dependência linear das linhas ou colunas de uma matriz para criar expressões tais como AB = CB, onde A ≠ C. Assim em uma equação matricial, nós não podemos, em geral, cancelar uma matriz de ambos os lados da equação. Uma exceção a essa regra ocorre quando as matrizes envolvidas são quadradas e B é uma matriz não-singular (será definida na Seção 2.5).
Exemplo 8. Nós ilustramos a existência de matrizes A, B e C tais que AB = CB, onde A ≠ C. Sejam as matrizes:
A = −1 0 2 2 3 1 , B = 0 1 1 0 2 1 , C = − −6 4 5 1 1 2 ⇒ AB = CB = 4 1 5 3 . O teorema seguinte dá um caso geral e dois casos especiais para o posto do produto de duas matrizes.
Teorema 2.4A.
(i) Se as matrizes A e B são conformes, então rank(AB) ≤ rank(A) e rank(AB) ≤ rank(B).
(ii) A multiplicação por uma matriz não-singular (ver Seção 2.5) não altera o posto da matriz, isto é, se B e C são não-singulares⇒ rank(AB) = rank(CA) = rank(A). (iii) Para qualquer matriz A, rank(A’A) = rank(AA’) = rank(A’) = rank(A).
Prova:
(i) Todas as colunas de AB são combinações lineares das colunas de A (ver um co-mentário no Exemplo 2.3) conseqüentemente, o número de colunas l.i. de AB é menor ou igual ao número de colunas l.i. de A, e rank(AB) ≤ rank(A). Similar-mente, todas as linhas de AB são combinações lineares das linhas de B [ver comentário em (2.38)] e daí, rank(AB) ≤ rank(B).
(ii) Se B é não singular, existe uma matriz B-1 tal que BB-1 = I [ver (2.45) a seguir]. Então, de (i) nós temos que:
rank(A) = rank(ABB-1) ≤ rank(AB) ≤ rank(A).
Assim ambas as desigualdades tornam-se igualdades e rank(A) = rank(AB). Simi-larmente, rank(A) = rank(CA) para C não-singular.
2.5. INVERSA DE UMA MATRIZ
Uma matriz quadrada de posto completo é dita não-singular. Uma matriz A, não-singular, tem inversa única, denotada por A–1, com a propriedade que:
Um algoritmo simples (que é trabalhoso se a dimensão da matriz é grande!) para obtenção da inversa de uma matriz consiste em justapor à matriz A uma matriz identidade de mesma ordem. Opera-se simultaneamente sobre as linhas das duas ma-trizes até que no lugar da matriz A apareça a sua f.e.c. (neste caso, uma matriz iden-tidade). Nesse momento, no lugar da matriz identidade estará a inversa A–1 de A. Ou seja:
[A | I ] ~ … ~ [I | A–1]
Exemplo 9. Seja a matriz quadrada:
A = 6 2 7 4 . (1) Fazendo l2 = l2 – (1/2) l1: 1 0 6 2 0 1 7 4 ~ −1/2 1 2 / 5 0 0 1 7 4 (2) Fazendo l2 = (2/5)l2: −1/2 1 2 / 5 0 0 1 7 4 ~ −1/5 2/5 1 0 0 1 7 4 (3) Fazendo l1 = l1 + (–7) l2: −1/5 2/5 1 0 0 1 7 4 ~ − − 5 / 2 5 / 1 1 0 5 / 14 5 / 12 0 4 (4) Fazendo l1 = (1/4) l1: − − 5 / 2 5 / 1 1 0 5 / 14 5 / 12 0 4 ~ − − 5 / 2 5 / 1 1 0 10 / 7 5 / 3 0 1 Então 1 0 6 2 0 1 7 4 ~ … ~ − − 5 / 2 5 / 1 1 0 10 / 7 5 / 3 0 1 ⇒ A–1 = − − 4 . 0 2 . 0 7 . 0 6 . 0
Se a matriz B é não-singular e AB = CB, então nós podemos multiplicar à direita por B–1 os dois lados da igualdade, obtendo:
AB = CB ⇒ ABB–1= CBB–1 ⇒ A = C
Importante: Se a matriz B é singular ou retangular, ela não pode ser cancelada nos dois lados da igualdade AB = CB.
Similarmente, se A é não-singular então o sistema Ax = c tem a solução única:
x = A–1c (2.47)
Teorema 2.5A. Se A é não singular, então A’ é não singular e a sua inversa pode ser encontrada como:
(A’) –1 = (A–1)’ (2.48)
Teorema 2.5B. Se A e B são matrizes não singulares de mesma dimensão, então AB é não-singular e
(AB)–1 = B–1A–1 (2.49)
Se a matriz A é simétrica, não-singular e particionada como:
A = 22 21 12 11 A A A A e se B = A22 – A21(A11) –1
A12, então supondo que (A11) –1 e B–1 existem, a inversa de A é dada por A–1 = − − − − − − − 1 1 -11 21 1 1 12 1 -11 1 -11 21 1 12 1 -11 1 -11 B A A B B A A A A B A A A (2.50)
Como um caso especial de (2.50), consideremos a matriz não singular: A =
(
)
22 12 12 11 a t a a Aonde A11 é quadrada, a22 é um escalar e a12 é um vetor. Então se (A11) –1
existe, a inversa de A pode ser expressa como:
A–1 = b 1 − − + 1 ) ( ) ( 1 -11 12 12 1 -11 1 -11 12 12 1 -11 1 -11 A a a A A a a A A t t b (2.51) onde b = a22 – (a12)t(A11) –1
a12. Como um outro caso especial de (2.50) nós temos:
A = 22 11 A A Φ Φ Φ Φ Φ Φ Φ Φ que tem a inversa
A–1 = − − 1 22 1 11 A A Φ Φ Φ Φ Φ Φ Φ Φ (2.52)
Se uma matriz quadrada da forma B + cc’ é não singular, onde c é um vetor e B é uma matriz não singular, então:
(B + cc’)–1 = B–1 – c B c' B cc' B 1 1 1 1 − − − + (2.53)
2.6 MATRIZES POSITIVAS DEFINIDAS
Formas quadráticas foram introduzidas em (2.33). Por exemplo, a forma quadrática 3y12 + y22 + 2y32 + 4y1 y2 + 5y1 y3 – 6y2 y3 pode ser expressa como:
3y12 + y22 + 2y32 + 4y1 y2 + 5y1 y3 – 6y2 y3 = y’Ay onde y = 3 2 1 y y y , A = − 2 0 0 6 1 0 5 4 3 .
Entretanto, essa forma quadrática pode ser expressa em termos da matriz simétrica:
2 1 (A + A’) = − − 2 3 2 / 5 3 1 2 2 / 5 2 3 .
Em geral, qualquer forma quadrática y’Ay pode ser expressa como:
y’Ay = y’ + 2 A' A y (2.54)
Assim a matriz-núcleo da forma quadrática pode sempre ser escolhida como uma matriz simétrica (e única!).
Exemplo 10. A variância definida como s2 = 1 1 − n y' I Jy − n 1
= y’Ay é uma forma quadrática e a sua matriz núcleo é simétrica:
A = 1 1 − n − − − − − − − − − n n n n n n n n n 1 1 1 1 1 1 1 1 1 1 1 1 L M M M L L =
(
)
(
)
(
)
(
)
(
)
(
)
− − − − − − − − − − − − n n n n n n n n n n n n n n n 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 L M M M L LAs somas de quadrados encontradas na análise de regressão (Capítulos 6 a 10) e análise de variância (Capítulos 11 a 14) podem ser expressas na forma y’Ay, onde y é um vetor de observações. Tais formas quadráticas são positivas (ou no mínimo não-negativas) para todos os valores de y.
Se a matriz simétrica A tem a propriedade de y’Ay > 0 para todos os possíveis vetores de observações y, com exceção de y = 0, então a forma quadrática y’Ay é dita positiva definida e A é dita matriz positiva definida.
Similarmente, se y’Ay ≥ 0 para todos os possíveis vetores de observações y,
com exceção de y = 0, então a forma quadrática y’Ay é dita positiva semidefinida e A é dita matriz positiva semidefinida.
Exemplo 11. Para ilustrar uma matriz positiva definida, considere:
A = − − 3 1 1 2 A forma quadrática associada
y’Ay = 2y12 – 2y1 y2 + 3y22 = 2(y1 – 0,5y2)2 + (5/2)y22 que é claramente positiva a menos que y1 e y2 sejam ambos iguais a zero.
Para ilustrar uma matriz positiva semidefinida, considere: (2y1 –y2)2 + (3y1 – y3)2 + (3y2 – 2y3)2 que pode ser expresso como y’Ay, com
A = − − − − − − 5 6 3 6 10 2 3 2 13 Se 2y1 =y2, 3y1 = y3 e 3y2 = 2y3, então (2y1 –y2)2 + (3y1 – y3)2 + (3y2 – 2y3)2 = 0. Assim y’Ay = 0 para qualquer múltiplo de y = [1, 2, 3]’. Para todos os outros casos, y’Ay > 0 (com exceção de y = 0).
Teorema 2.6A.
(i) Se A é positiva definida, então todos os elementos aii da sua diagonal são posi-tivos.
(ii) Se A é positiva semidefinida, então todos aii≥ 0. (Ver prova na página 23 do livro do Rencher)
Teorema 2.6B. Seja P uma matriz não-singular.
(i) Se A é positiva definida, então P’AP é positiva definida.
(ii) Se A é positiva semidefinida, então P’AP é positiva semidefinida. (Ver prova na página 23 do livro do Rencher)
Corolário 1. Seja A(p×p) uma matriz positiva definida e seja a matriz B(k×p) de posto
k ≤ p. Então a matriz BAB’ é positiva definida.
Corolário 2. Seja A(p×p) uma matriz positiva definida e seja a matriz B(k×p). Se k > p
ou se rank(B) = r, onde r < k e r < p, então a matriz BAB’ é positiva semidefinida.
Teorema 2.6C. Uma matriz simétrica A é positiva definida se e somente se existe uma matriz não singular P tal que A = P’P.
(Ver prova na página 23 do livro do Rencher)
Corolário 1. Uma matriz positiva definida é não-singular.
Um método de fatorar uma matriz positiva definida A em um produto P’P é chamado de decomposição de Cholesky [ver Seber (1977, pág.304-305)], pelo qual A pode ser fatorado de modo único em A = T’T, onde T é uma matriz não singular e triangular superior.
Para qualquer matriz quadrada ou retangular B, a matriz B’B é positiva defi-nida ou positiva semidefidefi-nida.
Teorema 2.6D. Seja a matriz B(n×p).
(i) Se rank(B) = p, então B’B é positiva definida. (ii) Se rank(B) < p, então B’B é positiva semidefinida. Prova:
(i) Para mostrar que y’B’By > 0 para y ≠0, nós notamos que y’B’By = (By)’(By) é
uma soma de quadrados e portanto, é positiva definida, a menos que By = 0. Por (2.37) nós podemos expressar By na forma:
By = y1b1 + y2b2 + … + ypbp
Essa combinação linear não é igual a 0 (para qualquer y ≠0) porque rank(B) = p
(ii) Se rank(B) < p, então nós podemos encontrar y ≠0 tal que
By = y1b1 + y2b2 + … + ypbp = 0
porque as colunas de B são l.d. [ver (2.40)]. Daí, y’B’By ≥ 0.
Note que se B é uma matriz quadrada, a matriz B2 = BB não é necessariamente positiva semidefinida. Por exemplo, seja a matriz:
B = − − 2 1 2 1 Então: B2 = − − 2 1 2 1 , B’B = − − 8 4 4 2
Neste caso, B2 não é positiva semidefinida, mas B’B é positiva semidefinida, porque y’B’By = 2(y1 – 2y2)
2
≥ 0.
Teorema 2.6E. Se A é positiva definida, então A–1 é positiva definida.
Prova: Pelo Teorema 2.6C, A = P’P, onde P é não singular. Pelos Teoremas 2.5A e 2.5B, A–1 = (P’P)–1 = P–1(P’)–1 = P–1(P–1)’, que é positiva definida pelo Teore-ma 2.6C.
Teorema 2.6F. Se A é positiva definida e é particionada na forma
A = 22 21 12 11 A A A A
onde A11 e A22 são quadradas, então A11 e A22 são positivas definidas.
Prova: Nós podemos escrever A11 como A11 = [I, 0] A
0 I
, onde I tem a mesma di-mensão de A11. Então, pelo Corolário 1 do Teorema 2.6B, A11 é positiva
2.7 SISTEMAS DE EQUAÇÕES
O sistema de equações de n equações (lineares) e p incógnitas a11x1 + a12x2 + … + a1pxp = c1
a21x1 + a22x2 + … + a2pxp = c2
… (2.55)
an1x1+ an2x2+ … + anpxp = cn pode ser escrito na forma matricial como
Ax = c (2.56)
onde A é n×p, x é p×1 e c é n×1.
Note que:
• Se n ≠ p então os vetores x e c são de tamanhos diferentes.
• Se n = p e A é não-singular, então por (2.47), existe um único vetor solução x =
A–1c.
• Se n > p, tal que A tenha mais linhas que colunas (mais equações do que
incógni-tas), então, geralmente, o sistema Ax = c não tem solução.
• Se n < p, tal que A tenha menos linhas que colunas, então o sistema Ax = c tem
um número infinito de soluções.
• Se o sistema (2.56) tem uma ou mais vetores soluções, ele é chamado de sistema
consistente. Se não tem solução, ele é chamado de sistema inconsistente.
Para ilustrar a estrutura de um sistema consistente, suponha que A seja p×p
tenha posto r < p. Então as linhas de A são linearmente dependentes e existe algum b tal que [ver (2.38)]:
b’A = b1a1t + b2a2t + … + bpatp = 0’
Então, nós também podemos ter b’c = b1c1 + b2 c2+ … + bp cp = 0, porque a multipli-cação de Ax = c por b’ (de ambos os lados) dá:
b’Ax = b’c ou 0’x = b’c.
Por outro lado, se b’c ≠ 0, não existe x tal que Ax = c. Portanto, para que Ax = c seja
consistente, a mesma relação (qualquer que seja) que existe entre as linhas de A deve existir entre os elementos (linhas) de c. Isso é formalizado comparando o posto de A com o posto da matriz aumentada [A, c]. A notação [A, c] indica que c foi justaposta à matriz A como uma coluna adicional.
Teorema 2.7A O sistema de equações Ax = c é consistente (tem no mínimo uma solução) se e somente se rank(A) = rank[A, c].
Prova: Suponha que rank(A) = rank[A, c], de tal forma que justapor não altera o posto da matriz A. Então c é uma combinação linear das colunas de A; isto é, existe pelo menos um x tal que
x1a1 + x2a2 + … + xpap = c
que, por (2.38) pode ser escrito como Ax = c. Assim, x é uma solução do siste-ma Ax = c.
Por outro lado, suponha que existe um vetor solução x tal que Ax = c. Em geral, tem-se que rank(A) ≤ rank[A, c] [ver Harville (1997, p.41)]. Mas desde que
existe um x tal que Ax = c, nós temos:
rank[A, c] = rank[A, Ax] = rank[A(I, x)]
≤ rank(A) [Teorema 2.4A(i)] Por isso,
rank(A) ≤ rank[A, c] ≤ rank(A)
e daí nós temos que rank(A) = rank[A, c].
Um sistema de equações consistente pode ser resolvido pelos métodos usuais apresentados nos cursos básicos de álgebra (método da eliminação de variáveis, por exemplo). No processo, uma ou mais variáveis podem terminar como constantes arbi-trárias, gerando assim um número infinito de soluções. Um método alternativo para resolver o sistema será apresentado na Seção 2.8.2.
Exemplo 12. Considere o sistema de equações: x1 + 2x2 = 4 x1 – x2 = 1 x1 + x2 = 3 ou − 1 1 1 1 2 1 2 1 x x = 3 1 4 A matriz aumentada é: [A, c] = − 3 1 1 1 1 1 4 2 1
que tem rank[A, c] = 2 porque a terceira coluna é igual à soma de duas vezes a pri-meira coluna com a segunda coluna. Desde que rank[A, c] = 2 = rank(A), existe ao menos uma solução para o sistema.
Se adicionarmos duas vezes a primeira equação à segunda equação, o resultado é um múltiplo da terceira equação. Assim, a terceira equação é redundante e as duas primeiras podem ser resolvidas para obter a solução única x = [2, 1]’.
0 1 2 3 4 0 1 2 3 4 5 x1 x2
Figura 2.1 Três linhas representando as equações do sistema do Exemplo 2.7(a) A Figura 2.1 mostra as três linhas que representam as três equações do sistema. Note que as três linhas cruzam no ponto de coordenadas (2, 1), que é a solução única do sistema de três equações.
Exemplo 13. Se trocarmos o número 3 por 2 na terceira equação do Exemplo 2.7(a), a matriz aumentada fica:
[A, c] = − 2 1 1 1 1 1 4 2 1
que tem posto 3, já que nenhuma combinação linear das colunas é 0. Como rank[A,c] = 3 ≠ rank(A) = 2, o sistema é inconsistente.
As três linhas que representam as três equações são apresentadas na Figura 2.2, onde nós percebemos que as três linhas não têm um ponto comum de interseção. Para encontrar a melhor solução aproximada, uma abordagem consiste em usar o método dos mínimos quadrados, que consiste em buscar os valores de x1 e x2 que minimizam
(x1 + 2x2 – 4) 2 + (x1 – x2 – 1) 2 + (x1 + x2 – 2) 2 = 0. 0 1 2 3 4 0 1 2 x 3 4 5 1 x2
Exemplo 2.7(c) Considere o sistema:
x1 + x2 + x3 = 1
2x1 + x2 + 3x3 = 5
3x1 + 2x2 + 4x3 = 6
A terceira equação é a soma das duas primeiras, mas a segunda não é um múltiplo da primeira. Assim rank(A) = 2 = rank[A, c] e o sistema é consistente. Resolvendo as duas primeiras equações para x1 e x2 em termos de x3, nós obtemos:
x1 = –2x3 + 4, x2 = x3 – 3
O vetor solução pode ser expresso como: x = − + − 3 3 3 3 4 2 x x x = x3 − 1 1 2 + − 0 3 4
onde x3 é uma constante arbitrária. Geometricamente, x é uma linha representando a
interseção dos dois planos correspondentes às duas primeiras equações.
2.8. INVERSA GENERALIZADA
Vamos considerar inversas generalizadas daquelas matrizes que não têm inversas no sentido usual [ver (2.45)]. Uma solução de um sistema consistente de equações Ax =c pode ser expresso em termos de uma inversa generalizada de A.
2.8.1 Definição e Propriedades
Uma inversa generalizada de uma matriz A n×p é qualquer matriz A–, que satisfaz:
AA–A = A (2.57)
Uma inversa generalizada não é única exceto quando A é não-singular, neste caso A– = A–1. Uma inversa generalizada que satisfaz (2.57) é também chamada de inversa condicional.
Toda matriz (quadrada ou retangular) tem uma inversa condicional. Isso é ga-rantido mesmo para vetores. Por exemplo:
x = 4 3 2 1 então − 1
x = [1, 0, 0, 0] é uma inversa generalizada de x que satisfaz (2.57). Outros exemplos são −
2 x = [0, 1/2, 0, 0], − 3 x = [0, 0, 1/3, 0] e − 4 x = [0, 0, 0, 1/4]. Para cada − i x , nós temos que: x − i x x = x 1 = x, i = 1, 2, 3. Nessa ilustração, x é um vetor coluna e −
i
x é um vetor linha. Esse modelo é generali-zado no seguinte teorema.
Teorema 2.8A. Se A é n×p então qualquer inversa generalizada A– é p×n. Exemplo 14. Seja: A = 4 2 3 1 0 1 3 2 2 (2.58)
Como a terceira linha de A é a soma das duas primeiras linhas, e a segunda linha não é um múltiplo da primeira, o rank(A) = 2. Sejam
− 1 A = − 0 0 0 0 1 2 / 1 0 1 0 , − 2 A = − 0 0 0 2 / 1 2 / 3 0 0 1 0 (2.59) Facilmente podemos verificar que A −
1
A A = A e A − 2
A A = A.
Teorema 2.8B. Suponha que A é n×p de posto r e que A é particionada como
A = 22 21 12 11 A A A A
Onde A11 é r×r de posto r. Então a inversa generalizada de A é dada por
A– = − Ο Ο Ο A111
Onde as três matrizes nulas 0 têm dimensões apropriadas para que A– seja p×n.
(Ver prova na pág. 30 no livro do Rencher)
Corolário 1. Suponha A (n×p) de posto r e que A é particionado como no Teorema
2.8B, onde A22 é r×r de posto r. Então a inversa generalizada de A é dada por
A– = −1 22 A 0 0 0
A submatriz não-singular não precisa estar na posição A11 ou A22, como no
Teorema 2.8B e no seu corolário. O Teorema 2.8B pode ser estendido para o seguinte algoritmo para encontrar uma inversa condicional A–, para qualquer matriz A (n×p)
de posto r [ver Searle, 1982, p.218]:
1. Encontre qualquer submatriz não-singular C(r×r). Não é necessário que os
ele-mentos de C ocupem posições (linhas e colunas) adjacentes em A. 2. Encontre C–1 e a sua transposta (C–1)’.
3. Substitua em A os elementos de C pelos elementos de (C–1)’. 4. Substitua todos os outros elementos de A por zeros.
5. Transponha a matriz resultante.
Exemplo 15. Calcular uma inversa generalizada (condicional) de X =
1 0 1 1 0 1 0 1 1 0 1 1
Usando o algoritmo de Searle (e lembrando que o posto da matriz X é 2), escolhemos convenientemente: C = 1 0 0 1 ⇒ C–1 = 1 0 0 1 ⇒ (C–1)’ = 1 0 0 1 ⇒ 0 0 0 1 0 0 0 1 0 0 0 0 ⇒ X– = 0 1 0 0 0 0 1 0 0 0 0 0
é uma inversa condicional de X
Vale lembrar que escolhendo outras matrizes C e usando o algoritmo, podemos en-contrar outras inversas condicionais de X.
Teorema 2.8C. Seja A (n×p) de posto r, seja A– uma inversa generalizada de A e
seja (A’A)– uma inversa generalizada de A’A. Então: (i) posto(A’A) = posto(AA’) = posto(A) = r.
(ii) (A’)– é uma inversa generalizada de A’; isto é (A’)– = (A–)’. (iii) A = A(A’A)–A’A e A’ = A’A(A’A)–A’.
(iv) (A’A)–A’ é uma inversa generalizada de A, isto é, A– = (A’A)–A’.
(v) A(A’A)–A’ é simétrica, rank[A(A’A)–A’] = r e é invariante à escolha de (A’A)–; isto é, A(A’A)–A’ permanece a mesma, para qualquer (A’A)–.