• Nenhum resultado encontrado

Estudo da decomposição em valores singulares e análise dos componentes principais

N/A
N/A
Protected

Academic year: 2021

Share "Estudo da decomposição em valores singulares e análise dos componentes principais"

Copied!
70
0
0

Texto

(1)

Universidade Federal Fluminense

Instituto de Ciências Exatas

Curso de Matemática

Estudo da Decomposição em Valores Singulares

e Análise Dos Componentes Principais

Juliano Vieira de Oliveira

Volta Redonda

Agosto de 2016

(2)
(3)

Universidade Federal Fluminense

Instituto de Ciências Exatas

Curso de Matemática

Estudo da Decomposição em Valores Singulares e Análise

Dos Componentes Principais

Trabalho de Conclusão de Curso na área de conhecimento de Matemática Aplicada, apresentado ao Curso de Matemática, ICEx, da Universidade Federal Fluminense, como parte dos requisitos necessários à obtenção do título de Bacharel em Matemática.

Juliano Vieira de Oliveira

Orientador: Profa. Dra. Marina Sequeiros Dias

de Freitas

Volta Redonda

(4)
(5)
(6)
(7)

Agradecimentos

À professora Marina Sequeiros Dias de Freitas por todo incentivo, apoio e paciência na orientação.

A todos os professores que me ajudaram ao longo do curso transmitindo seus conhecimentos e experiências.

Aos meus pais, Maurício e Patricia, pelo apoio e dedicação incondicional.

A minha avó, Maria das Graças, por sempre me incentivar nos estudos.

Ao meu irmão, Lucas, pelo apoio e paciência.

A Universidade Federal Fluminense Campus Volta Redonda por toda estrutura que tornou possível meus estudos.

A todos familiares e amigos que de alguma forma me ajudaram por toda minha trajetória.

(8)
(9)

Resumo

Toda matriz tem uma decomposição em valores singulares (SVD). Essa fatorização tem muitas aplicações, dentre elas, pode-se obter propriedades das matrizes, tais como o posto, bases para o espaço imagem e o espaço nulo, normas de matrizes induzidas pela norma vetorial; método dos mínimos quadrados; aproximação de uma matriz por matrizes de posto baixo; e processamento de sinais e imagens, tais como compressão de imagens, eliminação de ruídos e recuperação de informações.

A análise de componentes principais é um método que busca analisar dados para que se possa fazer sua redução e eliminação de possíveis ruídos. Seu objetivo é transformar variáveis discretas em variáveis descorrelacionadas. O PCA é considerado uma transformação linear ótima sendo amplamente utilizado em muitas aplicações como análise de dados, processamento de imagens e principalmente no reconhecimento de padrões.

Neste trabalho vamos explorar as características de cada método, seus resultados mais importantes e algumas aplicações envolvendo imagens digitais e dados reais.

Palavras-chave: Decomposição em Valores Singulares. Análise de Componentes Principais.

(10)
(11)

Lista de ilustrações

Figura 1 – Imagem de uma esfera unitária sobre uma matriz diagonal . . . 9

Figura 2 – Decomposição em Valores Singulares de uma matriz A . . . 15

Figura 3 – Visão geométrica do SVD . . . 18

Figura 4 – Lena . . . 33

Figura 5 – Matriz de pixels correspondente . . . 34

Figura 6 – Construção das matrizes treino de faces . . . 36

Figura 7 – Números manuscritos 0-9 . . . 37

Figura 8 – Ajuste por regressão linear . . . 38

Figura 9 – Imagem original. . . 41

Figura 10 – Compressão para diferentes valores singulares: 10, 20, 40, 60 . . . 41

Figura 11 – Compressão para diferentes componentes principais: 10, 20, 40, 60 . . . 42

Figura 12 – Compressão com SVD . . . 43

Figura 13 – Compressão com PCA . . . 43

(12)
(13)

Lista de tabelas

Tabela 1 – Erro relativo e razão de compressão para SVD e PCA na compressão

de imagens. . . 42

Tabela 2 – Atributos dos dados Housing . . . 46

Tabela 3 – Erros da regressão com o PCA . . . 47

(14)
(15)

Lista de abreviaturas e siglas

SVD Decomposição em Valores Singulares

(16)
(17)

Sumário

1 Introdução. . . . 1

2 Conceitos Básicos . . . . 3

2.1 Matrizes e Vetores . . . 3

2.2 Produto interno e normas vetoriais . . . 5

2.3 Independência linear: Base . . . 9

2.4 Autovalores e autovetores . . . 12

3 Decomposição em Valores Singulares . . . 15

3.1 Decomposição em Valores Singulares . . . 15

3.2 Visão Geométrica . . . 17

3.3 Diferenças entre SVD e decomposição em autovalores . . . 18

3.4 Propriedades matriciais via SVD . . . 19

4 Análise de Componentes Principais . . . 25

4.1 Análise de Componentes Principais . . . 25

4.2 Obtenção das Componentes Principais . . . 27

4.3 Mensuração da informação contida em cada componente principal . . . 29

4.4 Relação entre SVD e PCA . . . 31

5 Aplicações . . . 33

5.1 Leitura das imagens. . . 33

5.2 Compressão de Imagens . . . 34

5.3 Reconhecimento facial . . . 35

5.4 Reconhecimento e classificação de dígitos manuscritos . . . 36

5.5 Análise de componentes principais aplicado à regressão linear . . . 37

6 Experimentos e Resultados . . . 41

6.1 Compressão de Imagens . . . 41

6.2 Reconhecimento facial . . . 43

6.3 Reconhecimento de dígitos manuscritos . . . 46

6.4 Análise de componentes principais aplicada à regressão linear . . . 46

7 Conclusão e trabalhos futuros . . . 49

(18)
(19)

1

1 Introdução

A decomposição em valores singulares possui diversas aplicações em várias áreas de interesse. Consiste numa fatorização A = U ΣVT onde se podem extrair informações

relevantes direta e indiretamente utilizando outros métodos em conjunto.

Foi enunciada pelos matemáticos Camille Jordan [1] em 1874 e Eugenio Beltrani [1] em 1873, porém eles mostraram sua existência apenas para matrizes quadradas reais. Em 1936, Carl Eckart e Gale Young [2] generalizaram e provaram a existência do SVD para matrizes retangulares e complexas. A partir daí, o método sofreu diversas modificações, entre elas, em 1965, Gene Howard Golub e William Morton Kahan propuseram uma forma alternativa utilizando reflexões de Householder. Em 1970, foi publicado por Gene Howard Golub e Christian Reinsch o método amplamente utilizado até hoje.

A análise de componentes principais (PCA) encontra-se certamente entre as mais importantes ferramentas da análise multivariada, inclusive por constituir a base onde se fundamentam a maioria dos outros métodos multivariados de análise de dados. Também nos permite revelar a existência ou não de relações entre as variáveis. Além disto, métodos eficientes de classificação, como a modelagem independente para analogia de classes (SIMCA) e de calibração, como a regressão em componentes principais (PCR) ou a

regressão por mínimos quadrados parciais (PLS), são derivados da PCA.

Em 1901, Karl Pearson [3] publicou um trabalho onde fazia um ajuste de um sistema de pontos em um espaço multivariado, porém foi só em 1933 junto com o trabalho de Hottelling [4] que a análise de componentes principais (PCA) como é conhecida hoje foi definida. O estudo de Hottelling focou principalmente nas componentes que respondiam pela maior parte da variabilidade dos dados, desta forma surgiu o nome de componente principal. A partir dos estudos de Hottelling, a PCA se tornou uma importante técnica que permite classificar e detectar relações entre variáveis.

No capítulo 2, serão apresentados alguns conceitos básicos, em especial de álgebra linear, que serão utilizados ao longo deste trabalho. No capítulo 3, será definido formalmente o conceito da decomposição em valores singulares junto com sua visão geométrica. Serão apresentados diversos resultados importantes que se podem extrair de tal decomposição e uma comparação com a decomposição em autovalores. Para mais informações sobre outras decomposições consulte [5]. Será definido o PCA no capítulo 4, junto com o passo a passo do método. Alguns conceitos estatísticos também serão mostrados e a relação entre o SVD e PCA. Para mais detalhes veja também [6]. O capítulo 5 é dedicado às aplicações utilizando os dois métodos, usando imagens digitais e dados reais. Para outras aplicações envolvendo o SVD veja [7]. Tanto o PCA quanto o SVD podem ser aplicados

(20)

2 Capítulo 1. Introdução

no método de regressão linear simples e multivariada [8]. No capítulo 6, serão apresentado os resultados obtidos computacionalmente usando a linguagem PYTHON. Para outras técnicas envolvendo álgebra linear computacional, consulte [9] e [10].

(21)

3

2 Conceitos Básicos

Álgebra linear é um ramo da matemática que surgiu do estudo detalhado de sistemas de equações lineares, sejam elas algébricas ou diferenciais.

A álgebra linear se utiliza de alguns conceitos e estruturas fundamentais da ma-temática como vetores, espaços vetoriais, transformações lineares, sistemas de equações lineares e matrizes.

Há diversas aplicações da álgebra linear como: Programação linear, Processamento de imagens, Física matemática e Estatística.

Para outros conceitos além deste capítulo veja em [11].

2.1

Matrizes e Vetores

Matrizes são tabelas de números organizados por linhas e colunas. Assim, diz-se que uma matriz A tem dimensão m × n quando possui m linhas e n colunas, sendo aij o

elemento de A que está na linha i e coluna j. Chama-se de vetor uma matriz que possui dimensão m × 1. Podemos definir as operações envolvendo matrizes e vetores como:

1. Adição

A adição entre duas matrizes é possível apenas quando as matrizes possuem as mesmas dimensões, assim dadas duas matrizes A e B de dimensões m × n, a adição entre elas é definida como:

A+B =      a11 · · · a1n .. . . .. ... am1 · · · amn      +      b11 · · · b1n .. . . .. ... bm1 · · · bmn      =      a11+ b11 · · · a1n+ b1n .. . . .. ... am1+ bm1 · · · amn+ bmn      = C ou da seguinte forma, cij =Pj(aij+ bij)

2. Multiplicação por escalar

Dada uma matriz Am×n e um escalar α tem-se:

αA = α      a11 · · · a1n .. . . .. ... am1 · · · amn      =      αa11 · · · αa1n .. . . .. ... αam1 · · · αamn     

(22)

4 Capítulo 2. Conceitos Básicos

3. Multiplicação entre matrizes

Dadas duas matrizes Am×n e Bn×l a multiplicação matricial é definida por:

AB =      a11 · · · a1n .. . . .. ... am1 · · · amn           b11 · · · b1l .. . . .. ... bn1 · · · bnl      =      a11b11+ · · · + a1nbn1 · · · a11b1l+ · · · + a1nbnl .. . . .. ... am1b11+ · · · + amnbn1 · · · am1b1l+ · · · + amnbnl     

Se C = AB, a multiplicação também pode ser definida por:

cij=Pkaikbkj, k ∈ 1, 2, ..., n

A multiplicação matricial pode ser realizada se o número de colunas da primeira matriz for igual ao de linhas da segunda matriz.

4. Multiplicação entre matrizes e vetores

Sejam Am×n e xn×1, a multiplicação entre uma matriz e um vetor é dada por:

Ax =      a11 · · · a1n .. . . .. ... am1 · · · amn           x1 .. . xn      =      a11x1+ · · · + a1nxn .. . am1x1+ · · · + amnxn     

Essas operações possuem as seguintes propriedades: Dadas as matrizes A,B e C, e α um escalar

a. (AB)C=A(BC);

b. A(B+C)=AB+AC;

c. (B+C)A=BA+CA;

d. α(A+B)=αA+αB;

Em geral, a operação de multiplicação matricial não é comutativa, ou seja, AB6=BA. A transposta de uma matriz Am×n é uma matriz ATm×n.

5. Matriz diagonal

A diagonal principal de uma matriz quadrada A é formada pelos elementos aii, ou

seja, a11, a22, · · · , ann.

Uma matriz quadrada é diagonal se todos os elementos fora da diagonal principal forem nulos, ou seja, aij = 0 se i 6= j. Por exemplo,

(23)

2.2. Produto interno e normas vetoriais 5      2 0 0 0 1 0 0 0 4      6. Matriz Triangular

Uma matriz triangular superior é aquela em que todos os elementos abaixo da diagonal principal são nulos, isto é, aij = 0, para i > j. Por exemplo

     2 0 3 0 1 5 0 0 1     

Porém, se aij = 0 para i < j a matriz é dita triangular inferior.

     8 0 0 0 1 0 4 7 9      7. Matriz simétrica

Uma matriz quadrada A é simétrica se aij = aji, ou seja seus elementos são simétricos

em relação à diagonal principal. Pode-se definir também uma matriz simétrica se

AT = A.      7 3 1 3 0 2 1 2 8     

2.2

Produto interno e normas vetoriais

Definição 1. Um produto interno é uma função que associa a cada par de vetores u

e v de um espaço vetorial V um número (real ou complexo) < u, v >, tal que, para quaisquer u, v, w ∈ V e qualquer α escalar:

a. < u, v >=< v, u >;

b. < u + v, w >=< u, w > + < v, w >; c. < αu, v >= α < u, v >

(24)

6 Capítulo 2. Conceitos Básicos

O produto interno usual é o produto interno euclidiano de Rn, dado por < u, v >=

u1v1+ u2v2+ ... + unvn

Definição 2. Uma norma em um espaço vetorial V é uma função que associa a

cada vetor v pertencente a V um número real não negativo kvk, satisfazendo, para quaisquer u, v pertencente V e qualquer escalar α, as propriedades:

a. kuk ≥0,com kuk=0 se, e somente se, u=0; b. kαuk=|α| kuk;

c. ku + vk 6 kuk + kvk.

As normas vetoriais mais comuns são:

• Norma-1: kxk1=P|xi| • Norma-2: kxk2= q P x2 i • Norma-max: kxk=max |x| • Norma-p: kxkp=(P|xi|p) 1 p

A norma-2 é a função distância euclidiana.

Definição 3. Seja V um espaço vetorial com produto interno < ., . > . A norma do

vetor v ∈ V proveniente do produto interno < ., . > é dada por: kvk1 =

< v, v >

Teorema 1. (Desigualdade de Cauchy-Schwarz). Sejam u e v dois vetores de um

espaço vetorial com produto interno < ., . > e norma k · k, proveniente deste produto interno, então:

| < u, v > | ≤ kuk1kvk1

Demonstração. Utilizando as propriedades do produto interno, tem-se

0 ≤ ku − αvk2 =< u − αv, u − αv >= kuk2+ |α|2kvk2− 2Re(α < u, v >)

para qualquer escalar α. Como a desigualdade será trivial se v = 0, podemos supor

v 6= 0 e escolher α = < u, v > kvk2 Daí, 0 ≤ kuk2+ | < u, v > | 2 kvk4 kvk 2− 2Re(< u, v > kvk2 < u, v >) = kuk2+| < u, v > |2 kvk2 − 2Re( | < u, v > |2 kvk2 ) = kuk 2| < u, v > |2 kvk2

(25)

2.2. Produto interno e normas vetoriais 7

já que | < u, v > |2 ∈ R. Assim, | < u, v > | ≤ kukkvk , pois as grandezas envolvidas

são todas não negativas.

Definição 4. Seja V um espaço vetorial com norma k · k. A distância entre os

vetores u e v em V é dada por

d(u, v) = ku − vk .

Utilizando normas pode-se introduzir os conceitos de continuidade e erro ao se aproximar vetores. Seja x uma aproximação do vetor x, então para qualquer norma vetorial pode-se definir o erro absoluto:

kδxk = kx − xk O erro relativo será( assumindo x6=0)

kδxk kxk =

kx − xk kxk

Em um espaço vetorial de dimensão finita todas as normas vetoriais são equivalentes, isto é, para quaisquer duas normas k · kα e k · kβ existem constantes m e M tais que:

mkxkα≤ kxkβ ≤ M kxkα

Em mineração de dados é comum usar o cosseno do ângulo entre vetores como uma medida de distância:

cos θ = x

Ty

kxk2kyk2

8. Norma de Matrizes

Definição 5. Uma norma de matriz é um mapeamento k · k : Rm×n→ R tal que:

a. kAk ≥ 0, ∀A ∈ Rm×nekAk ⇔ A = 0

b. kαAk = |α|kAk, ∀α ∈ R, ∀A ∈ Rm×n

c. kA + Bk ≤ kAk + kBk, ∀A, B ∈ Rm×n

Teorema 2. Seja k · k uma norma vetorial. A função |||A||| = supkAxkkxk é uma norma de matriz chamada norma matricial induzida ou norma matricial natural.

(26)

8 Capítulo 2. Conceitos Básicos Demonstração. |||A||| = sup x6=0 kAxk kxk = supkxk=1 kAxk De fato, ∀x 6=0 temos que u = kxkx é um vetor unitário e

|||A||| = sup kuk=1 kAuk = sup x6=0 kA x kxkk = supx6=0 kAxk kxk Assim, |||A||| = sup kuk=1 kAuk = kAwk onde kwk=1. Falta verificar que |||A||| é uma norma

(1) Se kAxk ≥0 então kAk = supkxk=1kAxk ≥0. Ademais, |||A||| = supx6=0

kAxk kxk =

0 ↔ Ax = 0, ∀x 6= 0 ↔ A = 0. Logo, |||A||| = 0 ↔ A=0.

(2) Dado α ∈ R, kαAk = supkxk=1kαAxk = |α||||A|||

(3) Seja x um vetor unitário,

k(A + B)xk ≤ kAxk + kBxk ≤ kAk + kBk Assim,

|||A + B||| = sup

kxk=1

k(A + B)xk ≤ kAk + kBk

Proposição 1. Seja k · k uma norma vetorial e a norma matricial correspondente,

então: a. kAxk ≤ kAkkxk b. kABk ≤ kAkkBk Demonstração. a. Da definição, |||A||| = sup x6=0 kAxk kxkkAxk

kxk ≤ kAk ⇒ kAxk ≤ |||A|||kxk b. |||AB||| = sup x6=0 kABxk kxk ≤ |||A||| supx6=0 kBxk kxk = |||A||||||B|||

Algumas normas matriciais são:

-Norma-1: |||A|||1 = max1≤j≤nΣmi=1kaijk1

(27)

2.3. Independência linear: Base 9

-Norma-infinito: |||A|||∞ = max1≤i≤mkaTi k1, onde aTi denota a i-ésima linha de A.

A norma-infinito é o máximo da soma das linhas de A.

-Norma-2 de uma matriz diagonal.

Seja A uma matriz diagonal

A =      d11 · · · 0 .. . . .. ... 0 · · · dmm     

A imagem da esfera unitária na norma 2 sobre A é uma elipse cujos semi-eixos são dados por |ai|.

Figura 1 – Imagem de uma esfera unitária sobre uma matriz diagonal

Os vetores unitários ampliados ao máximo por A são mapeados para os semi-eixos mais longos da elipse de comprimento max |ai|. Portanto, kAk2 = maxi{|ai|}.

O resultado obtido para norma-2 pode ser generalizado para qualquer p, isto é, se A é diagonal, então kAkp = maxi=1,...,m|ai|.

-Norma de Frobenius kAkF = q P i P ja2ij Ou de forma equivalente: kAkF = q

tr(ATA) =qtr(AAT) onde tr(B) é o traço de B, ou seja, a soma de suas

entradas diagonais.

2.3

Independência linear: Base

Definição 6. Um subconjunto não vazio U do espaço vetorial V é dito um subespaço

(28)

10 Capítulo 2. Conceitos Básicos

i. u + v ∈ U ;

ii. αu ∈ U, com a adição vetorial e a multiplicação por escalar herdadas de V.

Definição 7. Seja V um espaço vetorial. Uma combinação linear dos vetores

u1, . . . , un de V é um vetor da forma

α1u1+ α2u2+ . . . + αnun

sendo α1, . . . , αn escalares do corpo de V, com as operaçães de adição vetorial e

multiplicação por escalar definidas em V.

Definição 8. Seja S um subconjunto de vetores de um espaço vetorial V. O subespaço

vetorial gerado pelos vetores de S (ou por S) é o conjunto de todas as combinações lineares

α1u1+ α2u2+ . . . + αnun

de vetores de S. Alternativamente, diz-se que S gera o subespaço U se todo vetor u em U puder ser escrito como uma combinação linear de vetores em S.

Subespaços relacionados a matrizes: espaço imagem e espaço nulo.

• Espaço imagem é o subespaço gerado pela combinação linear das colunas da matriz Im(A)= {v ∈ Rm/v = Ax, para algum x ∈ Rn}

• Espaço nulo

N(A)= {v ∈ Rn/Av = 0}

Definição 9. Diz-se que os vetores u1, . . . , un são linearmente independentes se

α1u1 + α2u2+ . . . + αnun= 0

somente quando α1 = α2 = . . . = αn = 0. Caso contrário, eles são linearmente

dependentes.

Definição 10. Um conjunto não vazio S de vetores (de V) será chamado de base

do espaço vetorial V se

i. os vetores de S forem linearmente dependentes e ii. os vetores de S gerarem V.

(29)

2.3. Independência linear: Base 11

9. Posto de uma matriz

Posto de uma matriz é o número máximo de vetores coluna ou linha linearmente independentes. O posto máximo ocorre quando a matriz possui todas colunas ou linhas linearmente independentes.

Definição 11. Uma matriz B é dita inversa da matriz A se, e somente se, AB=BA=I,

onde I é a matriz identidade. Denota-se B = A−1.

10. Multiplicação de uma matriz inversa por um vetor

Seja x = A−1b, x é o único vetor que satisfaz a equação Ax = b, logo, x é o vetor de

coeficientes da expansão linear única de b na base de colunas de A.

11. Vetores ortogonais

• Um par de vetores x e y são ortogonais se xTy=0.

• Um conjunto de vetores não nulos é ortogonal se seus elementos são dois a dois ortogonais.

• Um conjunto de vetores é ortonormal se é ortogonal e ∀x ∈ S tem-se kxk = 1.

Teorema 3. Os vetores em um conjunto ortogonal S são LI.

Demonstração. Suponha que os vetores em S não são LI, então existe algum vetor vk que pode ser expresso como combinação linear dos outros vetores, isto é,

vk= n X i=1, i6=k civi = 0.

Como vk 6=0 então vTkvk=kvkk2 >0. Mas, vTkvk=vTk

P

i6=kcivi =Pi6=kcivTkvi=0.

Con-tradição com a hipótese dos vetores em S serem não nulos.

12. Matriz ortogonal

Uma matriz quadrada Q é ortogonal se QTQ=QQT=I.

Proposição 2. A inversa de uma matriz ortogonal Q é sua transposta.

Demonstração. Seja x um vetor qualquer. Vamos mostrar que QQTx = x. Como Q−1

existe então dado um vetor x qualquer, Q−1x = y ⇒ x = Qy onde y é um vetor unicamente

(30)

12 Capítulo 2. Conceitos Básicos

Proposição 3. O produto de duas matrizes ortogonais é uma matriz ortogonal.

Demonstração. Sejam P e Q duas matrizes ortogonais. Tome x = P Q. Assim, xxT =

P Q(P Q)T = P QQTPT = P PT = I.

-Multiplicação por uma matriz ortogonal

O processo de multiplicação por uma matriz ortogonal preserva a estrutura geomé-trica no sentido euclidiano, porque produtos internos são preservados. A invariância de produtos internos significa que ângulos entre vetores e comprimentos são preservados.

kQxk = kxk e arccos < Qx, Qy > kQxkkQyk ! = arccos < x, y > kxkkyk !

Proposição 4. Se Q é ortogonal então det(Q) = ±1.

Demonstração.

QQT = I ⇒ det(QQT) = det(I) = 1 ⇒ det(Q)det(QT) = 1 ⇒ det(Q)det(Q) = 1 ⇒ (detQ)2 = 1 ⇒ det(Q) = ±1

A multiplicação por uma matriz ortogonal Q corresponde a uma rotação(se det(Q) = 1) ou reflexão(se det(Q) = −1).

2.4

Autovalores e autovetores

Definição 12. Seja A uma matriz n × n. Denomina-se autovalor de A a uma escalar λ

que satisfaz à equação

Ax = λx

para algum vetor não nulo x, chamado, por sua vez, de autovetor associado ao autovalor λ.

Teorema 4. Uma matriz A n × n possui n autovalores (reais ou complexos) contadas

suas multiplicidades.

Demonstração. Para que existam um escalar λ e um vetor não nulo x tais que (A−λI)x = 0,

é necessário e suficiente que det(A − λI) = 0. Utilizando a definição combinatória de determinante, é fácil ver que , pra uma matriz A n × n, a expressão é um polinômio de grau n em λ. Pelo Teorema Fundamental da álgebra, esse polinômio possui exatamente n raízes complexas ( podendo é claro serem reais) contadas as multiplicidades.

(31)

2.4. Autovalores e autovetores 13

Proposição 5. Os autovalores x1, x2, . . . , xk de uma matriz A n×n associados aos

auto-valores distintos λ1, λ2, . . . , λk, respectivamente, são linearmente independentes.

Demonstração. Será usada indução matemática sobre k. Para k = 2, tomemos α1x1+ α2x2

=0. Multiplicando esta equação por A, obtemos

A(α1x1 + α2x2) = α1Ax1+ α2Ax2 = α1λ1x1+ α2λ2x2 = 0

Subtraindo a última igualdade acima de λ21x1+ α2x2)=0, obtemos

α11− λ2)x1 = 0

Logo, α1 =0, já que λ1 6= λ2. Analogamente, subtraindo a última igualdade na primeira de

λ11x1+ α2x2)=0, obtemos α2=0. O que prova que x1 e x2 são linearmente independentes.

Deve-se agora provar que os autovalores x1. . . xp associados, respectivamente,

aos autovalores distintos λ1, . . . , λp são linearmente independentes, sob a hipótese que

x1. . . xp−1 são linearmente independentes. Para isso, considere a equação

α1x1+ α2x2+ · · · + αp−1xp−1+ αpxp = 0

Multiplicando ambos os lados da equação por A, obtém-se

A(α1x1+ α2x2+ · · · + αp−1xp−1+ αpxp) = A.0 = 0,

ou seja,

α1λ1x1+ α2λ2x2+ · · · + αp−1λp−1xp−1+ αpλpxp = 0,

pois x1. . . xp são autovetores de A associados, respectivamente, aos autovalores λ1, . . . , λp.

Se multiplicar a equação original por λp e subtrair o resultado pela última equação,

obterá:

α1(λp− λ1)x1+ α2(λp− λ2)x2+ · · · + αp−1(λp− λp−1)xp−1= 0

Como os autovetores x1. . . xp−1 são linearmente independentes, pela hipótese de

indução, tem-se:

α1(λp− λ1) = α2(λp− λ2) = · · · = αp−1(λp− λp−1) = 0

Mas, porque os autovalores λ1, λ2, . . . , λp são distintos, tem-se:

α1 = α2 = · · · = αp−1 = 0

Substituindo esses valores na equação original obtém-se:

αpxp = 0,

o que só poderá ocorrer se αp=0, já que xp é um autovetor. Portanto, a única solução é a

(32)
(33)

15

3 Decomposição em Valores Singulares

Diante da impossibilidade de diagonalizar qualquer matriz quadrada [7] busca-se encontrar uma matriz triangular T similar a uma matriz quadrada A e U uma matriz unitária de similaridade tal que

A = U T Ut

Mas, não é fácil de manipular matrizes triangulares como são as diagonais. Assim, o objetivo é obter uma decomposição que envolva uma matriz diagonal. Desse modo, consegue-se a decomposição em valores singulares, que trará consigo várias propriedades interessantes.

3.1

Decomposição em Valores Singulares

É uma fatorização de uma matriz qualquer em três outras matrizes com caracterís-ticas importantes. Possui várias aplicações tanto diretas através de seus vários resultados extraídos a partir de suas matrizes de decomposição, quanto como um passo em muitos algoritmos [5] como em conjunto com o PCA que veremos mais adiante.

Definição 13. Dado A∈ Rm×n, não necessariamente de posto máximo, uma decomposição

em valores singulares de A (SVD de A) é uma fatorização A = U ΣVT onde:

• U ∈ Rm×m é ortogonal;

• V ∈ Rn×n é ortogonal;

• Σ ∈ Rm×n é diagonal se m = n, caso contrário adiciona-se m-n linhas de zeros

em Σ.

Figura 2 – Decomposição em Valores Singulares de uma matriz A

Os valores σ1, σ2, . . . , σn da diagonal principal de Σ são chamados valores singulares

(34)

16 Capítulo 3. Decomposição em Valores Singulares

singulares à esquerda de A enquanto que as colunas da matriz V, v1, v2, . . . , vn, são

chamados de vetores singulares à direita de A de tal forma que Avj = σjuj.

SVD Reduzido

A fatorização de A, AV=UbΣ é chamada decomposição em valores singulares reduzidab

de A, onde: • U ∈ Rb m×n é ortogonal; • V ∈ Rn×n é ortogonal; • Σ ∈ Rb n×n é diagonal. Exemplo 1. Seja X =   1 1 0 0 

. Sua decomposição em valores singulares é dada por

X = U ΣV ⇒   1 1 0 0  =   1 0 0 1     1.41421356 0 0 0     0.70710678 0.70710678 −0.70710678 0.70710678  

No exemplo 2 será feita a construção passo a passo do SVD de uma matriz.

Trataremos aqui o SVD para o caso linear apenas, para o SVD multilinear veja em [12].

O teorema abaixo garante a existência e unicidade da decomposição SVD.

Teorema 5. Toda matriz A ∈ Rm×n tem uma decomposição em valores singulares.

Ade-mais, os valores singulares {σj} são unicamente determinados e, se A é quadrada e os

σj são distintos, os vetores singulares à esquerda e à direita {uj} e {vj} são unicamente

determinados.

Demonstração. Para provar a existência do SVD, a direção de maior ação de A é isolada,

e então é feita uma indução na dimensão de A.

Seja σ1 = kAk2. Deve existir um vetor v1 ∈ Rn com kv1k2 = 1 e ku1k2 = σ1, onde

u1 = Av1. Considere extensões de v1 para uma base ortonormal {vj} ∈ Rn e u1 para uma

base ortonormal {uj} ∈ Rm, e sejam U1 e V1 as matrizes ortogonais com colunas uj e vj,

respectivamente. Então, tem-se:

U1TAV1T = S =   σ1 wT 0 B  ,

onde 0 é um vetor coluna de dimensão m-1, wT é um vetor linha de dimensão n-1,

(35)

3.2. Visão Geométrica 17   σ1 wT 0 B     σ1 w   2 ≥ σ2 1 + wTw = (σ21+ wTw) 1 2   σ1 w   2 , implicando kSk2 ≥ (σ12 + wTw) 1

2. Como U1 e V1 são ortogonais, tem-se que

kSk2 = kAk2 = σ1, então w = 0.

Se n = 1 ou m = 1, a demonstração terminou. Senão, a submatriz B descreve a ação de A no subespaço ortogonal a v1. Pela hipótese de indução, B tem uma SVD

B = U2Σ2V2T. Agora é fácil verificar que

A = U1   1 0 0 U2     σ1 0 0 Σ2     1 0 0 V2   T V1T

é uma SVD de A, completando a prova de existência.

Para a unicidade, primeiro note que σ1 é unicamente determinada pela condição

de ser igual a kAk2. Suponha então que além de v1, existe um outro vetor linearmente

independente w com kwk2=1 e kAwk2 = σ1. Defina um vetor unitário v2, ortogonal a v1,

como combinação linear de v1 e w,

v2 =

w − (vT

1w)v1

kw − (vT

1w)v1k2

Desde que kAk2 = σ1, kAv2k2 ≤ σ1; mas isto precisa ser uma igualdade, pois, caso

contrário, como w = v1c + v2s para algumas constantes c e s com |c|2+ |s|2 = 1, seria

obtido kAwk2 < σ1, o que contradiz o fato de kAwk2 = σ1. Este vetor v2 é um segundo

vetor singular à direita de A correspondendo ao valor singular σ1. Conclui-se que, se o

vetor singular v1 não é único, então o correspondente valor singular σ1 não é distinto. Para

completar a unicidade, como indicado acima, uma vez que σ1, v1 e u1 são determinados, o

restante do SVD é determinado pela ação de A no espaço ortogonal a v1. Desde que v1 é

único (exceto por sinal), este espaço ortogonal é unicamente definido, e a unicidade dos valores singulares e vetores singulares restantes segue por indução.

3.2

Visão Geométrica

Sejam S a esfera unitária em Rn e A ∈ Rm×n, onde m ≥ n e A é de posto completo.

A imagem dessa esfera unitária, na norma-2, sobre o mapeamento A = U ΣVT deve ser

uma hiperelipse em Rm, onde:

• o mapeamento VT preserva a esfera;

• a diagonal Σ "estica"a esfera em uma hiperelipse alinhada com a base canônica; • o mapeamento U rotaciona ou reflete a hiperelipse para mudar sua forma.

(36)

18 Capítulo 3. Decomposição em Valores Singulares

Figura 3 – Visão geométrica do SVD

Isso significa que A mapeia um vetor x ∈ Rn para um vetor y = Ax ∈ Rm. Assim,

escolhendo um sistema de coordenadas ortogonais para Rn, onde os eixos unitários serão as

colunas de V e um sistema de coordenadas ortogonais para Rm com eixos nas colunas de U tal que A é diagonal(Σ), tem-se que A mapeia um vetor x =Pn

i=1βivipara y =Pmi=1σiβiui.

Assim, qualquer matriz é diagonal desde que se tomem sistemas de coordenadas ortogonais apropriadas para seu domínio e imagem.

Mudança de base

A SVD nos mostra que toda matriz é diagonal desde que se use bases adequadas para o domínio e imagem. Esta mudança é feita como a seguir:

• Qualquer vetor b∈ Rm é uma combinação linear dos vetores singulares à esquerda

de A.

• Qualquer x ∈ Rn pode ser expandido nos vetores singulares à direita de A.

b0 = UTb e x0 = VTx

A relação b = Ax pode então ser expressa em termos de b0 e x0 :

b = Ax ↔ UTb = UTAx = UTU ΣVTx ↔ b0 = Σx0

Portanto, A se reduz a uma matriz diagonal quando a imagem é expressa na base de colunas de U e o domínio é expresso na base de colunas de V.

3.3

Diferenças entre SVD e decomposição em autovalores

Uma matriz quadrada A que possui uma base de autovetores pode ser expressa como uma matriz diagonal de autovalores Λ, se o domínio e imagem são representados na

(37)

3.4. Propriedades matriciais via SVD 19

base de autovetores.

As duas técnicas possuem várias diferenças, a seguir algumas delas:

• SVD usa duas bases diferentes (os vetores singulares à esquerda e à direita) enquanto que a decomposição em autovalores apenas uma (os autovetores);

• SVD usa bases ortonormais enquanto que a decomposição em autovalores usa bases que geralmente não são ortogonais;

• Nem todas as matrizes possuem uma decomposição em autovalores, porém toda matriz tem uma decomposição em valores singulares.

3.4

Propriedades matriciais via SVD

Teorema 6. O posto de A é r, sendo r o número de valores singulares não nulos.

Demonstração. O posto de uma matriz diagonal é igual ao número de entradas não nulas, e

na decomposição A=UΣVT, U e V são de posto completo. Desta forma posto(A)=posto(Σ)=r.

Teorema 7. Im(A)=<u1, . . . , ur> e N(A)=<vr+1, . . . , vn>

Demonstração. Decorre do fato de que Im(Σ)=< e1, e2, . . . , er >∈ Rme N(Σ)=< er+1, . . . , en >∈

Rn

Usando matrizes de posto 1 temos que:

y = Ax = r X i=1 σiuivitx = r X i=1 (σivitx)ui = r X i=1 αiui

Temos ainda que Ax =Pr

i=1σiuivitx e qualquer vetor z=

Pn

i=R+1βivi está no espaço

nulo: Az = ( r X i=1 σiuivitx)( n X i=R+1 βivi) = 0

Teorema 8. kAk2 = σ1 e kAkF =

q

σ2

1 + σ22+ . . . + σr2

Demonstração.

kAk2 = kU ΣVTk2 = kΣk2

Como a norma-2 de uma matriz diagonal é o maior elemento em valor absoluto da diagonal, temos que

kΣk2 = max

i {kσik} = σ1 = kAkF = kΣkF =

q

σ2

(38)

20 Capítulo 3. Decomposição em Valores Singulares

Teorema 9. Os valores singulares não nulos de A são as raízes quadradas dos autovalores

não nulos de ATA ou AAT.

Demonstração.

ATA = (U ΣVT)T(U ΣVT) = (vΣTuT)T(U ΣVT) = V (ΣTΣ)VT

Portanto ATA e ΣTΣ são similares, logo possuem os mesmos autovalores. Os elementos de ΣTΣ são σ2

1, . . . , σ2r (A com posto r). Assim, λi = σ2i ⇒ σi =

λi, 1 ≤ i ≤ r.

O mesmo vale para AAT.

Teorema 10. Para A ∈ Rm×m, |det(A)| =Qm

i=1σi

Demonstração. O determinante de um produto de matrizes quadradas é o produto do determinante de seus fatores. Deste modo, o determinante de uma matriz unitária é sempre 1 em valor absuluto, segue da fórmula UTU=I e da propriedade det(UT)=(det(U))T. Assim,

|det(A)| = |det(U ΣVT)| = |det(U )||det(Σ)||det(VT)| = |det(Σ)| = m

Y

i=1

σi

Aproximações de menor posto

Uma matriz A pode ser representada como uma soma de matrizes de posto 1.

Teorema 11. Seja A uma matriz de posto r, então A será a soma de r matrizes de posto

1, isto é, A=Pr j=1σjujvjt Demonstração. A = U ΣVT = U                   σ1 σ2 . .. σr 0 . .. 0                   VT = [u1. . . um]                               σ1 . .. 0 0 . .. 0                + · · · +                0 . .. σr 0 . .. 0                                              vT 1 .. . vT r vTr+1 .. . vT n               

(39)

3.4. Propriedades matriciais via SVD 21 = (u1. . . um)                σ1vT1 .. . σrvTr 0 .. . 0                = r X i=1 σiuiviT Exemplo 2. Seja A =      1 1 0 0 −2 2     

. Vamos calcular sua decomposição em valores singulares.

Primeiro é preciso encontrar os autovalores da matriz AAT.

AAT =      1 1 0 0 −2 2        1 0 −2 1 0 2  =      2 0 0 0 0 0 0 0 8     

Os autovalores serão as raízes de det(AAT − λI) = 0

det      2 − λ 0 0 0 −λ 0 0 0 8 − λ      = 0 ⇒ (2 − λ)(8 − λ)(−λ) = 0

Desta forma, os autovalores são λ1 = 8, λ2 = 2, λ3 = 0. Como os valores singulares

não nulos são as raízes quadradas dos autovalores não nulos, obtém-se:

σ1 =

8 e σ2 =

√ 2

Portanto a matriz Σ será:

Σ =      √ 8 0 0 √2 0 0     

Vamos calcular os autovetores associados aos três autovalores. Para λ1 = 8:      2 − λ1 0 0 0 0 − λ1 0 0 0 8 − λ1           x y z      =      0 0 0     

(40)

22 Capítulo 3. Decomposição em Valores Singulares

Resolvendo o sistema e tomando z = 1 tem-se x = y = 0. Assim,

u1 =      0 0 1      Para λ2 = 2:      2 − λ2 0 0 0 0 − λ2 0 0 0 8 − λ2           x y z      =      0 0 0     

Resolvendo o sistema e tomando x = −1 tem-se z = y = 0. Assim,

u2 =      −1 0 0      Para λ3 = 0:      2 − λ3 0 0 0 0 − λ3 0 0 0 8 − λ3           x y z      =      0 0 0     

Resolvendo o sistema e tomando y = −1 tem-se z = x = 0. Assim,

u3 =      0 −1 0     

Como ku1k = ku2k = ku3k = 1, a matriz U de A será:

U = h u1 ku1k u2 ku2k u3 ku3k i =      0 −1 0 0 0 −1 1 0 0     

Para encontrar a matriz V usa-se o fato que vi = σ1iATui. Portanto, o vetor v1

será: v1 = 1 σ1 ATu1 = 1 √ 8   1 0 −2 1 0 2        0 0 1      =   −√2/22/2   O vetor v2 será:

(41)

3.4. Propriedades matriciais via SVD 23 v2 = 1 σ2 ATu2 = 1 √ 2   1 0 −2 1 0 2        −1 0 0      =   −√2/2 −√2/2   Segue que: V =   −√2/2 −2/22/2 −√2/2   Logo, A = U ΣVT =      0 −1 0 0 0 −1 1 0 0           √ 8 0 0 √2 0 0        −√2/22/2 −√2/2 −2/2  

Abordaremos neste trabalho algumas aplicações computacionais do método, para outras aplicações veja em [13].

(42)
(43)

25

4 Análise de Componentes Principais

4.1

Análise de Componentes Principais

A análise de componentes principais é um método matemático de análise multivari-ada que busca descrever um conjunto de dados com n variáveis relacionmultivari-adas a m indivíduos. Ao contrário da SVD, que reduz a dimensionalidade dos dados apenas selecionando um certo número de variáveis, a PCA busca construir novas variáveis através da combinação linear das variáveis originais. Essa transformação em novas variáveis ocorre com a menor perda de informação possível, buscando eliminar as variáveis que contribuem com pouca informação.

Suponha que se tem um conjunto com p variáveis aleatórias X1, X2, · · · , Xn,

repre-sentando as características de m indivíduos de uma certa população. Assim, a matriz de dados X de dimensão m × n será dada por:

X =         x11 x12 · · · x1n x21 x22 · · · x2n .. . ... . .. ... xm1 xm2 · · · xmn        

A variância de uma variável aleatória mede o grau de dispersão de uma distribuição ao redor de sua média, assim tem-se que se EX = µX representa a média de uma variável

aleatória, então a variância será dada por:

varX = E(X − EX)2 = Σ

n

i=1(xi− µx)2

n

A covariância é uma medida do grau de dependência linear entre duas variáveis aleatórias, assim sendo, variáveis independentes possuem covariância zero.

cov(xi, xj) = E((xi− µi)(xj − µj)),

onde µi = E(Xi) e µj = E(Xj).

A análise deste conjunto de variáveis aleatórias pode se tornar bastante complicada a medida que duas ou mais variáveis sejam correlacionadas entre si. Assim, o objetivo será transformá-las em estruturas mais simples Y1, Y2, · · · , Yp, com p<n, sendo estas

descorrelacionadas. Para isto, será usada a matriz de covariância, e as variáveis serão não correlacionadas quando sua matriz de covariância for diagonal.

(44)

26 Capítulo 4. Análise de Componentes Principais

Seja M média amostral dos vetores de características X1, X2, · · · , Xn, dada por:

M = 1

n(X1+ X2+ · · · + Xn)

SejaXck= Xk− M , para k=1,· · · ,n. A matriz A = [Xc1Xc2 · · · Xcm] é dita na forma

de desvio da média e suas colunas têm média amostral zero.

A matriz de covariância é a matriz m × m simétrica definida por:

Σij = E[(xi− µi)(xj − µj)] =

1

n − 1AA

T

Exemplo 3. Vamos encontrar a matriz de covariância da matriz X a seguir.

X =      1 4 7 8 2 2 8 4 3 13 −1 5     

Seu vetor média M será:

M = 1 4      1 + 4 + 7 + 8 2 + 2 + 8 + 4 3 + 13 − 1 + 5      =      5 4 5     

Colocando a matriz na forma de desvio de média tem-se:

     −4 −1 2 3 −2 −2 4 0 −2 8 −6 0     

Logo, a matriz de covariância Σ será:

Σ = 1 3      −4 −1 2 3 −2 −2 4 0 −2 8 −6 0              −4 −2 −2 −1 −2 8 2 4 −6 3 0 0         =      10 6 −4 6 8 −12 −4 −12 104/3     

A variância total dos dados é a soma das variâncias na diagonal de Σ, isto é, tr(Σ) = variância total.

O objetivo principal do PCA será encontrar uma matriz m × m, P = [u1u2· · · um]

(45)

4.2. Obtenção das Componentes Principais 27         X1 X2 .. . Xm         = [u1u2· · · um]         Y1 Y2 .. . Ym        

onde as novas variáveis Y1, Y2, · · · , Ym são descorrelacionadas e arranjadas em

ordem decrescente em relação a variação explicada dos dados.

Esta mudança significa que cada yk é o vetor das coordenadas de xk com respeito

as colunas de P, ou seja, yk= P−1xk= PTxk. y1 = aT1X = a11x1+ a12x2+ · · · + a1mxm y2 = aT2X = a21x1+ a22x2+ · · · + a2mxm .. . ym = aTmX = am1x1+ am2x2+ · · · + ammxm

Pode-se então estimar a variância das variáveis yk:

var(yi) = var(aTi X) = E[(a T i X − E(a T iX))(a T i X − E(a T i X)) T]

= E[(aTi X − aTi EX)(aTi X − aiTEX)T] = E[aTi (X − EX)(X − EX)Tai]

= aTi E[(X − EX)(X − EX)T]ai = aTi Σai , i = 1, · · · , m

Desta forma podem-se definir as componentes principais de uma matriz.

Definição 14. As m componentes principais das variáveis X1, X2, · · · , Xm são as

combi-nações lineares descorrelacionadas Y1, Y2, · · · , Ym que fazem as variâncias var(yi) = aTi Σai,

i = 1, · · · , m, assumirem o maior valor possível.

4.2

Obtenção das Componentes Principais

Seja XT = [X1 X2 · · · Xm] um vetor de variáveis aleatórias com matriz de

covariância Σ. Suas componentes principais são dadas por:

Yi = aTi X = ai1X1+ ai2X2 + · · · + aimXm, i = 1, · · · , m

Serão estimados os valores ai e obtidas as componentes principais.

1) Obtenção da primeira componente principal

Para encontrar a primeira componente principal que maximiza a variância var(aT

1X) =

aT

(46)

28 Capítulo 4. Análise de Componentes Principais

L = aT1Σa1− λ[aT1a1− 1]

onde λ é o multiplicador de Lagrange. Derivando esta equação com relação a a1

obtém-se: ∂L ∂a1 = 2Σa1− 2λa1 = 0 ou seja, Σa1 = λa1

Desta forma λ é o maior autovalor de Σ denominado λ1, e a variância da componente

principal y1 será: var(y1) = aT1Σa1 = aT1λ1a1 = λ1aT1a1 = λ1.

Logo, a1 é o autovetor associado a λ1, que será chamado de e1.

2) Obtenção da segunda componente principal

Será obtida a segunda componente principal que maximiza a variância var(aT

2X) =

aT

2Σa2 sujeita a normalização aT2a2 = 1

L = aT2Σa2− λ[aT2a2− 1]

Derivando esta equação com relação a a2 obtém-se:

∂L ∂a2

= 2Σa2− 2λa2 = 0

ou seja,

Σa2 = λa2

Portanto, λ é autovalor de Σ e a2 é seu autovetor correspondente. Para as combinações

lineares aT1X e aT2X serem descorrelacionadas é necessário que, supondo que λ 6= 0,

cov(aT

1X, aT2X) = aT1Σa2 = 0 ⇒ eT1λa2 = 0 ⇒ λeT1a2 = 0 ⇒ eT1a2 = 0

Desta forma, a2 é o segundo autovetor de Σ, denominado e2, ortogonal a e1 e

associado ao segundo maior autovalor.

3) Obtenção da i-ésima componente principal

A i-ésima componente principal que maximiza a variância var(aT

i X) = aTi Σai

sujeita a normalização aT

i ai = 1 será dada por

L = aTi Σai− λ[aTi ai− 1]

Derivando esta equação com relação a ai obtém-se:

∂L ∂ai

(47)

4.3. Mensuração da informação contida em cada componente principal 29

ou seja,

Σai = λai

Assim λ é autovalor de Σ e ai é o seu autovetor correspondente.

Para que as combinações lineares sejam descorrelacionadas é necessário que

cov(aT

1X, aTi X) = aT1Σai = 0 ⇒ eT1λai = 0 ⇒ eT1ai = 0

cov(aT2X, aTi X) = aT2Σai = 0 ⇒ eT2λai = 0 ⇒ eT2ai = 0

.. .

cov(aT

i−1X, aTiX) = aTi−1Σai = 0 ⇒ eTi−1λai = 0 ⇒ eTi−1ai = 0

Logo, ai é um autovetor de Σ (denominado ei) e ortogonal aos demais autovetores

e1, e2, · · · , ei−1.

Além disso, ei corresponde ao i-ésimo maior autovalor da matriz Σ.

Uma propriedade importante das componentes principais y1, y2, · · · , ym é que suas

variâncias são dadas por λ1, λ2, · · · , λm, respectivamente.

Para mais dealhes destas construções veja em [14]

4.3

Mensuração da informação contida em cada componente

prin-cipal

Proposição 6. Seja XT = [X

1 X2 · · · Xp] um vetor com p variáveis aleatórias

com matriz de variância/covariância é Σ, que possui a seguinte coleção de autovalores e autovetores: (λ1, e1), (λ2, e2), · · · , (λp, ep), onde λ1 ≥ λ2 ≥ · · · ≥ λp. Então

Σpi=1var(Xi) = Σpi=1λi = Σpi=1var(Yi) onde Y1 = eT1X, Y2 = eT2X, · · · , Yp = eTpX

Demonstração. Defina Y =      Y1 .. . Yp     

. Tem-se que Y = M X onde M =

     eT 1 .. . eTp      .

Suponha que a matriz M é inversível. Segue-se que X=M−1Y e, portanto, var(X) =

var(M−1Y ) = M−1var(Y )(M−1)T = M−1Λ(M−1)T, onde Λ é a matriz diagonal com os autovalores λi em sua diagonal principal.

Portanto,

Σpi=1var(Xi) = traço(Σ) = traço(M−1Λ(M−1)T) = traço(ΛM−1(M−1)T)

= traço(ΛMT(M−1)T) = traço(ΛMTM ) = traço(ΛI) = traço(Λ)

(48)

30 Capítulo 4. Análise de Componentes Principais

A variância populacional total é dada por Σpi=1λi e consequentemente, a proporção

da variância total explicada pela k-ésima componente principal é λk

Σpk=1λk.

Caso a maior parte da variância total, para p grande, possa ser atribuída as l(lp) primeiras componentes, então estas componentes podem “substituir” as p variáveis originais sem muita perda de informação.

Exemplo 4. Seja a matriz X do exemplo 3

X =      1 4 7 8 2 2 8 4 3 13 −1 5     

Será aplicado o PCA nesta matriz. Como visto no exemplo anterior, sua matriz de covariância é dada por:

Σ =      10 6 −4 6 8 −12 −4 −12 104/3     

Calculando os autovalores e autovetores da matriz Σ obtém-se:

λ1 = 40.42719316 com autovetor e1 =      −0.19268328 −0.37171479 0.90813064      λ2 = 11.04505275 com autovetor e2 =      −0.86373752 −0.37492797 −0.33672914      λ3 = 1.19442076 com autovetor e3 =      −0.46565078 0.84926858 0.24882166     

As componentes principais serão dadas pela combinação linear das colunas de X com coeficientes representados pelos valores dos autovetores, então:

Y1 = e11X1+ e12X2+ e13X3+ 0X4 ⇒ Y1 = −0.19268328      1 2 3      −0.37171479      4 2 13      +0.90813064      7 8 −1      +0      8 4 5      =      4.67737198 6.13624892 −6.3184727     

(49)

4.4. Relação entre SVD e PCA 31 Y2 = e21X1 + e22X2+ e23X3+ 0X4 ⇒ Y2 = −0.86373752      1 2 3      −0.37492797      4 2 13      −0.33672914      7 8 −1      +0      8 4 5      =      −4.7205534 −5.171164 −7.1285471      Y3 = e31X1 + e32X2+ e33X3+ 0X4 ⇒ Y3 = −0.46565078      1 2 3      +0.84926858      4 2 13      +0.24882166      7 8 −1      +0      8 4 5      =      4.67317516 2.75780884 9.39471754     

Para saber o quanto cada componente principal contribui com informação para o modelo, basta calcular a variância esperada/explicada: varexp(Yi) = Σpλk

k=1λk . varexp(Y1) = λ1 Σ3 k=1λk= 76.76 varexp(Y2) = λ2 Σ3 k=1λk= 20.97 varexp(Y3) = λ3 Σ3 k=1λk= 2.26

Neste exemplo, as duas primeiras componentes principais explicam a maior parte da variação do modelo, podendo-se descartar a terceira componente principal.

4.4

Relação entre SVD e PCA

O PCA é um método robusto abrangendo várias áreas de interesse. Por sua relação estatística, muitos resultados podem ser extraídos com o modelo.

Apesar de sua fácil implementação, o PCA possui um elevado custo computacional para conjuntos de dados muito grandes, por causa da necessidade do cálculo de autovalores e autovetores da matriz de covariância. Uma forma de contornar este problema é usar o SVD para encontrar os autovalores e autovetores. Esta relação entre os métodos fica evidente a partir do seguinte teorema.

(50)

32 Capítulo 4. Análise de Componentes Principais

Teorema 12. Seja X = U ΣVT o SVD de uma matriz X de dimensão N × d e C =

1

N −1X

TX sua matriz de covariância d × d. Os autovetores de C são os mesmos vetores

singulares à direita de X. Demonstração. XTX = V ΣUTU ΣVT = V ΣΣVT = V Σ2VT ⇒ C = V Σ 2 N − 1V T Assim, obtém-se C = V ΛVT.

Desta forma, os autovetores da matriz de covariância C são os vetores de V e os autovalores serão λi =

σ2 i

N −1.

(51)

33

5 Aplicações

Os métodos PCA e SVD serão aplicados no reconhecimento e compressão de imagens. Para isso, é preciso entender como a leitura de imagens é feita pelo computador.

5.1

Leitura das imagens

Pode-se representar uma imagem num computador como uma matriz de pontos designados pixels.

-Imagens em escala de cinza

Para representar imagens em preto e branco basta associar a cada pixel um valor numérico numa escala de tons. Por convenção, o valor 0 corresponde ao preto e 255 corresponde ao branco, os valores intermediários correspondem aos tons de cinza.

-Imagens em cores

Para imagens a cores cada pixel terá três componentes associadas as cores vermelho, verde e azul, isso é chamado de escala RGB.

Assim cada pixel terá três valores entre 0 e 255, representando a intensidade das cores RGB em cada ponto da imagem. Por exemplo, um pixel branco tem RGB = (255, 255, 255) enquanto um pixel negro tem RGB = (0, 0, 0).

Por exemplo, a seguir tem-se uma imagem e sua matriz de pixel correspondente na escala de tons de cinza.

(52)

34 Capítulo 5. Aplicações

Figura 5 – Matriz de pixels correspondente

5.2

Compressão de Imagens

A compressão de imagens é um procedimento computacional que visa diminuir o tamanho do arquivo que representa a imagem. Através da compressão são mantidas apenas as informações relevantes para análise de tal imagem digital.

Outro ganho desta aplicação se dá na velocidade de transmissão de dados via redes, otimizando o envio de informações importantes principalmente em grandes dados e em estruturas de transmissão defasadas.

A imagem na figura (4) tem 131 × 131 pixels e corresponde a uma matriz A de 131 × 131 (5).

Para o método do SVD, será utilizada a representação da matriz de pixels, corres-pondente à imagem, como um somatório de matrizes de posto um. Neste somatório, cada parcela é o produto de um valor singular e os respectivos vetores singulares à direita e à esquerda. Realiza-se a reconstrução de uma imagem com matrizes de posto diferentes, isto é, com o número de valores singulares variando.

Na prática, o SVD pode ser usado para escolher a melhor aproximação de posto r para uma matriz A. Com r termos, a expansão SVD em produtos externos resulta em um erro relativo: kErkF kAkF = v u u t Pk i=r+1σi2 Pk i=1σi2

Tipicamente, o valor de r é escolhido para reduzir esse erro relativo até uma cota dada.

O método PCA também será aplicado na matriz de pixels onde será determinado, através da variância, o quanto cada componente principal estará fornecendo de informação e assim será possível comprimir a imagem utilizando diferentes valores de componentes principais.

-Treinamento e classificação

(53)

5.3. Reconhecimento facial 35

da avaliação de modelos de mineração de dados.

Depois que um modelo for processado usando o conjunto de treinamento, testa-se o modelo fazendo previsões com o conjunto teste.

Como os dados no conjunto de teste já contém valores conhecidos para o atributo que se deseja prever, é fácil determinar se a as previsões do modelo estão corretas. Esta técnica será usada tanto no reconhecimento de imagens quanto com dados de regressão.

5.3

Reconhecimento facial

O método do SVD será utilizado para reconhecimento de imagens através de um banco de dados.

Após o processo de separação dos dados em dados treino e teste será realizado o processo de reconhecimento. O passo a passo é mostrado a seguir:

• Serão criadas matrizes Aj na qual cada matriz representará um indivíduo diferente.

• Cada face de um mesmo indivíduo será representada por um vetor coluna, o qual será chamado de fi, i = 1, . . . , j. Cada um desses vetores será uma das colunas das

matrizes Aj.

Na figura (6) tem-se um exemplo de uma matriz de pixels com N faces de um mesmo indivíduo, onde cada uma das diferentes faces é uma coluna dessa matriz.

• Será feito o cálculo do SVD de Aj. Obtém-se assim as matrizes U, Σ e V . Aplica-se

redução de dimensionalidade em U e obtém-se U = [u1, u2, ..., ur] com r sendo o número

de vetores singulares a esquerda que serão considerados.

• Faz-se a leitura de uma face “desconhecida” dentre aquelas destinadas aos dados teste. A face será guardada em um vetor coluna F de tamanho M × 1.

• Calcula-se uma matriz Xj = [x1, ..., xM] de tal forma que

xi = [u1, u2, ..., ur]T(fi)

• Cada xi representa as coordenadas dos vetores fi na projeção escalar de A na

sua imagem.

• Para o reconhecimento será calculado a menor distância entre a face treino lida e as faces das matrizes Aj.

• Em x faremos o cálculo da projeção escalar de F na imagem de A.

(54)

36 Capítulo 5. Aplicações

Figura 6 – Construção das matrizes treino de faces

• A coordenada x será usada para encontrar qual face de treino melhor descreve a face F.

kx − xik2 =

q

(x − xi)T(x − xi)

• Este processo é feito para as j matrizes de indivíduos e a que apresentar a menor distância será a face escolhida.

Esta construção é apresentada computacionalmente em detalhes em [19].

5.4

Reconhecimento e classificação de dígitos manuscritos

O reconhecimento de dígitos manuscritos é um dos problemas mais importantes e desafiadores da área computacional. Sua grande importância se dá pelo fato das inúmeras aplicações possíveis, como em códigos postais e valores em cheques bancários.

Um dos maiores problemas para o reconhecimento de dígitos manuscritos se deve a grande variedade de formas de escrita para inúmeras pessoas. Para contornar este problema, o PCA pode ser usado para extrair as características mais importantes do dígito e assim facilitar seu reconhecimento.

(55)

5.5. Análise de componentes principais aplicado à regressão linear 37

Figura 7 – Números manuscritos 0-9

5.5

Análise de componentes principais aplicado à regressão linear

Regressão linear é uma técnica que busca relacionar variáveis através de um modelo matemático. Seu o objetivo é estudar a relação entre a variável dependente e uma única variável independente e supõe-se que existe uma relação linear entre essas variáveis, pode-se utilizar o modelo de regressão linear simples. Se várias variáveis independentes são usadas para explicar a variável dependente, o modelo passa a ser chamado de regressão linear múltipla.

(56)

38 Capítulo 5. Aplicações

O modelo da regressão linear é dado a seguir:

Y = β0+ β1X + 

onde,

• X é a variável independente observada;

•  é a variável aleatória residual na qual se procuram incluir todas as influen-cias no comportamento da variável Y que não podem ser explicadas linearmente pelo comportamento da variável X;

• β0 e β1 são os parâmetros do modelo;

• Y é a variável dependente.

A figura 8 ilustra a regressão linear simples ajustando a melhor reta para um certo conjunto de dados.

Figura 8 – Ajuste por regressão linear

Para mais informações sobre os métodos de regressão veja [20].

Aplicando a análise de componentes principais ao conjunto de dados como um passo de pré-processamento garante-se que o modelo de regressão linear será ajustado apenas

Referências

Documentos relacionados

Se comparado a outros países, o Brasil tem vantagens comparativas na produção de mandioca, destacando-se área para avanço, mão-de-obra, know how, e tecnologia

Foram analisados 46 rótulos de produtos vegetarianos, os mesmos foram divididos em cinco grupos, de acordo com as resoluções da ANVISA (rotulagem geral de alimentos

The objectives of this work was to evaluate seed viability and physical methods for overcoming seed dormancy in juazeiro (Ziziphus joazeiro Mart.) and assess

Como también lo seduce el chico homosexual con quien se encuentra en la calle Talcahuano” (VIÑAS, 1998, p. Essa questão da sedução, entendida operativamente como

RESUMO Objetivou-se com esse estudo realizar a contagem de fungos filamentosos e leveduras e caracterizar os contaminantes fúngicos do leite proveniente de tanques de

Na tela inicial do Portal Acadêmico do Aluno localize, do lado direito da tela, os ícones FINANCEIRO, RELATÓRIOS (Requerimento de Matrícula, Contrato de Prestação de

Using 9/16” wrench on flats on the Valve Body, loosen and remove tool from Hose Assembly. Reposition tool in vise and carefully grasp on the flats of the

A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se baseia no fato de que uma