Principal Components Analysis PCA

(1)

1

Principal Components

Analysis ‐ PCA

(2)

2

RNAs para Decomposição de um Espaço Vetorial em Sub‐Espaços



_{Nos capítulos anteriores estudamos detalhadamente dois tipos de RNAs que apresentam a}

habilidade de aprender a partir de seu ambiente e, a partir do processo de aprendizado

supervisionado, melhorar seu desempenho (as RNAs MLPs treinadas pelo algoritmo

backpropagation e as RNAs RBFs).



Neste capítulo estudaremos um tipo de RNA que é submetido a um processo de aprendizado não‐

supervisionado (ou auto‐organizado).



O propósito de um algoritmo de aprendizado auto‐organizado é descobrir padrões significativos

ou características nos dados de entrada da RNA, e fazê‐lo sem a presença de um tutor (ou seja,

sem a presença de um conjunto de alvos de interesse, providos por um tutor externo).



Para atingir tal propósito, o algoritmo é provido de um conjunto de regras de natureza local,

conjunto este que o habilita a aprender a computar um mapeamento entrada‐saída, com

específicas propriedades desejáveis.



O termo “local” significa, neste contexto, que uma mudança aplicada ao peso sináptico de um

neurônio é confinada à vizinhança imediata daquele neurônio.

(3)

3



O modelamento de estruturas de RNAs usadas para aprendizado auto‐organizado tende muito

mais a seguir as estruturas neuro‐biológicas do que as estruturas utilizadas para o aprendizado

supervisionado.



A heurística para aprendizado auto‐organizado de RNAs que estudaremos neste capítulo é

chamada

"Algoritmo Hebbiano Generalizado" e é utilizada para proceder à

Análise dos

Componentes Principais (Principal Components Analysis ‐ PCA) ou Decomposição em Sub‐Espaços

(DSE) de um conjunto da dados de interesse.



O Algoritmo Hebbiano Generalizado foi proposto por Sanger em 1989 e combina a

ortonormalização de Gram‐Schmidt ao modelo de um único neurônio linear introduzido por Oja

em 1982.



A Análise dos Componentes Principais de um conjunto de dados é uma técnica padrão comumente

utilizada para redução da dimensionalidade de dados, em processamento de sinais.

(1) Princípios que regem o aprendizado auto‐organizado.

(2) Transformada Karhunen‐Loève.

(3) RNAs utilizadas para PCA ( = DSE de um espaço vetorial).

(4)

4

Princípios do Aprendizado Auto‐Organizado



O aprendizado não‐supervisionado (ou auto‐organizado) consiste do ajuste recorrente dos parâmetros livres de

uma RNA em resposta a padrões de ativação, e de acordo com regras prescritas, até que seja desenvolvida uma

desejada configuração final.



Ordem global pode surgir a partir de interações locais.

 Esta afirmativa é tanto válida para o cérebro, quanto no contexto de redes neurais artificiais.

 Muitas interações locais entre neurônios vizinhos de uma rede podem "coalescer" (ou, em outra interpretação

alegórica, "cristalizar") em estados de ordem global e conduzir a um comportamento coerente na forma de

padrões espaciais ou temporais, o que é a essência da auto‐organização.

A organização ocorre em dois diferentes níveis, que interagem entre si na forma de um elo de realimentação.

Estes dois níveis são:

 Atividade Certos padrões de atividade são produzidos por uma dada rede em resposta a sinais de entrada.  Conectividade Os pesos sinápticos da rede são modificados em resposta a sinais neurais nos padrões de atividade, devido à plasticidade sináptica.

(5)

5

Princípios da auto‐organização:

1. Ajustes recorrentes em pesos sinápticos tendem a se auto‐amplificar.

 Uma forte sinapse conduz à coincidência de sinais pré e pós‐sinápticos.  A sinapse é aumentada em força, por tal coincidência. Este mecanismo nada mais é do que o postulado de aprendizado de Hebb, que diz: “Se dois neurônios em cada lado de uma sinapse são ativados simultaneamente, então a força daquela sinapse é seletivamente aumentada.”

2. Limitação de recursos conduz à competição entre as sinapses e, consequentemente, à seleção das sinapses que

crescem de forma mais vigorosa (portanto, as mais adequadas) às custas de outras.

 Para que o sistema possa ser estabilizado precisa haver alguma forma de competição por recursos limitados.  Especificamente, um aumento na transmitância de alguma sinapse na rede deve ser compensado pelo decréscimo em outras.  Assim, apenas as sinapses que obtêm sucesso podem aumentar sua transmitância, enquanto as que obtêm menos sucesso

tendem a reduzir a sua transmitância e podem eventualmente desaparecer (transmitância zero) do contexto operacional da RNA .

3. Ajustes em pesos sinápticos tendem a cooperar.

 A presença de uma sinapse “vigorosa” pode aumentar a transmitância de outras sinapses, apesar da competição global na rede.

4. Ordem e estrutura nos padrões de ativação representam a informação redundante que é adquirida pela rede

neural na forma de conhecimento, a qual é pré‐requisito necessário ao aprendizado auto‐organizado.

 Para que o aprendizado auto‐organizado possa desempenhar uma função útil de processamento de informação, é necessário que haja redundância nos padrões de ativação supridos à rede pelo ambiente.

(6)

6

A Transformação Karhunen‐Lòeve para PCA

ou decomposição em sub‐espaços de um espaço vetorial

 A Transformação Karhunen-Loève (KLT) projeta um conjunto

X

de vetores de dados

x





M sobre uma base ortonormal em



M formada pelo conjunto dos M auto-vetores

e

_m





M,

m



0 ,

1 ,

_

,

M



1

, da matriz de covariância de

X

.

 A KLT é tal que a base será orientada de acordo com as direções de maior variância de

X

em



M .

 A m-ésima projeção de

X

sobre a direção do auto-vetor

e

_m é chamada de m-ésimo sub-espaço (ou m-ésimo componente principal).

 O m-ésimo auto-valor



_m associado ao auto-vetor

e

_m corresponde à variância do m-ésimo sub-espaço de

X

.

 Ainda, a variância de cada sub-espaço é um máximo local, no universo de todas as variâncias resultantes da

projeção de

X

sobre todas as possíveis direções em



M.

 Embora qualquer espaço de dimensão menor do que



Mseja um sub-espaço de



M, este estudo refere-se muitas vezes a um sub-espaço de X como o conjunto dos vetores de

X

que concentram-se de forma alinhada ao longo de uma particular direção em



M.

(7)

7

 Talvez a mais importante utilização da Transformação Karhunen-Loève, também conhecida por Análise dos Componentes Principais (PCA), seja a redução dimensional do conjunto

X

.

 Esta característica torna a KLT bastante popular em processamento digital de sinais por permitir que as informações mais significativas contidas em um sinal possam ser representadas, mediante a introdução de algum erro considerado aceitável, em um espaço de dados de menores dimensões do que a dimensão original



M.

 Como cada sub-espaço ou componente principal é orientado de acordo com as direções de maior variância de

X

em

M



, os sub-espaços de menor variância podem ser descartados – o que resultará em uma redução dimensional ótima no sentido do Erro Médio Quadrático (MSE - Mean Square Error).

 O desenvolvimento do método para aplicação da KLT à

X

apresentado neste estudo segue a proposta de Haykin em

Neural Networks.

(8)

8

Interpretação Geométrica da KLT

 A decomposição em sub-espaços gerada pela KLT consiste em obter o conjunto de M auto-vetores e auto-valores da matriz de covariância

C

de um conjunto

U

de média zero, composto por L vetores de

dados

u

_i





M ,

i



0 ,

1 ,

_

,

L



1

. A matriz de covariância

C

também é referida como a matriz de

correlação

C

.

 A restrição de que o conjunto

U

apresente média vetorial

0 



M é transparente a nível de procedimento, já que o vetor média pode ser restaurado ao final.

 O conjunto de M auto-vetores

e

_m





M obtido pela KLT,

m



0 ,

1 ,

_

,

M



1

, define uma base de vetores ortonormais em



M e, portanto, define um conjunto de M eixos ortogonais Cartesianos.

 A coordenada de origem deste sistema Cartesiano é a coordenada de origem dos vetores da base ortonormal definida pelo conjunto de

M

auto-vetores

e

_m.

 Como a média do conjunto

U

é assumida zero, a coordenada de origem do sistema Cartesiano é

0 



M .

(9)

 A título de in arbitrário de conjunto

U

d o vetor unitár maneira: o Proje médi o Após variâ o O ve valor nterpretação d módulo unitá de vetores

u

_i



rio

e





Msi etar a totalidad ia da soma do s tentar todas ância



₀. etor e que def

r do maior aut da KLT, para ário

e





Mc M





será p ignifica efetua de do conjunt s quadrados d as direções po fine tal direção to-valor dado p obter a KLT com origem e projetado. Note ar o produto e to

U

sobre a das projeções d ossíveis no esp o é igual ao au por



₀. através de u em

0 



M , e que obter a p escalar entre e direção dada dos vetores

u

_i paço



M, ha uto-vetor

e

₀ m processo m , o qual defin projeção de eles, i.e., por

e

e med M i





do co

averá uma dire associado ao manual e expe ne uma direçã um vetor

u



∙ . A se dir a variância onjunto

U

sob

eção dada por maior auto-va

erimental, tom ão arbitrária s M





do con eguir

procede-

da projeçã bre a direção d r e na qual é alor, obtidos p ma-se um veto sobre a qual njunto

U

sobr -se da seguint ão (variância = dada por

e

). obtida a maio pela KLT, com 9 or o re te = or m

(10)

 O proce direção d 0



, recé  A busca que as d 0



e



₁  E assim sso é repetido de maior vari ém determinad da direção de direções testad previamente prosseguiríam o novamente p ância em



M dos. e maior variân das sejam ortog

encontrados. mos neste proc

Assim, co ortogonais considerad para efeito ou compo Ou seja, o MSE, o co para a obtençã M_{seja feita em} ncia em



Mp gonais às dire cesso recursivo omo os sub-es s de maior da uma transf o de reconstru nentes princip o conjunto de onjunto

U

de ão do segund m direções ort para obtenção eções dos dois

o até que os M spaços obtido variância pos formação ótim ução do espaç pais.

M

sub-espaço

L

vetores

u

_i

o maior auto-ogonais à do do terceiro m s auto-vetores

M auto-valores

s pela KLT e ssível no esp ma no sentido ço original



os representa d M





, i 0 -valor



₁, com auto-vetor

e

₀ maior auto-valo 0

e

₁ asso s e auto-vetore estão alinhado paço original do erro médi M_{a partir de} de maneira ót 1 , , 1 , _ L . m a restrição 0 associado ao or



₂ é feita ciados aos ma es fossem dete os com as dire M



, a KL io quadrático e suas

M

proje tima, no sentid de que a busc o maior auto-v com a restriçã aiores auto-va erminados. eções LT é MSE eções do do 10 ca da valor ão de alores

(11)

11

Os sub-espaços obtidos pela KLT encontram-se alinhados com os eixos Cartesianos que definem as direções de maior variância possíveis no espaço original



M.

Isto resulta em uma maior concentração de pontos definidos pelos vetores

u

_i





M do espaço original nas vizinhanças dos eixos Cartesianos que definem cada sub-espaço.

Como o m-ésimo eixo Cartesiano define a m-ésima região em



M de maior variância



_m, aqueles vetores cuja média do quadrado de suas normas Euclidianas é próxima ao valor



_m (



_m é a média do quadrado das normas Euclidianas das projeções destes vetores sobre o m-ésimo eixo) caracterizarão um sub-conjunto de vetores do espaço



M aproximadamente alinhados com o

m-ésimo eixo.

 Parte destes vetores estará aproximadamente congruente (i.e., alinhados no mesmo sentido) com o m-ésimo semi-eixo positivo, e parte dos vetores estará aproximadamente congruente com o m-ésimo semi-eixo negativo.

 Mas, independentemente do sentido positivo ou negativo, a média do quadrado da norma Euclidiana destes vetores será, em maior ou menor grau, próxima ao valor



_m, grau que depende do quanto os vetores alinham-se com o m-ésimo eixo Cartesiano.  Adicionalmente, a média dos vetores que são congruentes com o semi-eixo negativo tende a ser igual à média dos vetores que

são congruentes com o semi-eixo positivo, já que

U

apresenta média vetorial

0 



M .

 Assim, deve-se esperar um certo equilíbrio entre os vetores alinhados com cada um dos dois semi-eixos.

Portanto, o m-ésimo sub-espaço identifica uma nuvem de pontos em



M nas vizinhanças do m-ésimo eixo Cartesiano, com

coordenada de cada ponto definida pelo respectivo vetor

u

_i





Mdo conjunto

U

nas vizinhanças do m-ésimo eixo.

Como a média do quadrado da norma Euclidiana dos vetores associados a estes pontos tende em maior ou menor grau para



_m, a norma – ou distância – Euclidiana média destes pontos à origem aproxima-se do valor



_m .

(12)

12

Exemplo 1 – a KLT obtida através dos autovalores e autovalores da matriz de covariância do

conjunto de vetores U:

Seja o conjunto

U

de

L



6

vetores

u

_i





2,

i



0 ,

1 ,

_

,

L



1

, de média zero definido por

                                              897 . 0 359 . 0 , 133 . 1 491 . 0 , 820 . 0 497 . 0 , 843 . 0 327 . 0 , 943 . 0 595 . 0 , 063 . 1 425 . 0 U .

a) Plote os auto-vetores

e

_m da matriz

C

de covariância de

U

conjuntamente com os vetores de

U

. Para facilitar a visualização, escalone os auto-vetores

e

_m pela raiz dos respectivos auto-valores



_m,

i.e., _m _m

m



e





ψ

,

m



0 ,

1

.

b) Obtenha as projeções de

U

sobre os eixos Cartesianos definidos pelos auto-vetores de

C

.

Solução:













   T i i i T i L i i

x

L

5 0 1 0

6

1

1 C

                                                  T T T 843 . 0 327 . 0 843 . 0 327 . 0 943 . 0 595 . 0 943 . 0 595 . 0 063 . 1 425 . 0 063 . 1 425 . 0 6 1                                             T T T 897 . 0 359 . 0 897 . 0 359 . 0 133 . 1 491 . 0 133 . 1 491 . 0 820 . 0 497 . 0 820 . 0 497 . 0         915 . 0 429 . 0 429 . 0 21 . 0

(13)

13

De (6.32) em http://www.fccdecastro.com.br/pdf/RNA_C6.pdf, temos

C

e

_m



λ

_m

e

_m sendo

m



0 ,

1 ,

_

,

M



1

, com

M



2

(

2 

M

, porque

u

_i





2). A solução de

C

e

_m



λ

_m

e

_m com _         915 . 0 429 . 0 429 . 0 21 . 0

C consiste na determinação dos M auto-valores



m

e dos

M

auto-vetores

e

_m que satisfazem esta equação.

Utilizando as funções

eigenvals

 



e

eigenvecs

 



do aplicativo MathCad da MathSoft Inc., obtemos :

Auto-valores de

C

:

118 .

1

0





e



₁



7 .

035 

10

3 Auto-vetores de

C

associados:















904 .

0

427 .

0

e

_













427 .

0

904 .

0

1

e

.

Nota: Qualquer outro aplicativo da área de matemática pode ser utilizado para determinar os auto-valores e auto-vetores de

C

, como, por exemplo, o MatLab da MathWorks Inc.

(14)

A Fi Carte

igura 1 most esianos por ele

Fi tra o conjunto es definidos. igura 1: Conju o

U

, os M unto U

,

auto-v 2  M auto-ve vetores escalon etores escalon nados 0

ψ

e

ψ

nados m



e

ψ

1

ψ

e os eixos m m

e





,

m

Cartesianos po

,

1 ,

0 

M

m

_

or eles definid

1 

M

e os e dos 14 eixos

(15)

15

A Tabela 1 mostra o valor da projeção de cada vetor

u

_i





2 do conjunto

U

sobre os eixos Cartesianos definidos por

e

₀ e

e

₁.

i 0 1 2 3 4 5   u e a _i _iT -1.142 -1.107 -0.902 0.953 1.234 0.964   u e a_i _iT -0.07 0.135 -0.065 -0.099 0.04 0.059

Tabela 1: Projeções

a

₀ e

a

₁ de U sobre os eixos Cartesianos definidos por

e

0 e

e

₁.

Observe que, como os auto-vetores

e

₀ e

e

₁ têm norma unitária e são adimensionais, o valor absoluto da projeção de cada

u

_i





2 sobre cada eixo define a norma Euclidiana da i-ésima projeção.

Note que a variância do conjunto

U

é dada pela soma dos auto-valores, i.e.,

1 0 1 0 2

125 .

1

1 _

_

_

_

_



  L i i

u

L

, onde

u

 

u

T

u

M m m







  1 0 2

é a norma Euclidiana do vetor

u





M .

(16)

16

Note ainda que as variâncias das projeções

a

₀ e a de U equivalem aos respectivos auto-valores, i.e.,





0 1 0 2 0 1.118 1 _ _ _

_



  L i T i e u L e





1 3 1 0 2 1 7.035 10 1  _ _ _  _

_





L i T i e u L

Portanto, a variância do conjunto projetado, ou variância do sub-espaço, é dada pelo m-ésimo auto-valor



_m.

Como observação adicional note que a distância Euclidiana média



 



1 0

1

L i m T i

e

u

L

dos vetores da m-ésima projeção à origem pode ser aproximada por





_m

L i m T i

e

u

L









  1 0 2

1

. No caso,



 





1 0 0

051 .

1

L i T i

e

u

L

para



0



1 .

057

e



 





1 0 1

0 .

078

1

L i T i

e

u

L

para



1



0 .

083

.

(17)

Na seção conjunto

U

A Figura 2 deste conj variância (

A c

anterior vimo

U

de vetores 2 mostra uma unto

U

em



(energia) de

U

compressã

os que os M e M



dimensio representação 3



. A figura m

U

. Figura 2: R como a bas maior variâ

ão resulta

eixos Cartesia onais, sendo

0

o pictórica hip mostra a mane Representação se ortonormal ância.

ante da ap

anos resultante M





0

o vet potética de um eira como a ba o pictórica hip l formada pelo

plicação da

es da KLT al tor média de

U

ma nuvem de d ase ortonorma potética de um os auto-vetore

a KLT a um

inham-se com

U

. (O Exemp dados em



3 al formada pel ma "nuvem" d es

e

₀,

e

₁ e

e

₂

m conjunt

m as direções lo 1 ilustrou u . Cada ponto los auto-vetor de dados em 2 alinha-se co

o de veto

de maior vari um caso para

M

da nuvem def es alinha-se c 3



e a mane om as direções

res

iância (=energ

2 

M

. ) fine a ponta d om as direçõe eira s de 17 gia) de um e um vetor es de maior

(18)

Vimos tam dada pelo Portanto, é muito m Isto é pos auto-valo Ao despre No entant formação Neste sen ao descar dimensão Este mbém que a o auto-valor as podemos desp menor do que o ssível porque r associado nã ezar sub-espaç to estas perda de

U

porque ntido ocorre a rtar sub-espaç o menor que

M

é o motivo de Assim, "girand até que Nesta s covariân energia contid ssociado ao au prezar aquelas os demais auto a projeção de ão é comparati ços de menor as são mínima e os auto-valor redução dim

ços não signif

M

.

e a KLT ser co

no caso gen do" uma base d

os vetores ali situação os v ncia de

U

. da em uma de uto-vetor que d s direções (= o-valores. e

U

sobre ta ivamente pequ energia estam as, pois as co res a elas asso

mensional de

U

ficativos, o co onsiderada um nérico de um de M vetores nhem-se com vetores da ba eterminada di define a direçã sub-espaços) ais direções é ueno. mos realizando omponentes ( = ociados supost

U

, porque o c onjunto passa ma transformaç conjunto

U

ortonormais e as direções de ase ortonorma ireção (= variâ ão. definidas por insignificante uma compre = sub-espaços amente têm va conjunto era o a ser represe

ção ótima sob

em



M, po em



M em to e maior variân al são os au ância da proje auto-vetores c e se comparad

essão com per

s) descartadas alor muito me originalmente entado com b o ponto de vis odemos imagi odas as possív ncia possível e uto-vetores da eção de

U

na cujo auto-valo da com as pro rdas do conjun têm pouca in enor do que os representado oa aproximaç sta do MSE. inar a KLT veis direções em

U

. a matriz de a direção) é or associado ojeções cujo nto

U

. nfluência na s demais. em



M e, ção em uma 18

(19)

19

Exemplo 2 – a KLT como algoritmo para compressão

Seja o conjunto

U

do Exemplo 1 (slide 12):

a) Execute uma compressão com perdas de

U

utilizando a KLT. b) Calcule a compressão obtida.

c) Calcule o MSE da compressão obtida.

d) Calcule a Relação Sinal – Ruído de Pico em dB, denotada PSNR (PSNR – Peak Signal To Noise Ratio), resultante do processo de compressão. Isto é, calcule o quadrado da componente de maior valor absoluto dentre todas as componentes dos vetores de

U

e normalize pelo MSE obtido em c).

Solução:

No Exemplo 1 foram determinadas as projeções de

U

sobre a base ortonormal formada pelos auto-vetores

e

₀ e

e

₁, conforme mostra a Tabela 2. Observe na Tabela 2 que as projeções sobre a direção

e

₁ são muito menores do que as projeções sobre a direção

e

₀.

i 0 1 2 3 4 5   u e a _i _iT -1.142 -1.107 -0.902 0.953 1.234 0.964   u e a _i _iT -0.07 0.135 -0.065 -0.099 0.04 0.059 Tabela 2: Projeções

a

₀ e

a

₁ de U sobre os eixos Cartesianos

(20)

20

Esta característica das projeções está de acordo com o fato de que



₁



7 .

035 

10

3 é muito menor do que



₀



1 .

118

.

Sendo assim, podemos descartar as projeções ou componentes de

U

na direção

e

₁ (a direção com menor auto-valor associado) e considerar as projeções de

U

na direção

e

₀ (a direção com maior auto-valor associado) como uma boa aproximação de

U

.

Portanto a compressão com perdas consiste em aproximar

U

através do auto-vetor

e

₀ e do conjunto de projeções

a

₀_i



u

_iT



e

₀ na direção por ele definida. A aproximação

U

~

do conjunto de vetores originais

u

_i



U

, é obtida através de

u

~

_i



a

₀_i

e

₀,

u

~

_i



U

~

, isto é,

I 0 1 2 3 4 5   u e a _i _iT , _       904 . 0 427 . 0 0 e -1.142 -1.107 -0.902 0.953 1.234 0.964 0 0

~

_a

_e

u

_i



_i        0321. 488 . 0        0011. 473 . 0        8150. 385 . 0       862 . 0 407 . 0       116 . 1 527 . 0       871 . 0 412 . 0

Tabela 3: Aproximação

U

~

do conjunto original

U

obtida através de

u

~

_i



a

₀_i

e

₀, onde

u

~

_i



U

~

.

(21)

21 Portanto, da Tabela 3, o conjunto

U

~

resultante é                                               871 . 0 412 . 0 , 116 . 1 527 . 0 , 862 . 0 407 . 0 , 815 . 0 385 . 0 , 001 . 1 473 . 0 , 032 . 1 488 . 0 ~ U Observe que o conjunto original                                               897 . 0 359 . 0 , 133 . 1 491 . 0 , 820 . 0 497 . 0 , 843 . 0 327 . 0 , 943 . 0 595 . 0 , 063 . 1 425 . 0 U

de

L



6

vetores

u

_i





2,

i



0 ,

1 ,



,

L



1

necessita de 12 números em ponto‐flutuante para ser representado.

Por outro lado, o conjunto aproximado

U

~

foi gerado a partir do auto‐vetor _       904 . 0 427 . 0 0 e e de um conjunto de 6 projeções



1 .

142 ,

1 .

107 ,

0 .

902 ,

0 .

953 ,

1 .

234 ,

0 .

964 

0





a

. Portanto, o conjunto

U

~

necessita de apenas 8 números em ponto‐flutuante para ser representado. Define‐se como fator de compressão



o quociente U U r representa para necessário nto armazename de unidades de Total ~ r representa para necessário nto armazename de unidades de Total   (6.45) Portanto o fator de compressão obtido é



8120.67.

(22)

22

O MSE da aproximação

U

~

pode ser obtido através de



 





     1 0 ~ ~ 1 MSE L i i i T i i u u u u L (6.46), onde

u

_i



U

e u~ _i U~, i0,1,,L 1. De (6.46) obtemos MSE7.025103. A PSNR é definida como



 



_         MSE max log PSNR comp U (6.47)

sendo maxcomp

 

U a componente de maior valor absoluto dentre todas as componentes dos vetores de U.

De (6.47) obtemos





. dB 10 7.025 . log PSNR _-₃ _             _.

(23)

23

Exemplo 3 – reconstrução do conjunto original usando todas as projeções da KLT

Obtenha o conjunto de vetores

u

~

_i



U

~

a partir de todos os sub-espaços do conjunto de vetores

u

_i



U

do Exemplo 6.2 (i.e., não execute nenhuma compressão, apenas reconstrua o conjunto original a partir de ambos sub-espaços

a

₀ e

a

₁). Determine a PSNR do conjunto reconstruído

U

~

.

Solução:

A partir da Tabela 1 (slide 15) obtemos a Tabela 4 abaixo.

i 0 1 2 3 4 5    u e a _i _iT , _       904 . 0 427 . 0 0 e -1.142 -1.107 -0.902 0.953 1.234 0.964   u e a_i _iT , _       427 . 0 904 . 0 1 e -0.07 0.135 -0.065 -0.099 0.04 0.059    





a

e

a

e

u

~

_i _i _i _           . .            . .            . .            . .            . .            . .

Tabela 4: Reconstrução

U

~

do conjunto original

U

obtida através de

u

~

_i



a

₀_i

e

₀



a

₁_i

e

₁, onde

u

~

_i



U

~

. Como nenhum sub-espaço é descartado, nenhuma compressão é obtida e o conjunto

U

~

é considerado uma reconstrução do conjunto original

U

a partir dos sub-espaços

a

₀ e

a

₁.

(24)

24 Da Tabela 4 obtemos                                               897 . 0 358 . 0 , 133 . 1 491 . 0 , 819 . 0 496 . 0 , 843 . 0 326 . 0 , 943 . 0 595 . 0 , 062 . 1 424 . 0 ~ U . De (6.46) obtemos MSE .. E, de (6.47) obtemos





_. _dB 10 5.3 . log PSNR _-₇ _             _. Nota: Observe que o MSE não é zero (e portanto a PSNR não é infinita) unicamente devido à precisão (3 casas após a vírgula) nas operações de ponto‐flutuante efetuadas. Se estivéssemos trabalhando com uma precisão suficiente o MSE seria zero porque neste exemplo, ao contrário do Exemplo 2, nenhuma informação é descartada. Aqui o conjunto original

U

é apenas reconstruído a partir de todos os seus sub‐espaços sem ocorrer qualquer compressão.

(25)

Figura 3: Im

Exe

magem graysca

1

128 

emplo 4 –

ale “Lenna” d

128

pixels.

– Compres

de tamanh

ssão de im

ho • Um pix • O v bran • Tod ton pix que • A F tam nos

magens at

ma imagem em el variando en valor 0 repres nco. dos os demais s de cinza (p el de uma im e o valor do pi Figura 3 most manho 12812 sso estudo.

ravés da K

m grayscale ntre 0 e 255. enta preto e o valores interm portanto, a ton magem graysc xel aumenta). tra a imagem g 28 pixels, a q

KLT

tem seus va o valor 255 re mediários repr nalidade cinza cale clareia à grayscale “Le

qual será utili

alores de epresenta resentam a de um à medida enna” de zada em 25

(26)

26

Para comprimir a imagem da Figura 3 através da KLT, adota‐se o seguinte procedimento:

1. Subdivide‐se a imagem em

L



256

blocos de

8 

8

pixels e registra‐se a posição de cada bloco na imagem

(

p/ certas imagens, melhor resultado é obtido c/ blocos

16  )

16

.

2. O i‐ésimo bloco

B

_i de

8 

8

pixels é convertido em um vetor



M dimensional

u

_i



U

, sendo

M



64

(devido ao bloco possuir

8 

8

pixels),

i



0 ,

1 ,



,

L



1

. A conversão bloco‐vetor

B

_i



u

_i é efetuada

lendo‐se as 8 linhas de

B

_i da esquerda para a direita sendo a linha ao alto a primeira a ser lida e transferindo o valor de cada pixel lido nesta ordem para as respectivas posições em sequência no vetor

u

_i. 3. Calcula‐se o vetor média do conjunto de vetores

U

obtido em (2) e subtrai‐se este vetor média de todos os

256 

L

vetores

u

_i



U

. 4. Determina‐se os sub‐espaços de

U

conforme já discutido no Exemplo 2. 5. Descarta‐se aqueles sub‐espaços associados aos menores auto‐valores .

6. Obtém‐se o conjunto de vetores

u

~

_i



U

~

sendo

u

~

_i



a

₀_i

e

₀



a

₁_i

e

₁







a

_N_₁_i

e

_N_₁, onde



a

₀

,

a

₁

,



,

a

_N_₁



são os sub‐espaços definidos pelos auto‐vetores



e

₀

,

e

₁

,



,

e

_N_₁



cujos auto‐valores

associados são os N maiores auto‐valores (os N sub‐espaços de maior energia). N é obtido experimentalmente e define o compromisso entre o fator de compressão



e a relação sinal‐ruído de compressão PSNR.

7. Soma‐se ao conjunto de L vetores

u

~

_i



U

~

o vetor média originalmente subtraído de

U

.

8. Obtém‐se o conjunto de blocos

B

~

_i através da conversão bloco‐vetor inversa

u

~

_i



B

~

_i,

i



0 ,

1 ,



,

L



1

, e reconstrói‐se a imagem comprimida a partir do registro da posição de cada bloco.

(27)

A Fig da Fi Figura 4: A Figura 3. O aproximad as 32 prim gura 4 mostra igura 3 de acor Amplitude rel Observe que o damente a par meiras maiores a a amplitude r rdo com o pro

lativa em orde o número total rtir do vigésim s amplitudes. relativa em or ocedimento ac em decrescent l de auto-valo mo maior auto-rdem decresce cima descrito. e dos 32 prim ores é 64, já qu -valor a ampli ente dos 32 pr meiros maiores ue cada vetor itude relativa t

rimeiros maio auto-valores de

U

é de dim torna-se peque res auto-valor do conjunto

U

mensão



64. ena, escolheu-res do conjunt

U

formado a p No entanto, v -se representa to

U

formado partir da visto que ar apenas 27 o a partir

(28)

Imagem da F 32  N prim O coeficiente (Equação (6. A fidelidade original é da Fig Figura 3 comp meiros sub‐esp e de compress 45)). da imagem co da por PSNR gura 5: primida pela K paços de maio são resultante omprimida co dB 3 . 37 R  (E LT utilizando o r energia. e é



0.629 m relação à Eq. (6.47)).

os Im N O (E A o magem da Fig 16  N primei O coeficiente d Equação (6.45 A fidelidade da original é dada Figur gura 3 comprim ros sub‐espaç de compressão 5)). a imagem com a por PSNR  ra 6: mida pela KLT ços de maior e o resultante é mprimida com dB 4 . 31  (Eq. utilizando os energia. é



0.316 relação à (6.47)). 28

(29)

29

General Hebbian Learning para PCA (DSE de um espaço vetorial através de RNAs)

PCA via KLT de um Espaço Vetorial:

(1) Computar a matriz de covariância do conjunto de dados de entrada.

(2) Aplicar procedimento numérico que extraia os auto-valores e os correspondentes auto-vetores desta matriz.

(3) Os auto-vetores correspondentes aos auto-valores mais significativos são usados para extrair os componentes principais do espaço vetorial do conjunto de dados.

Desvantagens do método:

(1) Para grandes conjuntos de dados, as dimensões da matriz covariância crescem significativamente, tornando proibitiva a complexidade computacional para determinação dos auto-valores e auto-vetores.

(2) Em particular, a complexidade é alta porque todos os auto-valores e auto-vetores precisam ser computados, mesmo que somente poucos auto-vetores (aqueles correspondentes aos maiores auto-valores) venham a ser utilizados no processo.

Solução:

 A solução eficiente para este problema deve encontrar os principais auto-vetores sem a necessidade de determinar a matriz covariância.

 Tal solução é alcançada ao abordar o problema utilizando RNAs.

 A técnica que utiliza RNAs para efetuar PCA de um espaço vetorial é denominada "Algoritmo Hebbiano Generalizado" (GHA – General Hebbian Learning).

 O GHA foi proposto por Sanger em 1989. O algoritmo GHA combina a orto-normalização de Gram-Schmidt com o modelo de um único neurônio linear introduzido por Oja em 1982.

O GHA é um algoritmo computacionalmente eficiente para PCA porque:

 Extrai os componentes principais individualmente, um após o outro, em ordem decrescente de variância.

 Possibilita que, após treinada a RNA, os resultados obtidos possam ser aplicados a um outro conjunto de dados de estatística "semelhante" (ou seja, que resulte em uma matriz de covariância "semelhante").

(30)

30

O Aprendizado Hebbiano

É uma classe de aprendizado não-supervisionado ou auto-organizado, em que os parâmetros livres da rede são adaptados pela exposição da RNA ao ambiente em que está contida, até que uma pré-determinada condição seja atingida, através:

 da repetição dos padrões de entrada por um número suficiente de vezes e

 da aplicação de um conjunto de regras de aprendizado específicas, adequadas à solução do problema.

 RNAs treinadas sob aprendizado não-supervisionado descobrem padrões significativos ou característicos dos dados sem o auxílio de um tutor externo.

 Não há realimentação do ambiente para auxiliar a rede a determinar se a saída está ou não correta.  A RNA deve descobrir por si padrões, características, regularidades, correlações ou categorias nos

dados de entrada.

 As unidades e conexões que a compõem devem, portanto, apresentar alguma capacidade de auto-organização.

O conhecimento que “coalesce” nas sinapses da RNA é obtido da observação repetida de parâmetros estatísticos (média, variância e matriz correlação) dos dados de entrada

(redundância de padrões  conhecimento).

(31)

Figura 7:

Observe que correlação e instante . O conjunto d A cada instan qual se deseja

RNA de um

a Equação ( entre os sinai de vetores x de nte n do tempo a efetuar o pro

m único neur

(6.48) express is pré e pós-s e entrada possu o discreto um ocesso PCA.

rônio de índi

 Os sinais p

)

1 (

0

n

w



)

(

0

n

x

y



onde: 



é uma razão de a 

x

(n

)

é o v 

y

₀

(

n

)

é a sa o ajuste n sinápticos, en ui distribuição vetor x é apre

ice “0” (zero

pré e pós-sináp

)

(

)



w

₀

n



)

(

)

(

n

w

₀

n

x

T

_

a constante p aprendizado, vetor de entra a saída da rede no vetor de p nquanto que a o de probabilid esentado à red

o), a ser trein

pticos, respect

(

)

(

0

n

x

n

y





(

)

(

0

n

x

n

w

T



positiva que ada da rede no e. esos sináptico Equação (6.4 dade arbitrária de, escolhido a

nada pelo Ap

tivamente

x

e

y

)

n

(6.48)

)

n

(6.49) determina a instante e os w₀(n), qu 49) expressa a a. aleatoriamente

prendizado H

y

são equacio ue ocorre na a saída

y

0

(

n

)

e do conjunto

Hebbiano.

onados por proporção da

)

da RNA no de vetores do 31 a o o

(32)

32

Segundo os princípios do Aprendizado Hebbiano:

(I) quanto mais provável for uma particular entrada x, maior será a correlação da saída y com esta entrada. Assim, quanto mais provável for

x

, maior será a saída

y

;

(II) quanto maior for a saída y, mais a variação do peso sináptico que a encorajou aumentará a sua transmitância. As afirmações (I) e (II) nada mais são do que o 1º princípio da auto-organização de von der Malsburg:

"Modificações em pesos sinápticos tendem a se auto-amplificar".

Ou seja, a correlação entre os ajustes nos pesos sinápticos e as variações nos padrões de atividade deve ser positiva para que se obtenha auto-organização da rede.

O processo de auto-amplificação é restrito pelo requerimento de que modificações em pesos sinápticos devem ser baseadas em sinais pré-sinápticos e pós-sinápticos (disponíveis localmente).

Uma sinapse com alta transmitância conduz à coincidência de sinais pré e pós-sinápticos e, por outro lado, a transmitância da sinapse é aumentada por tal coincidência.

Ou, ainda, segundo o postulado de Hebb:

“Se dois neurônios biológicos em cada lado de uma sinapse são ativados simultaneamente, então a transmitância daquela sinapse é seletivamente aumentada.”

(33)

33

 O "loop" recorrente expresso por (I) e (II), no entanto, faz com que a transmitância dos pesos sinápticos permaneça crescendo sem limite, impedindo a continuação do processo de aprendizado por overflow dos registradores numéricos do hardware.

 Pelo aumento demasiado da transmitância do peso sináptico, a rede é levada à saturação precoce e é incapaz de aprender os padrões apresentados.

Solução do problema de overflow: 2º princípio da auto-organização de von der Malsburg:

"Limitação de recursos conduz à competição entre as sinapses e, consequentemente, à seleção das sinapses que crescem de forma mais vigorosa (portanto, as mais adequadas) às custas de outras"

Neste contexto, é necessário ser estabelecido algum mecanismo de competição por “recursos limitados”, para que o sistema possa ser numericamente estabilizado.

A solução, portanto, consiste em compensar o aumento na transmitância de uma particular sinapse do neurônio através do decréscimo da transmitância de outras sinapses.

Assim, apenas as sinapses que obtêm sucesso no processo de correlação entre os sinais de entrada e saída tem a sua transmitância aumentada, enquanto as outras tem sua transmitância reduzida e, eventualmente, deixam de influenciar no processo de aprendizado como um todo.

(34)

Pa restringi O Hebbian atingir valor de A re pesos si saída do A Equação A regra de Esta regra numericam Importante x

C

(ver d maior auto primeira c auto-valor

S

ara evitar a di ir o aumento d Oja propôs em no, uma mo norma unitár e

C

_x.

gra de Oja cor inápticos

w ,

o neurônio no o (6.60) expre e ajuste deflac a de ajuste mente estável. e notar que, ap demonstração n o-valor



₀



componente pr r da matriz de

olução pr

ivergência num das transmitân m 1982 com odificação no ria, além de c rresponde a ad deflação que instante discre essa a regra de

(

0

n

w



cionado para o

w



deflacionado pós a converg na seção 6.3.1 max





. Por rincipal do esp covariância d

roposta po

mérica do alg ncias das sinap

mo alternativa o algoritmo q corresponder

dicionar um d é proporcion eto , i.e., pro e Aprendizado

)

(

)

1 

w

₀

n



o Aprendizado

)

(

₀ 0

n

y

w





conduz à co gência para

w

1 em http://w rtanto um úni paço vetorial dos dados de en

or Oja par

goritmo de apr pses expressas a para a est que permite r ao auto-veto ecaimento ou nal à “energia oporcional à

y

o Hebbiano, ap

(

)

(

y

₀

n

x





o Hebbiano apr

)

(

){

(

0

n

x

n



y

onvergência d

1

0



w

, o vet ww.fccdecast co neurônio l dos dados de ntrada.

ra a instab

rendizado Heb s nos compone tabilização d ao vetor pe or associados deflação ao aj a” ou “potênc

)

(

2 0

n

y

. pós deflaciona

(

)

(

n





y

₀2

n

resentada na E

)}

(

)

(

₀ 0

n

w

n

y

do vetor pes tor

w

₀ result tro.com.br/pd linear submet entrada, com

bilidade n

bbiano é prec entes do vetor do Aprendiza eso sináptico ao maior au juste do vetor ia” do sinal ada de um fato

)

(

)

w

₀

n

Equação (6.60 so sináptico ante correspon f/RNA_C6.pdf tido à regra H mponente esta

numérica

iso

w.

ado

w

uto-r de na or



y

₀2

(

n

)

w

(6.60) 0) pode ser ree

(6.61) 0

w

para

w

nde ao auto-v f ), i.e., corres Hebbiana de a que correspon

(overflow

)

(

0

n

w

: scrita como,

1

0



w

, sendo etor associado ponde ao auto aprendizado a nde ao auto-v

w):

o, assim, um o ao maior aut o-vetor

e

₀, as auto-organizad vetor associado 34 ma solução to-valor de sociado ao do extrai a o ao maior

(35)

O process único neur esta regra Os neu espaço ve armazena correlaçã auto-valo Figu so de generaliz rônio linear (c executará a an urônios da cam etorial represe a as transmitâ o)

C

_x do con r e o neurôni ura 8: RNA pr zação consiste conforme Figu nálise dos com mada de neur entado pelo c âncias sinápt njunto de veto io rogressiva com

O Al

e em aplicar a ura 7) mas sim mponentes prin rônios lineare conjunto de v ticas do -ésim ores

x

(n

)

. O representará m uma única c

lgoritmo H

as regras prop m, por uma cam

ncipais sobre o es da RNA ex vetores

x

(n

)

d mo neurônio, ordenament á o auto-vetor amada de neu

Hebbiano

postas por San

mada de neurô o espaço vetor xtraem orden de entrada. A corresponde o é tal que o r associado ao urônios lineare

Generaliz

nger e Oja a u ônios lineares rial que repres nadamente e r Após a conver rá ao -ésimo neurônio o menor

auto-es, a ser treinad

zado

uma RNA pro , conforme mo senta os dados respectivamen rgência do alg o auto-vetor d representa -valor. da pelo Apren ogressiva, com ostra a Figura s de entrada. nte os com goritmo, o ve da matriz de ará o auto-ve ndizado Hebbi mposta não ma a 8. A RNA tr mponentes pri etor de elem covariância ( etor associado iano Generaliz 35 ais por um reinada por incipais do mentos que (matriz de o ao maior zado.

(36)

36

Note que:



A RNA da Figura 8 tem

p

nós na camada de entrada e

m

neurônios na camada de saída, com

m



p

.



Os pesos sinápticos

w

_ji conectam os nós de entrada

i

aos neurônios da camada de saída

j

, com

i



0 ,

1 ,

...,

p



1

e

j



0 ,

1 ,

...,

m



1

(considerando aqui, novamente, a notação expandida para o vetor de pesos sinápticos).



A saída

y

_j

(n

)

produzida pelo neurônio j, no instante discreto n, em resposta ao conjunto de entradas

x

_i

(n

)

é dada por



 



1 0

1 -...,

,

1 ,

0 =

),

(

)

(

)

(

p i i ji j

n

w

n

x

n

j

m

y

(6.89)



A adaptação do peso sináptico devida ao Algoritmo Hebbiano Generalizado é expressa pela Equação (6.90)











j k k ki j i j ji

n

y

n

x

n

y

n

w

n

y

n

w

0

)}

(

)

(

)

(

)

(

)

(

{

)

(



(6.90)

onde

i

=

0 ,

1 ,

...,

p

-

1

,

j

=

0 ,

1 ,

...,

m

-

1

,



w

_ji

(n

)

é o ajuste aplicado ao peso sináptico

w

_ji

(n

)

do neurônio no instante n , e



é a

razão de aprendizado. Para efeito de análise e interpretação da Equação (6.90), note que a equação 6.61do slide 34 é uma particularização de (6.90) para um único neurônio 0:



(

)

(

)

(

)

(

)

(

)



)}

(

)

(

)

(

){

(

)

(

₀ ₀ ₀ ₀ ₀ ₀ ₀ 0

n

y

n

x

n

y

n

w

n

y

n

x

n

y

n

y

n

w

n

w













)}

(

)

(

)

(

)

(

)

(

{

)

(

₀ ₀ ₀ ₀ 0

n

y

n

x

n

y

n

w

n

y

n

w

_i



_i



_i





Neste contexto (6.90) pode ser interpretada como uma regra que adiciona deflação ao ajuste do vetor de pesos sinápticos w do ‐ésimo neurônio, deflação que é proporcional à soma das “energias” ou “potências” cruzadas (correlação cruzada) entre o sinal na saída do ‐ésimo neurônio e o sinal na saída de todos os demais neurônios associados a autovalores maiores que o autovalor do ‐ésimo neurônio, sendo também proporcional à “energia” ou “potência” do sinal na saída do ‐ésimo neurônio, i.e., proporcional à

y

j2

(

n

)

.

(37)

37

Note também que a Equação (6.90), que expressa o ajuste no peso sináptico através do Algoritmo Hebbiano Generalizado, pode ser alternativamente escrita como:

)

(

)

(

)

(

)

(

)

(

n

y

n

x

n

y

2

n

w

n

w

_ji





_j _i







_j _ji



,

1 -...,

,

1 ,

0 =

1 -...,

,

1 ,

0 =

m

j

p

i

(6.91)

onde o vetor

x

'

(

n

)

representa a forma deflacionada do vetor de entrada

x

(n

)

, deflação que é proporcional à soma das “energias” ou “potências” cruzadas (correlação cruzada) entre o sinal na saída do ‐ésimo neurônio e o sinal na saída de todos os demais neurônios associados a autovalores maiores que o autovalor do ‐ésimo neurônio:



 







1 0

)

(

)

(

)

(

)

(

j k k ki i i

n

x

n

w

n

y

n

x

(6.92)

(38)

38

Tabela 4: Operação do Algoritmo Hebbiano Generalizado.

(I) Para o primeiro neurônio



j



0 

:

 A Equação (6.91) reduz-se ao caso de um único neurônio (examinado anteriormente).  O 1º neurônio a convergir é aquele associado ao maior auto-valor.

 A rede extrai o 1º componente principal dos vetores de dados de entrada

x

(n

)

.

(II) Para o segundo neurônio



j



1 

:

 A Equação (6.92) torna-se

₍

₎

₍

₎

₍

₎

₍

₎

0 0

n

y

n

w

n

x

n

x

_i





_i



_i . (6.93)

 Desde que o 1º neurônio já tenha convergido para o 1º componente principal, o 2º neurônio vê vetores de entrada

x

'

(

n

)

dos quais o 1º auto-vetor da matriz

C

_x já foi extraído (deflacionado), conforme Equação (6.90).

 O 2º neurônio extrairá, portanto, o 1º componente principal de

x

'

(

n

)

, que é, na verdade, o 2º componente principal do espaço vetorial de entrada original dos vetores

x

(n

)

(2º auto-valor e correspondente auto-vetor da matriz

C

_x).

(III) Para os demais neurônios da rede:

 Cada conjunto de pesos sinápticos convergido representa um auto-vetor da matriz de correlação do conjunto de dados de entrada (espaço vetorial de entrada).

 Os auto-vetores obtidos desta forma encontram-se ordenados em ordem decrescente de valor dos auto-valores associados.

(39)

39

Exemplo 5 – Compressão de imagens através do GHA

 O Algoritmo Hebbiano Generalizado será utilizado para treinar uma RNA progressiva, composta por uma única camada de neurônios lineares, com o objetivo de proceder à DSE (ou PCA) de um conjunto de vetores de dados originado da vetorização dos pixels de uma imagem grayscale.

 o Processo de compressão resultante da DSE obtida através do Algoritmo Hebbiano Generalizado  GHAPCA (Generalized Hebbian Algorithm to perform Principal Component Analysis) é similar ao obtido pela Karhunen-Loève Transform (KLT), mas sem a necessidade da determinação prévia da matriz de covariância e sem a necessidade de obter todos os auto-vetores.

(40)

40

 A matriz de pixels que representa a imagem é particionada em blocos (submatrizes).  As submatrizes são transformadas em vetores linha, que formarão o conjunto de treino da RNA.  A RNA é treinada sob a regra desenvolvida para o GHAPCA, tendo por objetivo extrair os componentes principais da imagem.  A compressão obtida pelo método resulta do número de componentes principais da imagem que serão descartadas.

 Quanto mais componentes descartadas, maior será a compressão e menor a fidelidade da imagem reconstruída, com respeito à imagem original. Este compromisso é regido pelo tipo de aplicação a que se destina a compressão.

 A RNA terá tantos neurônios quantas componentes principais se desejar preservar.

 Após o treinamento, a rede terá armazenado em seus pesos sinápticos os auto‐vetores correspondentes aos auto‐valores da matriz covariância do conjunto de dados de entrada que se especificou preservar.

 A convergência do algoritmo baseia‐se em um critério de parada baseado na estabilização da Norma euclidiana (módulo) dos vetores estimados obtidos após um número suficientemente grande de iterações.  Duas otimizações são propostas para o algoritmo, objetivando redução de tempo computacional:  o critério para atualização da razão de aprendizado;  a aceleração de convergência por janelamento de treino.  A partir dos auto‐vetores obtidos e das saídas dos neurônios após a convergência do algoritmo, para cada vetor pertencente ao conjunto de treino é obtida a reconstrução da imagem, estimada a partir das componentes principais identificadas.  A fidelidade da imagem reconstruída pelo algoritmo é determinada pelo parâmetro Relação Sinal‐Ruído de Pico.