1
Principal Components
Analysis ‐ PCA
2
RNAs para Decomposição de um Espaço Vetorial em Sub‐Espaços
Nos capítulos anteriores estudamos detalhadamente dois tipos de RNAs que apresentam a
habilidade de aprender a partir de seu ambiente e, a partir do processo de aprendizado
supervisionado, melhorar seu desempenho (as RNAs MLPs treinadas pelo algoritmo
backpropagation e as RNAs RBFs).
Neste capítulo estudaremos um tipo de RNA que é submetido a um processo de aprendizado não‐
supervisionado (ou auto‐organizado).
O propósito de um algoritmo de aprendizado auto‐organizado é descobrir padrões significativos
ou características nos dados de entrada da RNA, e fazê‐lo sem a presença de um tutor (ou seja,
sem a presença de um conjunto de alvos de interesse, providos por um tutor externo).
Para atingir tal propósito, o algoritmo é provido de um conjunto de regras de natureza local,
conjunto este que o habilita a aprender a computar um mapeamento entrada‐saída, com
específicas propriedades desejáveis.
O termo “local” significa, neste contexto, que uma mudança aplicada ao peso sináptico de um
neurônio é confinada à vizinhança imediata daquele neurônio.
3
O modelamento de estruturas de RNAs usadas para aprendizado auto‐organizado tende muito
mais a seguir as estruturas neuro‐biológicas do que as estruturas utilizadas para o aprendizado
supervisionado.
A heurística para aprendizado auto‐organizado de RNAs que estudaremos neste capítulo é
chamada
"Algoritmo Hebbiano Generalizado" e é utilizada para proceder à
Análise dos
Componentes Principais (Principal Components Analysis ‐ PCA) ou Decomposição em Sub‐Espaços
(DSE) de um conjunto da dados de interesse.
O Algoritmo Hebbiano Generalizado foi proposto por Sanger em 1989 e combina a
ortonormalização de Gram‐Schmidt ao modelo de um único neurônio linear introduzido por Oja
em 1982.
A Análise dos Componentes Principais de um conjunto de dados é uma técnica padrão comumente
utilizada para redução da dimensionalidade de dados, em processamento de sinais.
(1) Princípios que regem o aprendizado auto‐organizado.
(2) Transformada Karhunen‐Loève.
(3) RNAs utilizadas para PCA ( = DSE de um espaço vetorial).
4
Princípios do Aprendizado Auto‐Organizado
O aprendizado não‐supervisionado (ou auto‐organizado) consiste do ajuste recorrente dos parâmetros livres de
uma RNA em resposta a padrões de ativação, e de acordo com regras prescritas, até que seja desenvolvida uma
desejada configuração final.
Ordem global pode surgir a partir de interações locais.
Esta afirmativa é tanto válida para o cérebro, quanto no contexto de redes neurais artificiais.
Muitas interações locais entre neurônios vizinhos de uma rede podem "coalescer" (ou, em outra interpretação
alegórica, "cristalizar") em estados de ordem global e conduzir a um comportamento coerente na forma de
padrões espaciais ou temporais, o que é a essência da auto‐organização.
A organização ocorre em dois diferentes níveis, que interagem entre si na forma de um elo de realimentação.
Estes dois níveis são:
Atividade Certos padrões de atividade são produzidos por uma dada rede em resposta a sinais de entrada. Conectividade Os pesos sinápticos da rede são modificados em resposta a sinais neurais nos padrões de atividade, devido à plasticidade sináptica.
5
Princípios da auto‐organização:
1. Ajustes recorrentes em pesos sinápticos tendem a se auto‐amplificar.
Uma forte sinapse conduz à coincidência de sinais pré e pós‐sinápticos. A sinapse é aumentada em força, por tal coincidência. Este mecanismo nada mais é do que o postulado de aprendizado de Hebb, que diz: “Se dois neurônios em cada lado de uma sinapse são ativados simultaneamente, então a força daquela sinapse é seletivamente aumentada.”2. Limitação de recursos conduz à competição entre as sinapses e, consequentemente, à seleção das sinapses que
crescem de forma mais vigorosa (portanto, as mais adequadas) às custas de outras.
Para que o sistema possa ser estabilizado precisa haver alguma forma de competição por recursos limitados. Especificamente, um aumento na transmitância de alguma sinapse na rede deve ser compensado pelo decréscimo em outras. Assim, apenas as sinapses que obtêm sucesso podem aumentar sua transmitância, enquanto as que obtêm menos sucessotendem a reduzir a sua transmitância e podem eventualmente desaparecer (transmitância zero) do contexto operacional da RNA .
3. Ajustes em pesos sinápticos tendem a cooperar.
A presença de uma sinapse “vigorosa” pode aumentar a transmitância de outras sinapses, apesar da competição global na rede.
4. Ordem e estrutura nos padrões de ativação representam a informação redundante que é adquirida pela rede
neural na forma de conhecimento, a qual é pré‐requisito necessário ao aprendizado auto‐organizado.
Para que o aprendizado auto‐organizado possa desempenhar uma função útil de processamento de informação, é necessário que haja redundância nos padrões de ativação supridos à rede pelo ambiente.6
A Transformação Karhunen‐Lòeve para PCA
ou decomposição em sub‐espaços de um espaço vetorial
A Transformação Karhunen-Loève (KLT) projeta um conjunto
X
de vetores de dadosx
M sobre uma base ortonormal em
M formada pelo conjunto dos M auto-vetorese
m
M,m
0
,
1
,
,
M
1
, da matriz de covariância deX
. A KLT é tal que a base será orientada de acordo com as direções de maior variância de
X
em
M . A m-ésima projeção de
X
sobre a direção do auto-vetore
m é chamada de m-ésimo sub-espaço (ou m-ésimo componente principal). O m-ésimo auto-valor
m associado ao auto-vetore
m corresponde à variância do m-ésimo sub-espaço deX
.
Ainda, a variância de cada sub-espaço é um máximo local, no universo de todas as variâncias resultantes daprojeção de
X
sobre todas as possíveis direções em
M. Embora qualquer espaço de dimensão menor do que
Mseja um sub-espaço de
M, este estudo refere-se muitas vezes a um sub-espaço de X como o conjunto dos vetores deX
que concentram-se de forma alinhada ao longo de uma particular direção em
M.7
Talvez a mais importante utilização da Transformação Karhunen-Loève, também conhecida por Análise dos Componentes Principais (PCA), seja a redução dimensional do conjunto
X
. Esta característica torna a KLT bastante popular em processamento digital de sinais por permitir que as informações mais significativas contidas em um sinal possam ser representadas, mediante a introdução de algum erro considerado aceitável, em um espaço de dados de menores dimensões do que a dimensão original
M. Como cada sub-espaço ou componente principal é orientado de acordo com as direções de maior variância de
X
emM
, os sub-espaços de menor variância podem ser descartados – o que resultará em uma redução dimensional ótima no sentido do Erro Médio Quadrático (MSE - Mean Square Error). O desenvolvimento do método para aplicação da KLT à
X
apresentado neste estudo segue a proposta de Haykin emNeural Networks.
8
Interpretação Geométrica da KLT
A decomposição em sub-espaços gerada pela KLT consiste em obter o conjunto de M auto-vetores e auto-valores da matriz de covariância
C
de um conjuntoU
de média zero, composto por L vetores dedados
u
i
M ,i
0
,
1
,
,
L
1
. A matriz de covariânciaC
também é referida como a matriz decorrelação
C
. A restrição de que o conjunto
U
apresente média vetorial0
M é transparente a nível de procedimento, já que o vetor média pode ser restaurado ao final. O conjunto de M auto-vetores
e
m
M obtido pela KLT,m
0
,
1
,
,
M
1
, define uma base de vetores ortonormais em
M e, portanto, define um conjunto de M eixos ortogonais Cartesianos. A coordenada de origem deste sistema Cartesiano é a coordenada de origem dos vetores da base ortonormal definida pelo conjunto de
M
auto-vetorese
m. Como a média do conjunto
U
é assumida zero, a coordenada de origem do sistema Cartesiano é0
M . A título de in arbitrário de conjunto
U
d o vetor unitár maneira: o Proje médi o Após variâ o O ve valor nterpretação d módulo unitá de vetoresu
i
rioe
Msi etar a totalidad ia da soma do s tentar todas ância
0. etor e que defr do maior aut da KLT, para ário
e
Mc M
será p ignifica efetua de do conjunt s quadrados d as direções po fine tal direção to-valor dado p obter a KLT com origem e projetado. Note ar o produto e toU
sobre a das projeções d ossíveis no esp o é igual ao au por
0. através de u em0
M , e que obter a p escalar entre e direção dada dos vetoresu
i paço
M, ha uto-vetore
0 m processo m , o qual defin projeção de eles, i.e., pore
e med M i
do coaverá uma dire associado ao manual e expe ne uma direçã um vetor
u
∙ . A se dir a variância onjuntoU
sobeção dada por maior auto-va
erimental, tom ão arbitrária s M
do con eguirprocede-
da projeçã bre a direção d r e na qual é alor, obtidos p ma-se um veto sobre a qual njuntoU
sobr -se da seguint ão (variância = dada pore
). obtida a maio pela KLT, com 9 or o re te = or m O proce direção d 0
, recé A busca que as d 0
e
1 E assim sso é repetido de maior vari ém determinad da direção de direções testad previamente prosseguiríam o novamente p ância em
M dos. e maior variân das sejam ortogencontrados. mos neste proc
Assim, co ortogonais considerad para efeito ou compo Ou seja, o MSE, o co para a obtençã Mseja feita em ncia em
Mp gonais às dire cesso recursivo omo os sub-es s de maior da uma transf o de reconstru nentes princip o conjunto de onjuntoU
de ão do segund m direções ort para obtenção eções dos doiso até que os M spaços obtido variância pos formação ótim ução do espaç pais.
M
sub-espaçoL
vetoresu
io maior auto-ogonais à do do terceiro m s auto-vetores
M auto-valores
s pela KLT e ssível no esp ma no sentido ço original
os representa d M
, i 0 -valor
1, com auto-vetore
0 maior auto-valo 0e
ee
1 asso s e auto-vetore estão alinhado paço original do erro médi M a partir de de maneira ót 1 , , 1 , L . m a restrição 0 associado ao or
2 é feita ciados aos ma es fossem dete os com as dire M
, a KL io quadrático e suasM
proje tima, no sentid de que a busc o maior auto-v com a restriçã aiores auto-va erminados. eções LT é MSE eções do do 10 ca da valor ão de alores11
Os sub-espaços obtidos pela KLT encontram-se alinhados com os eixos Cartesianos que definem as direções de maior variância possíveis no espaço original
M.Isto resulta em uma maior concentração de pontos definidos pelos vetores
u
i
M do espaço original nas vizinhanças dos eixos Cartesianos que definem cada sub-espaço.Como o m-ésimo eixo Cartesiano define a m-ésima região em
M de maior variância
m, aqueles vetores cuja média do quadrado de suas normas Euclidianas é próxima ao valor
m (
m é a média do quadrado das normas Euclidianas das projeções destes vetores sobre o m-ésimo eixo) caracterizarão um sub-conjunto de vetores do espaço
M aproximadamente alinhados com om-ésimo eixo.
Parte destes vetores estará aproximadamente congruente (i.e., alinhados no mesmo sentido) com o m-ésimo semi-eixo positivo, e parte dos vetores estará aproximadamente congruente com o m-ésimo semi-eixo negativo.
Mas, independentemente do sentido positivo ou negativo, a média do quadrado da norma Euclidiana destes vetores será, em maior ou menor grau, próxima ao valor
m, grau que depende do quanto os vetores alinham-se com o m-ésimo eixo Cartesiano. Adicionalmente, a média dos vetores que são congruentes com o semi-eixo negativo tende a ser igual à média dos vetores quesão congruentes com o semi-eixo positivo, já que
U
apresenta média vetorial0
M . Assim, deve-se esperar um certo equilíbrio entre os vetores alinhados com cada um dos dois semi-eixos.
Portanto, o m-ésimo sub-espaço identifica uma nuvem de pontos em
M nas vizinhanças do m-ésimo eixo Cartesiano, comcoordenada de cada ponto definida pelo respectivo vetor
u
i
Mdo conjuntoU
nas vizinhanças do m-ésimo eixo.Como a média do quadrado da norma Euclidiana dos vetores associados a estes pontos tende em maior ou menor grau para
m, a norma – ou distância – Euclidiana média destes pontos à origem aproxima-se do valor
m .12
Exemplo 1 – a KLT obtida através dos autovalores e autovalores da matriz de covariância do
conjunto de vetores U:
Seja o conjunto
U
deL
6
vetoresu
i
2,i
0
,
1
,
,
L
1
, de média zero definido por 897 . 0 359 . 0 , 133 . 1 491 . 0 , 820 . 0 497 . 0 , 843 . 0 327 . 0 , 943 . 0 595 . 0 , 063 . 1 425 . 0 U .
a) Plote os auto-vetores
e
m da matrizC
de covariância deU
conjuntamente com os vetores deU
. Para facilitar a visualização, escalone os auto-vetorese
m pela raiz dos respectivos auto-valores
m,i.e., m m
m
e
ψ
,m
0
,
1
.b) Obtenha as projeções de
U
sobre os eixos Cartesianos definidos pelos auto-vetores deC
.Solução:
T i i i T i L i ix
x
x
x
L
5 0 1 06
1
1
C
T T T 843 . 0 327 . 0 843 . 0 327 . 0 943 . 0 595 . 0 943 . 0 595 . 0 063 . 1 425 . 0 063 . 1 425 . 0 6 1 T T T 897 . 0 359 . 0 897 . 0 359 . 0 133 . 1 491 . 0 133 . 1 491 . 0 820 . 0 497 . 0 820 . 0 497 . 0 915 . 0 429 . 0 429 . 0 21 . 013
De (6.32) em http://www.fccdecastro.com.br/pdf/RNA_C6.pdf, temos
C
e
m
λ
me
m sendom
0
,
1
,
,
M
1
, comM
2
(2
M
, porqueu
i
2). A solução deC
e
m
λ
me
m com 915 . 0 429 . 0 429 . 0 21 . 0C consiste na determinação dos M auto-valores
me dos
M
auto-vetorese
m que satisfazem esta equação.Utilizando as funções
eigenvals
eeigenvecs
do aplicativo MathCad da MathSoft Inc., obtemos :Auto-valores de
C
:118
.
1
0
e
1
7
.
035
10
3 Auto-vetores deC
associados:
904
.
0
427
.
0
0e
e
427
.
0
904
.
0
1e
.Nota: Qualquer outro aplicativo da área de matemática pode ser utilizado para determinar os auto-valores e auto-vetores de
C
, como, por exemplo, o MatLab da MathWorks Inc.
A Fi Carte
igura 1 most esianos por ele
Fi tra o conjunto es definidos. igura 1: Conju o
U
, os M unto U,
auto-v 2 M auto-ve vetores escalon etores escalon nados 0ψ
eψ
nados m
e
ψ
1ψ
e os eixos m me
,m
Cartesianos po,
,
1
,
0
M
m
or eles definid1
M
e os e dos 14 eixos15
A Tabela 1 mostra o valor da projeção de cada vetor
u
i
2 do conjuntoU
sobre os eixos Cartesianos definidos pore
0 ee
1.i 0 1 2 3 4 5 u e a i iT -1.142 -1.107 -0.902 0.953 1.234 0.964 u e ai iT -0.07 0.135 -0.065 -0.099 0.04 0.059
Tabela 1: Projeções
a
0 ea
1 de U sobre os eixos Cartesianos definidos pore
0 ee
1.Observe que, como os auto-vetores
e
0 ee
1 têm norma unitária e são adimensionais, o valor absoluto da projeção de cadau
i
2 sobre cada eixo define a norma Euclidiana da i-ésima projeção.Note que a variância do conjunto
U
é dada pela soma dos auto-valores, i.e.,1 0 1 0 2
125
.
1
1
L i iu
L
, ondeu
u
u
Tu
M m m
1 0 2é a norma Euclidiana do vetor
u
M .16
Note ainda que as variâncias das projeções
a
0 e a de U equivalem aos respectivos auto-valores, i.e.,
0 1 0 2 0 1.118 1
L i T i e u L e
1 3 1 0 2 1 7.035 10 1
L i T i e u LPortanto, a variância do conjunto projetado, ou variância do sub-espaço, é dada pelo m-ésimo auto-valor
m.Como observação adicional note que a distância Euclidiana média
1 01
L i m T ie
u
L
dos vetores da m-ésima projeção à origem pode ser aproximada por
mL i m T i
e
u
L
1 0 21
. No caso,
1 0 0051
.
1
1
L i T ie
u
L
para
0
1
.
057
e
1 0 10
.
078
1
L i T ie
u
L
para
1
0
.
083
.Na seção conjunto
U
A Figura 2 deste conj variância (A c
anterior vimoU
de vetores 2 mostra uma untoU
em
(energia) deU
compressã
os que os M e M
dimensio representação 3
. A figura mU
. Figura 2: R como a bas maior variâão resulta
eixos Cartesia onais, sendo0
o pictórica hip mostra a mane Representação se ortonormal ância.ante da ap
anos resultante M
0
o vet potética de um eira como a ba o pictórica hip l formada peloplicação da
es da KLT al tor média de
U
ma nuvem de d ase ortonorma potética de um os auto-vetorea KLT a um
inham-se comU
. (O Exemp dados em
3 al formada pel ma "nuvem" d ese
0,e
1 ee
2m conjunt
m as direções lo 1 ilustrou u . Cada ponto los auto-vetor de dados em 2 alinha-se coo de veto
de maior vari um caso paraM
da nuvem def es alinha-se c 3
e a mane om as direçõesres
iância (=energ2
M
. ) fine a ponta d om as direçõe eira s de 17 gia) de um e um vetor es de maiorVimos tam dada pelo Portanto, é muito m Isto é pos auto-valo Ao despre No entant formação Neste sen ao descar dimensão Este mbém que a o auto-valor as podemos desp menor do que o ssível porque r associado nã ezar sub-espaç to estas perda de
U
porque ntido ocorre a rtar sub-espaç o menor queM
é o motivo de Assim, "girand até que Nesta s covariân energia contid ssociado ao au prezar aquelas os demais auto a projeção de ão é comparati ços de menor as são mínima e os auto-valor redução dimços não signif
M
.e a KLT ser co
no caso gen do" uma base d
os vetores ali situação os v ncia de
U
. da em uma de uto-vetor que d s direções (= o-valores. eU
sobre ta ivamente pequ energia estam as, pois as co res a elas assomensional de
U
ficativos, o co onsiderada um nérico de um de M vetores nhem-se com vetores da ba eterminada di define a direçã sub-espaços) ais direções é ueno. mos realizando omponentes ( = ociados supostU
, porque o c onjunto passa ma transformaç conjuntoU
ortonormais e as direções de ase ortonorma ireção (= variâ ão. definidas por insignificante uma compre = sub-espaços amente têm va conjunto era o a ser represeção ótima sob
em
M, po em
M em to e maior variân al são os au ância da proje auto-vetores c e se comparadessão com per
s) descartadas alor muito me originalmente entado com b o ponto de vis odemos imagi odas as possív ncia possível e uto-vetores da eção de
U
na cujo auto-valo da com as pro rdas do conjun têm pouca in enor do que os representado oa aproximaç sta do MSE. inar a KLT veis direções emU
. a matriz de a direção) é or associado ojeções cujo ntoU
. nfluência na s demais. em
M e, ção em uma 1819
Exemplo 2 – a KLT como algoritmo para compressão
Seja o conjunto
U
do Exemplo 1 (slide 12):a) Execute uma compressão com perdas de
U
utilizando a KLT. b) Calcule a compressão obtida.c) Calcule o MSE da compressão obtida.
d) Calcule a Relação Sinal – Ruído de Pico em dB, denotada PSNR (PSNR – Peak Signal To Noise Ratio), resultante do processo de compressão. Isto é, calcule o quadrado da componente de maior valor absoluto dentre todas as componentes dos vetores de
U
e normalize pelo MSE obtido em c).Solução:
No Exemplo 1 foram determinadas as projeções de
U
sobre a base ortonormal formada pelos auto-vetorese
0 ee
1, conforme mostra a Tabela 2. Observe na Tabela 2 que as projeções sobre a direçãoe
1 são muito menores do que as projeções sobre a direçãoe
0.i 0 1 2 3 4 5 u e a i iT -1.142 -1.107 -0.902 0.953 1.234 0.964 u e a i iT -0.07 0.135 -0.065 -0.099 0.04 0.059 Tabela 2: Projeções
a
0 ea
1 de U sobre os eixos Cartesianos20
Esta característica das projeções está de acordo com o fato de que
1
7
.
035
10
3 é muito menor do que
0
1
.
118
.Sendo assim, podemos descartar as projeções ou componentes de
U
na direçãoe
1 (a direção com menor auto-valor associado) e considerar as projeções deU
na direçãoe
0 (a direção com maior auto-valor associado) como uma boa aproximação deU
.Portanto a compressão com perdas consiste em aproximar
U
através do auto-vetore
0 e do conjunto de projeçõesa
0i
u
iT
e
0 na direção por ele definida. A aproximaçãoU
~
do conjunto de vetores originaisu
i
U
, é obtida através deu
~
i
a
0ie
0,u
~
i
U
~
, isto é,I 0 1 2 3 4 5 u e a i iT , 904 . 0 427 . 0 0 e -1.142 -1.107 -0.902 0.953 1.234 0.964 0 0
~
a
e
u
i
i 0321. 488 . 0 0011. 473 . 0 8150. 385 . 0 862 . 0 407 . 0 116 . 1 527 . 0 871 . 0 412 . 0Tabela 3: Aproximação
U
~
do conjunto originalU
obtida através deu
~
i
a
0ie
0, ondeu
~
i
U
~
.21 Portanto, da Tabela 3, o conjunto
U
~
resultante é 871 . 0 412 . 0 , 116 . 1 527 . 0 , 862 . 0 407 . 0 , 815 . 0 385 . 0 , 001 . 1 473 . 0 , 032 . 1 488 . 0 ~ U Observe que o conjunto original 897 . 0 359 . 0 , 133 . 1 491 . 0 , 820 . 0 497 . 0 , 843 . 0 327 . 0 , 943 . 0 595 . 0 , 063 . 1 425 . 0 Ude
L
6
vetoresu
i
2,i
0
,
1
,
,
L
1
necessita de 12 números em ponto‐flutuante para ser representado.Por outro lado, o conjunto aproximado
U
~
foi gerado a partir do auto‐vetor 904 . 0 427 . 0 0 e e de um conjunto de 6 projeções
1
.
142
,
1
.
107
,
0
.
902
,
0
.
953
,
1
.
234
,
0
.
964
0
a
. Portanto, o conjuntoU
~
necessita de apenas 8 números em ponto‐flutuante para ser representado. Define‐se como fator de compressão
o quociente U U r representa para necessário nto armazename de unidades de Total ~ r representa para necessário nto armazename de unidades de Total (6.45) Portanto o fator de compressão obtido é
8120.67.22
O MSE da aproximação
U
~
pode ser obtido através de
1 0 ~ ~ 1 MSE L i i i T i i u u u u L (6.46), ondeu
i
U
e u~ i U~, i0,1,,L 1. De (6.46) obtemos MSE7.025103. A PSNR é definida como
MSE max log PSNR comp U (6.47)sendo maxcomp
U a componente de maior valor absoluto dentre todas as componentes dos vetores de U.De (6.47) obtemos
. dB 10 7.025 . log PSNR -3 .23
Exemplo 3 – reconstrução do conjunto original usando todas as projeções da KLT
Obtenha o conjunto de vetores
u
~
i
U
~
a partir de todos os sub-espaços do conjunto de vetoresu
i
U
do Exemplo 6.2 (i.e., não execute nenhuma compressão, apenas reconstrua o conjunto original a partir de ambos sub-espaçosa
0 ea
1). Determine a PSNR do conjunto reconstruídoU
~
.Solução:
A partir da Tabela 1 (slide 15) obtemos a Tabela 4 abaixo.
i 0 1 2 3 4 5 u e a i iT , 904 . 0 427 . 0 0 e -1.142 -1.107 -0.902 0.953 1.234 0.964 u e ai iT , 427 . 0 904 . 0 1 e -0.07 0.135 -0.065 -0.099 0.04 0.059
a
e
a
e
u
~
i i i . . . . . . . . . . . .Tabela 4: Reconstrução
U
~
do conjunto originalU
obtida através deu
~
i
a
0ie
0
a
1ie
1, ondeu
~
i
U
~
. Como nenhum sub-espaço é descartado, nenhuma compressão é obtida e o conjuntoU
~
é considerado uma reconstrução do conjunto originalU
a partir dos sub-espaçosa
0 ea
1.24 Da Tabela 4 obtemos 897 . 0 358 . 0 , 133 . 1 491 . 0 , 819 . 0 496 . 0 , 843 . 0 326 . 0 , 943 . 0 595 . 0 , 062 . 1 424 . 0 ~ U . De (6.46) obtemos MSE .. E, de (6.47) obtemos
. dB 10 5.3 . log PSNR -7 . Nota: Observe que o MSE não é zero (e portanto a PSNR não é infinita) unicamente devido à precisão (3 casas após a vírgula) nas operações de ponto‐flutuante efetuadas. Se estivéssemos trabalhando com uma precisão suficiente o MSE seria zero porque neste exemplo, ao contrário do Exemplo 2, nenhuma informação é descartada. Aqui o conjunto originalU
é apenas reconstruído a partir de todos os seus sub‐espaços sem ocorrer qualquer compressão.Figura 3: Im
Exe
magem graysca1
128
emplo 4 –
ale “Lenna” d128
pixels.– Compres
de tamanhssão de im
ho • Um pix • O v bran • Tod ton pix que • A F tam nosmagens at
ma imagem em el variando en valor 0 repres nco. dos os demais s de cinza (p el de uma im e o valor do pi Figura 3 most manho 12812 sso estudo.ravés da K
m grayscale ntre 0 e 255. enta preto e o valores interm portanto, a ton magem graysc xel aumenta). tra a imagem g 28 pixels, a qKLT
tem seus va o valor 255 re mediários repr nalidade cinza cale clareia à grayscale “Lequal será utili
alores de epresenta resentam a de um à medida enna” de zada em 25
26
Para comprimir a imagem da Figura 3 através da KLT, adota‐se o seguinte procedimento:
1. Subdivide‐se a imagem em
L
256
blocos de8
8
pixels e registra‐se a posição de cada bloco na imagem(
p/ certas imagens, melhor resultado é obtido c/ blocos16
)
16
.2. O i‐ésimo bloco
B
i de8
8
pixels é convertido em um vetor
M dimensionalu
i
U
, sendoM
64
(devido ao bloco possuir8
8
pixels),i
0
,
1
,
,
L
1
. A conversão bloco‐vetorB
i
u
i é efetuadalendo‐se as 8 linhas de
B
i da esquerda para a direita sendo a linha ao alto a primeira a ser lida e transferindo o valor de cada pixel lido nesta ordem para as respectivas posições em sequência no vetoru
i. 3. Calcula‐se o vetor média do conjunto de vetoresU
obtido em (2) e subtrai‐se este vetor média de todos os256
L
vetoresu
i
U
. 4. Determina‐se os sub‐espaços deU
conforme já discutido no Exemplo 2. 5. Descarta‐se aqueles sub‐espaços associados aos menores auto‐valores .6. Obtém‐se o conjunto de vetores
u
~
i
U
~
sendou
~
i
a
0ie
0
a
1ie
1
a
N1ie
N1, onde
a
0,
a
1,
,
a
N1
são os sub‐espaços definidos pelos auto‐vetores
e
0,
e
1,
,
e
N1
cujos auto‐valoresassociados são os N maiores auto‐valores (os N sub‐espaços de maior energia). N é obtido experimentalmente e define o compromisso entre o fator de compressão
e a relação sinal‐ruído de compressão PSNR.7. Soma‐se ao conjunto de L vetores
u
~
i
U
~
o vetor média originalmente subtraído deU
.8. Obtém‐se o conjunto de blocos
B
~
i através da conversão bloco‐vetor inversau
~
i
B
~
i,i
0
,
1
,
,
L
1
, e reconstrói‐se a imagem comprimida a partir do registro da posição de cada bloco.
A Fig da Fi Figura 4: A Figura 3. O aproximad as 32 prim gura 4 mostra igura 3 de acor Amplitude rel Observe que o damente a par meiras maiores a a amplitude r rdo com o pro
lativa em orde o número total rtir do vigésim s amplitudes. relativa em or ocedimento ac em decrescent l de auto-valo mo maior auto-rdem decresce cima descrito. e dos 32 prim ores é 64, já qu -valor a ampli ente dos 32 pr meiros maiores ue cada vetor itude relativa t
rimeiros maio auto-valores de
U
é de dim torna-se peque res auto-valor do conjuntoU
mensão
64. ena, escolheu-res do conjuntU
formado a p No entanto, v -se representa toU
formado partir da visto que ar apenas 27 o a partirImagem da F 32 N prim O coeficiente (Equação (6. A fidelidade original é da Fig Figura 3 comp meiros sub‐esp e de compress 45)). da imagem co da por PSNR gura 5: primida pela K paços de maio são resultante omprimida co dB 3 . 37 R (E LT utilizando o r energia. e é
0.629 m relação à Eq. (6.47)).os Im N O (E A o magem da Fig 16 N primei O coeficiente d Equação (6.45 A fidelidade da original é dada Figur gura 3 comprim ros sub‐espaç de compressão 5)). a imagem com a por PSNR ra 6: mida pela KLT ços de maior e o resultante é mprimida com dB 4 . 31 (Eq. utilizando os energia. é
0.316 relação à (6.47)). 2829
General Hebbian Learning para PCA (DSE de um espaço vetorial através de RNAs)
PCA via KLT de um Espaço Vetorial:(1) Computar a matriz de covariância do conjunto de dados de entrada.
(2) Aplicar procedimento numérico que extraia os auto-valores e os correspondentes auto-vetores desta matriz.
(3) Os auto-vetores correspondentes aos auto-valores mais significativos são usados para extrair os componentes principais do espaço vetorial do conjunto de dados.
Desvantagens do método:
(1) Para grandes conjuntos de dados, as dimensões da matriz covariância crescem significativamente, tornando proibitiva a complexidade computacional para determinação dos auto-valores e auto-vetores.
(2) Em particular, a complexidade é alta porque todos os auto-valores e auto-vetores precisam ser computados, mesmo que somente poucos auto-vetores (aqueles correspondentes aos maiores auto-valores) venham a ser utilizados no processo.
Solução:
A solução eficiente para este problema deve encontrar os principais auto-vetores sem a necessidade de determinar a matriz covariância.
Tal solução é alcançada ao abordar o problema utilizando RNAs.
A técnica que utiliza RNAs para efetuar PCA de um espaço vetorial é denominada "Algoritmo Hebbiano Generalizado" (GHA – General Hebbian Learning).
O GHA foi proposto por Sanger em 1989. O algoritmo GHA combina a orto-normalização de Gram-Schmidt com o modelo de um único neurônio linear introduzido por Oja em 1982.
O GHA é um algoritmo computacionalmente eficiente para PCA porque:
Extrai os componentes principais individualmente, um após o outro, em ordem decrescente de variância.
Possibilita que, após treinada a RNA, os resultados obtidos possam ser aplicados a um outro conjunto de dados de estatística "semelhante" (ou seja, que resulte em uma matriz de covariância "semelhante").
30
O Aprendizado Hebbiano
É uma classe de aprendizado não-supervisionado ou auto-organizado, em que os parâmetros livres da rede são adaptados pela exposição da RNA ao ambiente em que está contida, até que uma pré-determinada condição seja atingida, através:
da repetição dos padrões de entrada por um número suficiente de vezes e
da aplicação de um conjunto de regras de aprendizado específicas, adequadas à solução do problema.
RNAs treinadas sob aprendizado não-supervisionado descobrem padrões significativos ou característicos dos dados sem o auxílio de um tutor externo.
Não há realimentação do ambiente para auxiliar a rede a determinar se a saída está ou não correta. A RNA deve descobrir por si padrões, características, regularidades, correlações ou categorias nos
dados de entrada.
As unidades e conexões que a compõem devem, portanto, apresentar alguma capacidade de auto-organização.
O conhecimento que “coalesce” nas sinapses da RNA é obtido da observação repetida de parâmetros estatísticos (média, variância e matriz correlação) dos dados de entrada
(redundância de padrões conhecimento).
Figura 7:
Observe que correlação e instante . O conjunto d A cada instan qual se desejaRNA de um
a Equação ( entre os sinai de vetores x de nte n do tempo a efetuar o prom único neur
(6.48) express is pré e pós-s e entrada possu o discreto um ocesso PCA.rônio de índi
Os sinais p)
1
(
0n
w
)
(
0n
x
y
onde:
é uma razão de a x
(n
)
é o v y
0(
n
)
é a sa o ajuste n sinápticos, en ui distribuição vetor x é apreice “0” (zero
pré e pós-sináp)
(
)
w
0n
)
(
)
(
n
w
0n
x
T
a constante p aprendizado, vetor de entra a saída da rede no vetor de p nquanto que a o de probabilid esentado à redo), a ser trein
pticos, respect
(
)
(
0n
x
n
y
(
)
(
0n
x
n
w
T
positiva que ada da rede no e. esos sináptico Equação (6.4 dade arbitrária de, escolhido anada pelo Ap
tivamentex
ey
)
n
(6.48))
n
(6.49) determina a instante e os w0(n), qu 49) expressa a a. aleatoriamenteprendizado H
y
são equacio ue ocorre na a saíday
0(
n
)
e do conjuntoHebbiano.
onados por proporção da)
da RNA no de vetores do 31 a o o32
Segundo os princípios do Aprendizado Hebbiano:
(I) quanto mais provável for uma particular entrada x, maior será a correlação da saída y com esta entrada. Assim, quanto mais provável for
x
, maior será a saíday
;(II) quanto maior for a saída y, mais a variação do peso sináptico que a encorajou aumentará a sua transmitância. As afirmações (I) e (II) nada mais são do que o 1º princípio da auto-organização de von der Malsburg:
"Modificações em pesos sinápticos tendem a se auto-amplificar".
Ou seja, a correlação entre os ajustes nos pesos sinápticos e as variações nos padrões de atividade deve ser positiva para que se obtenha auto-organização da rede.
O processo de auto-amplificação é restrito pelo requerimento de que modificações em pesos sinápticos devem ser baseadas em sinais pré-sinápticos e pós-sinápticos (disponíveis localmente).
Uma sinapse com alta transmitância conduz à coincidência de sinais pré e pós-sinápticos e, por outro lado, a transmitância da sinapse é aumentada por tal coincidência.
Ou, ainda, segundo o postulado de Hebb:
“Se dois neurônios biológicos em cada lado de uma sinapse são ativados simultaneamente, então a transmitância daquela sinapse é seletivamente aumentada.”
33
O "loop" recorrente expresso por (I) e (II), no entanto, faz com que a transmitância dos pesos sinápticos permaneça crescendo sem limite, impedindo a continuação do processo de aprendizado por overflow dos registradores numéricos do hardware.
Pelo aumento demasiado da transmitância do peso sináptico, a rede é levada à saturação precoce e é incapaz de aprender os padrões apresentados.
Solução do problema de overflow: 2º princípio da auto-organização de von der Malsburg:
"Limitação de recursos conduz à competição entre as sinapses e, consequentemente, à seleção das sinapses que crescem de forma mais vigorosa (portanto, as mais adequadas) às custas de outras"
Neste contexto, é necessário ser estabelecido algum mecanismo de competição por “recursos limitados”, para que o sistema possa ser numericamente estabilizado.
A solução, portanto, consiste em compensar o aumento na transmitância de uma particular sinapse do neurônio através do decréscimo da transmitância de outras sinapses.
Assim, apenas as sinapses que obtêm sucesso no processo de correlação entre os sinais de entrada e saída tem a sua transmitância aumentada, enquanto as outras tem sua transmitância reduzida e, eventualmente, deixam de influenciar no processo de aprendizado como um todo.
Pa restringi O Hebbian atingir valor de A re pesos si saída do A Equação A regra de Esta regra numericam Importante x
C
(ver d maior auto primeira c auto-valorS
ara evitar a di ir o aumento d Oja propôs em no, uma mo norma unitár eC
x.gra de Oja cor inápticos
w ,
o neurônio no o (6.60) expre e ajuste deflac a de ajuste mente estável. e notar que, ap demonstração n o-valor
0
componente pr r da matriz deolução pr
ivergência num das transmitân m 1982 com odificação no ria, além de c rresponde a ad deflação que instante discre essa a regra de(
0n
w
cionado para ow
deflacionado pós a converg na seção 6.3.1 max
. Por rincipal do esp covariância droposta po
mérica do alg ncias das sinapmo alternativa o algoritmo q corresponder
dicionar um d é proporcion eto , i.e., pro e Aprendizado
)
(
)
1
w
0n
o Aprendizado)
(
0 0n
y
w
conduz à co gência paraw
1 em http://w rtanto um úni paço vetorial dos dados de enor Oja par
goritmo de apr pses expressas a para a est que permite r ao auto-veto ecaimento ou nal à “energia oporcional ày
o Hebbiano, ap(
)
(
y
0n
x
o Hebbiano apr)
(
){
(
0n
x
n
y
onvergência d1
0
w
, o vet ww.fccdecast co neurônio l dos dados de ntrada.ra a instab
rendizado Heb s nos compone tabilização d ao vetor pe or associados deflação ao aj a” ou “potênc)
(
2 0n
y
. pós deflaciona(
)
(
n
y
02n
resentada na E)}
(
)
(
0 0n
w
n
y
do vetor pes torw
0 result tro.com.br/pd linear submet entrada, combilidade n
bbiano é prec entes do vetor do Aprendiza eso sináptico ao maior au juste do vetor ia” do sinal ada de um fato)
(
)
w
0n
n
Equação (6.60 so sináptico ante correspon f/RNA_C6.pdf tido à regra H mponente estanumérica
isow.
adow
uto-r de na or
y
02(
n
)
w
(6.60) 0) pode ser ree(6.61) 0
w
paraw
nde ao auto-v f ), i.e., corres Hebbiana de a que correspon(overflow
)
(
0n
w
: scrita como,1
0
w
, sendo etor associado ponde ao auto aprendizado a nde ao auto-vw):
o, assim, um o ao maior aut o-vetore
0, as auto-organizad vetor associado 34 ma solução to-valor de sociado ao do extrai a o ao maiorO process único neur esta regra Os neu espaço ve armazena correlaçã auto-valo Figu so de generaliz rônio linear (c executará a an urônios da cam etorial represe a as transmitâ o)
C
x do con r e o neurôni ura 8: RNA pr zação consiste conforme Figu nálise dos com mada de neur entado pelo c âncias sinápt njunto de veto io rogressiva comO Al
e em aplicar a ura 7) mas sim mponentes prin rônios lineare conjunto de v ticas do -ésim oresx
(n
)
. O representará m uma única clgoritmo H
as regras prop m, por uma camncipais sobre o es da RNA ex vetores
x
(n
)
d mo neurônio, ordenament á o auto-vetor amada de neuHebbiano
postas por Sanmada de neurô o espaço vetor xtraem orden de entrada. A corresponde o é tal que o r associado ao urônios lineare
Generaliz
nger e Oja a u ônios lineares rial que repres nadamente e r Após a conver rá ao -ésimo neurônio o menorauto-es, a ser treinad
zado
uma RNA pro , conforme mo senta os dados respectivamen rgência do alg o auto-vetor d representa -valor. da pelo Apren ogressiva, com ostra a Figura s de entrada. nte os com goritmo, o ve da matriz de ará o auto-ve ndizado Hebbi mposta não ma a 8. A RNA tr mponentes pri etor de elem covariância ( etor associado iano Generaliz 35 ais por um reinada por incipais do mentos que (matriz de o ao maior zado.
36
Note que:
A RNA da Figura 8 temp
nós na camada de entrada em
neurônios na camada de saída, comm
p
.
Os pesos sinápticosw
ji conectam os nós de entradai
aos neurônios da camada de saídaj
, comi
0
,
1
,
...,
p
1
ej
0
,
1
,
...,
m
1
(considerando aqui, novamente, a notação expandida para o vetor de pesos sinápticos).
A saíday
j(n
)
produzida pelo neurônio j, no instante discreto n, em resposta ao conjunto de entradasx
i(n
)
é dada por
1 01
-...,
,
1
,
0
=
),
(
)
(
)
(
p i i ji jn
w
n
x
n
j
m
y
(6.89)
A adaptação do peso sináptico devida ao Algoritmo Hebbiano Generalizado é expressa pela Equação (6.90)
j k k ki j i j jin
y
n
x
n
y
n
w
n
y
n
w
0)}
(
)
(
)
(
)
(
)
(
{
)
(
(6.90)onde
i
=
0
,
1
,
...,
p
-
1
,j
=
0
,
1
,
...,
m
-
1
,
w
ji(n
)
é o ajuste aplicado ao peso sinápticow
ji(n
)
do neurônio no instante n , e
é arazão de aprendizado. Para efeito de análise e interpretação da Equação (6.90), note que a equação 6.61do slide 34 é uma particularização de (6.90) para um único neurônio 0:
(
)
(
)
(
)
(
)
(
)
)}
(
)
(
)
(
){
(
)
(
0 0 0 0 0 0 0 0n
y
n
x
n
y
n
w
n
y
n
x
n
y
n
y
n
w
n
w
)}
(
)
(
)
(
)
(
)
(
{
)
(
0 0 0 0 0n
y
n
x
n
y
n
w
n
y
n
w
i
i
i
Neste contexto (6.90) pode ser interpretada como uma regra que adiciona deflação ao ajuste do vetor de pesos sinápticos w do ‐ésimo neurônio, deflação que é proporcional à soma das “energias” ou “potências” cruzadas (correlação cruzada) entre o sinal na saída do ‐ésimo neurônio e o sinal na saída de todos os demais neurônios associados a autovalores maiores que o autovalor do ‐ésimo neurônio, sendo também proporcional à “energia” ou “potência” do sinal na saída do ‐ésimo neurônio, i.e., proporcional à
y
j2(
n
)
.37
Note também que a Equação (6.90), que expressa o ajuste no peso sináptico através do Algoritmo Hebbiano Generalizado, pode ser alternativamente escrita como:
)
(
)
(
)
(
)
(
)
(
n
y
n
x
n
y
2n
w
n
w
ji
j i
j ji
,1
-...,
,
1
,
0
=
1
-...,
,
1
,
0
=
m
j
p
i
(6.91)onde o vetor
x
'(
n
)
representa a forma deflacionada do vetor de entradax
(n
)
, deflação que é proporcional à soma das “energias” ou “potências” cruzadas (correlação cruzada) entre o sinal na saída do ‐ésimo neurônio e o sinal na saída de todos os demais neurônios associados a autovalores maiores que o autovalor do ‐ésimo neurônio:
1 0)
(
)
(
)
(
)
(
j k k ki i in
x
n
w
n
y
n
x
(6.92)38
Tabela 4: Operação do Algoritmo Hebbiano Generalizado.
(I) Para o primeiro neurônio
j
0
: A Equação (6.91) reduz-se ao caso de um único neurônio (examinado anteriormente). O 1º neurônio a convergir é aquele associado ao maior auto-valor.
A rede extrai o 1º componente principal dos vetores de dados de entrada
x
(n
)
.(II) Para o segundo neurônio
j
1
: A Equação (6.92) torna-se
(
)
(
)
(
)
(
)
0 0n
y
n
w
n
x
n
x
i
i
i . (6.93) Desde que o 1º neurônio já tenha convergido para o 1º componente principal, o 2º neurônio vê vetores de entrada
x
'(
n
)
dos quais o 1º auto-vetor da matrizC
x já foi extraído (deflacionado), conforme Equação (6.90). O 2º neurônio extrairá, portanto, o 1º componente principal de
x
'(
n
)
, que é, na verdade, o 2º componente principal do espaço vetorial de entrada original dos vetoresx
(n
)
(2º auto-valor e correspondente auto-vetor da matrizC
x).(III) Para os demais neurônios da rede:
Cada conjunto de pesos sinápticos convergido representa um auto-vetor da matriz de correlação do conjunto de dados de entrada (espaço vetorial de entrada).
Os auto-vetores obtidos desta forma encontram-se ordenados em ordem decrescente de valor dos auto-valores associados.
39
Exemplo 5 – Compressão de imagens através do GHA
O Algoritmo Hebbiano Generalizado será utilizado para treinar uma RNA progressiva, composta por uma única camada de neurônios lineares, com o objetivo de proceder à DSE (ou PCA) de um conjunto de vetores de dados originado da vetorização dos pixels de uma imagem grayscale.
o Processo de compressão resultante da DSE obtida através do Algoritmo Hebbiano Generalizado GHAPCA (Generalized Hebbian Algorithm to perform Principal Component Analysis) é similar ao obtido pela Karhunen-Loève Transform (KLT), mas sem a necessidade da determinação prévia da matriz de covariância e sem a necessidade de obter todos os auto-vetores.
40
A matriz de pixels que representa a imagem é particionada em blocos (submatrizes). As submatrizes são transformadas em vetores linha, que formarão o conjunto de treino da RNA. A RNA é treinada sob a regra desenvolvida para o GHAPCA, tendo por objetivo extrair os componentes principais da imagem. A compressão obtida pelo método resulta do número de componentes principais da imagem que serão descartadas.
Quanto mais componentes descartadas, maior será a compressão e menor a fidelidade da imagem reconstruída, com respeito à imagem original. Este compromisso é regido pelo tipo de aplicação a que se destina a compressão.
A RNA terá tantos neurônios quantas componentes principais se desejar preservar.
Após o treinamento, a rede terá armazenado em seus pesos sinápticos os auto‐vetores correspondentes aos auto‐valores da matriz covariância do conjunto de dados de entrada que se especificou preservar.
A convergência do algoritmo baseia‐se em um critério de parada baseado na estabilização da Norma euclidiana (módulo) dos vetores estimados obtidos após um número suficientemente grande de iterações. Duas otimizações são propostas para o algoritmo, objetivando redução de tempo computacional: o critério para atualização da razão de aprendizado; a aceleração de convergência por janelamento de treino. A partir dos auto‐vetores obtidos e das saídas dos neurônios após a convergência do algoritmo, para cada vetor pertencente ao conjunto de treino é obtida a reconstrução da imagem, estimada a partir das componentes principais identificadas. A fidelidade da imagem reconstruída pelo algoritmo é determinada pelo parâmetro Relação Sinal‐Ruído de Pico.