M´etodo baseado em Matriz Pseudo-Inversa - Memória associativa em redes neurais realimentadas

Esse método foi proposto em [Grassi, 2001]. Inicialmente, para simplificar o problema, suponha que a rede é totalmente conectada, isto é, não existe nenhuma restrição sobre a matriz de conexõesT . A condição de existência de pontos de equil´ıbrio na dinâmica da RNC é, de acordo com (6.2):

xp _{= T y}p_{+ I,} _{p = 1, ..., m}

yp _{= sat(x}p₎ (6.3)

ondeyp _{∈ B}n_{são vetores binários que correspondem aos padrões a serem armazenados. Como} yp _{= [sat(x}p

1), ..., sat(xpn)]T, parap = 1, ..., m, sabe-se que se os vetores xp em (6.3) tiverem componentes de mesmo sinal queyp_{e magnitude maior que 1, os vetores}_yp_{serão armazenados} como memórias de (6.1) (pelo Corolário B.3.3). Esta condição é equivalentemente representada por

xp _{= αy}p_, _{p = 1, ..., m} para algumα > 1.

A equac¸˜ao (6.3) pode ser colocada na forma matricial:

X = T Y + ¯I, (6.4)

ondeY = [y1_{, ..., y}m_{] ∈ R}n×m_,_{X = αY ∈ R}n×m_,_{α > 1 e ¯}_{I = [I, ..., I] ∈ R}n×m_. Seja

R = [YT

, J] ∈ Rm×(n+1)_, W = [T, I] ∈ Rn×(n+1)_, J = [1, 1, ..., 1]T _{∈ R}m_. A equação (6.4) pode então ser reescrita como

XT _{= RW}T_. _(6.5)

SejamXi ∈ R1×meWi ∈ R1×n+1asi-ésimas linhas de X e W , respectivamente. Assim, a equação anterior pode ser reescrita como

i = RWiT, i = 1, ..., n (6.6) Sabe-se que (6.6) só possui solução se o vetorXT

i for uma combinac¸˜ao linear das colunas deR (com escalares dados pelos componentes de WT

encontrar uma solução seR for invert´ıvel (para maiores detalhes, ver [Lay, 1996]). Entretanto, é necessário determinarWT

i , na equação (6.6), mesmo queR não seja invert´ıvel. O que se faz, nesse caso, é encontrar uma solução quesempre exista e que seja ótima, no sentido de minimizar

||XiT − RW T

i ||, i = 1, ..., n.

onde|| · || denota a norma Euclidiana. Tal solução, portanto, é dita minimizar o erro quadrático da expressão acima, sendo calculada por

WiT = R+X T

i , i = 1, ..., n (6.7)

ondeR+_{denota a matriz pseudo-inversa de}_{R, que ´e definida como}

R+ = (RTR)−1RT,

caso(RT_{R) seja invert´ıvel. Caso contrário, R}+_{pode ser obtida por meio da fatoração SVD (ver} Apêndice C), por exemplo. SeR é invert´ıvel, então R+ _{= R}−1_{e a solução (6.7) é, de fato}

WiT = R−1X T

i , i = 1, ..., n. Em termos geométricos, a solução dada por ˆWT

i em (6.7), projeta o vetorXiT no subespac¸o gerado pelas colunas deR (denotado por Col R), como ilustra a Figura 6.1.

6.2.1 Matriz de ´ındice e restric¸˜ao de conectividade de RNCs

Como uma RNC é uma rede localmente acoplada, apenas alguns elementos deT podem ser utilizados para a conexão entre as células da rede, sendo que os outros elementos devem ser fixados em zero. No entanto, tal restrição não foi utilizada para obter a solução dada por (6.7). Esta restrição pode ser agora introduzida na formulação do problema, por meio das definições que seguem.

R

Col

T i X T T _ˆ ˆ i i RW X ₌ Figura 6.1: Projeção deXT i no subespaçoCol R.

6.2 M ´ETODO BASEADO EMMATRIZPSEUDO-INVERSA 67

Definição 6.2.1 Uma matrizS = [Sij] ∈ Rn×n é dita uma matriz de ´ındice se Sij = 0 ou 1, para i, j = 1, ..., n.

Observac¸˜ao 6.2.2 Uma matriz de ´ındiceS = [Sij] codifica a arquitetura da rede, indicando a

existência (Sij = 1) ou não (Sij = 0) de uma interconexão entre a célula de ´ındice i e a célula

de ´ındicej da rede.

A seguir, define-se como uma matrizS pode ser utilizada para restringir as conex˜oes de uma RNC.

Definição 6.2.3 SejaS como na Definição 6.2.1, e seja W = [Wij] ∈ Rn×n. A restrição de

uma matriz de ´ındiceS sobre W ´e denotada por

W |S = [hij], onde hij = ( Wij , se Sij = 1 0 , se Sij = 0.

A partir dessas definições, o problema de construção da memória associativa é reformulado e resolvido na seção seguinte, considerando-se a restrição de conectividade local da rede.

6.2.2 Estratégia de resolução revista

A equação (6.4), com a restrição de uma matriz de ´ındiceS sob a matriz de conexões T (isto é,T |S), pode ser reformulada como

X = ¯T Y + ¯I, (6.8)

onde ¯T = T |S. Esta equação, por sua vez, é equivalente a

Xi = ¯TiY + ¯Ii, i = 1, ..., n (6.9) ondeXi ∈ R1×m, ¯Ti ∈ R1×n e ¯Ii ∈ R1×m denotam asi-´esimas linha de X, ¯T e ¯I, respectivamente.

Devido à restriçãoT |S, a matriz ¯T é possivelmente esparsa, isto é, contém vários elementos iguais a zero e, conseqüentemente, os elementos deY que são multiplicados por essas posições nulas, podem também ser descartados da equação. Considere a i-ésima linha de ¯T , denotada por ¯Ti. Eliminando-se as linhas deY que são multiplicadas por zeros em ¯Ti, isto é, asj-ésimas linhas deY para as quais Sij = 0, para um i fixo, obtém-se a matriz ˜Yi ∈ Rvi×m, ondevi indica a quantidade de elementos não-nulos em ¯Ti (a quantidade de vizinhos da célulai), dada por

vi = n X

j=1

Sij. (6.10)

Eliminando-se, também, os componentes do vetor ¯Ti iguais a zero, isto é, osj-ésimos componentes para os quaisSij = 0, para um i fixo, obtém-se o vetor ˜Ti ∈ R1×vi. Assim, (6.9) pode ser reescrita como

Xi = ˜TiY˜i+ ¯Ii, i = 1, ..., n (6.11) Defina agora ˜ Ri = [ ˜YiT, J] ∈ Rm×(vi+1), J = [1, ..., 1]T _{∈ R}m_, ˜ Wi = [ ˜Ti, Ii] ∈ R1×(vi+1). Assim, de (6.11), resulta XiT = ˜RiW˜iT, i = 1, ..., n cuja solução, utilizando matrizes pseudo-inversas, é

WiT = ˜R+i X T

i , i = 1, ..., n (6.12)

Dessa forma, foi obtida uma solução para o problema com restrições sobre a estrutura deT (equação (6.8)) da mesma forma como foi obtida uma solução para (6.3), graças à eliminação das posições não permitidas emT e, conseqüentemente, em Y , de acordo com a restrição de conectividade local de RNCs.

Observação 6.2.4 Para se “reconstruir” a matrizT em (6.4), a partir da solução ˆWiem (6.12),

aplica-se o seguinte procedimento: o primeiro componente do vetor ˆWi, denotado por ˆWi(1),

´e atribu´ıdo ao primeiro componente de Ti, tal queSij = 1. O segundo componente ˆWi(2), ´e

atribu´ıdo ao segundo componente de Ti, tal que Sij = 1, e assim sucessivamente, para os vi

componentes de ˆWi. A última posição do vetor ˆWi, denotada por ˆWi(vi+ 1), corresponde ao

6.2 M ´ETODO BASEADO EMMATRIZPSEUDO-INVERSA 69

T e para cada componente Ii deI, para i = 1, ...n. Os elementos de Ti que n˜ao tiveram um

valor atribu´ıdo, correspondem àqueles que não pertencem à vizinhança dai-ésima célula da

rede e s˜ao, portanto, igualados a zero.

O método para determinação dos parâmetros da RNC descrito, é sintetizado pelo Algoritmo 6.2.1.

Algoritmo 6.2.1 Algoritmo de treinamento baseado em matrizes pseudo-inversas Entrada: m padr˜oes de treinamento yp_,_{p = 1, ..., m}

Sa´ıda: parˆametrosT, I da RNC

Construa as matrizesY = [y1_{, y}2_{, ..., y}m_{] e X = αY} Construa a matriz de ´ındicesS

parai = 1, ..., n fac¸a

Construa ˜Ti e ˜Yi a partir deT e Y . {ver instruções na Seção 6.2.2} Construa ˜ Ri = [ ˜YiT, J] J = [1, ..., 1]T ˜ Wi = [ ˜Ti, Ii] ˆ WT i = ˜R+i XiT

ConstruaT = [Tij] e I a partir de ˆWi {ver instruções na Observação 6.2.4}

No documento Memória associativa em redes neurais realimentadas (páginas 83-88)