Capacidade de Interpolação - Auto-organização e aprendizagem por demonstração na determinação d

As redes derivadas de SOM geralmente são destinadas a realizar agrupamento de dados, mas existem modelos baseados em SOM empregados em tarefas de aproximação de função ou regressão (GOPPERT; ROSENSTIEL,1997). Em muitas aplicações, os vetores de entrada e os vetores de saída podem assumir valores contínuos, logo as chances destes vetores estarem localizados entre os nodos é muito maior do que estarem localizados exatamente sobre os nodos. Para manter uma coerência no mapeamento entre entrada e saída, o posicionamento destes vetores deve ser similar tanto no espaço de entrada quanto no espaço de saída. Para este fim, a posição geométrica de um vetor de entrada deve ser mapeada para o espaço de saída. A ideia de interpolação topológica é usar o neurônio vencedor e seus vizinhos topológicos para calcular valores de saída intermediários. O processo de treinamento da rede SOM original discretiza os valores de saída da rede (LUDWIG et al.,1995).

A.6.1 Mapas com Interpolação

A introdução de técnicas de interpolação entre os neurônios de uma rede SOM permite obter resultados satisfatórios mesmo com um número reduzido de neurônios e com um conjunto

de dados de treinamento menor (WALTER; RITTER,1996). Para redes SOM com interpo-

lação adaptadas para regressão ou aproximação de função, duas técnicas de treinamento são encontradas na literatura. A primeira técnica é um treinamento não-supervisionado do Mapa Auto-organizável para aproximar os vetores dos protótipos em direção aos vetores de entrada com o objetivo de encontrar a configuração de neurônios que minimiza a distância entre o vetor de entrada e seu correspondente neurônio vencedor, semelhante ao treinamento da rede SOM original (LUDWIG et al.,1995). Depois, os pesos outstar(GÖPPERT; ROSENSTIEL,1993) são adaptados supervisionadamente com o objetivo de produzir a saída desejada como na rede

Counterpropagation(HECHT-NIELSEN,1987).

A segunda técnica combina o vetor de entrada n-dimensional com o vetor de saída m-dimensional de saída para treinar a rede SOM com o vetor n + m-dimensional resultante. Este

A.6. CAPACIDADE DE INTERPOLAÇÃO 138 tipo de treinamento realiza implicitamente uma associação de vetores de entrada com vetores de saída, converge rápido e fornece suporte ao mapa para auto-organização de acordo com o relacionamento entrada-saída (LUDWIG et al.,1995).

LUDWIG et al.(1995) combina, em uma rede I-SOM, as duas técnicas descritas acima para treinar uma rede SOM com capacidade de interpolação. O treinamento da rede SOM é realizado no espaço de treinamento n + m-dimensional e depois os pesos de saída são utilizados para um ajuste inicial dos pesos outstar antes do treinamento final. O treinamento dos pesos outstaré baseado na rede Counterpropagation. Este treinamento outstar é supervisionado e guiado pelo vetor de saída desejado (Yd) de acordo com a Equação A.36:

W(out)w (t +1) = W(out)w (t) + γ(Yd(t) − W(out)w (t))

A.36 A ideia da rede I-SOM é realizar uma interpolação k-dimensional encontrando múltiplos neurônios vencedores (k+1, o vencedor e seus vizinhos). Os k+1 vencedores são escolhidos para construir um sistema de coordenadas local, onde vencedor é o centro deste sistema de coordenadas e os vizinhos formam os eixos. O valor de k será igual a dimensão da grade da rede SOM, para uma rede SOM padrão com grade de dimensão 2, o valor de k será igual a 2. Duas diferentes estratégias podem ser aplicadas para encontrar o conjunto de vencedores:

1) Selecionar os vizinhos mais próximos no espaço de entrada: os neurônios que possuem a menor distância para o vetor de entrada.

2) Selecionar os vizinhos topológicos do neurônio vencedor: os neurônios que estão posicio- nados nas adjacências do neurônio vencedor.

A escolha pelo vizinho topológico é mais vantajosa, porque a estrutura da interpolação pode ser pré-definida. Por outro lado, defeitos topológicos levam a erros elevados na interpolação.

GÖPPERT; ROSENSTIEL(1995) propuseram três métodos para encontrar os parâmetros de interpolação na rede Interpolated Self-Organizing Map (I-SOM): por projeção, inversão de matriz e por iterações.

Os parâmetros de interpolação por projeção são obtidos iterativamente utilizando um conjunto de vencedores. O vetor de pesos de entrada de cada vencedor é representado por W(in)_wi . O processo iterativo começa no vencedor de índice i = 1 até o vencedor de índice i = k. Cada iteração calcula a projeção ortogonal de um vetor de erro sobre um vetor de distância. O erro é calculado entre o vetor de entrada X e a aproximação atual do vetor de entrada ˜Xi−1. O vetor de

distância é calculado com o vetor de pesos de entrada de um vencedor W(in)

wi e a aproximação

atual do vetor de entrada ˜Xi−1. A aproximação inicial do vetor de entrada ˜X0 é inicializada

com os pesos W(in)

w0 do vencedor de índice 0 (o nodo de maior semelhança com a entrada). A

aproximação inicial da saída ˜Y0 é inicializada com os pesos W(out)_w0 de saída do vencedor de

índice 0. O resultado da projeção α∗

A.37:

α_i∗= (X − ˜Xi−1)

T_(W(in)

wi − ˜Xi−1)

(W(in)_wi − ˜Xi−1)T_(W(in)

wi − ˜Xi−1) A.37 A próxima aproximação do vetor de entrada ˜Xi e do vetor de saída ˜Yisão calculadas

respectivamente pelas Equações A.38 e A.39: ˜Xi= ˜Xi−1+ αi∗(W (in) wi − ˜Xi−1) A.38 ˜Yi= ˜Yi−1+ αi∗(W (out) wi − ˜Yi−1) A.39 A aplicação destes parâmetros de interpolação no espaço de entrada levam a uma apro- ximação do vetor de entrada em um espaço de entrada na iteração k ( ˜X = ˜Xk) e também a um

vetor de saída interpolado no espaço de saída ( ˜Y(out)_{= ˜}_Y k).

Os vetores de distância, de modo geral, não são ortogonais e, portanto, o método de projeção pode não encontrar a interpolação ótima dos k+1 vencedores. Neste caso, os parâmetros de interpolação ótima no espaço de entrada são encontrados através de inversão de matriz. Por esse motivo, um sistema local de coordenada L(in)_{é definido através de vetores de distância I}(in)

entre o primeiro vencedor (w0) e os vencedores seguintes (wi).

I(in)_i = W(in)_wi − W_w0(in) i=1...k A.40

Xl(in)= X − W(in)_w0 A.41

L(in)= [I(in)₁ I(in)₂ ...I(in)_k ] A.42

O sistema local no espaço de saída (L(out)_{) é calculado como a seguir:}

I(out)_i = W(out)_wi − W_w0(out) i=1...k A.43

Xl(out)= X − W(out)_w0 A.44

L(out)= [I(out)₁ I(out)₂ ...I(out)_k ] A.45 Os vetores que formam a base de coordenadas do sistema são linearmente independente, mas não são ortogonais. Assim, as coordenadas afim são obtidas por uma matriz T pseudo- inversa:

T = (L(in)TL(in))−1L(in)T A.46

αi= n

∑

j=1 T_{i j}xl_j; α0=1 − k

∑

i=1 αi i=1...k A.47 ˜Xl(in) = k

∑

i=1 αiI (in) wi A.48

A.6. CAPACIDADE DE INTERPOLAÇÃO 140 ˜X(in)_{= W}(in) w0 + ˜Xl(in)= k

∑

i=0 αiW(in)_wi A.49 Y(out)= W(out)_w0 + ˜Yl(out)=

∑

i=0 αiW (out) wi A.50 O método de projeção foi a primeira abordagem, mas ele não leva a um resultado ótimo. A matriz de inversão alcança melhores resultados, mas é altamente sensível a ruídos. A terceira abordagem, descrita a seguir, utiliza um método iterativo para calcular os parâmetros. O processo iterativo é inicializado com a posição do vencedor (origem do sistema local; α0=1;αi=0; i ∈

{1,...,k}). Como no método de projeção, o vetor de entrada local Xl_{é projetado sobre os eixos}

I(in)_i do sistema local. A regra de atualização iterativa é definida pela minimização de uma função de erro através de gradiente descendente e normalização dos passos:

E=1 2 m

∑

j=1 (x(in)_j −˜x(in)_j )2= 1 2|X l(in)_{− ˜} Xl(in)|2 A.51 ∆αi= γ

(Xl(in)− ˜Xl(in))TI(in)_wi I(in)T_wi I(in)_wi

i∈1...k A.52

Onde m é o número de componentes do vetor de entrada. A aproximação local é calculada de acordo com a Equação A.48, a aproximação da entrada e da saída interpolada de acordo com as Equações A.49 e A.50 respectivamente. Este procedimento é inspirado na regra delta de Widrow e Hoff. Valores pequenos de (γ < 1), esta regra minimiza a função de erro e converge sempre para o ponto de erro mínimo.

O método iterativo é menos sensível a ruído que o método de matriz, especialmente se os vetores da base do sistema local são quase linearmente independente. Através do cálculo iterativo, estes efeitos podem ser reduzidos se o processo iterativo para depois que a posição ótima for alcançada ou se o valor α for limitado a uma faixa.

A rede continuous interpolating self-organizing map (CI-SOM) (GOPPERT; ROSENS-

TIEL,1997) é baseada na I-SOM. Cada neurônio está associado um vetor de pesos que relaciona uma posição do espaço de entrada com uma posição do espaço de saída. A função de interpolação passa exatamente através destas posições (pontos de suporte). I-SOM pode gerar descontinuidade quando passa de um neurônio para outro. Esta descontinuidade pode ser evitada com uma transição mais contínua entre diferentes configurações (conjuntos de vencedores) através da ponderação de esquemas de interpolação linear de acordo com estratégias predefinidas. O princí- pio básico desta ponderação é baseado em na Fórmula de Shepard (FS) projetada para suavizar interpolação de dados dispersos. Partindo deste princípio, s pontos de suporte com entrada e saída conhecidas são interpolados. Este método de interpolação é baseado no conjunto de distâncias

Euclidiana entre o vetor de entrada e os neurônios da rede ({dj|d2j = ∑ni=1(w (in) i j − xi)2}): φFS({dj}) = 1 d_iµ ∑dj∈{dj} 1 dµ_j A.53 φLR−FS({dj}) = h_(R−d i)+ Rdi iµ ∑dj∈{dj} h_(R−d i)+ Rdi iµ A.54 Um valor típico para o expoente µ é 2. Como visto anteriormente, existem duas versões diferentes para a Fórmula de Shepard, Equações A.53 e A.54. A primeira, Equação A.53, é uma função de interpolação global influenciada por todos os pontos de suporte. A segunda versão, Equação A.54, é influenciada por pontos de suporte próximos (φLR−FS();(R − di)+= R − dise

d_i≤ Re (R − di)+=0 caso contrário).

A rede CI-SOM (GOPPERT; ROSENSTIEL,1997) precisa de um sistema de coordenadas local em cada neurônio i. Este sistema pode ser definido em cada dimensão (d ∈ 1...D) tanto para o vizinho da esquerda (i(d−)) ou para os vizinhos da direita (i(d+)), normalmente D = k. Uma mudança de vizinhos cria descontinuidade. Uma versão contínua de Shepard é baseada na distância para estes dois vizinhos ({di(d±)} = {di(d+), di(d−)}) e a Equação A.43 (o mesmo para

L(out)):

I(in)_i,d = φ1FS {di(d±)}

W(in)_i(d+)− W(in)_i − φ2FS {di(d±)}

W(in)_i(d−)− W(in)_i A.55 O segundo termo é subtraído porque considera-se que os dois vizinhos do neurônio i estão em lados opostos. A saída (YiI−SOM) corresponde à aproximação da entrada no sistema

local do neurônio i e, cujo cálculo é realizado de acordo com as Equações A.56 e A.57 a seguir: α = (L(in)TL(in)+ λ I)−1L(in)T(X − W(in)_w0)

A.56 YI−SOM= W(out)_w0 + L(out)α

A.57 Este princípio garante uma aproximação contínua para cado nodo SOM. O próximo passo é subs- tituir a estratégia vencedor-leva-tudo por uma superposição ponderada Shepard das aproximações locais de modo a suprimir as descontinuidades nas boradas dos polígonos de Voronoi:

Y_CF−SOM=

∑

i=1

φ_iFS({dj})YiI−SOM

A.58 Uma versão mais local de CI-SOM (YCRI−SOM) é obtida através do uso da função de ponderação

local φLR−FS(). Na maioria das aplicações uma versão local alcança uma aproximação melhor

que a global. Um bom valor de R (Equação A.54) é em torno de duas vezes a distância média dos neurônios vizinhos.

A.6. CAPACIDADE DE INTERPOLAÇÃO 142

FLENTGE(2006) combina I-SOM e GNG para construir um aproximador de função que mapeia dados de entradas com alta-dimensão para modelos locais de baixa dimensão. Estes modelos locais são construídos interpolando os vetores dos neurônios e em seguida combinados usando uma soma ponderada para produzir o resultado final de saída da rede.

A forma mais fácil de aproximar uma função f : Rd_{−→ R com uma SOM a partir de}

exemplos de treinamento (x,y) é associar cada neurônio cicom um valor vi∈ R a uma aproxi-

mação local. Esta aproximação local associa o mesmo valor vbpara todas os vetores entrada

xcom kx − w_bk < kx − wikpara todo i 6= b. Esta rede pode ser facilmente treinada usando o

gradiente-descendente comum. Esta aproximação pode ser aprimorada levando em consideração certas condições na estrutura dos vizinhos do nodo vencedor. O caminho normalmente seguido pelas redes derivadas de SOM embutidas de interpolação é construir um sistema de coordenadas local com o vencedor wbno centro e usar algumas arestas conectadas aos vizinhos como eixos

das coordenadas. O vetor de entada x é expressado no novo sistema de coordenada cujo centro é wbe estas coordenadas são utilizadas para calcular a interpolação.FLENTGE(2006) segue

esta linha para introduzir interpolação na rede GNG. Esta abordagem é ampliada e generalizada como descrito a seguir. O vetor de entrada atual x deve ser representado como uma combinação linear do vetor posição wbdo nodo vencedor cbe os vetores diferença normalizados lb,i gerados

a partir do neurônios vizinhos cb,i

x= w_b+ Nb

∑

i=1 ailb,i A.59 com l_b,i= (wb,i− wb) kwb,i− wbk . A.60

Dependendo do número de vizinhos Nb, a dimensão d e a posição destes vizinhos, esta equação

pode não ter solução, ter solução única ou muitas soluções (os vetores diferença podem ser linearmente dependentes). Assim, este problema pode ser formulado como um sistema linear

Da= x_rel A.61 com D= (l_b,1...lb,Nb) a= (a1...aNb) T _{e x} rel= x − wb. A.62 Esse sistema pode ser resolvido com uso de mínimos quadrados regularizados (regularização de Tikhonov). O método de mínimos quadrados regularizados determina a para minimizar a seguinte soma:

kx_rel− Dak2+ µkak2. A.63

Esse é o erro mínimo quadrado comum com um termo de regularização que adiciona uma penalidade extra para valores grandes |ai| (ponderado por µ). Já que a solução depende do

dimensionamento da entrada, é importante normalizar os vetores diferença para os vizinhos; caso contrário, um peso elevado pode resultar em vetores diferença grandes. A solução com

mínimos quadrados regularizados resulta em:

a= (DTD+ µI)−1DTx_rel A.64

para 0 < µ 1 e I a matriz identidade. Para sistemas com menos vetores diferença que a quantidade de dimensões (sistema sem solução real), a solução com mínimos quadrados é obtida aproximadamente. Para sistemas com mais vetores diferença que a quantidade de dimensões (sistema com várias soluções geralmente), a solução de norma mínima é obtida aproximadamente.

Para evitar uma extrapolação excessiva, é assegurado que não existe vetores ailb,imaiores

que os vetores diferença (vetores calculados a partir dos vizinhos do vencedor) na combinação linear para aproximar o vetor de entrada x. Se esta condição não for atendida, é usado uma heurística simples para remover vetores diferença (colunas de D) e recalcular aide acordo com

a Equação A.64 até que a condição seja alcançada. Esta heurística remove o vetor diferença que preserve, no sistema de coordenadas local, o máximo possível de vetores com diferentes direções.

A saída do modelo local ˜M_b(x)é calculada como uma interpolação linear entre o valor do neurônio vencedor vbe os valores de seus vizinhos vb,i cujo vetor diferença lb,inão tenha sido

removido de D. Para simplificar a notação, considera-se que ab, j =0 se o seu vetor diferença

l_{b, j} correspondente foi removido de D e a_{b, j}= aicom aio coeficiente associado a coluna i de D

se o seu vetor diferença lb, j correspondente não foi removido para j = 1,...,Nb. A ideia geral é

aproximar a função na posição de um neurônio usando o valor contido no neurônio e obter uma aproximação quase linear entre as posições dos neurônios

˜ M_b(x) = vb+ Nb

∑

i=1 a_b,i (vb,i− vb) kwb,i− wbk . A.65

A regra de aprendizagem IGNG leva em consideração um método de gradiente descendente baseado no erro quadrático médio (MSE). O calculo do gradiente descendente é realizado sobre a função de custo E(x) = (1/2)(y− ˜M_b(x))2para atualizar o valor v_bdo neurônio vencedor e os valores vb,p dos seus vizinhos com taxa de aprendizagem αvde acordo com:

∆v_b= αv 1 − Nb

∑

i=1 ab,i kwb,i− wbk ! y− ˜M_b(x) A.66 ∆vb,p= αv ab,p kw_b,p− w_bk y− ˜Mb(x) . A.67 Um aprimoramento da rede IGNG para gerar uma aproximação mais precisa é a rede IGNG ponderada localmente, LWIGNG. A interpolação ˜M_b(x)é calculada para o vencedor como na IGNG e também calculada para o seus vizinhos ˜M_b,p(x), k =1,...,Nb. O resultado de todas

A.6. CAPACIDADE DE INTERPOLAÇÃO 144 dos como na IGNG e cada vizinho torna-se um centro. Um parâmetro λi, j é adicionado em cada

aresta ei, j para determinar o alcance do modelo local na direção desta aresta. Adicionalmente,

cada neurônio cirecebe um parâmetro λi,0. O λi, j é usado para calcular os pesos normalizados

que dependem da distância entre o vetor de entrada e a posição do centro de um determinado neurônio. Isto assemelha-se a ponderação realizada em redes RBF. Ao contrário das redes RBF, não é necessário calcular a ativação de cada neurônio, mas apenas a ativação dos modelos locais relativos ao neurônio vencedor e seus vizinhos. A aresta entre o neurônio vencedor cb e seu

vizinho cb,p é denotada por eb,(b,p)com seus respectivos parâmetros λb,(b,0)= λb,0e λb,(b,p). Os

pesos mb,p, p =0,...,Nbpara os modelos locais são calculados de acordo com:

m_b,p(x) = e −λb,(b,p)kx−wb,pk ∑N_j=0b e−λb,(b, j)kx−wb, jk , p=0,...,Nb. A.68 Os modelos locais são combinados com estes pesos para produzir a aproximação final ˜F(x):

˜F(x) =

_∑

p=0

m_b,p(x) ˜M_b,p(x). A.69

O treinamento de LWIGNG pode ser realizado semelhante ao treinamento de IGNG com o uso de gradiente descendente, mas levando em conta os pesos mb,p(x)e a aproximação final

˜F(x). O ajuste deve ser realizado em cada modelo local ˜Mb,p, p =0,...,Nb:

∆vb,p= αvmb,p(x) 1 − s

∑

j=1 a_{(b,p), j} kw_{(b,p), j}− w_b,pk ! × y − ˜F(x) A.70 ∆v(b,p), j= αvmb,p(x) a_{(b,p), j} kw_{(b,p), j}− w_b,pk y− ˜F(x) , A.71 para todos os vizinhos c(b,p), j, j=1,...,Nb,pde cb,p.

A.6.2 Parameterised SOM(PSOM)

A capacidade de aprendizagem é uma vantagem que as redes neurais possuem em relação a outras técnicas de inteligência artificial. No campo de visão computacional e robótica, por exemplo, muitas tarefas possuem modelagem custosa quando realizada a partir de princípios fundamentais ou heurísticas. Portanto, neste domínio um algoritmo de aprendizagem eficiente pode ajudar significativamente a superar a dificuldade de coleta de dados e facilitar a construção de um sistema mais robusto e mais flexível. Além disso, nem sempre dados para realização de um treinamento eficaz estão acessíveis (WALTER; RITTER,1996).

A rede Parametrized Self-Organizing Map (PSOM) foi proposta como um esquema potencialmente útil para aprendizagem com um número pequeno de amostras de treinamento. A ideia básica de uma PSOM é construir um mapa manifold a partir de um quantidade restrita

de manifolds base. A escolha destes manifolds base pode ser realizada com um conhecimento a priori do problema. Comparando com a rede SOM, o mapa PSOM manifold final pode ser descrito por um pequeno número de valores de parâmetros que podem ser determinados a partir de um pequeno número de amostras de treinamento (WALTER; RITTER,1996).

A construção de uma base de dados com boa representação é frequentemente um passo decisivo para a solução do problema. Isto fica ainda mais evidente em tarefas de aprendizagem, onde a capacidade de generalização a partir de um conjunto limitado de exemplos para novas instâncias é um objetivo central. Para dar suporte a este objetivo, uma boa representação deve seguir duas metas: prover um representação dos dados que mantenha os relacionamentos de similaridade entre os elementos dos dados o mais fiel possível; proporcionar uma compreensão sobre as variáveis essenciais e separar informações falsas e sem importância.

Na rede SOM, o mapa manifold não-linear é representado por uma aproximação discreta, usando uma grade A (m dimensional, o valor padrão de m é 2). Porém, a natureza discreta da rede SOM padrão pode ser uma limitação quando o objetivo for a construção de mapas manifolds suaves. Como o número de nodos cresce exponencialmente com o número de dimensões do mapa, em um mapa com três ou mais dimensões, é esperado apenas poucos nodos ao longo de cada eixo. Entretanto, essa quantidade de nodos não é suficientemente suave para muitos propósitos onde continuidade é muito importante, como por exemplo, em tarefas de controle ou em robótica.

A rede Parameterised SOM (PSOM) (RITTER,1993) generaliza a grade A discreta

da rede SOM para um mapeamento continuo manifold M parametrizado por uma variável contínua s ∈ S ⊂ Rm _{e descrito por uma função de suavização w(s). Como consequência, a}

associação discreta do vetor de referência wa com pontos da grade a é substituída por uma

associação contínua, uma função w(·) : s 7→ w(s) ∈ M ⊂ X, onde s varia continuamente sobre

um subconjunto S ⊆ Rm_{. Semelhante a w}

a, w(s) obtém seu valor em um espaço X ⊆ Rd, o

mesmo espaço em que os vetores de entrada x são obtidos. A resposta de PSOM é determinada pelo valor de w(s∗), obtido na posição vencedora s∗, encontrado em um mapeamento manifold contínuo S definido pela equação A.72. A localização vencedora s∗ presente no mapeamento manifold S, semelhante a rede SOM, é obtida com o mínimo valor fornecido pela função dist(·).

s∗ =argmim dist(w(s),x). A.72

onde dist é a norma Euclidiana e w(s) pode ser construída semelhante a rede SOM utilizando uma função H de base para cada neurônio multiplicada pelo vetor de peso wado neurônio. No

contexto da rede PSOM cada neurônio é chamado de "knot". Um meio de obter a função H(a,s) é utilizando o polinômio interpolador de Lagrange aprimorado para valores multidimensionais, onde a é um rótulo para um neurônio.

w(s) =

_∑

a∈A H(a, s)wa A.73

A.6. CAPACIDADE DE INTERPOLAÇÃO 146 A organização topológica dos dados de entrada é crucial para um bom comportamento de generalização. Para um conjunto de dados geral, a organização topológica de seus pontos pode ser bastante irregular e um conjunto apropriado de funções base H(a,s) pode ser difícil de construir. Um conjunto apropriado de funções base pode ser construído de muitas maneiras, mas deve considerar duas condições: (i) H(a,s) deve ser ortonormal H(ai, aj) = δi j(∀ ai, aj∈ A)para fazer

o manifold M passar por todos os knots de suporte; (ii) Divisão de unidade: ∑a∈AH(a, s) =1,∀s

(a soma de todas as contribuições ponderadas deve ser um).

A construção simples de funções base H(a,s) torna-se possível quando a topologia dos pontos fornecidos é suficientemente regular. Uma situação conveniente aparece para o caso de uma grade regular multidimensional. Neste caso, o conjunto de funções H(a,s) pode ser construído a partir de produtos de interpolação polinomial de Lagrange de uma-dimensão.

Uma escolha favorável para H(a,s) é a extensão multidimensional do polinômio de Lagrange. A fórmula de Lagrange descreve o polinômio único de grau n − 1 passando pelos n pontos de suporte (xi, yi), i ∈ {1,...,n}

y(x) = l₁(x)y₁+ l₂(x)y₂+ ... + ln(x)yn= n

∑

k=1 l_k(x)yk A.74 onde o fator de Lagrange li(x)é determinado por

l_i(x) = n

∏

j=1, j6=i x− xj x_i− xj A.75 A interpolação de Lagrange de uma-para-uma dimensão (x 7→ y ), Equação A.74 pode ser ampliada para um mapeamento S para X de m-para-n dimensões, usando um conjunto de knots de vetores de suporte wa sobre uma hiper-grade A retangular escolhida. Assim,

s = (1s,2s, ...,ms)T _{∈ S ⊂ R}m equivale a x do polinômio interpolador de Lagrange básico da Equação A.74 (o índice no canto superior esquerdo de s indica o número do componente de

um vetor pertencente ao mapeamento manifold S). O ponto de suporte xi da Equação A.75

torna-se o vetor ai= (1ai1,2ai2, ...,maim)T ∈ A ∈ S. O conjunto de knots A = {1a1, ...,1an₁} ×

{2a₁, ...,2an₂} × · · · × {ma1, ...,manm}contém n1× n2× · · · × nmknots. Os valores de n1, n2, ...,

nmexpressão os tamanhos dos eixos da grade m-dimensional A.

O knot wa∈ Rd é identificado por seu índice iv∈ {1,2,...,nv}, wa= wi1i2...im, assim e

Equação A.73 pode ser expandida para

w(s) =

_∑

a∈A waH(a, s) =

∑

a∈A wi₁i₂...im· li1(1s) · li₂(2s) · · · lim( m_s) A.76 com l_i_v(vs) = nv

∏

j=1, j6=i v_s₋v_a j v_a iv−vaj A.77 A soma sobre a espalha pelo conjunto de todos os índices 1 ≤ i1≤ n1,1 ≤ i2≤ n2, ...,1 ≤ im≤ nm.

O algoritmo PSOM é invariante a ajuste de escala dos eixos de S.

A busca pelo vencedor na grade discreta da SOM padrão, na PSOM, é substituída pela resolução do problema de minimização contínua para determinar s∗. A abordagem simples é encontrar o vencedor sstart = a∗na grade discreta (como SOM) no conjunto A de knots. Em

seguida, calcular iterativamente o gradiente descendente com a Equação A.72.

Para aumentar a precisão do mapa, a primeira ideia que surge é aumentar o número de pontos de treinamento. Entretanto, duas deficiências surgem: (i) os polinômios base apresentam propriedades de convergência não satisfatórias com o aumento de sua ordem. O mapeamento

No documento Auto-organização e aprendizagem por demonstração na determinação de marcha robótica (páginas 138-148)