Arquitetura da Mistura de Especialistas - Mistura de Especialistas

2.4 Mistura de Especialistas

2.4.1 Arquitetura da Mistura de Especialistas

A arquitetura mistura de especialistas, Fig. 2.6 (a), apresentada por Jacobs et al. (1991b), é composta de M especialistas e uma rede gating. No modelo original de ME, a rede gating é uma rede feedforward e recebe tipicamente as mesmas entradas que os especialistas. A saída de cada especialista para um padrão de entrada x, yi = fi(x, θi), em que θié o conjunto de parâmetros do especialista i, é, então, ponderada pela rede gating cujo objetivo é identificar o especialista ou a combinação de especialistas mais apropriada para diferentes regiões do espaço de entrada.

(a)

(b)

Figura 2.6: (a) Arquitetura de Mistura de Especialistas e (b) Rede gating. A saída y da ME é calculada por:

∑

i=1

em que w_ié o peso atribuído pela rede gating a cada especialista i.

A rede gating, Fig. 2.6 (b), possui neurônios perceptron com função de ati- vação softmax:

wi = e

ξi

∑M_j₌₁eξj, (2.45)

sendo ξ o produto interno entre o vetor entrada x e o vetor de pesos v de cada perceptron. A função softmax garante a não-negatividade da saída da rede gating e garante que o somatório dos pesos atribuídos aos especialistas seja unitário. Quando, independentemente do conjunto de entrada, o peso atribuído a cada especialista são iguais e constantes, a ME pode ser interpretada como um ensem- ble.

2.4.1.1 Aprendizagem de uma ME

O processo de aprendizagem da arquitetura ME combina aspectos de aprendizagem competitivo e associativo (Jacobs, 1999). Os parâmetros livres dos especialistas e da rede gating devem ser determinados simultaneamente e de maneira iterativa. Em cada iteração de treinamento, a saída de cada especialista, para um determinado padrão de entrada x_k, é comparada com a saída desejada, Φ_k, e o especialista cuja saída mais se aproximar do valor desejado é escolhido como o vencedor de Φ_k. Após o término da competição, os especialistas receberão uma certa quantidade de informação de treinamento proporcional ao seu desempenho em relação a Φ_k. O vencedor receberá uma parcela grande para que possa se especializar ainda mais na amostra atual, enquanto que os especialistas perdedores receberão pouca informação. A rede gating, com a informação de desempenho de cada especialista para a amostra atual, é, então, ajustada de forma que, quando uma nova entrada similar à atual seja novamente apresentada à ME, um peso alto será atribuído ao especialista vencedor de Φ_k. Esse processo de aprendizagem apresenta um efeito de realimentação positiva que força diferentes especialistas a arcar com diferentes tarefas (Jacobs, 1999).

Dessa forma, o aprendizado de uma ME é competitivo. Segundo Jacobs et al. (1991b), nos trabalhos de Hampshire e Waibel (1989) e Jacobs et al. (1991a), a função erro a ser reduzida durante o aprendizado não encorajava a especializa- ção local dos especialistas. Para um caso k, a métrica do erro final utilizado nos

trabalhos mencionados era calculada por: Ek =kΦk₋ M

∑

i=1 wk_i yk_ik2. (2.46)

Essa medida de erro faz com que exista uma cooperação entre os especialistas uma vez que cada especialista precisa cancelar o erro residual da combi- nação dos outros especialistas. Assim, quando um especialista for ajustado, o erro residual se modifica, alterando as derivadas do erro para todos os outros especialistas. Embora a cooperação pode ser vista como um fator positivo – de fato essa função erro é utilizada em ensembles, Eq. 2.15, porém, naquele caso, para evitar o problema de similaridade, leva-se em consideração a variável di- versidade, como apresentado na Seção 2.3 –, Jacobs et al. (1991b) argumentam que, com essa medida de erro, as soluções para cada caso k poderão ter vários especialistas atuando simultaneamente, perdendo a premissa de especialista local. Com isso, Jacobs et al. (1991b) apresentaram uma nova medida de erro que encoraja os especialistas a competir mais do que a cooperar:

Ek =

∑

i=1

wk_i _kΦk₋_yk_i_k2_. _(2.47)

Com essa nova medida de erro, cada especialista deve tentar reproduzir a saída como um todo, ao invés de apenas reduzir o resíduo, fazendo com que os outros especialistas não afetem seu aprendizado. Caso a rede especialista e os especialistas sejam treinados pelo método do gradiente, o sistema tende a delegar um especialista para cada padrão de entrada (Jacobs et al., 1991b). A fim de melhorar o desempenho do sistema, normalmente utiliza-se o negativo do logaritmo da função erro Eq. 2.47:

Ek =₋ln

∑

M i=1

wk_ie−12kΦk−ykik2. (2.48)

O objetivo da aprendizagem da ME passa a ser a redução da função erro supracitada. Para entender melhor o processo de aprendizagem de uma ME, esta pode ser interpretada como um modelo de mistura condicional à entrada, assumindo que os dados são gerados de um série de processos estatísticos. Cada amostra(xk, Φk)é gerada por um processo i. O processo é, então, escolhido por uma distribuição de probabilidade P(z)tal que cada zk_i é a decisão de escolher o

processo i para o caso k. Com esta interpretação probabilística, cada especialista na ME modela um processo, enquanto que a rede gating modela a distribuição de probabilidade P(z)(Waterhouse, 1998).

Portanto, a probabilidade total do valor desejado Φ, dada a entrada x e os parâmetros livres das redes especialistas e gating, Θ =[θ1. . . θM, v], é modelada pela ME por: P(Φ_|_{x, Θ}_{) =} M

∑

i=1 P(i_|x, v)P(Φ_|_{x, θ}_i₎_, _(2.49) sendo P(i_|x, v)a probabilidade condicional da rede gating escolher o especialista i, dada a entrada x e o vetor de parâmetros v da rede gating, e P(Φ _| _{x, θ}_i₎ _a probabilidade condicional do especialista produzir a saída Φ, dada a entrada x e o seu conjunto de parâmetros θ_i. Sendo que, a partir da variação desta última, obtém-se o comportamento desejado da ME. Por exemplo, no caso de regressão, Jacobs et al. (1991b) utilizaram uma função de densidade condicional gaussiana com matriz de covariância igual à identidade.

O ajuste dos parâmetros Θ da ME pode ser realizado a partir da maximização da função de verossimilhança que, considerando N amostras, é definida por:

l(Θ, x, Φ_{) =} N

∏

k=1

P(Φ_k_|x_k, Θ₎P₍x_k₎, (2.50)

tomando o logaritmo da função de verossimilhança e retirando o termo P(x_k)

por não depender de parâmetros da ME, tem-se (Moerland, 1997a): L(Θ_{, x, Φ}_{) =} N

∑

k=1 ln

∑

M i=1 P(i_|x_k, v)P(Φ_k_|_x_k_{, θ}_i₎_. _(2.51)

Para maximizar L, o algoritmo do gradiente pode ser utilizado. As derivadas da função de verossimilhança em relação aos parâmetros da rede gating, ξ_i, e da saída dos especialistas, y_i, para cada amostra, são dadas por (Moerland, 1997b):

∂E

∂ξ_i =φi−wi, (2.52)

∂E

∂yi =φi(

Φ₋_y_i₎, (2.53)

sendo que, para cálculo da derivada em relação à saída do especialista i, a densidade de probabilidade P(Φ _| x, θ_i₎ foi considerada gaussiana, com matriz de

covariância unitária e as unidades de saída dos especialista com função de ati- vação linear. φ é definida como a probabilidade a posteriori P(i_|x, Φ):

φ_i =P(i_|x, Φ) = P(i|x)P(Φ|x, θi)

∑M_j₌₁P(j_|x)P(Φ_|_{x, θ}_j₎, (2.54) sendo P(i | x) interpretada como a probabilidade a priori por ser computada

baseada apenas na entrada x, definida como o peso w_iatribuído ao especialista ipela rede gating.

No documento Computação evolucionária e máquinas de comitê na identificaçãode sistemas não-lineares (páginas 61-66)