2.4 Mistura de Especialistas
2.4.1 Arquitetura da Mistura de Especialistas
A arquitetura mistura de especialistas, Fig. 2.6 (a), apresentada por Jacobs et al. (1991b), é composta de M especialistas e uma rede gating. No modelo original de ME, a rede gating é uma rede feedforward e recebe tipicamente as mesmas entradas que os especialistas. A saída de cada especialista para um padrão de entrada x, yi = fi(x, θi), em que θié o conjunto de parâmetros do especialista i, é, então, ponderada pela rede gating cujo objetivo é identificar o especialista ou a combinação de especialistas mais apropriada para diferentes regiões do espaço de entrada.
(a)
(b)
Figura 2.6: (a) Arquitetura de Mistura de Especialistas e (b) Rede gating. A saída y da ME é calculada por:
y=
M
∑
i=1em que wié o peso atribuído pela rede gating a cada especialista i.
A rede gating, Fig. 2.6 (b), possui neurônios perceptron com função de ati- vação softmax:
wi = e
ξi
∑Mj=1eξj, (2.45)
sendo ξ o produto interno entre o vetor entrada x e o vetor de pesos v de cada perceptron. A função softmax garante a não-negatividade da saída da rede gating e garante que o somatório dos pesos atribuídos aos especialistas seja unitário. Quando, independentemente do conjunto de entrada, o peso atribuído a cada especialista são iguais e constantes, a ME pode ser interpretada como um ensem- ble.
2.4.1.1 Aprendizagem de uma ME
O processo de aprendizagem da arquitetura ME combina aspectos de aprendiza- gem competitivo e associativo (Jacobs, 1999). Os parâmetros livres dos especi- alistas e da rede gating devem ser determinados simultaneamente e de maneira iterativa. Em cada iteração de treinamento, a saída de cada especialista, para um determinado padrão de entrada xk, é comparada com a saída desejada, Φk, e o especialista cuja saída mais se aproximar do valor desejado é escolhido como o vencedor de Φk. Após o término da competição, os especialistas receberão uma certa quantidade de informação de treinamento proporcional ao seu de- sempenho em relação a Φk. O vencedor receberá uma parcela grande para que possa se especializar ainda mais na amostra atual, enquanto que os especialis- tas perdedores receberão pouca informação. A rede gating, com a informação de desempenho de cada especialista para a amostra atual, é, então, ajustada de forma que, quando uma nova entrada similar à atual seja novamente apresen- tada à ME, um peso alto será atribuído ao especialista vencedor de Φk. Esse processo de aprendizagem apresenta um efeito de realimentação positiva que força diferentes especialistas a arcar com diferentes tarefas (Jacobs, 1999).
Dessa forma, o aprendizado de uma ME é competitivo. Segundo Jacobs et al. (1991b), nos trabalhos de Hampshire e Waibel (1989) e Jacobs et al. (1991a), a função erro a ser reduzida durante o aprendizado não encorajava a especializa- ção local dos especialistas. Para um caso k, a métrica do erro final utilizado nos
trabalhos mencionados era calculada por: Ek =kΦk− M
∑
i=1 wki ykik2. (2.46)Essa medida de erro faz com que exista uma cooperação entre os especia- listas uma vez que cada especialista precisa cancelar o erro residual da combi- nação dos outros especialistas. Assim, quando um especialista for ajustado, o erro residual se modifica, alterando as derivadas do erro para todos os outros especialistas. Embora a cooperação pode ser vista como um fator positivo – de fato essa função erro é utilizada em ensembles, Eq. 2.15, porém, naquele caso, para evitar o problema de similaridade, leva-se em consideração a variável di- versidade, como apresentado na Seção 2.3 –, Jacobs et al. (1991b) argumentam que, com essa medida de erro, as soluções para cada caso k poderão ter vários especialistas atuando simultaneamente, perdendo a premissa de especialista lo- cal. Com isso, Jacobs et al. (1991b) apresentaram uma nova medida de erro que encoraja os especialistas a competir mais do que a cooperar:
Ek =
M
∑
i=1wki kΦk−ykik2. (2.47)
Com essa nova medida de erro, cada especialista deve tentar reproduzir a saída como um todo, ao invés de apenas reduzir o resíduo, fazendo com que os outros especialistas não afetem seu aprendizado. Caso a rede especialista e os especialistas sejam treinados pelo método do gradiente, o sistema tende a delegar um especialista para cada padrão de entrada (Jacobs et al., 1991b). A fim de melhorar o desempenho do sistema, normalmente utiliza-se o negativo do logaritmo da função erro Eq. 2.47:
Ek =−ln
∑
M i=1wkie−12kΦk−ykik2. (2.48)
O objetivo da aprendizagem da ME passa a ser a redução da função erro supracitada. Para entender melhor o processo de aprendizagem de uma ME, esta pode ser interpretada como um modelo de mistura condicional à entrada, assumindo que os dados são gerados de um série de processos estatísticos. Cada amostra(xk, Φk)é gerada por um processo i. O processo é, então, escolhido por uma distribuição de probabilidade P(z)tal que cada zki é a decisão de escolher o
processo i para o caso k. Com esta interpretação probabilística, cada especialista na ME modela um processo, enquanto que a rede gating modela a distribuição de probabilidade P(z)(Waterhouse, 1998).
Portanto, a probabilidade total do valor desejado Φ, dada a entrada x e os parâmetros livres das redes especialistas e gating, Θ =[θ1. . . θM, v], é modelada pela ME por: P(Φ|x, Θ) = M
∑
i=1 P(i|x, v)P(Φ|x, θi), (2.49) sendo P(i|x, v)a probabilidade condicional da rede gating escolher o especialista i, dada a entrada x e o vetor de parâmetros v da rede gating, e P(Φ | x, θi) a probabilidade condicional do especialista produzir a saída Φ, dada a entrada x e o seu conjunto de parâmetros θi. Sendo que, a partir da variação desta última, obtém-se o comportamento desejado da ME. Por exemplo, no caso de regressão, Jacobs et al. (1991b) utilizaram uma função de densidade condicional gaussiana com matriz de covariância igual à identidade.O ajuste dos parâmetros Θ da ME pode ser realizado a partir da maximização da função de verossimilhança que, considerando N amostras, é definida por:
l(Θ, x, Φ) = N
∏
k=1P(Φk|xk, Θ)P(xk), (2.50)
tomando o logaritmo da função de verossimilhança e retirando o termo P(xk)
por não depender de parâmetros da ME, tem-se (Moerland, 1997a): L(Θ, x, Φ) = N
∑
k=1 ln∑
M i=1 P(i|xk, v)P(Φk|xk, θi). (2.51)Para maximizar L, o algoritmo do gradiente pode ser utilizado. As derivadas da função de verossimilhança em relação aos parâmetros da rede gating, ξi, e da saída dos especialistas, yi, para cada amostra, são dadas por (Moerland, 1997b):
∂E
∂ξi =φi−wi, (2.52)
∂E
∂yi =φi(
Φ−yi), (2.53)
sendo que, para cálculo da derivada em relação à saída do especialista i, a den- sidade de probabilidade P(Φ | x, θi) foi considerada gaussiana, com matriz de
covariância unitária e as unidades de saída dos especialista com função de ati- vação linear. φ é definida como a probabilidade a posteriori P(i|x, Φ):
φi =P(i|x, Φ) = P(i|x)P(Φ|x, θi)
∑Mj=1P(j|x)P(Φ|x, θj), (2.54) sendo P(i | x) interpretada como a probabilidade a priori por ser computada
baseada apenas na entrada x, definida como o peso wiatribuído ao especialista ipela rede gating.