• Nenhum resultado encontrado

2.4 Mistura de Especialistas

2.4.1 Arquitetura da Mistura de Especialistas

A arquitetura mistura de especialistas, Fig. 2.6 (a), apresentada por Jacobs et al. (1991b), é composta de M especialistas e uma rede gating. No modelo original de ME, a rede gating é uma rede feedforward e recebe tipicamente as mesmas entradas que os especialistas. A saída de cada especialista para um padrão de entrada x, yi = fi(x, θi), em que θié o conjunto de parâmetros do especialista i, é, então, ponderada pela rede gating cujo objetivo é identificar o especialista ou a combinação de especialistas mais apropriada para diferentes regiões do espaço de entrada.

(a)

(b)

Figura 2.6: (a) Arquitetura de Mistura de Especialistas e (b) Rede gating. A saída y da ME é calculada por:

y=

M

i=1

em que wié o peso atribuído pela rede gating a cada especialista i.

A rede gating, Fig. 2.6 (b), possui neurônios perceptron com função de ati- vação softmax:

wi = e

ξi

∑Mj=1eξj, (2.45)

sendo ξ o produto interno entre o vetor entrada x e o vetor de pesos v de cada perceptron. A função softmax garante a não-negatividade da saída da rede gating e garante que o somatório dos pesos atribuídos aos especialistas seja unitário. Quando, independentemente do conjunto de entrada, o peso atribuído a cada especialista são iguais e constantes, a ME pode ser interpretada como um ensem- ble.

2.4.1.1 Aprendizagem de uma ME

O processo de aprendizagem da arquitetura ME combina aspectos de aprendiza- gem competitivo e associativo (Jacobs, 1999). Os parâmetros livres dos especi- alistas e da rede gating devem ser determinados simultaneamente e de maneira iterativa. Em cada iteração de treinamento, a saída de cada especialista, para um determinado padrão de entrada xk, é comparada com a saída desejada, Φk, e o especialista cuja saída mais se aproximar do valor desejado é escolhido como o vencedor de Φk. Após o término da competição, os especialistas receberão uma certa quantidade de informação de treinamento proporcional ao seu de- sempenho em relação a Φk. O vencedor receberá uma parcela grande para que possa se especializar ainda mais na amostra atual, enquanto que os especialis- tas perdedores receberão pouca informação. A rede gating, com a informação de desempenho de cada especialista para a amostra atual, é, então, ajustada de forma que, quando uma nova entrada similar à atual seja novamente apresen- tada à ME, um peso alto será atribuído ao especialista vencedor de Φk. Esse processo de aprendizagem apresenta um efeito de realimentação positiva que força diferentes especialistas a arcar com diferentes tarefas (Jacobs, 1999).

Dessa forma, o aprendizado de uma ME é competitivo. Segundo Jacobs et al. (1991b), nos trabalhos de Hampshire e Waibel (1989) e Jacobs et al. (1991a), a função erro a ser reduzida durante o aprendizado não encorajava a especializa- ção local dos especialistas. Para um caso k, a métrica do erro final utilizado nos

trabalhos mencionados era calculada por: Ek =kΦk M

i=1 wki ykik2. (2.46)

Essa medida de erro faz com que exista uma cooperação entre os especia- listas uma vez que cada especialista precisa cancelar o erro residual da combi- nação dos outros especialistas. Assim, quando um especialista for ajustado, o erro residual se modifica, alterando as derivadas do erro para todos os outros especialistas. Embora a cooperação pode ser vista como um fator positivo – de fato essa função erro é utilizada em ensembles, Eq. 2.15, porém, naquele caso, para evitar o problema de similaridade, leva-se em consideração a variável di- versidade, como apresentado na Seção 2.3 –, Jacobs et al. (1991b) argumentam que, com essa medida de erro, as soluções para cada caso k poderão ter vários especialistas atuando simultaneamente, perdendo a premissa de especialista lo- cal. Com isso, Jacobs et al. (1991b) apresentaram uma nova medida de erro que encoraja os especialistas a competir mais do que a cooperar:

Ek =

M

i=1

wki kΦkykik2. (2.47)

Com essa nova medida de erro, cada especialista deve tentar reproduzir a saída como um todo, ao invés de apenas reduzir o resíduo, fazendo com que os outros especialistas não afetem seu aprendizado. Caso a rede especialista e os especialistas sejam treinados pelo método do gradiente, o sistema tende a delegar um especialista para cada padrão de entrada (Jacobs et al., 1991b). A fim de melhorar o desempenho do sistema, normalmente utiliza-se o negativo do logaritmo da função erro Eq. 2.47:

Ek =ln

M i=1

wkie−12kΦk−ykik2. (2.48)

O objetivo da aprendizagem da ME passa a ser a redução da função erro supracitada. Para entender melhor o processo de aprendizagem de uma ME, esta pode ser interpretada como um modelo de mistura condicional à entrada, assumindo que os dados são gerados de um série de processos estatísticos. Cada amostra(xk, Φk)é gerada por um processo i. O processo é, então, escolhido por uma distribuição de probabilidade P(z)tal que cada zki é a decisão de escolher o

processo i para o caso k. Com esta interpretação probabilística, cada especialista na ME modela um processo, enquanto que a rede gating modela a distribuição de probabilidade P(z)(Waterhouse, 1998).

Portanto, a probabilidade total do valor desejado Φ, dada a entrada x e os parâmetros livres das redes especialistas e gating, Θ =[θ1. . . θM, v], é modelada pela ME por: P(Φ|x, Θ) = M

i=1 P(i|x, v)P(Φ|x, θi), (2.49) sendo P(i|x, v)a probabilidade condicional da rede gating escolher o especialista i, dada a entrada x e o vetor de parâmetros v da rede gating, e P(Φ | x, θi) a probabilidade condicional do especialista produzir a saída Φ, dada a entrada x e o seu conjunto de parâmetros θi. Sendo que, a partir da variação desta última, obtém-se o comportamento desejado da ME. Por exemplo, no caso de regressão, Jacobs et al. (1991b) utilizaram uma função de densidade condicional gaussiana com matriz de covariância igual à identidade.

O ajuste dos parâmetros Θ da ME pode ser realizado a partir da maximização da função de verossimilhança que, considerando N amostras, é definida por:

l(Θ, x, Φ) = N

k=1

P(Φk|xk, Θ)P(xk), (2.50)

tomando o logaritmo da função de verossimilhança e retirando o termo P(xk)

por não depender de parâmetros da ME, tem-se (Moerland, 1997a): L(Θ, x, Φ) = N

k=1 ln

M i=1 P(i|xk, v)P(Φk|xk, θi). (2.51)

Para maximizar L, o algoritmo do gradiente pode ser utilizado. As derivadas da função de verossimilhança em relação aos parâmetros da rede gating, ξi, e da saída dos especialistas, yi, para cada amostra, são dadas por (Moerland, 1997b):

∂E

∂ξi =φi−wi, (2.52)

∂E

∂yi =φi(

Φyi), (2.53)

sendo que, para cálculo da derivada em relação à saída do especialista i, a den- sidade de probabilidade P(Φ | x, θi) foi considerada gaussiana, com matriz de

covariância unitária e as unidades de saída dos especialista com função de ati- vação linear. φ é definida como a probabilidade a posteriori P(i|x, Φ):

φi =P(i|x, Φ) = P(i|x)P(Φ|x, θi)

∑Mj=1P(j|x)P(Φ|x, θj), (2.54) sendo P(i | x) interpretada como a probabilidade a priori por ser computada

baseada apenas na entrada x, definida como o peso wiatribuído ao especialista ipela rede gating.