• Nenhum resultado encontrado

2.3 Ensembles

2.3.1 O Dilema Polarização-Variância

Uma das ferramentas mais importantes para estudo de algoritmos de apren- dizagem é a decomposição polarização-variância (Geman et al., 1992), a qual foi aplicada para uma função erro quadrática. Essa ferramenta mostra que a redução da polarização de um estimador provoca um aumento na sua variân- cia, e vice-versa. Com isso, as técnicas de aprendizagem de máquinas presentes na literatura são geralmente avaliadas em seu desempenho frente à otimização do compromisso entre essas duas componentes (Wahba et al., 1999; Valentini e Dietterich, 2002).

A polarização pode ser caracterizada como uma medida de quão perto, em média, para diferentes conjuntos de treinamento, um estimador está do valor desejado. A variância é uma medida de quão estável o estimador é, ou seja, para uma pequena variação no conjunto de treinamento, um estimador com grande variância terá desempenho inconstante, haverá uma maior dispersão entre suas possíveis soluções.

Por exemplo, em uma rede neural com estrutura suficientemente flexível, à medida que o tempo de treinamento aumenta, há uma redução na polarização do estimador, porém, em contrapartida, um aumento em sua variância (Brown, 2004). Sendo assim, há um ponto ótimo do compromisso polarização-variância que reduz o erro de generalização, conforme mostrado na Fig. 2.4.

O mesmo pode ser inferido em relação à complexidade do modelo, ou seja, para modelos complexos, geralmente ocorre a sobre-parametrização (overfitting), fazendo com que a polarização tenda a zero. Neste caso, o estimador é, para uma certa realização do conjunto de amostras, uma boa aproximação da função geradora hipotética dos dados, Φ(x). Porém, para um conjunto de treinamento diferente, o estimador pode não ser adequado, implicando em uma alta variân- cia.

De forma oposta, a variância, sensibilidade ao conjunto de treinamento, caso a função do estimador seja bastante simples, tenderá a zero, independente do conjunto de treinamento. Por outro lado, a polarização será alta.

Sendo assim, o dilema polarização-variância é o compromisso entre a escolha de um estimador simples (ou um reduzido tempo de aprendizado) e a escolha de um estimador complexo (ou um tempo de aprendizado maior). No primeiro caso tem-se polarização maior com variância reduzida e no segundo caso uma polarização pequena, porém, com grande variância. Com isso, existe um com-

promisso ótimo entre polarização e variância para a obtenção do menor erro de generalização possível.

Figura 2.4: Compromisso entre polarização e variância de um estimador no decorrer do treinamento.

Considerando a média dos erros quadráticos de um estimador f em relação à saída desejada Φ, sobre todas as possíveis realizações do conjunto de treina- mento de tamanho fixo,

E{(f(x)Φ(x))2}, (2.2)

de acordo com Geman et al. (1992):

E{(f(x)Φ(x))2} = E{(f(x)E{f(x)} +E{f(x)} −Φ(x))2}, =E{(f(x)E{f(x)})2 +2(f(x)−E{f(x)})(E{f(x)} −Φ(x)) + (E{f(x)} −Φ(x))2} =E{(f(x)E{f(x)})2} + (E{f(x)} −Φ(x))2 =var(f(x)) +b2(f(x)), (2.3)

chegando-se à decomposição polarização-variância, sendo var a variância do estimador f(x)e b sua polarização.

Krogh e Vedelsby (1995) provaram que, para problemas de regressão, o erro quadrático de um ensemble é menor ou igual ao erro quadrático médio dos seus componentes, sendo conhecido como decomposição da ambiguidade:

(fens−Φ)2 =

i wi(fiΦ)2

i wi(fi fens)2, (2.4) ou ainda, Eens =E−A, (2.5)

sendo fens =Σiwifia combinação das saídas de cada estimador fi, Φ a saída de- sejada, E a média ponderada do erro de generalização de cada componente e A a média ponderada da variabilidade dos componentes (diversidade), chamado também de termo de ambiguidade. Já que o termo de ambiguidade é sempre positivo, o erro médio quadrático do ensemble será sempre menor do que o erro médio ponderado dos preditores, ou seja,

(fens−Φ)2≤

i

wi(fi−Φ)2. (2.6)

Pode-se inferir equivocadamente que, com o aumento da diversidade entre os preditores componentes de um ensemble, o erro médio quadrático do ensem- ble necessariamente diminui. Porém, o que normalmente ocorre é que com o aumento da diversidade, a partir de um certo ponto, perde-se na exatidão de cada componente, ou seja, diversidade não é tudo, deve-se obter um ponto de equilíbrio entre diversidade e exatidão. O desafio principal é, então, obter esti- madores tão exatos quanto possível, porém, com uma boa diversidade.

Ueda e Nakano (1996) apresentaram uma nova decomposição muito útil, chamada decomposição polarização-variância-covariância, baseada na decom- posição polarização-variância apresentada anteriormente. Considerando a sa- ída de um ensemble como a simples média das saídas individuais dos preditores componentes, fens = M1 M

i=1 fi, (2.7)

então o erro médio quadrático do ensemble é: E{(fens−Φ)2} =b2+ M1 var+  1 1 M  covar, (2.8)

em que, b = 1 M M

i=1 (E{fi} −Φ), (2.9)

é a polarização média do ensemble, var= 1 M M

i=1 E{(fi−E{fi})2}, (2.10) a variância média e covar = 1 M(M−1) M

i=1 M

j6=i E{(fi−E{fi})(fj−E{fj})}, (2.11) a covariância média dos membros do ensemble.

Pela Eq. 2.8 observa-se que o erro de generalização de um ensemble depende não só da polarização e variância de seus componentes, mas, também, da corre- lação entre cada componente, conhecida como diversidade. Assim, um ensemble cujos estimadores são descorrelacionados, ou seja, há uma boa diversidade no ensemble, este terá uma boa generalização, desde que, individualmente, cada componente possua também pequenas polarização e variância.

Uma outra forma de relacionar o erro de generalização do ensemble com a diversidade de seus componentes foi proposta por Zhou et al. (2002). Conside- rando a combinação de componentes do tipo média ponderada:

fens(x) = M

i=1

wifi(x), (2.12)

sendo wi o peso de cada componente e fi a saída de cada componente i para uma certa entrada x. O erro de generalização de cada componente para uma determinada entrada, Ei(x), e do ensemble, Eens(x), dada a saída desejada Φ(x), podem ser calculados por:

Ei(x) = (fi(x)−Φ(x))2, (2.13) Eens(x) = (fens(x)−Φ(x))2. (2.14) O erro de generalização do ensemble pode então ser expresso em função dos

componentes, Eens(x) = M

i=1 wifi(x)−Φ(x) ! M

j=1 wjfj(x)−Φ(x) ! . (2.15)

Supondo que x é amostrado segundo uma distribuição p(x), o erro de gene- ralização de cada componente e do comitê é determinado por:

Ei = Z Ei(x)p(x)dx, (2.16) Eens = Z Eens(x)p(x)dx. (2.17)

Sendo assim, a correlação entre os membros i e j do comitê é calculada da seguinte forma:

Cij =

Z

(fi(x)−Φ(x))(fj(x)−Φ(x))p(x)d(x). (2.18) Por meio das Eq. (2.15), (2.17) e (2.18), o erro de generalização do ensemble pode ser calculado como,

Eens = M

i=1 M

j=1 wiwjCij. (2.19)

Vale frisar que, nas demonstrações algébricas apresentadas nesta seção, foi empregada uma combinação linear dos componentes do ensemble e a função erro quadrática. Sendo assim, é importante observar que as demonstrações não podem ser aplicadas diretamente a problemas de classificação cujas saídas dos componentes do comitê são discretas (por rótulos), e, ademais, em tais proble- mas, a função erro zero-um normalmente é utilizada em detrimento da função erro quadrática.

Tumer e Gosh (1996) apresentaram uma reformulação do problema de clas- sificação cuja saída dos componentes passa a ser um número real associado à probabilidade a posteriori de cada classe, transformando o problema de classifi- cação em um de regressão.

Considere um problema de classificação de uma dimensão x e duas classes ae b, sendo suas respectivas probabilidades a posteriori P(a|x)e P(b|x), e consi- derando um classificador cujas estimativas dessas probabilidades sejam bP(a|x)

ótimo de Bayes x∗ (P(a|x) = P(b|x)) e o estimado bx, provoca um acréscimo

do erro de classificação (área hachurada) em relação ao erro de Bayes (área som- breada).

A probabilidade a posteriori estimada pelo classificador i é dada por (Tumer e Gosh, 1996),

b

Pi(a|x) = P(a|x) +ηi(a|x), (2.20) sendo ηi(a|x)o erro estimado, com média zero, variância ση2i. Dessa forma, o erro

adicional esperado, considerando um conjunto de classificadores com a mesma variância, apresentado por Tumer e Gosh (1996), pode ser calculado por:

Ead =Ead 1+δ(MM−1) 

, (2.21)

sendo Eado erro adicional do ensemble, Ead o erro adicional de um classificador (o erro dos classificadores foram considerados iguais), M o número de classifi- cadores. O termo δ, coeficiente de correlação, é determinado por,

δ=

N

k=1

Pkδk, (2.22)

em que N é o número de classes, Pké a probabilidade a priori de cada classe e δk, o fator de correlação médio dos M classificadores para a classe k.

Pode ser observado pela Eq. (2.21) que, quando os classificadores possuem erros independentes, ou seja, δ =0, o erro adicional do comitê é M vezes menor, Ead = Ead/M. De forma oposta, se houver uma correlação perfeita, δ =1, não haverá redução do erro ao utilizar um comitê, Ead =Ead.