A Fun¸c˜ao de Custo e a Regra Geral de Aprendizado

2.6 Soft Nearest Prototype Classification

2.6.1 A Fun¸c˜ao de Custo e a Regra Geral de Aprendizado

Uma forma de avaliar a capacidade de generaliza¸cão de um classificador é estabelecer uma fun¸cão de custo. A Equa¸cão 2.10 pode ser adotada como fun¸cão de custo do NPC.

E = 1 N N X k=1 M X j=1 P (j|xk)(1 − δ(yk= cj)) P (j|xk) = δ(j = qk) qk = argmin r kxk− θrk (2.10)

N é o número de padrões do conjunto de treinamento, M é o número de protótipos, xk é um padrão, yk é a classe real de xk e cj é a classe do protótipo de ´ındice j. Tal

protótipo será representado neste trabalho por θj. P (j|xk) é a probabilidade associada

de um padrão xk em rela¸cão ao protótipo θj. Sendo γ uma expressão booleana, a fun¸cão

δ(γ) retorna 1 se γ for verdadeiro e 0 caso γ seja falsa. O operador argmin retorna a

instância do objeto rotulado pelo operando sobrescrito que minimiza a expressão ao qual está aplicado. Neste caso, qk receberá o ´ındice do protótipo que se encontra mais próximo

de xk. Avaliando esta equa¸cão do ponto de vista do NPC, P (j|xk) é 1 quando j é o ´ındice

do prot´otipo mais pr´oximo de xk e 0 nos outros casos. Portanto, pode-se observar que o

custo se resume à razão do número de padrões classificados incorretamente sobre o total de padrões do conjunto de dados de treinamento.

Com o objetivo de minimizar a fun¸cão de custo da Equa¸cão 2.10, o SNPC substitui a associa¸cão r´ıgida de probabilidades do NPC por uma associa¸cão fuzzy de probabilidades, cuja sua forma exponencial normalizada é

2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION 16 P (j|x) = exp (−d(x, θj)) M P k=1 exp (−d(x, θk)) (_2.11)

com d(x, θj) sendo uma medida de distância entre o padrão x e o protótipo θj.

Foi justamente esta altera¸cão que tornou viável a minimiza¸cão da fun¸cão de custo em rela¸cão às localiza¸cões dos protótipos utilizando gradiente descendente. As regras de ajustes dos protótipos no treinamento serão guiadas por este método. Isto também eli- mina a heur´ıstica presente na aprendizagem via quantiza¸cão vetorial. O custo individual

lsk de cada padrão xk do conjunto de treinamento é dado pela Equa¸cão 2.12 e a nova

fun¸c˜ao de custo foi reescrita ( _2.13).

lsk = M X {j:cj6=yk} P (j|xk) (2.12) E = 1 N N X k=1 M X {j:cj6=yk} P (j|xk) (2.13)

Note que esta nova fun¸cão de custo computa o custo total do sistema como a soma dos custos individuais de cada padrão do conjunto de treinamento. Olhando a Equa¸cão 2.12, pode-se ver que o custo individual de um padrão xké dado pela somas das probabilidades

associadas de xka todos os prot´otipos θj representantes das classes opostas. Ou seja, este

custo representa a tendˆencia do ponto xk ser classificado incorretamente. Quanto maior

for este custo, mas próximo de ser incorretamente classificado este ponto estará. Diminuir o custo individual de cada elemento do conjunto de treinamento através do ajuste dos protótipos do classificador é o objetivo deste método e isto implica diretamente na redu¸cão do erro de classifica¸cão. Note que esta fun¸cão de custo é cont´ınua e que o custo individual está no intervalo [0; 1] e varia com o posicionamento dos protótipos θ. Por esta razão pode ser minimizado pelo gradiente descendente estocástico como na Equa¸cão2.14. Outro aspecto positivo desta nova abordagem é a baixa influência dos erros de classifica¸cão dos padrões localizados próximos às fronteiras de classifica¸cão. Isto diminui a oscila¸cão dos protótipos e leva a uma convergência mais rápida.

θl(t + 1) = θl(t) − α(t)

∂lst

∂θl

(_2.14) Na Equa¸c˜ao _{2.14, t indica o instante em que um padr˜ao x}t do conjunto de dados

2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION 17

Tabela 2.1 Regra de Classifica¸c˜ao do SNPC: Um Exemplo

θj θ1 θ2 θ3 θ4 θ5 cj 1 1 1 2 2 P (j|xi) 0,05 0,05 0,35 0,25 0,30 M P {j:cj={1,2}} P (j|xi) 0,45 0,55

aprendizado com 0 < α(t) < 1. l varia de 1 a M e representa o ´ındice dos protótipos no instante t do treinamento em que o padrão xt é apresentado. A partir das Equa¸cões2.14

e 2.13 foi poss´ıvel chegar a regra de aprendizado mostrada na Equa¸c˜ao 2.15 e sua prova formal pode ser vista em [SBO03].

θl(t + 1) = θl(t) − α(t)∆θl(t) ∆θl(t) = ( P (l|xt)lst∂d(x_∂θt_l,θl), se c = y −P (l|xt)(1 − lst)∂d(x_∂θt_l,θl), se c 6= y (2.15) Uma vez encerrado o processo de aprendizado e com os protótipos devidamente ajus- tados, um novo padrão xk pode ser classificado segundo a Equa¸cão 2.16.

c = argmax

{j:cj=c0}

P (j|xk). (2.16)

A equa¸cão acima mostra que a classifica¸cão é determinada pela classe cujos protótipos geraram a maior probabilidade de pertinência, e não apenas o protótipo mais próximo. Este fato torna a decisão mais democrática, como dito no in´ıcio desta se¸cão.

A Tabela 2.1 ilustra com um exemplo o funcionamento da Equa¸cão2.16 que representa a regra de classifica¸cão do SNPC. Esta tabela apresenta uma simula¸cão em que um dado elemento xi foi submetido a um classificador de duas classes representado pelos protótipos

θj com j = 1...5. A primeira linha da tabela exibe as classes dos prot´otipos. A linha

logo abaixo mostra as probabilidades associadas do elemento xi em rela¸c˜ao a cada um

dos protótipos do classificador. Por fim, na última linha é exibida as probabilidades associadas ao elemento xi acumulada por classe. Neste exemplo, seguindo a regra de

classifica¸c˜ao estabelecida no SNPC, xiser´a classificado como pertencente a classe 2. Nota-

se que, apesar do protótipo com maior probabilidade associada ao elemento xi ser θ3 (P (j = 3|xi) = 0, 35) e pertencer a classe 1 , a decisão pela classe 2 se dá pelo fato da soma

2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION 18 da probabilidades associadas de xi aos prot´otipos θ4 (P (j = 4|xi) = 0, 25) e θ5 (P (j = 5|xi) = 0, 30), que pertencem a classe 2, ser maior (

M P {j:cj=2} P (j|xi) > M P {j:cj=1} P (j|xi)) que

a soma das probabilidades associadas ao elemento xi dos prot´otipos da classe 1. Ou seja,

a decisão não foi tomada apenas com base no protótipo mais próximo como na estratégia

“winner-takes-all” utilizada no NPC, mas sim contabilizou o efeito sobre xi de todos os

prot´otipos do classificador.

No documento Seleção de protótipos: combinando auto-geração de protótipos e mistura de gaussianas (páginas 30-33)