• Nenhum resultado encontrado

A Fun¸c˜ao de Custo e a Regra Geral de Aprendizado

2.6 Soft Nearest Prototype Classification

2.6.1 A Fun¸c˜ao de Custo e a Regra Geral de Aprendizado

Uma forma de avaliar a capacidade de generaliza¸c˜ao de um classificador ´e estabelecer uma fun¸c˜ao de custo. A Equa¸c˜ao 2.10 pode ser adotada como fun¸c˜ao de custo do NPC.

E = 1 N N X k=1 M X j=1 P (j|xk)(1 − δ(yk= cj)) P (j|xk) = δ(j = qk) qk = argmin r kxk− θrk (2.10)

N ´e o n´umero de padr˜oes do conjunto de treinamento, M ´e o n´umero de prot´otipos, xk ´e um padr˜ao, yk ´e a classe real de xk e cj ´e a classe do prot´otipo de ´ındice j. Tal

prot´otipo ser´a representado neste trabalho por θj. P (j|xk) ´e a probabilidade associada

de um padr˜ao xk em rela¸c˜ao ao prot´otipo θj. Sendo γ uma express˜ao booleana, a fun¸c˜ao

δ(γ) retorna 1 se γ for verdadeiro e 0 caso γ seja falsa. O operador argmin retorna a

instˆancia do objeto rotulado pelo operando sobrescrito que minimiza a express˜ao ao qual est´a aplicado. Neste caso, qk receber´a o ´ındice do prot´otipo que se encontra mais pr´oximo

de xk. Avaliando esta equa¸c˜ao do ponto de vista do NPC, P (j|xk) ´e 1 quando j ´e o ´ındice

do prot´otipo mais pr´oximo de xk e 0 nos outros casos. Portanto, pode-se observar que o

custo se resume `a raz˜ao do n´umero de padr˜oes classificados incorretamente sobre o total de padr˜oes do conjunto de dados de treinamento.

Com o objetivo de minimizar a fun¸c˜ao de custo da Equa¸c˜ao 2.10, o SNPC substitui a associa¸c˜ao r´ıgida de probabilidades do NPC por uma associa¸c˜ao fuzzy de probabilidades, cuja sua forma exponencial normalizada ´e

2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION 16 P (j|x) = exp (−d(x, θj)) M P k=1 exp (−d(x, θk)) (2.11)

com d(x, θj) sendo uma medida de distˆancia entre o padr˜ao x e o prot´otipo θj.

Foi justamente esta altera¸c˜ao que tornou vi´avel a minimiza¸c˜ao da fun¸c˜ao de custo em rela¸c˜ao `as localiza¸c˜oes dos prot´otipos utilizando gradiente descendente. As regras de ajustes dos prot´otipos no treinamento ser˜ao guiadas por este m´etodo. Isto tamb´em eli- mina a heur´ıstica presente na aprendizagem via quantiza¸c˜ao vetorial. O custo individual

lsk de cada padr˜ao xk do conjunto de treinamento ´e dado pela Equa¸c˜ao 2.12 e a nova

fun¸c˜ao de custo foi reescrita ( 2.13).

lsk = M X {j:cj6=yk} P (j|xk) (2.12) E = 1 N N X k=1 M X {j:cj6=yk} P (j|xk) (2.13)

Note que esta nova fun¸c˜ao de custo computa o custo total do sistema como a soma dos custos individuais de cada padr˜ao do conjunto de treinamento. Olhando a Equa¸c˜ao 2.12, pode-se ver que o custo individual de um padr˜ao xk´e dado pela somas das probabilidades

associadas de xka todos os prot´otipos θj representantes das classes opostas. Ou seja, este

custo representa a tendˆencia do ponto xk ser classificado incorretamente. Quanto maior

for este custo, mas pr´oximo de ser incorretamente classificado este ponto estar´a. Diminuir o custo individual de cada elemento do conjunto de treinamento atrav´es do ajuste dos prot´otipos do classificador ´e o objetivo deste m´etodo e isto implica diretamente na redu¸c˜ao do erro de classifica¸c˜ao. Note que esta fun¸c˜ao de custo ´e cont´ınua e que o custo individual est´a no intervalo [0; 1] e varia com o posicionamento dos prot´otipos θ. Por esta raz˜ao pode ser minimizado pelo gradiente descendente estoc´astico como na Equa¸c˜ao2.14. Outro aspecto positivo desta nova abordagem ´e a baixa influˆencia dos erros de classifica¸c˜ao dos padr˜oes localizados pr´oximos `as fronteiras de classifica¸c˜ao. Isto diminui a oscila¸c˜ao dos prot´otipos e leva a uma convergˆencia mais r´apida.

θl(t + 1) = θl(t) − α(t)

∂lst

∂θl

(2.14) Na Equa¸c˜ao 2.14, t indica o instante em que um padr˜ao xt do conjunto de dados

2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION 17

Tabela 2.1 Regra de Classifica¸c˜ao do SNPC: Um Exemplo

θj θ1 θ2 θ3 θ4 θ5 cj 1 1 1 2 2 P (j|xi) 0,05 0,05 0,35 0,25 0,30 M P {j:cj={1,2}} P (j|xi) 0,45 0,55

aprendizado com 0 < α(t) < 1. l varia de 1 a M e representa o ´ındice dos prot´otipos no instante t do treinamento em que o padr˜ao xt ´e apresentado. A partir das Equa¸c˜oes2.14

e 2.13 foi poss´ıvel chegar a regra de aprendizado mostrada na Equa¸c˜ao 2.15 e sua prova formal pode ser vista em [SBO03].

θl(t + 1) = θl(t) − α(t)∆θl(t) ∆θl(t) = ( P (l|xt)lst∂d(x∂θtl,θl), se c = y −P (l|xt)(1 − lst)∂d(x∂θtl,θl), se c 6= y (2.15) Uma vez encerrado o processo de aprendizado e com os prot´otipos devidamente ajus- tados, um novo padr˜ao xk pode ser classificado segundo a Equa¸c˜ao 2.16.

c = argmax

c0

X

{j:cj=c0}

P (j|xk). (2.16)

A equa¸c˜ao acima mostra que a classifica¸c˜ao ´e determinada pela classe cujos prot´otipos geraram a maior probabilidade de pertinˆencia, e n˜ao apenas o prot´otipo mais pr´oximo. Este fato torna a decis˜ao mais democr´atica, como dito no in´ıcio desta se¸c˜ao.

A Tabela 2.1 ilustra com um exemplo o funcionamento da Equa¸c˜ao2.16 que representa a regra de classifica¸c˜ao do SNPC. Esta tabela apresenta uma simula¸c˜ao em que um dado elemento xi foi submetido a um classificador de duas classes representado pelos prot´otipos

θj com j = 1...5. A primeira linha da tabela exibe as classes dos prot´otipos. A linha

logo abaixo mostra as probabilidades associadas do elemento xi em rela¸c˜ao a cada um

dos prot´otipos do classificador. Por fim, na ´ultima linha ´e exibida as probabilidades associadas ao elemento xi acumulada por classe. Neste exemplo, seguindo a regra de

classifica¸c˜ao estabelecida no SNPC, xiser´a classificado como pertencente a classe 2. Nota-

se que, apesar do prot´otipo com maior probabilidade associada ao elemento xi ser θ3 (P (j = 3|xi) = 0, 35) e pertencer a classe 1 , a decis˜ao pela classe 2 se d´a pelo fato da soma

2.6 SOFT NEAREST PROTOTYPE CLASSIFICATION 18 da probabilidades associadas de xi aos prot´otipos θ4 (P (j = 4|xi) = 0, 25) e θ5 (P (j = 5|xi) = 0, 30), que pertencem a classe 2, ser maior (

M P {j:cj=2} P (j|xi) > M P {j:cj=1} P (j|xi)) que

a soma das probabilidades associadas ao elemento xi dos prot´otipos da classe 1. Ou seja,

a decis˜ao n˜ao foi tomada apenas com base no prot´otipo mais pr´oximo como na estrat´egia

“winner-takes-all” utilizada no NPC, mas sim contabilizou o efeito sobre xi de todos os

prot´otipos do classificador.

Documentos relacionados