• Nenhum resultado encontrado

Classificação de padrões robusta com redes Adaline modificadas

N/A
N/A
Protected

Academic year: 2021

Share "Classificação de padrões robusta com redes Adaline modificadas"

Copied!
6
0
0

Texto

(1)

Classifica¸c˜

ao de padr˜

oes robusta com

redes Adaline modificadas

esar Lincoln Cavalcante Mattos

Depto. de Engenharia Teleinform´atica,

Universidade Federal do Cear´a, Centro de Tecnologia, Campus do Pici,

Fortaleza, Cear´a, Brasil Email: [email protected]

Jos´

e Daniel de Alencar Santos

Depto. de Ind´ustria, Instituto Federal de Educa¸c˜ao, Ciˆencia e Tecnologia do Cear´a,

Maracana´u, Cear´a, Brazil, Email: [email protected]

Guilherme de Alencar Barreto

Depto. de Engenharia Teleinform´atica,

Universidade Federal do Cear´a, Centro de Tecnologia, Campus do Pici,

Fortaleza, Cear´a, Brasil Email: [email protected]

Resumo—O algoritmo dos m´ınimos m´edios quadra-dos (Least Mean Squares - LMS), por sua simplicidade e popularidade, tem sido a principal regra de apren-dizagem da rede Adaline (ADAptive LINear Element ).

´

E sab´ıdo que o LMS ´e ´otimo no sentido H∞ devido

sua tolerˆancia a pequenas perturba¸c˜oes (em energia), como ru´ıdo de medi¸c˜ao, varia¸c˜ao dos parˆametros e erros de modelagem. No entanto, sua otimalidade tem sido demonstrada somente para problemas de regress˜ao, n˜ao para classifica¸c˜ao de padr˜oes. Nesse contexto, o presente trabalho realiza um estudo comparativo de algoritmos variantes do LMS em problemas de classi-fica¸c˜ao de padr˜oes na presen¸ca de erros de rotula¸c˜ao durante o treinamento. Foram realizadas simula¸c˜oes computacionais com dados artificiais e reais, indicando que os algoritmos baseados em estima¸c˜ao-M s˜ao mais robustos quando treinados na presen¸ca de outliers.

I. Introdu¸c˜ao

Arquiteturas de redes neurais lineares, como a rede Adaline (ADAptive LINear Element - elemento linear adaptativo) [3], tˆem sido usadas tanto isoladamente, com o centro de sistemas inteligentes, ou como parte de redes neurais n˜ao-lineares mais sofisticadas, como o perceptron multicamadas (MLP - Multilayer Perceptron), as redes de base radial (RBFN - Radial Basis Functions Networks) [4], as m´aquinas de aprendizado extremo (ELM - Extreme Learning Machine) [5] e as redes com estados de eco (ESN - Echo-State Network ) [6].

Os pesos de uma rede Adaline s˜ao adaptados pela aplica¸c˜ao do conhecido algoritmo dos m´ınimos m´edios quadrados (LMS - Least Mean Squares)1, que busca a min-imiza¸c˜ao do erro m´edio quadr´atico (MSE - Mean Squared Error ). Atrav´es de incrementos na dire¸c˜ao negativa do gradiente instantˆaneo do MSE, o LMS ´e capaz de atualizar recursivamente o vetor de pesos da rede. Esse compor-tamento recursivo (online) do algoritmo Adaline/LMS ´e desej´avel em cen´arios onde os conjuntos de dados n˜ao est˜ao totalmente dispon´ıveis.

Tem sido demonstrado que o algoritmo LMS ´e ´otimo no sentido H∞devido `a sua tolerˆancia a pequenas

pertur-ba¸c˜oes, como erros de medi¸c˜ao, varia¸c˜ao de parˆametros e erros de modelagem [1], [2]. No entanto, quando as

1Tamb´em conhecido como regra delta ou regra de Widrow-Hoff.

perturba¸c˜oes deixam de ser pequenas (e.g. na presen¸ca de ru´ıdo impulsivo), o desempenho do algoritmo LMS deteriora-se consideravelmente [7].

´

E importante tamb´em ressaltar que os estudos ante-riores citados sobre a robustez do algoritmo LMS foram concebidos para tarefas de regress˜ao, tipicamente encon-tradas no dom´ınio de processamento de sinais, como equal-iza¸c˜ao de canal e predi¸c˜ao de s´eries temporais. No presente trabalho, ´e de interesse a avalia¸c˜ao do desempenho de classificadores Adaline treinados via algoritmo LMS e al-gumas variantes em problemas de classifica¸c˜ao de padr˜oes contaminados com outliers na etapa de treinamento, em particular aqueles resultantes de erros de rotula¸c˜ao. Essa classe de outlier pode ocorrer tanto por problemas no pro-cesso de rotula¸c˜ao das amostras dispon´ıveis (e.g. engano de um especialista) quanto por erros inseridos durante a cria¸c˜ao dos arquivos contendo a base de dados (e.g. erros de digita¸c˜ao).

Visando lidar de maneira eficiente com tais erros de rotula¸c˜ao, o desempenho da rede Adaline ser´a avaliado para classifica¸c˜ao de padr˜oes com diferentes varia¸c˜oes do algoritmo LMS, como o Kernel LMS (KMLS)[8] e o m´etodo dos m´ınimos m´edios quadrados com Estima¸c˜ao-M (LMM - Least Mean M-Estimate). Para efeito de compara¸c˜ao, experimentos com classificadores SVM (Support Vector Machine) treinados com o algoritmo recursivo Kernel Ada-tron [9] tamb´em ser˜ao realizados.

O restante do artigo ser´a organizado da seguinte maneira: primeiramente ser´a feita na Se¸c˜ao II uma de-scri¸c˜ao resumida de cada um dos algoritmos avaliados no trabalho; em seguida, a Se¸c˜ao III apresentar´a os resulta-dos e coment´arios sobre os experimentos computacionais realizados com conjuntos de dados artificiais e reais; por ´

ultimo, na Se¸c˜ao IV ser˜ao feitas as considera¸c˜oes finais e comentados os espa¸cos para pesquisas futuras.

II. M´etodos e Algoritmos

Seja um vetor de entrada D-dimensional xi ∈ RD

no instante i, a sa´ıda desejada2 yi ∈ R pode ser

esti-2Neste trabalho s˜ao discutidos somente problemas de classifica¸ao

bin´aria, sendo usado portanto apenas um ´unico neurˆonio de sa´ıda. A generaliza¸c˜ao dos conceitos apresentados para problemas com m´ultiplas classes ´e imediata.

(2)

mada atrav´es de uma rede Adaline (Adaptative Linear Element ) [10]:

ˆ

yi= wTixi, i ∈ {1, · · · , N } (1)

em que N ´e o n´umero total de entradas dispon´ıveis, wi ∈ RD ´e um vetor de pesos ajust´aveis e ˆyi ∈ R ´e a

sa´ıda estimada fornecida pelo modelo linear. ´E poss´ıvel observar que o ´ındice i tem interpreta¸c˜ao temporal, uma vez que somente um par {(xi, yi)}Ni=1´e apresentado a cada

itera¸c˜ao.

O problema em treinar um modelo Adaline se resume ao processo de adaptar recursivamente o vetor wi. O

procedimento mais comum para obter essa regra de apren-dizagem consiste em minimizar uma fun¸c˜ao de custo do erro quadr´atico, a qual resulta no algoritmo cl´assico dos m´ınimos m´edios quadrados (Least Mean Squares - LMS), descrito mais adiante.

Al´em do LMS, esse artigo tamb´em aplicar´a os algorit-mos NLMS, LMM, NLMM, KLMS, NKLMS e o Kernel Adatron para treinar os classificadores. Esses m´etodos ser˜ao detalhados nas se¸c˜oes seguintes.

´

E importante enfatizar que os algoritmos LMM, NLMM, KLMS e NKLMS a serem descritos foram primeiramente propostos, e tem sido aplicados at´e en-t˜ao, para resolver problemas de regress˜ao (e.g. filtragem adaptativa, predi¸c˜ao de s´eries temporais e aproxima¸c˜ao de fun¸c˜oes). Este artigo prop˜oe um estudo comparativo do desempenho de todos os algoritmos supracitados em problemas de classifica¸c˜ao bin´aria na presen¸ca de outliers. A. Least Mean Squares (LMS) e LMS Normalizado (NLMS)

O LMS pode ser visto como um algoritmo de busca no qual uma aproxima¸c˜ao baseada na descida mais ´ıngreme ´e aplicada, a fim de obter uma solu¸c˜ao que minimiza o erro quadr´atico m´edio (Mean Squared Error - MSE) [11]:

JMSE(wi) = E{e2i} = E{(yi− wiTxi)2}, (2)

em que E{·} ´e o operador esperan¸ca matem´atica e ei =

yi− wiTxi ´e o erro para a i-´esima itera¸c˜ao.

A minimiza¸c˜ao da Equa¸c˜ao 2 ´e obtida tomando-se o gradiente com rela¸c˜ao aos pesos:

∂JMSE(wi)

∂wi = −2E{e

ixi}. (3)

O algoritmo recursivo ´e executado adaptando wi

em cada itera¸c˜ao na dire¸c˜ao negativa do gradiente na Equa¸c˜ao 3, o que envolve a aproxima¸c˜ao de E{eixi} pelo

valor instantˆaneo eixi:

wi+1= wi− µ

∂JMSE(wi)

∂wi

= wi+ µeixi, (4)

em que µ ´e o tamanho do passo que controla a taxa de convergˆencia.

A escolha de µ ´e dependente do problema e pode reduzir a eficiˆencia do m´etodo. Uma poss´ıvel alternativa surge quando um tamanho vari´avel do passo ´e aplicado.

No algoritmo NLMS, o passo de cada itera¸c˜ao ´e dividido pela norma-2 quadrada da entrada [11]:

wi+1= wi+

µeixi

 + xT ixi

, (5)

em que  ´e uma constante positiva e pequena que evita a divis˜ao por zero.

B. M´ınimos M´edios Quadrados com Estimador-M (LMM) e LMM Normalizado (NLMM)

O algoritmo LMM usa conceitos da estat´ıstica robusta e aplica uma fun¸c˜ao objetivo mais geral do que a utilizada para o MSE [7], [12]:

JLMM(wi) = E{ρ(ei)} = E{ρ(yi− wTi xi)}, (6)

em que ρ(·) ´e a fun¸c˜ao de estima¸c˜ao-M [13]. A adapta¸c˜ao dos pesos ´e feita similarmente `a Equa¸c˜ao 4:

wi+1= wi− µ ∂JLMM(wi) ∂wi = wi+ µq(ei)eixi, (7) em que q(ei) = e1i ∂JLMM(wi)

∂wi . Note que, se q(ei) = 1, a Equa¸c˜ao 7 torna-se igual `a Equa¸c˜ao 4.

Neste artigo ser´a utilizada uma vers˜ao modificada da fun¸c˜ao de estima¸c˜ao-M de Huber [7]:

ρ(e) =  e2/2, |e| < ξ ξ2/2, c.c. , (8) q(e) =  e, |e| < ξ 0, c.c. , (9)

em que ξ ´e um limiar que evita a influˆencia das entradas com erros grandes.

Alguns experimentos deste trabalho ser˜ao realizados com a fun¸c˜ao de estima¸c˜ao-M biquadrada (bisquare)[14]:

ρ(e) =      ξ2 6 ( 1 −  1 −eξ 23) , |e| < ξ ξ2 6, c.c. , (10) q(e) =     1 −e ξ 22 , |e| < ξ 0, c.c. . (11)

Em [12] ´e sugerido que o parˆametro ξ seja obtido por uma t´ecnica chamada Sele¸c˜ao Adaptativa de Limiar (Adaptive Threshold Selection, ATS). Considera-se que o erro ei possui distribui¸c˜ao gaussiana possivelmente

adi-cionada a ru´ıdo impulsivo. Dessa maneira, a variˆancia do erro σ2

i da i-´esima itera¸c˜ao pode ser estimada pelo seguinte

estimador robusto: ˆ

σi2= λˆσ2i−1+ c(1 − λ)med(Ai), (12)

em que λ ´e um fator de esquecimento pr´oximo (mas n˜ao igual) a 1, med(·) ´e o operador mediana, Ai =

{e2

i, e2i−1, · · · , e2i−Nw+1}, Nw´e um comprimento pr´e-fixado para o tamanho da janela em que a opera¸c˜ao de mediana ser´a realizada e c = 1.483(1 + 5/(Nw− 1)) ´e o fator de

(3)

Dada uma probabilidade de rejei¸c˜ao P r{|ei| > ξi} = erfcξi 2ˆσi  , em que erfc(x) = √2 π ∞ R x exp(−t2)dt ´e a fun¸ao

de erro complementar, o limiar ξi pode ser calculado. No

caso das probabilidades 0.05, 0.025 e 0.01, tem-se ξi =

1.96ˆσi, ξi = 2.24ˆσi e ξi= 2.56ˆσi, respectivamente.

Quando o tamanho do passo da Equa¸c˜ao 7 ´e nor-malizado pela norma-2 quadrada da entrada, obt´em-se o algoritmo NLMM [7]: wi+1= wi+ µq(ei)eixi  + xT i xi , (13)

em que  tem o mesmo significado analisado na Equa¸c˜ao 5.

C. M´ınimos Quadrados Adaptativo com Kernel(KLMS) e KLMS Normalizado (NKLMS)

O algoritmo KLMS foi proposto como uma aplica¸c˜ao do LMS tradicional em um espa¸co de atributos obtido atrav´es do mapeamento Φ(·) realizado nas entradas, gerando uma nova sequˆencia {(Φ(xi), yi)}Ni=1 [8]. A adapta¸c˜ao dos pesos

´

e similar `a Equa¸c˜ao 4:

wi+1= wi+ µeiΦ(xi). (14)

Considerando-se w0 = 0, em que 0 ´e um vetor de zeros,

ap´os N itera¸c˜oes:

wN = µ N −1 X i=1 eiΦ(xi), (15) ˆ yN = wTNΦ(xN) = µ N −1 X i=1 eiκ(xi, xN), (16)

em que κ ´e uma fun¸c˜ao de kernel definida positiva. Pelo teorema de Mercer [15], para qualquer kernel, existe um mapeamento Φ tal que

κ(xi, xj) = Φ(xi)TΦ(xj), ∀xi, xj ∈ RD, (17)

em que torna-se poss´ıvel transformar cada vetor de dados xi em um espa¸co de atributos F de dimens˜ao elevada

(po-tencialmente infinita) como Φ(xi) e interpretar a Equa¸c˜ao

17 como um produto escalar usual.

Deve ser notado que somente a Equa¸c˜ao 16 ´e necess´aria tanto no treinamento quanto no teste. Embora n˜ao seja necess´ario calcular o vetor de pesos, os erros a priori ei, i ∈

{1, · · · N } e as entradas de treinamento xi, i ∈ {1, · · · N }

devem ser mantidas para as predi¸c˜oes.

Em [16] uma vers˜ao normalizada do algoritmo KLMS, chamada NKLMS, foi proposta atrav´es da modifica¸c˜ao da Equa¸c˜ao 16: ˆ yN = µ N −1 X i=1 ei κ(xi, xN) κ(xi, xi) , (18)

em que todos os parˆametros j´a foram definidos anterior-mente.

D. Algoritmo Adatron com Kernel (KA)

O Adatron ´e um algoritmo on-line para aprendiza-gem das redes perceptron, que foi desenvolvido por Biehl et. al. [17], e estabelece um procedimento que emula as m´aquinas de vetores suporte (Support Vector Machines - SVM) [18], mas que n˜ao necessita fazer uso de quais-quer t´ecnicas de programa¸c˜ao quadr´atica [9]. Escrevendo o Adatron em uma representa¸c˜ao dependente dos dados {(xi, yi)}Ni=1, obt´em-se o seguinte algoritmo:

1) Inicializar αi= 0 (multiplicadores de Lagrange).

2) Calcular zi= yi N X j=1 αjyjκ(xi, xj). (19) 3) Calcular γi= yizi.

4) Seja δαi= µ(1 − γi) a atualiza¸c˜ao proposta para

αi;

• Se (δαi+ αi) ≤ 0 ent˜ao αi= 0.

• Se (δαi+ αi) > 0 ent˜ao αi= αi+ δαi.

5) Se o n´umero m´aximo de apresenta¸c˜oes do con-junto de padr˜oes for excedido, ent˜ao parar. Caso contr´ario, retornar ao passo 2.

A estima¸c˜ao para uma nova entrada x∗pode ser escrita como: ˆ y∗= X i∈SV yiαoiκ(x ∗, x i), (20)

em que αoi ´e a solu¸c˜ao do algoritmo Adatron e SV repre-senta os ´ındices dos vetores suporte.

Por fim, ´e importante salientar que todos os algoritmos descritos neste artigo ser˜ao utilizados para treinar clas-sificadores lineares. Assim, os experimentos com KLMS, NKLMS e KA ser˜ao realizados com as vers˜oes lineares desses algoritmos, que fazem uso de uma fun¸c˜ao de kernel linear dada por κ(xi, xj) = xTi xj + C, em que C ´e uma

constante.

III. Resultados Experimentais e Discuss˜ao Os resultados experimentais foram separados em dois grupos: um com dados artificiais bidimensionais, para prova de conceito e para uma interpreta¸c˜ao gr´afica das regi˜oes de decis˜ao obtidas por cada classificador; e outro com quatro conjuntos da dados reais [19]: ´ıris (iris), coluna vertebral (vertebral column), diabetes (pima indians dia-betes) e cˆancer de mama (breast cancer ), a fim de verificar o efeito nas taxas de classifica¸c˜ao ap´os a adi¸c˜ao de outliers. O primeiro grupo de experimentos envolveu um con-junto de dados bidimensional com 60 amostras de duas classes (vermelha e azul), que s˜ao linearmente separ´aveis. Todas as amostras foram usadas no treinamento e um n´umero de outliers da classe azul foi gradualmente adi-cionado em cada experimento. Deve ser menadi-cionado que esses outliers foram propositalmente adicionados pr´oximos `

a regi˜ao originalmente associada `a classe vermelha, para verificar o comportamento das retas de decis˜ao dos classi-ficadores.

(4)

(a) 0 outliers. (b) 3 outliers.

(c) 6 outliers. (d) 9 outliers.

Fig. 1. Regi˜oes de decis˜ao com a adi¸c˜ao de outliers.

Todos os classificadores foram treinados durante 50 ´

epocas (reapresenta¸c˜oes dos dados de treinamento) e com passo de aprendizagem µ = 0.01, com a exce¸c˜ao dos algoritmos KLMS, NKLMS e KA, que foram aplicados com µ = 0.1. Nesses trˆes m´etodos a constante usada no kernel linear foi C = 0.5. No caso dos m´etodos LMM e NLMM, fixaram-se os seguintes parˆametros: λ = 0.98, Nw = 9 e

ξi= 1.96ˆσi, o ´ultimo correspondendo a uma probabilidade

de 0.01 de rejei¸c˜ao. Os valores dos parˆametros citados foram obtidos em simula¸c˜oes preliminares. As regi˜oes de decis˜ao obtidas para cada classificador s˜ao apresentadas na Figura 1.

Pode-se notar que com a adi¸c˜ao progressiva de outliers, todos os algoritmos foram influenciados com exce¸c˜ao do

LMM e do NLMM, derivados da teoria da estima¸c˜ ao-M robusta. Os demais m´etodos, n˜ao robustos, tentam inserir os dados discrepantes na regi˜ao de decis˜ao da classe azul, ignorando a possibilidade de n˜ao pertencerem `

a distribui¸c˜ao que gerou os dados originais.

No segundo grupo de experimentos, o conjunto iris foi preparado da seguinte forma: as classes virginica e versicolor foram rotuladas com +1 e −1, respectivamente. A partir dessas duas classes, 80% dos dados foram usados para o treinamento e 20% para o teste. Durante a fase de treinamento, algumas amostras da classe setosa foram adi-cionadas com r´otulo +1, sendo consideradas como outliers da classe virginica. As quantidades de outliers aplicadas foram 0%, 5%, 10%, 20% e 30% do n´umero original de

(5)

TABLE I. Taxas m´edias e desvios-padr˜oes obtidos na classifica¸c˜ao com os dados de teste, sem e com outliers no treinamento. Conjunto Iris 0% 5% 10% 20% 30% LMS 96.25 ± 3.72 88.95 ± 6.68 83.85 ± 7.81 75.10 ± 10.02 68.95 ± 10.88 NLMS 96.15 ± 3.75 93.50 ± 4.58 91.90 ± 6.02 83.75 ± 8.11 77.30 ± 9.86 LMM 95.85 ± 4.02 94.95 ± 4.17 94.90 ± 4.44 75.10 ± 9.61 69.05 ± 10.84 NLMM 95.70 ± 3.63 94.90 ± 4.38 94.80 ± 4.76 95.10 ± 4.14 77.10 ± 9.83 KLMS 89.80 ± 7.07 84.80 ± 8.22 79.35 ± 10.09 72.70 ± 11.58 66.10 ± 12.46 NKLMS 89.30 ± 7.04 86.15 ± 8.37 85.90 ± 8.33 82.20 ± 10.95 77.90 ± 12.66 KA 92.05 ± 5.13 89.30 ± 7.75 77.50 ± 10.36 67.45 ± 11.11 65.60 ± 9.30

Conjunto Coluna Vertebral

LMS 90.06 ± 4.85 89.52 ± 3.93 89.32 ± 4.32 84.22 ± 4.99 76.60 ± 7.14 NLMS 91.10 ± 3.86 90.90 ± 3.88 90.88 ± 3.85 85.92 ± 4.41 78.52 ± 5.93 LMM 91.90 ± 3.66 92.18 ± 3.27 92.16 ± 3.61 90.54 ± 3.61 82.02 ± 7.36 NLMM 91.32 ± 3.63 91.36 ± 3.65 92.02 ± 3.76 88.74 ± 3.98 80.32 ± 6.32 KLMS 85.32 ± 4.97 85.22 ± 5.17 83.78 ± 5.30 79.00 ± 5.37 68.52 ± 6.75 NKLMS 81.02 ± 5.13 81.78 ± 5.28 83.08 ± 5.03 80.30 ± 5.77 68.24 ± 6.88 KA 95.80 ± 2.66 92.98 ± 4.91 91.12 ± 5.59 85.06 ± 9.00 77.24 ± 9.55 Conjunto Diabetes LMS 76.63 ± 3.19 76.34 ± 3.28 75.50 ± 3.20 73.87 ± 4.48 68.67 ± 7.88 NLMS 77.27 ± 3.02 76.53 ± 3.11 75.98 ± 3.19 74.35 ± 3.55 69.73 ± 4.80 LMM 75.87 ± 5.23 76.57 ± 2.73 76.50 ± 3.07 75.07 ± 2.98 72.31 ± 4.26 NLMM 74.82 ± 5.39 76.39 ± 2.82 76.16 ± 3.32 74.72 ± 3.03 72.03 ± 3.83 KLMS 77.28 ± 2.97 76.69 ± 3.34 75.70 ± 3.16 74.59 ± 3.27 69.82 ± 4.08 NKLMS 76.20 ± 3.25 76.28 ± 3.36 75.22 ± 3.01 73.64 ± 3.23 68.47 ± 4.33 KA 73.76 ± 6.93 71.59 ± 9.36 70.25 ± 9.50 66.84 ± 12.37 60.52 ± 15.24

Conjunto Cˆancer de Mama

LMS 96.10 ± 1.74 96.42 ± 1.68 96.57 ± 1.59 94.77 ± 2.35 89.22 ± 4.39 NLMS 96.28 ± 1.69 96.63 ± 1.66 96.43 ± 1.72 94.36 ± 2.16 88.36 ± 3.45 LMM 93.16 ± 2.34 93.83 ± 1.91 94.46 ± 2.26 95.25 ± 2.23 94.28 ± 3.75 NLMM 94.63 ± 1.95 94.77 ± 2.03 95.46 ± 1.93 95.82 ± 1.86 94.05 ± 3.10 KLMS 93.05 ± 2.32 94.44 ± 1.74 95.74 ± 1.56 95.35 ± 1.85 88.95 ± 2.78 NKLMS 94.23 ± 1.89 95.69 ± 1.57 95.98 ± 1.69 93.54 ± 2.05 84.49 ± 3.63 KA 95.25 ± 3.91 84.22 ± 16.83 81.75 ± 18.89 73.19 ± 23.49 65.51 ± 23.47

amostras da classe virginica do conjunto de treinamento. Nesse e nos experimentos seguintes foram usados nos algoritmos os mesmos parˆametros descritos anteriormente, mas dessa vez durante 100 ´epocas de treinamento. As taxas m´edias de classifica¸c˜ao e desvios-padr˜oes obtidos com o conjunto de teste ap´os 100 ciclos de treinamento/teste est˜ao apresentados na Tabela I. Pode-se notar que nos ex-perimentos sem outliers, com exce¸c˜ao do KLMS, NKLMS e KA, todos os outros m´etodos obtiveram resultados sim-ilares. Entre 5% e 10%, o LMS e o NLMS foram afeta-dos com a adi¸c˜ao de outliers, enquanto LMM e NLMM (treinados com a fun¸c˜ao de estima¸c˜ao-M de Huber mod-ificada) praticamente n˜ao sofreram altera¸c˜oes. Com 20% de outliers, o LMM tamb´em foi penalizado, mas o NLMM manteve alta sua taxa m´edia de acerto. Com 30%, todos os algoritmos obtiveram baixos valores de precis˜ao. Mas neste caso ´e importante notar que, `a medida que o n´umero de outliers cresce, essas amostras talvez n˜ao possam mais ser consideradas outliers, mas exemplos normais de treina-mento.

O conjunto de dados coluna vertebral foi considerado como um problema bin´ario, uma vez em que foram removi-das as amostras da classe h´ernia de disco e considerados somente os exemplos das classes normal e espondilolistese. Ao longo dos experimentos, 80% dos dados foram usados no treinamento e 20% no teste. A adi¸c˜ao de outliers foi realizada atrav´es da troca de r´otulos: uma por¸c˜ao (0%, 5%, 10%, 20% e 30%) das amostras de treinamento da classe espondilolistese teve seus r´otulos alterados para a classe normal. Os resultados est˜ao apresentados na Tabela I, em que ´e poss´ıvel notar que at´e 10% de contamina¸c˜ao de outliers, os resultados obtidos com LMS, NLMS, LMM, NLMM e KA foram compar´aveis. A partir de 20%, os

m´etodos NLMM e especialmente o LMM foram menos afetados com a presen¸ca de outliers.

A metodologia usada para os conjuntos diabetes e cˆancer de mama foi similar `a usada para os dados da coluna vertebral, sendo que dessa vez os outliers consistiram de exemplos da classe negativa (ausˆencia da doen¸ca) que tiveram seus r´otulos modificados para a classe positiva (presen¸ca da doen¸ca). Os resultados tamb´em est˜ao apre-sentados na Tabela I.

Para ambos os conjuntos de dados, os m´etodos LMM e NLMM, utilizando fun¸c˜ao de estima¸c˜ao-M biquadrada, foram capazes de mitigar o problema da presen¸ca de outliers mesmo em grandes quantidades (30%), enquanto para esses cen´arios os outros m´etodos come¸cam a degradar seus processos de aprendizagem.

Por fim, ressalta-se que, em muitos experimentos, quando os algoritmos baseados em kernel (KLMS, NKLMS e KA) foram comparados com o LMM e o NLMM, ou mesmo com o LMS e o NLMS, n˜ao obtiveram bons resul-tados. Uma poss´ıvel explica¸c˜ao para o KLMS e NKLMS pode ser a escolha de um kernel linear, uma vez que esses m´etodos foram originalmente propostos principalmente para aplica¸c˜oes n˜ao lineares com kernel gaussiano ou polinomial [8], [16]. No caso do KA, por ser um algoritmo que busca maximizar a separa¸c˜ao entre as classes, a adi¸c˜ao de outliers no treinamento provoca grande influˆencia na sua capacidade de generaliza¸c˜ao, como foi poss´ıvel observar em todos os conjuntos de dados avaliados.

IV. Conclus˜ao

No presente artigo foram aplicados diversos algoritmos recursivos para obter diferentes classificadores lineares.

(6)

Os m´etodos foram avaliados em tarefas de classifica¸c˜ao bin´aria com outliers adicionados aos dados de treinamento, para verificar a robustez dos mesmos. Para os conjuntos de dados utilizados, o LMM, e principalmente o NLMM, obtiveram, em geral, desempenho superior em rela¸c˜ao `as outras t´ecnicas quando o n´umero de outliers foi incremen-tado.

Os resultados obtidos indicam a viabilidade da apli-ca¸c˜ao em classifica¸c˜ao de padr˜oes robusta de algoritmos normalmente relacionados a problemas de filtragem e re-gress˜ao. Por fim, ´e importante ressaltar que, ap´os extensa pesquisa bibliogr´afica, acreditamos que esta ´e a primeira vez que os m´etodos LMM, NLMM, KLMS, NKLMS e KA s˜ao aplicados em problemas de classifica¸c˜ao na presen¸ca de outliers.

Em trabalhos futuros, pretende-se aplicar o conceito explorado neste artigo para adicionar robustez em m´etodos n˜ao lineares com passos lineares, tais como as m´aquinas de aprendizagem extrema (Extreme Learning Machine -ELM)[20].

Agradecimentos

Os autores gostariam de agradecer a FUNCAP (Fun-da¸c˜ao Cearense de Apoio ao Desenvolvimento Cient´ıfico e Tecnol´ogico) e ao NUTEC (N´ucleo de Tecnologia Indus-trial do Cear´a) pelo apoio financeiro.

References

[1] B. Hassibi, A. H. Sayed, and T. Kailath, “H∞ optimality of

the lms algorithm,” Signal Processing, IEEE Transactions on, vol. 44, no. 2, pp. 267–280, 1996.

[2] P. Bolzern, P. Colaneri, and G. De Nicolao, “H∞-robustness

of adaptive filters against measurement noise and parameter drift,” Automatica, vol. 35, no. 9, pp. 1509–1520, 1999. [3] B. Widrow, “Thinking about thinking: the discovery of the lms

algorithm,” Signal Processing Magazine, IEEE, vol. 22, no. 1, pp. 100–106, 2005.

[4] T. Poggio and F. Girosi, “Networks for approximation and learning,” Proceedings of the IEEE, vol. 78, no. 9, pp. 1481– 1497, 1990.

[5] G.-B. Huang, D. H. Wang, and Y. Lan, “Extreme learning machines: a survey,” International Journal of Machine Learning and Cybernetics, vol. 2, no. 2, pp. 107–122, 2011.

[6] H. Jaeger and H. Haas, “Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication,” Science, vol. 304, no. 5667, pp. 78–80, 2004.

[7] S. Chan and Y. Zhou, “On the performance analysis of the least mean m-estimate and normalized least mean m-estimate algorithms with gaussian inputs and additive gaussian and contaminated gaussian noises,” Journal of Signal Processing Systems, vol. 60, no. 1, pp. 81–103, 2010.

[8] W. Liu, P. P. Pokharel, and J. C. Principe, “The kernel least-mean-square algorithm,” Signal Processing, IEEE Transactions on, vol. 56, no. 2, pp. 543–554, 2008.

[9] T. T. Friess, N. Cristianini, and C. Campbell, “The kernel adatron algorithm: A fast and simple learning procedure for support vector machines,” in 15th International Conference of Machine Learning, 1998.

[10] B. Widrow and R. Winter, “Neural nets for adaptive filtering and adaptive pattern recognition,” Computer, vol. 21, no. 3, pp. 25–39, 1988.

[11] P. S. R. Diniz, Adaptive filtering: algorithms and practical implementation. Springer, 2013.

[12] Y. Zou, S.-C. Chan, and T.-S. Ng, “Least mean m-estimate al-gorithms for robust adaptive filtering in impulse noise,” Circuits and Systems II: Analog and Digital Signal Processing, IEEE Transactions on, vol. 47, no. 12, pp. 1564–1569, 2000. [13] P. J. Huber, “Robust estimation of a location parameter,” The

Annals of Mathematical Statistics, vol. 35, no. 1, pp. 73–101, 1964.

[14] A. L. B. de Paula Barros and G. A. Barreto, “Improving the classification performance of optimal linear associative memory in the presence of outliers,” in Advances in Computational Intelligence. Springer, 2013, pp. 622–632.

[15] N. Aronszajn, “Theory of reproducing kernels,” Trans. Amer. Math. Soc., vol. 68, pp. 337–404, 1950.

[16] H. Modaghegh, R. Khosravi, S. A. Manesh, H. S. Yazdi et al., “A new modeling algorithm-normalized kernel least mean square,” in Innovations in Information Technology, 2009. IIT’09. International Conference on. IEEE, 2009, pp. 120–124. [17] J. K. Anlauf and M. Biehl, “The adatron: an adaptative per-ceptron algorithm,” Europhysics Letters, vol. 10, no. 7, pp. 687– 692, 1989.

[18] V. Vapnik, Statistical Learning Theory. John Wiley, 1998. [19] K. Bache and M. Lichman, “UCI machine learning repository,”

2014, available at http://archive.ics.uci.edu/ml.

[20] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: theory and applications,” Neurocomputing, vol. 70, no. 1, pp. 489–501, 2006.

Referências

Documentos relacionados

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

» Scooter que são usadas em regiões litorâneas devem ter mais cuidados com a limpeza, manutenção e lubrificação afim de melhor proteção a scooter e suas partes, uma vez que

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

No que se refere aos indicadores da Escala NIPS e sua associação com a ocorrência de dor, notou-se, conforme a tabela 2, que referente à expressão facial dos

procura demonstrar, ao mesmo tempo em que faz um balanço do mundo contemporâneo, a situação em que se encontra grande parte dos Estudos Culturais, ou seja, não só trivializando

Na canção Bom Conselho, de Chico Buarque de Holanda, percebemos que a progressão dos polos relacionados ao próprio título da letra não seria possível se não fossem observadas essas

Como as medidas de campo são relativas ao coeficiente de permeabilidade horizontal, foram considerados na determinação de Ch misto os resultados dos ensaios de

Os resultados obtidos no presente estudo demonstram que o tratamento crônico com Rosmarinus officinalis na dose de 400mg/kg por v.o, apresentou possível efeito