Classificação de padrões robusta com redes Adaline modificadas

(1)

Classifica¸c˜

ao de padr˜

oes robusta com

redes Adaline modificadas

C´

esar Lincoln Cavalcante Mattos

Depto. de Engenharia Teleinform´atica,

Universidade Federal do Cear´a, Centro de Tecnologia, Campus do Pici,

Fortaleza, Cear´a, Brasil Email: cesarlincoln@terra.com.br

Jos´

e Daniel de Alencar Santos

Depto. de Indústria, Instituto Federal de Educa¸cão, Ciência e Tecnologia do Ceará,

Maracana´u, Cear´a, Brazil, Email: jdaniel@ifce.edu.br

Guilherme de Alencar Barreto

Depto. de Engenharia Teleinform´atica,

Universidade Federal do Cear´a, Centro de Tecnologia, Campus do Pici,

Fortaleza, Cear´a, Brasil Email: guialenbar@gmail.com

Resumo—O algoritmo dos m´ınimos m´edios quadra-dos (Least Mean Squares - LMS), por sua simplicidade e popularidade, tem sido a principal regra de apren-dizagem da rede Adaline (ADAptive LINear Element ).

´

E sab´ıdo que o LMS ´e ´otimo no sentido H∞ devido

sua tolerância a pequenas perturba¸cões (em energia), como ru´ıdo de medi¸cão, varia¸cão dos parâmetros e erros de modelagem. No entanto, sua otimalidade tem sido demonstrada somente para problemas de regressão, não para classifica¸cão de padrões. Nesse contexto, o presente trabalho realiza um estudo comparativo de algoritmos variantes do LMS em problemas de classi-fica¸cão de padrões na presen¸ca de erros de rotula¸cão durante o treinamento. Foram realizadas simula¸cões computacionais com dados artificiais e reais, indicando que os algoritmos baseados em estima¸cão-M são mais robustos quando treinados na presen¸ca de outliers.

I. Introdu¸c˜ao

Arquiteturas de redes neurais lineares, como a rede Adaline (ADAptive LINear Element - elemento linear adaptativo) [3], têm sido usadas tanto isoladamente, com o centro de sistemas inteligentes, ou como parte de redes neurais não-lineares mais sofisticadas, como o perceptron multicamadas (MLP - Multilayer Perceptron), as redes de base radial (RBFN - Radial Basis Functions Networks) [4], as máquinas de aprendizado extremo (ELM - Extreme Learning Machine) [5] e as redes com estados de eco (ESN - Echo-State Network ) [6].

Os pesos de uma rede Adaline são adaptados pela aplica¸cão do conhecido algoritmo dos m´ınimos médios quadrados (LMS - Least Mean Squares)1, que busca a min-imiza¸cão do erro médio quadrático (MSE - Mean Squared Error ). Através de incrementos na dire¸cão negativa do gradiente instantâneo do MSE, o LMS é capaz de atualizar recursivamente o vetor de pesos da rede. Esse compor-tamento recursivo (online) do algoritmo Adaline/LMS é desejável em cenários onde os conjuntos de dados não estão totalmente dispon´ıveis.

Tem sido demonstrado que o algoritmo LMS é ótimo no sentido H∞devido à sua tolerância a pequenas

pertur-ba¸cões, como erros de medi¸cão, varia¸cão de parâmetros e erros de modelagem [1], [2]. No entanto, quando as

1_Tamb´_{em conhecido como regra delta ou regra de Widrow-Hoff.}

perturba¸c˜oes deixam de ser pequenas (e.g. na presen¸ca de ru´ıdo impulsivo), o desempenho do algoritmo LMS deteriora-se consideravelmente [7].

´

E importante também ressaltar que os estudos ante-riores citados sobre a robustez do algoritmo LMS foram concebidos para tarefas de regressão, tipicamente encon-tradas no dom´ınio de processamento de sinais, como equal-iza¸cão de canal e predi¸cão de séries temporais. No presente trabalho, é de interesse a avalia¸cão do desempenho de classificadores Adaline treinados via algoritmo LMS e al-gumas variantes em problemas de classifica¸cão de padrões contaminados com outliers na etapa de treinamento, em particular aqueles resultantes de erros de rotula¸cão. Essa classe de outlier pode ocorrer tanto por problemas no pro-cesso de rotula¸cão das amostras dispon´ıveis (e.g. engano de um especialista) quanto por erros inseridos durante a cria¸cão dos arquivos contendo a base de dados (e.g. erros de digita¸cão).

Visando lidar de maneira eficiente com tais erros de rotula¸cão, o desempenho da rede Adaline será avaliado para classifica¸cão de padrões com diferentes varia¸cões do algoritmo LMS, como o Kernel LMS (KMLS)[8] e o método dos m´ınimos médios quadrados com Estima¸cão-M (LMM - Least Mean M-Estimate). Para efeito de compara¸cão, experimentos com classificadores SVM (Support Vector Machine) treinados com o algoritmo recursivo Kernel Ada-tron [9] também serão realizados.

O restante do artigo será organizado da seguinte maneira: primeiramente será feita na Se¸cão II uma de-scri¸cão resumida de cada um dos algoritmos avaliados no trabalho; em seguida, a Se¸cão III apresentará os resulta-dos e comentários sobre os experimentos computacionais realizados com conjuntos de dados artificiais e reais; por ´

ultimo, na Se¸cão IV serão feitas as considera¸cões finais e comentados os espa¸cos para pesquisas futuras.

II. M´etodos e Algoritmos

Seja um vetor de entrada D-dimensional xi ∈ RD

no instante i, a sa´ıda desejada2 yi ∈ R pode ser

esti-2_{Neste trabalho s˜}_{ao discutidos somente problemas de classifica¸}_c˜_ao

binária, sendo usado portanto apenas um único neurônio de sa´ıda. A generaliza¸cão dos conceitos apresentados para problemas com múltiplas classes é imediata.

(2)

mada atrav´es de uma rede Adaline (Adaptative Linear Element ) [10]:

ˆ

yi= wTixi, i ∈ {1, · · · , N } (1)

em que N é o número total de entradas dispon´ıveis, wi ∈ RD é um vetor de pesos ajustáveis e ˆyi ∈ R é a

sa´ıda estimada fornecida pelo modelo linear. É poss´ıvel observar que o ´ındice i tem interpreta¸cão temporal, uma vez que somente um par {(xi, yi)}Ni=1é apresentado a cada

itera¸c˜ao.

O problema em treinar um modelo Adaline se resume ao processo de adaptar recursivamente o vetor wi. O

procedimento mais comum para obter essa regra de apren-dizagem consiste em minimizar uma fun¸cão de custo do erro quadrático, a qual resulta no algoritmo clássico dos m´ınimos médios quadrados (Least Mean Squares - LMS), descrito mais adiante.

Além do LMS, esse artigo também aplicará os algorit-mos NLMS, LMM, NLMM, KLMS, NKLMS e o Kernel Adatron para treinar os classificadores. Esses métodos serão detalhados nas se¸cões seguintes.

´

E importante enfatizar que os algoritmos LMM, NLMM, KLMS e NKLMS a serem descritos foram primeiramente propostos, e tem sido aplicados até en-tão, para resolver problemas de regressão (e.g. filtragem adaptativa, predi¸cão de séries temporais e aproxima¸cão de fun¸cões). Este artigo propõe um estudo comparativo do desempenho de todos os algoritmos supracitados em problemas de classifica¸cão binária na presen¸ca de outliers. A. Least Mean Squares (LMS) e LMS Normalizado (NLMS)

O LMS pode ser visto como um algoritmo de busca no qual uma aproxima¸cão baseada na descida mais ´ıngreme é aplicada, a fim de obter uma solu¸cão que minimiza o erro quadrático médio (Mean Squared Error - MSE) [11]:

JMSE(wi) = E{e2i} = E{(yi− wiTxi)2}, (2)

em que E{·} ´e o operador esperan¸ca matem´atica e ei =

yi− wiTxi é o erro para a i-ésima itera¸cão.

A minimiza¸cão da Equa¸cão 2 é obtida tomando-se o gradiente com rela¸cão aos pesos:

∂JMSE(wi)

∂wi = −2E{e

ixi}. (3)

O algoritmo recursivo ´e executado adaptando wi

em cada itera¸cão na dire¸cão negativa do gradiente na Equa¸cão 3, o que envolve a aproxima¸c˜_{ao de E{e}ixi} pelo

valor instantˆaneo eixi:

wi+1= wi− µ

∂JMSE(wi)

∂wi

= wi+ µeixi, (4)

em que µ ´e o tamanho do passo que controla a taxa de convergˆencia.

A escolha de µ é dependente do problema e pode reduzir a eficiência do método. Uma poss´ıvel alternativa surge quando um tamanho variável do passo é aplicado.

No algoritmo NLMS, o passo de cada itera¸c˜ao ´e dividido pela norma-2 quadrada da entrada [11]:

wi+1= wi+

µeixi

+ xT ixi

, (5)

em que ´e uma constante positiva e pequena que evita a divis˜ao por zero.

B. M´ınimos M´edios Quadrados com Estimador-M (LMM) e LMM Normalizado (NLMM)

O algoritmo LMM usa conceitos da estat´ıstica robusta e aplica uma fun¸c˜ao objetivo mais geral do que a utilizada para o MSE [7], [12]:

JLMM(wi) = E{ρ(ei)} = E{ρ(yi− wTi xi)}, (6)

em que ρ(·) é a fun¸cão de estima¸cão-M [13]. A adapta¸cão dos pesos é feita similarmente à Equa¸cão 4:

wi+1= wi− µ ∂JLMM(wi) ∂wi = wi+ µq(ei)eixi, (7) em que q(ei) = e1i ∂JLMM(wi)

∂wi . Note que, se q(ei) = 1, a Equa¸cão 7 torna-se igual à Equa¸cão 4.

Neste artigo será utilizada uma versão modificada da fun¸cão de estima¸cão-M de Huber [7]:

ρ(e) = e2_/2, _{|e| < ξ} ξ2_/2, _c.c. , (8) q(e) = e, |e| < ξ 0, c.c. , (9)

em que ξ ´e um limiar que evita a influˆencia das entradas com erros grandes.

Alguns experimentos deste trabalho serão realizados com a fun¸cão de estima¸cão-M biquadrada (bisquare)[14]:

ρ(e) =      ξ2 6 ( 1 − 1 −e_ξ 23) , |e| < ξ ξ2 6, c.c. , (10) q(e) =    1 −e ξ 22 , |e| < ξ 0, c.c. . (11)

Em [12] é sugerido que o parâmetro ξ seja obtido por uma técnica chamada Sele¸cão Adaptativa de Limiar (Adaptive Threshold Selection, ATS). Considera-se que o erro ei possui distribui¸cão gaussiana possivelmente

adi-cionada a ru´ıdo impulsivo. Dessa maneira, a variˆancia do erro σ2

i da i-´esima itera¸c˜ao pode ser estimada pelo seguinte

estimador robusto: ˆ

σ_i2= λˆσ2_i−1+ c(1 − λ)med(Ai), (12)

em que λ é um fator de esquecimento próximo (mas não igual) a 1, med(·) é o operador mediana, Ai =

{e2

i, e2i−1, · · · , e2i−Nw+1}, Nwé um comprimento pré-fixado para o tamanho da janela em que a opera¸cão de mediana será realizada e c = 1.483(1 + 5/(Nw− 1)) é o fator de

(3)

Dada uma probabilidade de rejei¸c˜ao P r{|ei| > ξi} = erfc_√ξi 2ˆσi , em que erfc(x) = √2 π ∞ R x exp(−t2_{)dt ´}_{e a fun¸}_c˜_ao

de erro complementar, o limiar ξi pode ser calculado. No

caso das probabilidades 0.05, 0.025 e 0.01, tem-se ξi =

1.96ˆσi, ξi = 2.24ˆσi e ξi= 2.56ˆσi, respectivamente.

Quando o tamanho do passo da Equa¸cão 7 é nor-malizado pela norma-2 quadrada da entrada, obtém-se o algoritmo NLMM [7]: wi+1= wi+ µq(ei)eixi + xT i xi , (13)

em que tem o mesmo significado analisado na Equa¸c˜ao 5.

C. M´ınimos Quadrados Adaptativo com Kernel(KLMS) e KLMS Normalizado (NKLMS)

O algoritmo KLMS foi proposto como uma aplica¸cão do LMS tradicional em um espa¸co de atributos obtido através do mapeamento Φ(·) realizado nas entradas, gerando uma nova sequência {(Φ(xi), yi)}Ni=1 [8]. A adapta¸cão dos pesos

´

e similar `a Equa¸c˜ao 4:

wi+1= wi+ µeiΦ(xi). (14)

Considerando-se w0 = 0, em que 0 ´e um vetor de zeros,

ap´os N itera¸c˜oes:

wN = µ N −1 X i=1 eiΦ(xi), (15) ˆ yN = wTNΦ(xN) = µ N −1 X i=1 eiκ(xi, xN), (16)

em que κ ´e uma fun¸c˜ao de kernel definida positiva. Pelo teorema de Mercer [15], para qualquer kernel, existe um mapeamento Φ tal que

κ(xi, xj) = Φ(xi)TΦ(xj), ∀xi, xj ∈ RD, (17)

em que torna-se poss´ıvel transformar cada vetor de dados xi em um espa¸co de atributos F de dimens˜ao elevada

(po-tencialmente infinita) como Φ(xi) e interpretar a Equa¸c˜ao

17 como um produto escalar usual.

Deve ser notado que somente a Equa¸cão 16 é necessária tanto no treinamento quanto no teste. Embora não seja necessário calcular o vetor de pesos, os erros a priori ei, i ∈

{1, · · · N } e as entradas de treinamento xi, i ∈ {1, · · · N }

devem ser mantidas para as predi¸c˜oes.

Em [16] uma versão normalizada do algoritmo KLMS, chamada NKLMS, foi proposta através da modifica¸cão da Equa¸cão 16: ˆ yN = µ N −1 X i=1 ei κ(xi, xN) κ(xi, xi) , (18)

em que todos os parˆametros j´a foram definidos anterior-mente.

D. Algoritmo Adatron com Kernel (KA)

O Adatron é um algoritmo on-line para aprendiza-gem das redes perceptron, que foi desenvolvido por Biehl et. al. [17], e estabelece um procedimento que emula as máquinas de vetores suporte (Support Vector Machines - SVM) [18], mas que não necessita fazer uso de quais-quer técnicas de programa¸cão quadrática [9]. Escrevendo o Adatron em uma representa¸cão dependente dos dados {(xi, yi)}Ni=1, obtém-se o seguinte algoritmo:

1) Inicializar αi= 0 (multiplicadores de Lagrange).

2) Calcular zi= yi N X j=1 αjyjκ(xi, xj). (19) 3) Calcular γi= yizi.

4) Seja δαi= µ(1 − γi) a atualiza¸c˜ao proposta para

αi;

• Se (δαi+ αi) ≤ 0 ent˜ao αi= 0.

• Se (δαi+ αi) > 0 ent˜ao αi= αi+ δαi.

5) Se o número máximo de apresenta¸cões do con-junto de padrões for excedido, então parar. Caso contrário, retornar ao passo 2.

A estima¸c˜ao para uma nova entrada x∗pode ser escrita como: ˆ y∗= X i∈SV yiαoiκ(x ∗_{, x} i), (20)

em que αo_i ´e a solu¸c˜ao do algoritmo Adatron e SV repre-senta os ´ındices dos vetores suporte.

Por fim, é importante salientar que todos os algoritmos descritos neste artigo serão utilizados para treinar clas-sificadores lineares. Assim, os experimentos com KLMS, NKLMS e KA serão realizados com as versões lineares desses algoritmos, que fazem uso de uma fun¸cão de kernel linear dada por κ(xi, xj) = xTi xj + C, em que C é uma

constante.

III. Resultados Experimentais e Discussão Os resultados experimentais foram separados em dois grupos: um com dados artificiais bidimensionais, para prova de conceito e para uma interpreta¸cão gráfica das regiões de decisão obtidas por cada classificador; e outro com quatro conjuntos da dados reais [19]: ´ıris (iris), coluna vertebral (vertebral column), diabetes (pima indians dia-betes) e câncer de mama (breast cancer ), a fim de verificar o efeito nas taxas de classifica¸cão após a adi¸cão de outliers. O primeiro grupo de experimentos envolveu um con-junto de dados bidimensional com 60 amostras de duas classes (vermelha e azul), que são linearmente separáveis. Todas as amostras foram usadas no treinamento e um número de outliers da classe azul foi gradualmente adi-cionado em cada experimento. Deve ser menadi-cionado que esses outliers foram propositalmente adicionados próximos `

a região originalmente associada à classe vermelha, para verificar o comportamento das retas de decisão dos classi-ficadores.

(4)

(a) 0 outliers. (b) 3 outliers.

(c) 6 outliers. (d) 9 outliers.

Fig. 1. Regiões de decisão com a adi¸cão de outliers.

Todos os classificadores foram treinados durante 50 ´

epocas (reapresenta¸cões dos dados de treinamento) e com passo de aprendizagem µ = 0.01, com a exce¸cão dos algoritmos KLMS, NKLMS e KA, que foram aplicados com µ = 0.1. Nesses três métodos a constante usada no kernel linear foi C = 0.5. No caso dos métodos LMM e NLMM, fixaram-se os seguintes parâmetros: λ = 0.98, Nw = 9 e

ξi= 1.96ˆσi, o ´ultimo correspondendo a uma probabilidade

de 0.01 de rejei¸cão. Os valores dos parâmetros citados foram obtidos em simula¸cões preliminares. As regiões de decisão obtidas para cada classificador são apresentadas na Figura 1.

Pode-se notar que com a adi¸c˜ao progressiva de outliers, todos os algoritmos foram influenciados com exce¸c˜ao do

LMM e do NLMM, derivados da teoria da estima¸c˜ ao-M robusta. Os demais métodos, não robustos, tentam inserir os dados discrepantes na região de decisão da classe azul, ignorando a possibilidade de não pertencerem `

a distribui¸c˜ao que gerou os dados originais.

No segundo grupo de experimentos, o conjunto iris foi preparado da seguinte forma: as classes virginica e versicolor foram rotuladas com +1 e −1, respectivamente. A partir dessas duas classes, 80% dos dados foram usados para o treinamento e 20% para o teste. Durante a fase de treinamento, algumas amostras da classe setosa foram adi-cionadas com r´otulo +1, sendo consideradas como outliers da classe virginica. As quantidades de outliers aplicadas foram 0%, 5%, 10%, 20% e 30% do n´umero original de

(5)

TABLE I. Taxas médias e desvios-padrões obtidos na classifica¸cão com os dados de teste, sem e com outliers no treinamento. Conjunto Iris 0% 5% 10% 20% 30% LMS 96.25 ± 3.72 88.95 ± 6.68 83.85 ± 7.81 75.10 ± 10.02 68.95 ± 10.88 NLMS 96.15 ± 3.75 93.50 ± 4.58 91.90 ± 6.02 83.75 ± 8.11 77.30 ± 9.86 LMM 95.85 ± 4.02 94.95 ± 4.17 94.90 ± 4.44 75.10 ± 9.61 69.05 ± 10.84 NLMM 95.70 ± 3.63 94.90 ± 4.38 94.80 ± 4.76 95.10 ± 4.14 77.10 ± 9.83 KLMS 89.80 ± 7.07 84.80 ± 8.22 79.35 ± 10.09 72.70 ± 11.58 66.10 ± 12.46 NKLMS 89.30 ± 7.04 86.15 ± 8.37 85.90 ± 8.33 82.20 ± 10.95 77.90 ± 12.66 KA 92.05 ± 5.13 89.30 ± 7.75 77.50 ± 10.36 67.45 ± 11.11 65.60 ± 9.30

Conjunto Coluna Vertebral

LMS 90.06 ± 4.85 89.52 ± 3.93 89.32 ± 4.32 84.22 ± 4.99 76.60 ± 7.14 NLMS 91.10 ± 3.86 90.90 ± 3.88 90.88 ± 3.85 85.92 ± 4.41 78.52 ± 5.93 LMM 91.90 ± 3.66 92.18 ± 3.27 92.16 ± 3.61 90.54 ± 3.61 82.02 ± 7.36 NLMM 91.32 ± 3.63 91.36 ± 3.65 92.02 ± 3.76 88.74 ± 3.98 80.32 ± 6.32 KLMS 85.32 ± 4.97 85.22 ± 5.17 83.78 ± 5.30 79.00 ± 5.37 68.52 ± 6.75 NKLMS 81.02 ± 5.13 81.78 ± 5.28 83.08 ± 5.03 80.30 ± 5.77 68.24 ± 6.88 KA 95.80 ± 2.66 92.98 ± 4.91 91.12 ± 5.59 85.06 ± 9.00 77.24 ± 9.55 Conjunto Diabetes LMS 76.63 ± 3.19 76.34 ± 3.28 75.50 ± 3.20 73.87 ± 4.48 68.67 ± 7.88 NLMS 77.27 ± 3.02 76.53 ± 3.11 75.98 ± 3.19 74.35 ± 3.55 69.73 ± 4.80 LMM 75.87 ± 5.23 76.57 ± 2.73 76.50 ± 3.07 75.07 ± 2.98 72.31 ± 4.26 NLMM 74.82 ± 5.39 76.39 ± 2.82 76.16 ± 3.32 74.72 ± 3.03 72.03 ± 3.83 KLMS 77.28 ± 2.97 76.69 ± 3.34 75.70 ± 3.16 74.59 ± 3.27 69.82 ± 4.08 NKLMS 76.20 ± 3.25 76.28 ± 3.36 75.22 ± 3.01 73.64 ± 3.23 68.47 ± 4.33 KA 73.76 ± 6.93 71.59 ± 9.36 70.25 ± 9.50 66.84 ± 12.37 60.52 ± 15.24

Conjunto Cˆancer de Mama

LMS 96.10 ± 1.74 96.42 ± 1.68 96.57 ± 1.59 94.77 ± 2.35 89.22 ± 4.39 NLMS 96.28 ± 1.69 96.63 ± 1.66 96.43 ± 1.72 94.36 ± 2.16 88.36 ± 3.45 LMM 93.16 ± 2.34 93.83 ± 1.91 94.46 ± 2.26 95.25 ± 2.23 94.28 ± 3.75 NLMM 94.63 ± 1.95 94.77 ± 2.03 95.46 ± 1.93 95.82 ± 1.86 94.05 ± 3.10 KLMS 93.05 ± 2.32 94.44 ± 1.74 95.74 ± 1.56 95.35 ± 1.85 88.95 ± 2.78 NKLMS 94.23 ± 1.89 95.69 ± 1.57 95.98 ± 1.69 93.54 ± 2.05 84.49 ± 3.63 KA 95.25 ± 3.91 84.22 ± 16.83 81.75 ± 18.89 73.19 ± 23.49 65.51 ± 23.47

amostras da classe virginica do conjunto de treinamento. Nesse e nos experimentos seguintes foram usados nos algoritmos os mesmos parâmetros descritos anteriormente, mas dessa vez durante 100 épocas de treinamento. As taxas médias de classifica¸cão e desvios-padrões obtidos com o conjunto de teste após 100 ciclos de treinamento/teste estão apresentados na Tabela I. Pode-se notar que nos ex-perimentos sem outliers, com exce¸cão do KLMS, NKLMS e KA, todos os outros métodos obtiveram resultados sim-ilares. Entre 5% e 10%, o LMS e o NLMS foram afeta-dos com a adi¸cão de outliers, enquanto LMM e NLMM (treinados com a fun¸cão de estima¸cão-M de Huber mod-ificada) praticamente não sofreram altera¸cões. Com 20% de outliers, o LMM também foi penalizado, mas o NLMM manteve alta sua taxa média de acerto. Com 30%, todos os algoritmos obtiveram baixos valores de precisão. Mas neste caso é importante notar que, à medida que o número de outliers cresce, essas amostras talvez não possam mais ser consideradas outliers, mas exemplos normais de treina-mento.

O conjunto de dados coluna vertebral foi considerado como um problema binário, uma vez em que foram removi-das as amostras da classe hérnia de disco e considerados somente os exemplos das classes normal e espondilolistese. Ao longo dos experimentos, 80% dos dados foram usados no treinamento e 20% no teste. A adi¸cão de outliers foi realizada através da troca de rótulos: uma por¸cão (0%, 5%, 10%, 20% e 30%) das amostras de treinamento da classe espondilolistese teve seus rótulos alterados para a classe normal. Os resultados estão apresentados na Tabela I, em que é poss´ıvel notar que até 10% de contamina¸cão de outliers, os resultados obtidos com LMS, NLMS, LMM, NLMM e KA foram comparáveis. A partir de 20%, os

m´etodos NLMM e especialmente o LMM foram menos afetados com a presen¸ca de outliers.

A metodologia usada para os conjuntos diabetes e câncer de mama foi similar à usada para os dados da coluna vertebral, sendo que dessa vez os outliers consistiram de exemplos da classe negativa (ausência da doen¸ca) que tiveram seus rótulos modificados para a classe positiva (presen¸ca da doen¸ca). Os resultados também estão apre-sentados na Tabela I.

Para ambos os conjuntos de dados, os métodos LMM e NLMM, utilizando fun¸cão de estima¸cão-M biquadrada, foram capazes de mitigar o problema da presen¸ca de outliers mesmo em grandes quantidades (30%), enquanto para esses cenários os outros métodos come¸cam a degradar seus processos de aprendizagem.

Por fim, ressalta-se que, em muitos experimentos, quando os algoritmos baseados em kernel (KLMS, NKLMS e KA) foram comparados com o LMM e o NLMM, ou mesmo com o LMS e o NLMS, não obtiveram bons resul-tados. Uma poss´ıvel explica¸cão para o KLMS e NKLMS pode ser a escolha de um kernel linear, uma vez que esses métodos foram originalmente propostos principalmente para aplica¸cões não lineares com kernel gaussiano ou polinomial [8], [16]. No caso do KA, por ser um algoritmo que busca maximizar a separa¸cão entre as classes, a adi¸cão de outliers no treinamento provoca grande influência na sua capacidade de generaliza¸cão, como foi poss´ıvel observar em todos os conjuntos de dados avaliados.

IV. Conclus˜ao

No presente artigo foram aplicados diversos algoritmos recursivos para obter diferentes classificadores lineares.

(6)

Os métodos foram avaliados em tarefas de classifica¸cão binária com outliers adicionados aos dados de treinamento, para verificar a robustez dos mesmos. Para os conjuntos de dados utilizados, o LMM, e principalmente o NLMM, obtiveram, em geral, desempenho superior em rela¸cão às outras técnicas quando o número de outliers foi incremen-tado.

Os resultados obtidos indicam a viabilidade da apli-ca¸cão em classifica¸cão de padrões robusta de algoritmos normalmente relacionados a problemas de filtragem e re-gressão. Por fim, é importante ressaltar que, após extensa pesquisa bibliográfica, acreditamos que esta é a primeira vez que os métodos LMM, NLMM, KLMS, NKLMS e KA são aplicados em problemas de classifica¸cão na presen¸ca de outliers.

Em trabalhos futuros, pretende-se aplicar o conceito explorado neste artigo para adicionar robustez em métodos não lineares com passos lineares, tais como as máquinas de aprendizagem extrema (Extreme Learning Machine -ELM)[20].

Agradecimentos

Os autores gostariam de agradecer a FUNCAP (Fun-da¸cão Cearense de Apoio ao Desenvolvimento Cient´ıfico e Tecnológico) e ao NUTEC (Núcleo de Tecnologia Indus-trial do Ceará) pelo apoio financeiro.

References

[1] B. Hassibi, A. H. Sayed, and T. Kailath, “H∞ optimality of

the lms algorithm,” Signal Processing, IEEE Transactions on, vol. 44, no. 2, pp. 267–280, 1996.

[2] P. Bolzern, P. Colaneri, and G. De Nicolao, “H∞-robustness

of adaptive filters against measurement noise and parameter drift,” Automatica, vol. 35, no. 9, pp. 1509–1520, 1999. [3] B. Widrow, “Thinking about thinking: the discovery of the lms

algorithm,” Signal Processing Magazine, IEEE, vol. 22, no. 1, pp. 100–106, 2005.

[4] T. Poggio and F. Girosi, “Networks for approximation and learning,” Proceedings of the IEEE, vol. 78, no. 9, pp. 1481– 1497, 1990.

[5] G.-B. Huang, D. H. Wang, and Y. Lan, “Extreme learning machines: a survey,” International Journal of Machine Learning and Cybernetics, vol. 2, no. 2, pp. 107–122, 2011.

[6] H. Jaeger and H. Haas, “Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication,” Science, vol. 304, no. 5667, pp. 78–80, 2004.

[7] S. Chan and Y. Zhou, “On the performance analysis of the least mean m-estimate and normalized least mean m-estimate algorithms with gaussian inputs and additive gaussian and contaminated gaussian noises,” Journal of Signal Processing Systems, vol. 60, no. 1, pp. 81–103, 2010.

[8] W. Liu, P. P. Pokharel, and J. C. Principe, “The kernel least-mean-square algorithm,” Signal Processing, IEEE Transactions on, vol. 56, no. 2, pp. 543–554, 2008.

[9] T. T. Friess, N. Cristianini, and C. Campbell, “The kernel adatron algorithm: A fast and simple learning procedure for support vector machines,” in 15th International Conference of Machine Learning, 1998.

[10] B. Widrow and R. Winter, “Neural nets for adaptive filtering and adaptive pattern recognition,” Computer, vol. 21, no. 3, pp. 25–39, 1988.

[11] P. S. R. Diniz, Adaptive filtering: algorithms and practical implementation. Springer, 2013.

[12] Y. Zou, S.-C. Chan, and T.-S. Ng, “Least mean m-estimate al-gorithms for robust adaptive filtering in impulse noise,” Circuits and Systems II: Analog and Digital Signal Processing, IEEE Transactions on, vol. 47, no. 12, pp. 1564–1569, 2000. [13] P. J. Huber, “Robust estimation of a location parameter,” The

Annals of Mathematical Statistics, vol. 35, no. 1, pp. 73–101, 1964.

[14] A. L. B. de Paula Barros and G. A. Barreto, “Improving the classification performance of optimal linear associative memory in the presence of outliers,” in Advances in Computational Intelligence. Springer, 2013, pp. 622–632.

[15] N. Aronszajn, “Theory of reproducing kernels,” Trans. Amer. Math. Soc., vol. 68, pp. 337–404, 1950.

[16] H. Modaghegh, R. Khosravi, S. A. Manesh, H. S. Yazdi et al., “A new modeling algorithm-normalized kernel least mean square,” in Innovations in Information Technology, 2009. IIT’09. International Conference on. IEEE, 2009, pp. 120–124. [17] J. K. Anlauf and M. Biehl, “The adatron: an adaptative per-ceptron algorithm,” Europhysics Letters, vol. 10, no. 7, pp. 687– 692, 1989.

[18] V. Vapnik, Statistical Learning Theory. John Wiley, 1998. [19] K. Bache and M. Lichman, “UCI machine learning repository,”

2014, available at http://archive.ics.uci.edu/ml.

[20] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: theory and applications,” Neurocomputing, vol. 70, no. 1, pp. 489–501, 2006.