• Nenhum resultado encontrado

Classificação de padrões robusta com redes Adaline modificadas

N/A
N/A
Protected

Academic year: 2021

Share "Classificação de padrões robusta com redes Adaline modificadas"

Copied!
6
0
0

Texto

(1)

Classifica¸c˜

ao de padr˜

oes robusta com

redes Adaline modificadas

esar Lincoln Cavalcante Mattos

Depto. de Engenharia Teleinform´atica,

Universidade Federal do Cear´a, Centro de Tecnologia, Campus do Pici,

Fortaleza, Cear´a, Brasil Email: cesarlincoln@terra.com.br

Jos´

e Daniel de Alencar Santos

Depto. de Ind´ustria, Instituto Federal de Educa¸c˜ao, Ciˆencia e Tecnologia do Cear´a,

Maracana´u, Cear´a, Brazil, Email: jdaniel@ifce.edu.br

Guilherme de Alencar Barreto

Depto. de Engenharia Teleinform´atica,

Universidade Federal do Cear´a, Centro de Tecnologia, Campus do Pici,

Fortaleza, Cear´a, Brasil Email: guialenbar@gmail.com

Resumo—O algoritmo dos m´ınimos m´edios quadra-dos (Least Mean Squares - LMS), por sua simplicidade e popularidade, tem sido a principal regra de apren-dizagem da rede Adaline (ADAptive LINear Element ).

´

E sab´ıdo que o LMS ´e ´otimo no sentido H∞ devido

sua tolerˆancia a pequenas perturba¸c˜oes (em energia), como ru´ıdo de medi¸c˜ao, varia¸c˜ao dos parˆametros e erros de modelagem. No entanto, sua otimalidade tem sido demonstrada somente para problemas de regress˜ao, n˜ao para classifica¸c˜ao de padr˜oes. Nesse contexto, o presente trabalho realiza um estudo comparativo de algoritmos variantes do LMS em problemas de classi-fica¸c˜ao de padr˜oes na presen¸ca de erros de rotula¸c˜ao durante o treinamento. Foram realizadas simula¸c˜oes computacionais com dados artificiais e reais, indicando que os algoritmos baseados em estima¸c˜ao-M s˜ao mais robustos quando treinados na presen¸ca de outliers.

I. Introdu¸c˜ao

Arquiteturas de redes neurais lineares, como a rede Adaline (ADAptive LINear Element - elemento linear adaptativo) [3], tˆem sido usadas tanto isoladamente, com o centro de sistemas inteligentes, ou como parte de redes neurais n˜ao-lineares mais sofisticadas, como o perceptron multicamadas (MLP - Multilayer Perceptron), as redes de base radial (RBFN - Radial Basis Functions Networks) [4], as m´aquinas de aprendizado extremo (ELM - Extreme Learning Machine) [5] e as redes com estados de eco (ESN - Echo-State Network ) [6].

Os pesos de uma rede Adaline s˜ao adaptados pela aplica¸c˜ao do conhecido algoritmo dos m´ınimos m´edios quadrados (LMS - Least Mean Squares)1, que busca a min-imiza¸c˜ao do erro m´edio quadr´atico (MSE - Mean Squared Error ). Atrav´es de incrementos na dire¸c˜ao negativa do gradiente instantˆaneo do MSE, o LMS ´e capaz de atualizar recursivamente o vetor de pesos da rede. Esse compor-tamento recursivo (online) do algoritmo Adaline/LMS ´e desej´avel em cen´arios onde os conjuntos de dados n˜ao est˜ao totalmente dispon´ıveis.

Tem sido demonstrado que o algoritmo LMS ´e ´otimo no sentido H∞devido `a sua tolerˆancia a pequenas

pertur-ba¸c˜oes, como erros de medi¸c˜ao, varia¸c˜ao de parˆametros e erros de modelagem [1], [2]. No entanto, quando as

1Tamb´em conhecido como regra delta ou regra de Widrow-Hoff.

perturba¸c˜oes deixam de ser pequenas (e.g. na presen¸ca de ru´ıdo impulsivo), o desempenho do algoritmo LMS deteriora-se consideravelmente [7].

´

E importante tamb´em ressaltar que os estudos ante-riores citados sobre a robustez do algoritmo LMS foram concebidos para tarefas de regress˜ao, tipicamente encon-tradas no dom´ınio de processamento de sinais, como equal-iza¸c˜ao de canal e predi¸c˜ao de s´eries temporais. No presente trabalho, ´e de interesse a avalia¸c˜ao do desempenho de classificadores Adaline treinados via algoritmo LMS e al-gumas variantes em problemas de classifica¸c˜ao de padr˜oes contaminados com outliers na etapa de treinamento, em particular aqueles resultantes de erros de rotula¸c˜ao. Essa classe de outlier pode ocorrer tanto por problemas no pro-cesso de rotula¸c˜ao das amostras dispon´ıveis (e.g. engano de um especialista) quanto por erros inseridos durante a cria¸c˜ao dos arquivos contendo a base de dados (e.g. erros de digita¸c˜ao).

Visando lidar de maneira eficiente com tais erros de rotula¸c˜ao, o desempenho da rede Adaline ser´a avaliado para classifica¸c˜ao de padr˜oes com diferentes varia¸c˜oes do algoritmo LMS, como o Kernel LMS (KMLS)[8] e o m´etodo dos m´ınimos m´edios quadrados com Estima¸c˜ao-M (LMM - Least Mean M-Estimate). Para efeito de compara¸c˜ao, experimentos com classificadores SVM (Support Vector Machine) treinados com o algoritmo recursivo Kernel Ada-tron [9] tamb´em ser˜ao realizados.

O restante do artigo ser´a organizado da seguinte maneira: primeiramente ser´a feita na Se¸c˜ao II uma de-scri¸c˜ao resumida de cada um dos algoritmos avaliados no trabalho; em seguida, a Se¸c˜ao III apresentar´a os resulta-dos e coment´arios sobre os experimentos computacionais realizados com conjuntos de dados artificiais e reais; por ´

ultimo, na Se¸c˜ao IV ser˜ao feitas as considera¸c˜oes finais e comentados os espa¸cos para pesquisas futuras.

II. M´etodos e Algoritmos

Seja um vetor de entrada D-dimensional xi ∈ RD

no instante i, a sa´ıda desejada2 yi ∈ R pode ser

esti-2Neste trabalho s˜ao discutidos somente problemas de classifica¸ao

bin´aria, sendo usado portanto apenas um ´unico neurˆonio de sa´ıda. A generaliza¸c˜ao dos conceitos apresentados para problemas com m´ultiplas classes ´e imediata.

(2)

mada atrav´es de uma rede Adaline (Adaptative Linear Element ) [10]:

ˆ

yi= wTixi, i ∈ {1, · · · , N } (1)

em que N ´e o n´umero total de entradas dispon´ıveis, wi ∈ RD ´e um vetor de pesos ajust´aveis e ˆyi ∈ R ´e a

sa´ıda estimada fornecida pelo modelo linear. ´E poss´ıvel observar que o ´ındice i tem interpreta¸c˜ao temporal, uma vez que somente um par {(xi, yi)}Ni=1´e apresentado a cada

itera¸c˜ao.

O problema em treinar um modelo Adaline se resume ao processo de adaptar recursivamente o vetor wi. O

procedimento mais comum para obter essa regra de apren-dizagem consiste em minimizar uma fun¸c˜ao de custo do erro quadr´atico, a qual resulta no algoritmo cl´assico dos m´ınimos m´edios quadrados (Least Mean Squares - LMS), descrito mais adiante.

Al´em do LMS, esse artigo tamb´em aplicar´a os algorit-mos NLMS, LMM, NLMM, KLMS, NKLMS e o Kernel Adatron para treinar os classificadores. Esses m´etodos ser˜ao detalhados nas se¸c˜oes seguintes.

´

E importante enfatizar que os algoritmos LMM, NLMM, KLMS e NKLMS a serem descritos foram primeiramente propostos, e tem sido aplicados at´e en-t˜ao, para resolver problemas de regress˜ao (e.g. filtragem adaptativa, predi¸c˜ao de s´eries temporais e aproxima¸c˜ao de fun¸c˜oes). Este artigo prop˜oe um estudo comparativo do desempenho de todos os algoritmos supracitados em problemas de classifica¸c˜ao bin´aria na presen¸ca de outliers. A. Least Mean Squares (LMS) e LMS Normalizado (NLMS)

O LMS pode ser visto como um algoritmo de busca no qual uma aproxima¸c˜ao baseada na descida mais ´ıngreme ´e aplicada, a fim de obter uma solu¸c˜ao que minimiza o erro quadr´atico m´edio (Mean Squared Error - MSE) [11]:

JMSE(wi) = E{e2i} = E{(yi− wiTxi)2}, (2)

em que E{·} ´e o operador esperan¸ca matem´atica e ei =

yi− wiTxi ´e o erro para a i-´esima itera¸c˜ao.

A minimiza¸c˜ao da Equa¸c˜ao 2 ´e obtida tomando-se o gradiente com rela¸c˜ao aos pesos:

∂JMSE(wi)

∂wi = −2E{e

ixi}. (3)

O algoritmo recursivo ´e executado adaptando wi

em cada itera¸c˜ao na dire¸c˜ao negativa do gradiente na Equa¸c˜ao 3, o que envolve a aproxima¸c˜ao de E{eixi} pelo

valor instantˆaneo eixi:

wi+1= wi− µ

∂JMSE(wi)

∂wi

= wi+ µeixi, (4)

em que µ ´e o tamanho do passo que controla a taxa de convergˆencia.

A escolha de µ ´e dependente do problema e pode reduzir a eficiˆencia do m´etodo. Uma poss´ıvel alternativa surge quando um tamanho vari´avel do passo ´e aplicado.

No algoritmo NLMS, o passo de cada itera¸c˜ao ´e dividido pela norma-2 quadrada da entrada [11]:

wi+1= wi+

µeixi

 + xT ixi

, (5)

em que  ´e uma constante positiva e pequena que evita a divis˜ao por zero.

B. M´ınimos M´edios Quadrados com Estimador-M (LMM) e LMM Normalizado (NLMM)

O algoritmo LMM usa conceitos da estat´ıstica robusta e aplica uma fun¸c˜ao objetivo mais geral do que a utilizada para o MSE [7], [12]:

JLMM(wi) = E{ρ(ei)} = E{ρ(yi− wTi xi)}, (6)

em que ρ(·) ´e a fun¸c˜ao de estima¸c˜ao-M [13]. A adapta¸c˜ao dos pesos ´e feita similarmente `a Equa¸c˜ao 4:

wi+1= wi− µ ∂JLMM(wi) ∂wi = wi+ µq(ei)eixi, (7) em que q(ei) = e1i ∂JLMM(wi)

∂wi . Note que, se q(ei) = 1, a Equa¸c˜ao 7 torna-se igual `a Equa¸c˜ao 4.

Neste artigo ser´a utilizada uma vers˜ao modificada da fun¸c˜ao de estima¸c˜ao-M de Huber [7]:

ρ(e) =  e2/2, |e| < ξ ξ2/2, c.c. , (8) q(e) =  e, |e| < ξ 0, c.c. , (9)

em que ξ ´e um limiar que evita a influˆencia das entradas com erros grandes.

Alguns experimentos deste trabalho ser˜ao realizados com a fun¸c˜ao de estima¸c˜ao-M biquadrada (bisquare)[14]:

ρ(e) =      ξ2 6 ( 1 −  1 −eξ 23) , |e| < ξ ξ2 6, c.c. , (10) q(e) =     1 −e ξ 22 , |e| < ξ 0, c.c. . (11)

Em [12] ´e sugerido que o parˆametro ξ seja obtido por uma t´ecnica chamada Sele¸c˜ao Adaptativa de Limiar (Adaptive Threshold Selection, ATS). Considera-se que o erro ei possui distribui¸c˜ao gaussiana possivelmente

adi-cionada a ru´ıdo impulsivo. Dessa maneira, a variˆancia do erro σ2

i da i-´esima itera¸c˜ao pode ser estimada pelo seguinte

estimador robusto: ˆ

σi2= λˆσ2i−1+ c(1 − λ)med(Ai), (12)

em que λ ´e um fator de esquecimento pr´oximo (mas n˜ao igual) a 1, med(·) ´e o operador mediana, Ai =

{e2

i, e2i−1, · · · , e2i−Nw+1}, Nw´e um comprimento pr´e-fixado para o tamanho da janela em que a opera¸c˜ao de mediana ser´a realizada e c = 1.483(1 + 5/(Nw− 1)) ´e o fator de

(3)

Dada uma probabilidade de rejei¸c˜ao P r{|ei| > ξi} = erfcξi 2ˆσi  , em que erfc(x) = √2 π ∞ R x exp(−t2)dt ´e a fun¸ao

de erro complementar, o limiar ξi pode ser calculado. No

caso das probabilidades 0.05, 0.025 e 0.01, tem-se ξi =

1.96ˆσi, ξi = 2.24ˆσi e ξi= 2.56ˆσi, respectivamente.

Quando o tamanho do passo da Equa¸c˜ao 7 ´e nor-malizado pela norma-2 quadrada da entrada, obt´em-se o algoritmo NLMM [7]: wi+1= wi+ µq(ei)eixi  + xT i xi , (13)

em que  tem o mesmo significado analisado na Equa¸c˜ao 5.

C. M´ınimos Quadrados Adaptativo com Kernel(KLMS) e KLMS Normalizado (NKLMS)

O algoritmo KLMS foi proposto como uma aplica¸c˜ao do LMS tradicional em um espa¸co de atributos obtido atrav´es do mapeamento Φ(·) realizado nas entradas, gerando uma nova sequˆencia {(Φ(xi), yi)}Ni=1 [8]. A adapta¸c˜ao dos pesos

´

e similar `a Equa¸c˜ao 4:

wi+1= wi+ µeiΦ(xi). (14)

Considerando-se w0 = 0, em que 0 ´e um vetor de zeros,

ap´os N itera¸c˜oes:

wN = µ N −1 X i=1 eiΦ(xi), (15) ˆ yN = wTNΦ(xN) = µ N −1 X i=1 eiκ(xi, xN), (16)

em que κ ´e uma fun¸c˜ao de kernel definida positiva. Pelo teorema de Mercer [15], para qualquer kernel, existe um mapeamento Φ tal que

κ(xi, xj) = Φ(xi)TΦ(xj), ∀xi, xj ∈ RD, (17)

em que torna-se poss´ıvel transformar cada vetor de dados xi em um espa¸co de atributos F de dimens˜ao elevada

(po-tencialmente infinita) como Φ(xi) e interpretar a Equa¸c˜ao

17 como um produto escalar usual.

Deve ser notado que somente a Equa¸c˜ao 16 ´e necess´aria tanto no treinamento quanto no teste. Embora n˜ao seja necess´ario calcular o vetor de pesos, os erros a priori ei, i ∈

{1, · · · N } e as entradas de treinamento xi, i ∈ {1, · · · N }

devem ser mantidas para as predi¸c˜oes.

Em [16] uma vers˜ao normalizada do algoritmo KLMS, chamada NKLMS, foi proposta atrav´es da modifica¸c˜ao da Equa¸c˜ao 16: ˆ yN = µ N −1 X i=1 ei κ(xi, xN) κ(xi, xi) , (18)

em que todos os parˆametros j´a foram definidos anterior-mente.

D. Algoritmo Adatron com Kernel (KA)

O Adatron ´e um algoritmo on-line para aprendiza-gem das redes perceptron, que foi desenvolvido por Biehl et. al. [17], e estabelece um procedimento que emula as m´aquinas de vetores suporte (Support Vector Machines - SVM) [18], mas que n˜ao necessita fazer uso de quais-quer t´ecnicas de programa¸c˜ao quadr´atica [9]. Escrevendo o Adatron em uma representa¸c˜ao dependente dos dados {(xi, yi)}Ni=1, obt´em-se o seguinte algoritmo:

1) Inicializar αi= 0 (multiplicadores de Lagrange).

2) Calcular zi= yi N X j=1 αjyjκ(xi, xj). (19) 3) Calcular γi= yizi.

4) Seja δαi= µ(1 − γi) a atualiza¸c˜ao proposta para

αi;

• Se (δαi+ αi) ≤ 0 ent˜ao αi= 0.

• Se (δαi+ αi) > 0 ent˜ao αi= αi+ δαi.

5) Se o n´umero m´aximo de apresenta¸c˜oes do con-junto de padr˜oes for excedido, ent˜ao parar. Caso contr´ario, retornar ao passo 2.

A estima¸c˜ao para uma nova entrada x∗pode ser escrita como: ˆ y∗= X i∈SV yiαoiκ(x ∗, x i), (20)

em que αoi ´e a solu¸c˜ao do algoritmo Adatron e SV repre-senta os ´ındices dos vetores suporte.

Por fim, ´e importante salientar que todos os algoritmos descritos neste artigo ser˜ao utilizados para treinar clas-sificadores lineares. Assim, os experimentos com KLMS, NKLMS e KA ser˜ao realizados com as vers˜oes lineares desses algoritmos, que fazem uso de uma fun¸c˜ao de kernel linear dada por κ(xi, xj) = xTi xj + C, em que C ´e uma

constante.

III. Resultados Experimentais e Discuss˜ao Os resultados experimentais foram separados em dois grupos: um com dados artificiais bidimensionais, para prova de conceito e para uma interpreta¸c˜ao gr´afica das regi˜oes de decis˜ao obtidas por cada classificador; e outro com quatro conjuntos da dados reais [19]: ´ıris (iris), coluna vertebral (vertebral column), diabetes (pima indians dia-betes) e cˆancer de mama (breast cancer ), a fim de verificar o efeito nas taxas de classifica¸c˜ao ap´os a adi¸c˜ao de outliers. O primeiro grupo de experimentos envolveu um con-junto de dados bidimensional com 60 amostras de duas classes (vermelha e azul), que s˜ao linearmente separ´aveis. Todas as amostras foram usadas no treinamento e um n´umero de outliers da classe azul foi gradualmente adi-cionado em cada experimento. Deve ser menadi-cionado que esses outliers foram propositalmente adicionados pr´oximos `

a regi˜ao originalmente associada `a classe vermelha, para verificar o comportamento das retas de decis˜ao dos classi-ficadores.

(4)

(a) 0 outliers. (b) 3 outliers.

(c) 6 outliers. (d) 9 outliers.

Fig. 1. Regi˜oes de decis˜ao com a adi¸c˜ao de outliers.

Todos os classificadores foram treinados durante 50 ´

epocas (reapresenta¸c˜oes dos dados de treinamento) e com passo de aprendizagem µ = 0.01, com a exce¸c˜ao dos algoritmos KLMS, NKLMS e KA, que foram aplicados com µ = 0.1. Nesses trˆes m´etodos a constante usada no kernel linear foi C = 0.5. No caso dos m´etodos LMM e NLMM, fixaram-se os seguintes parˆametros: λ = 0.98, Nw = 9 e

ξi= 1.96ˆσi, o ´ultimo correspondendo a uma probabilidade

de 0.01 de rejei¸c˜ao. Os valores dos parˆametros citados foram obtidos em simula¸c˜oes preliminares. As regi˜oes de decis˜ao obtidas para cada classificador s˜ao apresentadas na Figura 1.

Pode-se notar que com a adi¸c˜ao progressiva de outliers, todos os algoritmos foram influenciados com exce¸c˜ao do

LMM e do NLMM, derivados da teoria da estima¸c˜ ao-M robusta. Os demais m´etodos, n˜ao robustos, tentam inserir os dados discrepantes na regi˜ao de decis˜ao da classe azul, ignorando a possibilidade de n˜ao pertencerem `

a distribui¸c˜ao que gerou os dados originais.

No segundo grupo de experimentos, o conjunto iris foi preparado da seguinte forma: as classes virginica e versicolor foram rotuladas com +1 e −1, respectivamente. A partir dessas duas classes, 80% dos dados foram usados para o treinamento e 20% para o teste. Durante a fase de treinamento, algumas amostras da classe setosa foram adi-cionadas com r´otulo +1, sendo consideradas como outliers da classe virginica. As quantidades de outliers aplicadas foram 0%, 5%, 10%, 20% e 30% do n´umero original de

(5)

TABLE I. Taxas m´edias e desvios-padr˜oes obtidos na classifica¸c˜ao com os dados de teste, sem e com outliers no treinamento. Conjunto Iris 0% 5% 10% 20% 30% LMS 96.25 ± 3.72 88.95 ± 6.68 83.85 ± 7.81 75.10 ± 10.02 68.95 ± 10.88 NLMS 96.15 ± 3.75 93.50 ± 4.58 91.90 ± 6.02 83.75 ± 8.11 77.30 ± 9.86 LMM 95.85 ± 4.02 94.95 ± 4.17 94.90 ± 4.44 75.10 ± 9.61 69.05 ± 10.84 NLMM 95.70 ± 3.63 94.90 ± 4.38 94.80 ± 4.76 95.10 ± 4.14 77.10 ± 9.83 KLMS 89.80 ± 7.07 84.80 ± 8.22 79.35 ± 10.09 72.70 ± 11.58 66.10 ± 12.46 NKLMS 89.30 ± 7.04 86.15 ± 8.37 85.90 ± 8.33 82.20 ± 10.95 77.90 ± 12.66 KA 92.05 ± 5.13 89.30 ± 7.75 77.50 ± 10.36 67.45 ± 11.11 65.60 ± 9.30

Conjunto Coluna Vertebral

LMS 90.06 ± 4.85 89.52 ± 3.93 89.32 ± 4.32 84.22 ± 4.99 76.60 ± 7.14 NLMS 91.10 ± 3.86 90.90 ± 3.88 90.88 ± 3.85 85.92 ± 4.41 78.52 ± 5.93 LMM 91.90 ± 3.66 92.18 ± 3.27 92.16 ± 3.61 90.54 ± 3.61 82.02 ± 7.36 NLMM 91.32 ± 3.63 91.36 ± 3.65 92.02 ± 3.76 88.74 ± 3.98 80.32 ± 6.32 KLMS 85.32 ± 4.97 85.22 ± 5.17 83.78 ± 5.30 79.00 ± 5.37 68.52 ± 6.75 NKLMS 81.02 ± 5.13 81.78 ± 5.28 83.08 ± 5.03 80.30 ± 5.77 68.24 ± 6.88 KA 95.80 ± 2.66 92.98 ± 4.91 91.12 ± 5.59 85.06 ± 9.00 77.24 ± 9.55 Conjunto Diabetes LMS 76.63 ± 3.19 76.34 ± 3.28 75.50 ± 3.20 73.87 ± 4.48 68.67 ± 7.88 NLMS 77.27 ± 3.02 76.53 ± 3.11 75.98 ± 3.19 74.35 ± 3.55 69.73 ± 4.80 LMM 75.87 ± 5.23 76.57 ± 2.73 76.50 ± 3.07 75.07 ± 2.98 72.31 ± 4.26 NLMM 74.82 ± 5.39 76.39 ± 2.82 76.16 ± 3.32 74.72 ± 3.03 72.03 ± 3.83 KLMS 77.28 ± 2.97 76.69 ± 3.34 75.70 ± 3.16 74.59 ± 3.27 69.82 ± 4.08 NKLMS 76.20 ± 3.25 76.28 ± 3.36 75.22 ± 3.01 73.64 ± 3.23 68.47 ± 4.33 KA 73.76 ± 6.93 71.59 ± 9.36 70.25 ± 9.50 66.84 ± 12.37 60.52 ± 15.24

Conjunto Cˆancer de Mama

LMS 96.10 ± 1.74 96.42 ± 1.68 96.57 ± 1.59 94.77 ± 2.35 89.22 ± 4.39 NLMS 96.28 ± 1.69 96.63 ± 1.66 96.43 ± 1.72 94.36 ± 2.16 88.36 ± 3.45 LMM 93.16 ± 2.34 93.83 ± 1.91 94.46 ± 2.26 95.25 ± 2.23 94.28 ± 3.75 NLMM 94.63 ± 1.95 94.77 ± 2.03 95.46 ± 1.93 95.82 ± 1.86 94.05 ± 3.10 KLMS 93.05 ± 2.32 94.44 ± 1.74 95.74 ± 1.56 95.35 ± 1.85 88.95 ± 2.78 NKLMS 94.23 ± 1.89 95.69 ± 1.57 95.98 ± 1.69 93.54 ± 2.05 84.49 ± 3.63 KA 95.25 ± 3.91 84.22 ± 16.83 81.75 ± 18.89 73.19 ± 23.49 65.51 ± 23.47

amostras da classe virginica do conjunto de treinamento. Nesse e nos experimentos seguintes foram usados nos algoritmos os mesmos parˆametros descritos anteriormente, mas dessa vez durante 100 ´epocas de treinamento. As taxas m´edias de classifica¸c˜ao e desvios-padr˜oes obtidos com o conjunto de teste ap´os 100 ciclos de treinamento/teste est˜ao apresentados na Tabela I. Pode-se notar que nos ex-perimentos sem outliers, com exce¸c˜ao do KLMS, NKLMS e KA, todos os outros m´etodos obtiveram resultados sim-ilares. Entre 5% e 10%, o LMS e o NLMS foram afeta-dos com a adi¸c˜ao de outliers, enquanto LMM e NLMM (treinados com a fun¸c˜ao de estima¸c˜ao-M de Huber mod-ificada) praticamente n˜ao sofreram altera¸c˜oes. Com 20% de outliers, o LMM tamb´em foi penalizado, mas o NLMM manteve alta sua taxa m´edia de acerto. Com 30%, todos os algoritmos obtiveram baixos valores de precis˜ao. Mas neste caso ´e importante notar que, `a medida que o n´umero de outliers cresce, essas amostras talvez n˜ao possam mais ser consideradas outliers, mas exemplos normais de treina-mento.

O conjunto de dados coluna vertebral foi considerado como um problema bin´ario, uma vez em que foram removi-das as amostras da classe h´ernia de disco e considerados somente os exemplos das classes normal e espondilolistese. Ao longo dos experimentos, 80% dos dados foram usados no treinamento e 20% no teste. A adi¸c˜ao de outliers foi realizada atrav´es da troca de r´otulos: uma por¸c˜ao (0%, 5%, 10%, 20% e 30%) das amostras de treinamento da classe espondilolistese teve seus r´otulos alterados para a classe normal. Os resultados est˜ao apresentados na Tabela I, em que ´e poss´ıvel notar que at´e 10% de contamina¸c˜ao de outliers, os resultados obtidos com LMS, NLMS, LMM, NLMM e KA foram compar´aveis. A partir de 20%, os

m´etodos NLMM e especialmente o LMM foram menos afetados com a presen¸ca de outliers.

A metodologia usada para os conjuntos diabetes e cˆancer de mama foi similar `a usada para os dados da coluna vertebral, sendo que dessa vez os outliers consistiram de exemplos da classe negativa (ausˆencia da doen¸ca) que tiveram seus r´otulos modificados para a classe positiva (presen¸ca da doen¸ca). Os resultados tamb´em est˜ao apre-sentados na Tabela I.

Para ambos os conjuntos de dados, os m´etodos LMM e NLMM, utilizando fun¸c˜ao de estima¸c˜ao-M biquadrada, foram capazes de mitigar o problema da presen¸ca de outliers mesmo em grandes quantidades (30%), enquanto para esses cen´arios os outros m´etodos come¸cam a degradar seus processos de aprendizagem.

Por fim, ressalta-se que, em muitos experimentos, quando os algoritmos baseados em kernel (KLMS, NKLMS e KA) foram comparados com o LMM e o NLMM, ou mesmo com o LMS e o NLMS, n˜ao obtiveram bons resul-tados. Uma poss´ıvel explica¸c˜ao para o KLMS e NKLMS pode ser a escolha de um kernel linear, uma vez que esses m´etodos foram originalmente propostos principalmente para aplica¸c˜oes n˜ao lineares com kernel gaussiano ou polinomial [8], [16]. No caso do KA, por ser um algoritmo que busca maximizar a separa¸c˜ao entre as classes, a adi¸c˜ao de outliers no treinamento provoca grande influˆencia na sua capacidade de generaliza¸c˜ao, como foi poss´ıvel observar em todos os conjuntos de dados avaliados.

IV. Conclus˜ao

No presente artigo foram aplicados diversos algoritmos recursivos para obter diferentes classificadores lineares.

(6)

Os m´etodos foram avaliados em tarefas de classifica¸c˜ao bin´aria com outliers adicionados aos dados de treinamento, para verificar a robustez dos mesmos. Para os conjuntos de dados utilizados, o LMM, e principalmente o NLMM, obtiveram, em geral, desempenho superior em rela¸c˜ao `as outras t´ecnicas quando o n´umero de outliers foi incremen-tado.

Os resultados obtidos indicam a viabilidade da apli-ca¸c˜ao em classifica¸c˜ao de padr˜oes robusta de algoritmos normalmente relacionados a problemas de filtragem e re-gress˜ao. Por fim, ´e importante ressaltar que, ap´os extensa pesquisa bibliogr´afica, acreditamos que esta ´e a primeira vez que os m´etodos LMM, NLMM, KLMS, NKLMS e KA s˜ao aplicados em problemas de classifica¸c˜ao na presen¸ca de outliers.

Em trabalhos futuros, pretende-se aplicar o conceito explorado neste artigo para adicionar robustez em m´etodos n˜ao lineares com passos lineares, tais como as m´aquinas de aprendizagem extrema (Extreme Learning Machine -ELM)[20].

Agradecimentos

Os autores gostariam de agradecer a FUNCAP (Fun-da¸c˜ao Cearense de Apoio ao Desenvolvimento Cient´ıfico e Tecnol´ogico) e ao NUTEC (N´ucleo de Tecnologia Indus-trial do Cear´a) pelo apoio financeiro.

References

[1] B. Hassibi, A. H. Sayed, and T. Kailath, “H∞ optimality of

the lms algorithm,” Signal Processing, IEEE Transactions on, vol. 44, no. 2, pp. 267–280, 1996.

[2] P. Bolzern, P. Colaneri, and G. De Nicolao, “H∞-robustness

of adaptive filters against measurement noise and parameter drift,” Automatica, vol. 35, no. 9, pp. 1509–1520, 1999. [3] B. Widrow, “Thinking about thinking: the discovery of the lms

algorithm,” Signal Processing Magazine, IEEE, vol. 22, no. 1, pp. 100–106, 2005.

[4] T. Poggio and F. Girosi, “Networks for approximation and learning,” Proceedings of the IEEE, vol. 78, no. 9, pp. 1481– 1497, 1990.

[5] G.-B. Huang, D. H. Wang, and Y. Lan, “Extreme learning machines: a survey,” International Journal of Machine Learning and Cybernetics, vol. 2, no. 2, pp. 107–122, 2011.

[6] H. Jaeger and H. Haas, “Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication,” Science, vol. 304, no. 5667, pp. 78–80, 2004.

[7] S. Chan and Y. Zhou, “On the performance analysis of the least mean m-estimate and normalized least mean m-estimate algorithms with gaussian inputs and additive gaussian and contaminated gaussian noises,” Journal of Signal Processing Systems, vol. 60, no. 1, pp. 81–103, 2010.

[8] W. Liu, P. P. Pokharel, and J. C. Principe, “The kernel least-mean-square algorithm,” Signal Processing, IEEE Transactions on, vol. 56, no. 2, pp. 543–554, 2008.

[9] T. T. Friess, N. Cristianini, and C. Campbell, “The kernel adatron algorithm: A fast and simple learning procedure for support vector machines,” in 15th International Conference of Machine Learning, 1998.

[10] B. Widrow and R. Winter, “Neural nets for adaptive filtering and adaptive pattern recognition,” Computer, vol. 21, no. 3, pp. 25–39, 1988.

[11] P. S. R. Diniz, Adaptive filtering: algorithms and practical implementation. Springer, 2013.

[12] Y. Zou, S.-C. Chan, and T.-S. Ng, “Least mean m-estimate al-gorithms for robust adaptive filtering in impulse noise,” Circuits and Systems II: Analog and Digital Signal Processing, IEEE Transactions on, vol. 47, no. 12, pp. 1564–1569, 2000. [13] P. J. Huber, “Robust estimation of a location parameter,” The

Annals of Mathematical Statistics, vol. 35, no. 1, pp. 73–101, 1964.

[14] A. L. B. de Paula Barros and G. A. Barreto, “Improving the classification performance of optimal linear associative memory in the presence of outliers,” in Advances in Computational Intelligence. Springer, 2013, pp. 622–632.

[15] N. Aronszajn, “Theory of reproducing kernels,” Trans. Amer. Math. Soc., vol. 68, pp. 337–404, 1950.

[16] H. Modaghegh, R. Khosravi, S. A. Manesh, H. S. Yazdi et al., “A new modeling algorithm-normalized kernel least mean square,” in Innovations in Information Technology, 2009. IIT’09. International Conference on. IEEE, 2009, pp. 120–124. [17] J. K. Anlauf and M. Biehl, “The adatron: an adaptative per-ceptron algorithm,” Europhysics Letters, vol. 10, no. 7, pp. 687– 692, 1989.

[18] V. Vapnik, Statistical Learning Theory. John Wiley, 1998. [19] K. Bache and M. Lichman, “UCI machine learning repository,”

2014, available at http://archive.ics.uci.edu/ml.

[20] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: theory and applications,” Neurocomputing, vol. 70, no. 1, pp. 489–501, 2006.

Referências

Documentos relacionados

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

» Scooter que são usadas em regiões litorâneas devem ter mais cuidados com a limpeza, manutenção e lubrificação afim de melhor proteção a scooter e suas partes, uma vez que

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Na canção Bom Conselho, de Chico Buarque de Holanda, percebemos que a progressão dos polos relacionados ao próprio título da letra não seria possível se não fossem observadas essas

Os resultados obtidos no presente estudo demonstram que o tratamento crônico com Rosmarinus officinalis na dose de 400mg/kg por v.o, apresentou possível efeito

procura demonstrar, ao mesmo tempo em que faz um balanço do mundo contemporâneo, a situação em que se encontra grande parte dos Estudos Culturais, ou seja, não só trivializando

No que se refere aos indicadores da Escala NIPS e sua associação com a ocorrência de dor, notou-se, conforme a tabela 2, que referente à expressão facial dos

Como as medidas de campo são relativas ao coeficiente de permeabilidade horizontal, foram considerados na determinação de Ch misto os resultados dos ensaios de