• Nenhum resultado encontrado

5.5 Avalia¸c˜ao do Desempenho com Curvas ROC

5.5.1 Defini¸c˜ao dos Limiares de Classifica¸c˜ao

Como j´a citado anteriormente, uma importante propriedade das curvas ROC, quando utilizadas como medida de desempenho de algoritmos de aprendizagem de m´aquina, ´e independˆencia dos limiares de classifica¸c˜ao estabelecidos para sua constru¸c˜ao. Para cada um dos m´etodos utilizados nos experimentos descritos na pr´oxima se¸c˜ao, foi escolhido um limiar obedecendo as peculiaridades das regras de decis˜ao de cada um deles. Os m´etodos foram o K-NN, o SGP1, o SGP2, o SNPC e o modelo h´ıbrido SGP+SNPC.

Para o K-NN o limiar de decis˜ao L foi estabelecido em fun¸c˜ao da quantidade de elementos positivos dentre os K vizinhos mais pr´oximos. Para cada padr˜ao de teste, os K elementos do conjunto de treinamento mais pr´oximos ao padr˜ao s˜ao encontrados. Se a quantidade de vizinhos positivos for maior ou igual ao limiar L, com L = [0, 1, 2, ..., K+1], o padr˜ao de teste ´e classificado como positivo.

A regra de classifica¸c˜ao do SGP2 ´e mesma do SGP1. Dentre todos os prot´otipos do classificador, o mais pr´oximo do elemento de teste estabelece a classe deste. Esta regra difere da regra do K-NN pelo fato de que, aqui, apenas um prot´otipo ´e respons´avel pela classifica¸c˜ao do padr˜ao. Logo, um outro limiar foi estabelecido para estes dois algoritmos. Para cada elemento do conjunto de teste, s˜ao computadas trˆes medidas de distˆancia. A primeira, representada por dmax, ´e a distˆancia do padr˜ao de teste ao prot´otipo do

classificador posicionado mais afastado. A segunda distˆancia (dmin) ´e a distˆancia do

ponto a ser classificado ao prot´otipo mais pr´oximo. A terceira, identificada por dpmp,

registra a distˆancia do padr˜ao de teste ao prot´otipo da classe positiva mais pr´oximo deste ponto. A distˆancia dr, que ser´a comparada com limiar de classifica¸c˜ao para gera¸c˜ao da

curva ROC, ser´a a medida padronizada de dpmp por dmin e dmax, segundo a equa¸c˜ao

abaixo.

dr = dpmp− dmin

dmax− dmin

5.6 RESULTADOS EXPERIMENTAIS 55 Desta forma, as distˆancias de classifica¸c˜ao ficam obrigatoriamente no intervalo [0..1]. O limiar de classifica¸c˜ao T varia assumindo os valores do conjunto {0; 0,1; 0,2; ...; 1} e os pontos cujo dr for menor que T s˜ao classificados como positivos. Assim, para T=0 tem-se

que nenhum ponto ´e classificado como positivo. A situa¸c˜ao extrema contr´aria ocorre quando T=1 em que todos os pontos s˜ao classificados como positivos. Os outros valores que T assume promovem a varia¸c˜ao de limiar requerida para a constru¸c˜ao da curva ROC. A escolha do limiar de classifica¸c˜ao para o SNPC foi a mais ´obvia tendo em vista a sua regra de classifica¸c˜ao. A id´eia foi utilizar o mesmo limiar T do SPG. Contudo, sua semˆantica do limiar foi estabelecida de forma contr´aria. A regra de classifica¸c˜ao do SNPC descrita na Se¸c˜ao 2.6 ´e definida pela Equa¸c˜ao 2.16. Uma ligeira adapta¸c˜ao desta equa¸c˜ao com o estabelecimento de um limiar para constru¸c˜ao da curva ROC gerou a regra de classifica¸c˜ao apresentada a seguir. O padr˜ao x do conjunto de teste ser´a classificado como positivo se:

X

{j:cj=cp}

P (j|x) > T (5.10) sabendo que cp representa a classe positiva. Esta equa¸c˜ao mostra que a curva ROC

´e constru´ıda com o limiar sendo aplicado `a soma das probabilidades dos prot´otipos da classe positiva em rela¸c˜ao ao ponto a ser classificado. Esta estrat´egia para estabelecimento do limiar funciona visto que o valor de P{j:cj=cp}P (j|x) estar´a sempre normalizado no

intervalo [0..1]. Assim, quando T=0, ao contr´ario do SGP, todos os elementos do conjunto de treinamento ser˜ao classificados como positivos. Quando T for 1, nenhum elemento ser´a classificado como positivo. A varia¸c˜ao de T promove a gera¸c˜ao dos pontos da curva ROC. O modelo h´ıbrido SGP+SNPC utiliza o mesmo limiar estabelecido para o SNPC, visto que a sua regra de classifica¸c˜ao foi herdada do SNPC.

5.6 RESULTADOS EXPERIMENTAIS

A primeira etapa dos experimentos foi a busca pelos hiperparˆametros dos m´etodos. Para isto, estima¸c˜ao por valida¸c˜ao cruzada com 10 pastas foi realizada em um subconjunto de 4000 imagens da base de dados. Estas imagens foram escolhidas aleatoriamente. Contudo, as probabilidades a priori das classes foram respeitadas. As combina¸c˜oes param´etricas que obtiveram as melhores taxas de acerto foram selecionadas e utilizadas deste ponto em diante em todos os experimentos.

Os parˆametros do SGP, Rmin e Rmis, foram testados com valores entre 0 e 1. Os

5.6 RESULTADOS EXPERIMENTAIS 56 Tabela 5.3 Hiperparˆametros do SGP1 e do SGP2 Rmin Rmis SGP1 0,020 0,075 SGP2 0,020 0,075 Tabela 5.4 Hiperparˆametros do SNPC ζ α σ η SNPC 7 0,050 1,000 0,030

o desvio-padr˜ao σ das curvas gaussianas e o limiar da Regra da Janela η [SBO03]. ζ foi escolhido dentro do intervalo [3, 15]. α foi testado utilizando valores entre 0,01 e 0,20.

σ e η foram variados no intervalo [0,01; 0,50]. Para o K-NN, experimentos realizados

sobre esta base de 4000 padr˜oes apontaram para K = 7 como a melhor escolha. O modelo h´ıbrido SGP+SNPC herdou os hiperparˆametros do SGP. Os mesmos conjuntos de parˆametros testados com o SNPC foram utilizados para se obter os hiperparˆametros para parte SNPC do modelo h´ıbrido. No caso do modelo h´ıbrido, o conjunto inicial de prot´otipos ´e fornecido pelo SGP. Logo, para o modelo SGP+SNPC o parˆametro ζ do SNPC n˜ao foi considerado. Outro parˆametro do SNPC que n˜ao faz parte do conjunto de parˆametros do modelo h´ıbrido ´e o desvio-padr˜ao σ. Como mostrado na Se¸c˜ao 3.2, este parˆametros ´e calculado para cada agrupamento formado pelo SGP na etapa de inicializa¸c˜ao com base nos seus respectivos dados.

As Tabelas 5.3, 5.4 e 5.5 mostram os hiperparˆametros do SGP1, SGP2, SNPC e SGP+SNPC, respectivamente.

Ap´os esta etapa, a base na ´ıntegra foi utilizada na obten¸c˜ao dos n´umeros finais do estudo experimental. Mais uma vez, valida¸c˜ao cruzada com 10 pastas foi utilizada para estimar as taxas de erro de classifica¸c˜ao. A valida¸c˜ao cruzada e todas as outras opera¸c˜oes que por ventura realizaram quebra ou sele¸c˜ao dos conjuntos de dados foram realizadas de forma estratificada.

Tabela 5.5 Hiperparˆametros do Modelo H´ıbrido (SGP+SNPC)

Rmin Rmis α η

5.6 RESULTADOS EXPERIMENTAIS 57 As mesmas estrat´egias utilizadas nos experimentos descritos no Cap´ıtulo 4 foram aplicadas aqui. As Tabelas 5.6 e 5.7 mostram os mesmos indicadores de performance utilizados anteriormente. Na primeira tabela est˜ao dispostos as m´edias das taxas de erros de classifica¸c˜ao obtidas atrav´es de valida¸c˜ao cruzadas de 10 pastas e os desvios- padr˜ao associados. Menores valores para os erros aparecem nesta tabela em negrito. Os segundos melhores foram sublinhados para facilitar a identifica¸c˜ao. Nota-se que o SGP+SNPC alcan¸cou os menores erros de classifica¸c˜ao em oito das nove bases de d´ıgitos montadas. Pode-se afirmar que o modelo h´ıbrido foi melhor independente do grau de desbalanceamento da bases deste problema. Observando a ´ultima linha, a qual disp˜oe as m´edias globais dos m´etodos, pode-se comprovar o melhor desempenho do modelo h´ıbrido. O SGP+SNPC obteve uma taxa de erro de classifica¸c˜ao de 2,18%. Isto equivale a aproximadamente 10% de redu¸c˜ao da taxa de erro quando comparado ao segundo melhor m´etodo neste crit´erio, que foi o SNPC, e que alcan¸cou uma taxa de erro de classifica¸c˜ao de 2,39%.

Tabela 5.6 Taxas de Erro de Classifica¸c˜ao na Base de D´ıgitos

k-NN SGP1 SGP2 SNPC SGP+SNPC M´edia 0 3, 73 ± 0, 72 3, 98 ± 0, 90 3, 80 ± 1, 02 3, 30 ± 0, 92 2,83 ± 0, 73 3,53 10 3, 60 ± 1, 04 3, 47 ± 0, 95 3, 63 ± 0, 80 3, 12 ± 0, 75 2,78 ± 0, 90 3,32 20 3, 38 ± 0, 64 3, 50 ± 1, 01 3, 35 ± 1, 11 2, 93 ± 0, 54 2,50 ± 0, 67 3,13 30 2, 60 ± 1, 02 2, 73 ± 1, 20 2, 73 ± 1, 20 2, 10 ± 0, 81 2,02 ± 1, 01 2,44 40 3, 30 ± 0, 82 3, 48 ± 1, 06 3, 55 ± 1, 09 2, 80 ± 0, 86 2,45 ± 0, 77 3,09 50 2, 62 ± 1, 08 3, 02 ± 0, 99 2, 87 ± 0, 95 2, 45 ± 0, 97 2,28 ± 0, 82 2,65 60 2, 25 ± 0, 82 2, 02 ± 0, 63 2, 02 ± 0, 63 1,85 ± 0, 68 2, 08 ± 0, 88 2,04 70 1, 92 ± 0, 50 1, 90 ± 0, 50 1, 90 ± 0, 50 1, 80 ± 0, 37 1,55 ± 0, 47 1,81 80 1, 30 ± 0, 63 1, 45 ± 0, 77 1, 45 ± 0, 77 1, 15 ± 0, 56 1,12 ± 0, 57 1,29 X 2,74 2,84 2,81 2,39 2,18

A Tabela 5.7 exibe a quantidade de prot´otipos que foi obtida ou estipulada para cada um dos m´etodos. No caso do K-NN, n˜ao h´a treinamento e conseq¨uentemente n˜ao h´a redu¸c˜ao e todos os elementos do conjunto de treinamento podem ser considerados prot´otipos. Para o SNPC, a quantidade de prot´otipos ´e um dos hiperparˆametros e, como mostrado anteriormente, foi definida nos testes preliminares, assim como os outros hiperparˆametros. Note que junto com o SGP2, o SGP+SNPC obteve o maior percentual de redu¸c˜ao sem abrir m˜ao das boas taxas de acerto do padr˜oes n˜ao segmentados. Como era de se esperar, o modelo h´ıbrido sempre apresenta a mesma quantidade de prot´otipos

5.6 RESULTADOS EXPERIMENTAIS 58

Tabela 5.7 Quantidade de prot´otipos gerados para cada base de d´ıgitos.

k-NN SGP1 SGP2 SNPC SGP+SNPC 0 3600 21 10 14 10 10 3600 20 10 14 10 20 3600 14 6 14 6 30 3600 9 7 14 7 40 3600 8 5 14 5 50 3600 7 4 14 4 60 3600 2 2 14 2 70 3600 2 2 14 2 80 3600 2 2 14 2

do SGP2. Afinal, no modelo h´ıbrido, ´e o SGP2 que fornece o conjunto inicial de prot´otipos e este n˜ao sofre mais redu¸c˜ao nos pr´oximos passos do seu treinamento.

Para se ter uma vis˜ao geral do desempenho dos m´etodos quando submetidos as bases desbalanceadas deste trabalho, ´e suficiente observar a Figura 5.7. Esta figura apresenta a taxa de erro de classifica¸c˜ao em fun¸c˜ao do grau de desbalanceamento da base utilizada. ´E f´acil perceber que o modelo proposto esteve com sua curva de erro de classifica¸c˜ao quase sempre abaixo das curvas dos outros m´etodos. A exce¸c˜ao, como citado anteriormente, ocorreu apenas no ponto 60 do eixos das abscissas. Este ponto corresponde a taxa de erro dos experimentos com a base desbalanceada formada por 80% de imagens de d´ıgitos isolados e 20% de d´ıgitos conectados.

Outro ponto interessante a ser observado na Figura 5.7, ´e a diminui¸c˜ao da taxa de erro com o aumento do desbalanceamento. Como est´a mostrado na Tabela 5.1, o desbalan- ceamento das bases foi promovido pelo aumento da quantidade de imagens com d´ıgitos isolados e a diminui¸c˜ao da quantidade de imagens com d´ıgitos conectados. Desta forma, pode-se concluir que o conjunto de caracter´ısticas adotado para o problema conseguiu uma representa¸c˜ao coesa das imagens dos d´ıgitos isolados formando agrupamentos com poucos elementos dispersos. Contudo, este conjunto de caracter´ısticas foi menos eficiente na constru¸c˜ao dos agrupamentos das imagens com d´ıgitos conectados. Como resultado, foram gerados agrupamentos menos compactos e com uma presen¸ca maior de outliers1.

Por fim, v´arias curvas ROC s˜ao exibidas provendo uma outra forma visual de comparar os m´etodos. Quanto maior a ´area sob a curva ROC, melhor o desempenho do m´etodo.

1Em Estat´ıstica, outlier ´e uma observa¸c˜ao que est´a numericamente distante dos outros pontos do

conjunto de dados. ´E um elemento que est´a fora dos padr˜oes da distribui¸c˜ao dos dados da classe que ele faz parte.

5.6 RESULTADOS EXPERIMENTAIS 59 0 10 20 30 40 50 60 70 80 1 1.5 2 2.5 3 3.5 4 KNN SGP1 SGP2 SNPC SGP+SNPC Nível de Desbalanceamento T axadeErro

Figura 5.7 Desempenho dos m´etodos em fun¸c˜ao do grau do desbalanceamento das classes.

Em um classificador hipot´etico perfeito, esta ´area seria igual a 1.

Para a constru¸c˜ao das curvas ROC foram estimadas as m´edias das taxas de falsos e verdadeiros positivos utilizando valida¸c˜ao cruzada. Ou seja, para cada pasta da valida¸c˜ao cruzada, os respectivos limiares eram variados obtendo-se os pontos da curva ROC da- quela itera¸c˜ao. As m´edias considerando as 10 itera¸c˜oes da valida¸c˜ao cruzada, deram n´umeros finais aos pontos que compuseram as curvas ROC.

As Figuras 5.8(a), 5.9(a), 5.10(a), 5.11(a), 5.12(a), 5.13(a) mostram as curvas ROC de todos os m´etodos para os experimentos realizados com a base balanceada e com as bases apresentando 40% e 80% de desbalanceamento. Confirmando os resultados dispostos na Tabela 5.6, no crit´erio de avalia¸c˜ao da curva ROC, nota-se que os m´etodos obtiveram desempenhos bem aproximados. Para real¸car as diferen¸cas, foram ampliadas as ´areas de interesse das curvas ROC desta figuras e colocadas ao lado. Analisando as Figuras5.8(b), 5.9(b), 5.10(b), 5.11(b), 5.12(b), 5.13(b), ´e poss´ıvel ver que que o modelo SGP+SNPC, mesmo que de forma mais discreta, esteve melhor que os demais m´etodos estudados neste trabalho, visto que as curvas ROC deste modelo sempre apresentam-se acima das demais. A confirma¸c˜ao pode ser obtida observando a Tabela 5.8 que mostra os valores das ´area abaixo das curvas ROC obtidas pelos m´etodos estudados. Este valor corresponde a m´edia da ´area sob a curva ROC estimada via valida¸c˜ao cruzadas. O SGP+SNPC alcan¸cou o valor 0,9925 sendo o melhor entre todos os outros m´etodos.

5.6 RESULTADOS EXPERIMENTAIS 60

Tabela 5.8 ´Area sob a curva ROC calculada para base de 14000 d´ıgitos com classes balance- adas. k-NN SGP1 SGP2 SNPC SGP+SNPC 0 0,9723 0,9754 0,9779 0,9815 0,9925 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 KNN SGP1 SGP2 (a) Normal. 0 0.02 0.04 0.06 0.08 0.1 0.12 0.88 0.9 0.92 0.94 0.96 0.98 1 KNN SGP1 SGP2 (b) Ampliada.

Figura 5.8 Curva ROC do K-NN, SGP1 e SGP2 para a base com as classes balanceadas.

0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 SNPC SGP+SNPC (a) Normal. 0 0.02 0.04 0.06 0.08 0.1 0.12 0.88 0.9 0.92 0.94 0.96 0.98 SNPC SGP+SNPC (b) Ampliada.

Figura 5.9 Curva ROC do SNPC e da combina¸c˜ao SGP+SNPC para a base com as classes balanceadas.

5.6 RESULTADOS EXPERIMENTAIS 61 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 KNN SGP1 SGP2 (a) Normal. 0 0.02 0.04 0.06 0.08 0.1 0.12 0.88 0.9 0.92 0.94 0.96 0.98 1 KNN SGP1 SGP2 (b) Ampliada.

Figura 5.10 Curva ROC do K-NN, SGP1 e SGP2 para a base com 30% de exemplos positivos.

0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 SNPC SGP+SNPC (a) Normal. 0 0.02 0.04 0.06 0.08 0.1 0.12 0.88 0.9 0.92 0.94 0.96 0.98 1 SNPC SGP+SNPC (b) Ampliada.

Figura 5.11 Curva ROC do SNPC e da combina¸c˜ao SGP+SNPC para a base com 30% de exemplos positivos.

5.6 RESULTADOS EXPERIMENTAIS 62 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 KNN SGP1 SGP2 (a) Normal. 0 0.05 0.1 0.15 0.2 0.25 0.75 0.8 0.85 0.9 0.95 1 KNN SGP1 SGP2 (b) Ampliada.

Figura 5.12 Curva ROC do K-NN, SGP1 e SGP2 para a base com 10% de exemplos positivos.

0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 SNPC SGP+SNPC (a) Normal. 0 0.05 0.1 0.15 0.2 0.25 0.75 0.8 0.85 0.9 0.95 1 SNPC SGP+SNPC (b) Ampliada.

Figura 5.13 Curva ROC do SNPC e da combina¸c˜ao SGP+SNPC para a base com 10% de exemplos positivos..

CAP´ITULO 6

CONCLUS ˜OES

6.1 INTRODUC¸ ˜AO

O objetivo deste trabalho foi concentrado na investiga¸c˜ao de t´ecnicas de aprendizagem de m´aquina baseadas em sele¸c˜ao de prot´otipos. A estrat´egia utilizada foi a de realizar uma an´alise de alguns dos m´etodos mais conhecidos deste campo de estudo. Inicialmente, algumas t´ecnicas cl´assicas de sele¸c˜ao de prot´otipos foram exploradas e avaliadas quanto `a estrat´egia de sele¸c˜ao e o desempenho diante de problemas considerados benchmarks de aprendizagem de m´aquina. O prop´osito foi prover um detalhado estudo que evidenciasse as principais virtudes e pontos a serem melhorados de cada um dos esquemas de redu¸c˜ao de prot´otipos analisados.

Os m´etodos aqui apresentados podem ser agrupados em duas diferentes categorias: os m´etodos puramente seletivos e os m´etodos de s´ıntese. Os m´etodos seletivos ou “pura- mente” seletivos s˜ao aqueles em que o conjunto resultante ´e formado apenas por elementos do conjunto original de treinamento. Por outro lado, as t´ecnicas de s´ıntese s˜ao aquelas em que novos elementos s˜ao produzidos com o objetivo de representar grupos de elementos dos conjuntos de dados de treinamento. Em resumo, os m´etodos seletivos escolhem seus prot´otipos dentre os elementos do conjunto de treinamento enquanto que os m´etodos de s´ıntese produzem seus novos prot´otipos. Na categoria dos m´etodos puramente seletivos foram avaliadas as t´ecnicas Condensed Nearest Neighbor Rule (CNN), Tomek Links e

One-Sided Selection (OSS). Do lado dos m´etodos de s´ıntese foram explorados o m´etodo

cl´assico de aprendizagem por quantiza¸c˜ao vetorial de Kohonen, o LVQ, e dois outros m´etodos bastante inovadores e sobre os quais ficou estabelecido o foco deste trabalho: o

Soft Nearest Prototype Classification (SNPC) e o Self-Generating Prototypes (SGP).

Documentos relacionados