Aplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral

(1)

Aplicação de Ensembles de Classificadores na Detecção de

Patologias na Coluna Vertebral

Hedenir M. Pinheiro

Instituto de Informática – Universidade Federal de Goiás (UFG) Caixa Postal 131 – 74001-970 – Goiânia – GO – Brazil

hedenir@gmail.com

Abstract. This paper presents a methodology for identifying pathologies of the

vertebral column by using ensembles of classifiers KNN, LDA and SVM to improve the precision of the diagnosis.

Resumo. Este trabalho apresenta uma metodologia para identificação de patologias na coluna vertebral por meio da utilização em comitê dos classificadores KNN, LDA e SVN a fim de aumentar a precisão no diagnóstico.

Keywords— Vertebral column, ensembles of classifiers, diagnosis.

1. Introdução

Técnicas de aprendizado de máquina (AM) e reconhecimento de padrões (RP) têm se mostrado eficientes em fornecer soluções empíricas para problemas de classificação, sejam eles de natureza linear ou não linear. Esses algoritmos são capazes de construir fronteiras de decisão acerca da distribuição de dados de treinamento e possibilitam com base nessas fronteiras classificar novos dados de entrada [Webb 2003].

A aplicação de algoritmos de RP em conjunto podem produzir fronteiras de decisão ainda mais adequadas, combinando os pontos fortes e suprimindo as fraquezas de cada algoritmo. Assim, o objetivo desse trabalho é propor uma abordagem que aplica técnicas de ensemble (utilização combinada de um comitê de classificadores) para aprimorar o diagnóstico de patologias na coluna vertebral.

Classificadores fracos (com pouco poder de generalização) como KNN e LDA podem ter seu desempenho sensivelmente melhorado quando utilizados na forma de comitê sobre uma massa de dados [Schapire 1990]. Faremos então um comparativo dos resultados do KNN, LDA e SVM aplicados isoladamente, e posteriormente do KNN e LDA aplicados em conjunto sobre uma base com dados de 310 pacientes, sendo 210 com problemas na coluna vertebral e 100 pacientes normais, isto é, sem alterações em seus exames.

Na próxima sessão aplica-se inicialmente os algoritmos KNN, LDA e SVM a fim de verificar sua acurácia em separado. Posteriormente aplica-se o KNN e LDA na forma de comitês homogêneos a fim de verificar se houve diminuição da taxa de erros de classificação, e consequentemente aprimoramento nas taxas de acerto. Por fim tabulamos os resultados e apontamos qual técnica se mostra mais promissora.

(2)

2. Metodologia

Utiliza-se nesse trabalho a Statistics Toolbox fornecida pelo MatLab R2014a para implementar e testar o esquema de classificação dos algoritmos de reconhecimento de padrões, a saber: KNN, LDA (singular e em comitê) e SVM singular.

2.1 Aprendizado com o KNN

O KNN (k-nearest neighbor) trabalha classificando os dados de teste encontrando os K vizinhos mais próximos a ele e escolhendo por votação majoritária a classe que possuir maior quantidade de vizinhos [Cover and Hart 1967].

Para fazer uso do KNN inicialmente busca-se encontrar a quantidade K (de vizinhos) que demonstre ser mais adequada para o problema, isto é, com a menor taxa de erros. Verificou-se então, por meio de um teste exaustivo que o K mais adequado para o problema é K=7, conforme gráfico da figura 1.

Figura 1: Gráfico do K com menor erro de classificação.

Apurou-se então o erro de classificação do KNN individual sobre toda a base de dados como conjunto de dados de treino e de teste, e com cross validation e kfold=10, conforme tabela 1.

2.2 Aprendizado com o LDA

A análise discriminante linear (linear discriminant analyse - LDA) procura determinar uma função linear de classificação, por meio da média, covariância e distância (euclidiana, mahalanobis etc.) de forma que os dados de teste sejam classificados maximizando a probabilidade de pertencerem a determinada classe [Lachenbruch 1975]. Utiliza-se nesse trabalho como parâmetro para a função fitcdiscr o tipo discriminante linear, com e sem CrossValidation com Kfold=10. Conforme tabela 2.

(3)

2.3 Aprendizado com o SVN

O suport verctor machine (SVM) é uma técnica de regressão e classificação proposta por Vapnik e seu grupo nos laboratórios da AT&T [1]. O SVM visa encontrar um hiperplano de separação que maximize as margens para os vetores de suporte e que possua uma boa capacidade de generalização [Cortes and Vapnik 1995].

Utiliza-se nesse trabalho o SVM com a função gaussiana (ou radial basis function - RBF) como KernelFunction (função Kernel) e com dados padronizados. Com toda a base para dados de treino e teste na primeira análise e com CrossValitadion (Kfold=10) na segunda análise. Conforme tabela 3.

2.4 Técnicas de ensemble

Um ensemble de classificadores (comitês de classificadores) consistem em uma coleção de vários classificadores cujas decisões individuais são combinadas de determinada maneira a fim de melhor classificar os exemplos de teste. Essa abordagem equivale a se levar em consideração a “opinião” de mais de um especialista. Existem diversas técnicas de ensemblem, entre elas se destacam: Baggin, Boosting, Adaboosting, Stacking [Polikar 2006].

Utilizamos nesse trabalho dois comitês homogêneos um com 50 KNN’s e outro com 50 LDA’s.

I – Criação do ensemble KNN:

Para criar o ensemble KNN deve-se definir inicialmente qual o número de subespaços mais adequado. Analisando o gráfico da figura 2 vemos que S=5 é a quantidade de subespaços que produz a menor taxa de erro.

(4)

A seguir escolhe-se o tamanho do ensemble, acrescentando algoritmos ao ensemble até que não haja mais diminuição no erro de classificação. Analisando a figura 3 percebe-se que 30 classificadores demonstra ser a quantidade de classificadores ótima, isto é, com o menor erro de classificação; entretanto como margem de segurança definimos o ensemble com 50 classificadores.

Figura 3: Gráfico do erro de classificação em função da quantidade de ensembles KNN.

Por fim criamos um ensemble KNN a partir da massa de dados com as características que minimizavam o erro de classificação. Os resultados estão demonstrados na tabela 4.

II - Para criar o ensemble LDA utilizou-se a função MatLab fitensemble fornecida pela Statistics Toolbox. Os parâmetros fornecidos foram: método de ensemble ‘Bag’ por se tratar de apenas duas classes (se fossem mais classes o método deveria ser AdaBoostM2), quantidade de classificadores 50 e weak learner ‘discriminant’. Os resultados alcançados estão na tabela 5.

2.5 A utilização do Bagging

O parâmetro ‘subspace’ se adequa melhor ao KNN e à árvores de decisão. Por isso, para o LDA, a melhor técnica de fracionamento dos dados é o ‘Bag’, uma vez que com esse parâmetro o classificador se mostrou consideravelmente mais preciso.

3. Resultados

As tabelas de 1 a 5 apresentam os resultados para os algoritmos mencionados:

Tabela 1. Percentual de erros na classificação do KNN (K=7) individual

Passo Descrição Erro de Classificação

(5)

2 Conjunto de dados com cross validation 16,45%

3 Média 13,06%

Tabela 2. Percentual de erros na classificação do QDA individual

1 Todo o conjunto de dados 14,19%

3 Média 15,32%

Tabela 3. Percentual de erros na classificação do SVM individual

3 Média 12,42%

Tabela 4. Percentual de erros na classificação do Comitê-KNN (K=7)

3 Média 11,77%

Tabela 5. Percentual de erros na classificação do Comitê-QDA

3 Média 15,16%

4. Discussão

Pela análise das tabelas vemos que o SVN individual apresentou o melhor grau de acerto dentre todos os algoritmos de classificação, entretanto, quando foi é submetido ao cross validation sua taxa de precisão caiu consideravelmente.

O Comitê KNN apresentou leve vantagem sobre o KNN individual quando submetido ao cross validation, entretanto, com a base de dados completa o resultado foi exatamente o mesmo tanto para o KNN individual quanto para o comitê.

O QDA apresentou a menor precisão dentre todos os algoritmos, seu comitê apresentou sensível melhora em relação ao QDA individual com dados submetidos ao cross validation, entretanto para a base completa como conjunto de treino e teste seu desempenho foi sensivelmente inferior.

(6)

5. Conclusão

É possível inferir que o diagnóstico de doenças na coluna vertebral é possível, mas não é trivial, uma vez que os classificadores tiverem uma média de erros de classificação de 13,55% sobre o conjunto de dados.

A utilização dos ensembles (comitês de classificadores) não se mostraram promissoras, uma vez, que não foi significativo o ganho na taxa de acerto.

Conclui-se por fim que de maneira geral o SVM se mostrou ser o classificador mais adequado para a classificação dos dados oferecidos quando considerada toda a base e que o comitê KNN foi o classificador mais eficiente quando considerados os dados submetidos ao cross validation.

Referencias

Cortes, C. and Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3):273–297.

Cover, T. and Hart, P. (1967). Nearest neighbor pattern classification. Information Theory, IEEE Transactions on, 13(1):21–27.

Lachenbruch, P. A. (1975). Discriminant analysis. Wiley Online Library.

Polikar, R. (2006). Ensemble based systems in decision making. Circuits and Systems Magazine, IEEE, 6(3):21–45.

Schapire, R. E. (1990). The strength of weak learnability. Machine learning, 5(2):197– 227.