• Nenhum resultado encontrado

APLICAÇÃO DO ALGORITMO DOS K-VIZINHOS MAIS PRÓXIMOS PARA SELEÇÃO DE CARACTERÍSTICAS DA MORFOLOGIA DE ASAS DE ABELHAS SEM FERRÃO

N/A
N/A
Protected

Academic year: 2021

Share "APLICAÇÃO DO ALGORITMO DOS K-VIZINHOS MAIS PRÓXIMOS PARA SELEÇÃO DE CARACTERÍSTICAS DA MORFOLOGIA DE ASAS DE ABELHAS SEM FERRÃO"

Copied!
5
0
0

Texto

(1)

APLICAÇÃO DO ALGORITMO DOS K-VIZINHOS MAIS PRÓXIMOS PARA SELEÇÃO DE CARACTERÍSTICAS DA MORFOLOGIA DE ASAS DE ABELHAS

SEM FERRÃO

BRUNA ELISA ZANCHETTA BUANI1 ANDRE RIYUITI HIRAKAWA2 JÉSUS FRANCO BUENO3

RESUMO: O problema de classificação de espécies pode ser considerado de fundamental importância para o conhecimento geral da biodiversidade, comportamento e previsão do ciclo que envolve a vida no planeta Terra. O ABIS – Automated Bee Identification System (SCHRÖDER et al., 1995), um dos mais conhecidos softwares para automação do processo de identificação de abelhas desenvolvido pelo grupo de pesquisa do Prof. Dr. Dieter Wittmann da Universidade de Bonn procurou resolver esse problema de identificação de espécies de abelhas. Porém, pelo método adotado para a identificação das espécies, algumas ficam impossibilitadas de serem reconhecidas com o ABIS, entre elas, as abelhas sem ferrão, pois elas apresentam sinapomorfias na venação das asas anteriores, o que não atende aos requisitos de análise do ABIS (Francoy & Imperatriz-Fonseca, 2006). Este artigo pretende propor uma solução para o problema de seleção de características de asas de abelhas através de métodos computacionais para a classificação dessas espécies que não foram reconhecidas pelo ABIS. As partes envolvidas no desenvolvimento do artigo incluem uma perspectiva sobre seleção de características não supervisionada como agrupamentos e mineração de dados, análise de pré-processamento dos dados, abordagens estatísticas para estimação e predição, regressões múltiplas sobre os dados e o tópico principal que envolve uma modificação do algoritmo dos k-vizinhos mais próximos para o problema dado.

PALAVRAS-CHAVE: seleção de características, mineração de dados, pré-processamento de dados, análise estatística multivariada, regressão múltipla, algoritmo dos k-vizinhos mais próximos.

APPLICATIONS OF K-NEAREST NEIGHBOR ALGORITM FOR FEATURES SELECTION ON WINGS MORPHOLOGY OF STINGLESS BEE

ABSTRACT: The species classification problem can be considered of fundamental importance to the knowledge of biodiversity, behavior and prediction of the cycle that involves the life on planet Earth. The ABIS - Bee Automated Identification System (Schröder et al., 1995), one of the best known software for automation of the bees identification developed by the research group of Prof. Dr. Dieter Wittmann at University of Bonn sought to resolve this problem of identification of bee species , but the method adopted for the identification of species is unable to recognized some bees, among of them, the stingless bees, because of their wings not meet the requirements analysis of ABIS. (Francoy & Imperatriz-Fonseca, 2006). This article aims to address the problem of feature selection of wings of bees through computational methods for classification of these species that were not recognized by ABIS. The parties involved in the development of the article include a perspective on not supervised features selections and data mining, pre-processing analysis of data, approaches to

1 Bacharel em Ciências da Computação, PUC – São Paulo, bruna.buani@poli.usp.br 2 Engenheiro Eletricista, Universidade de São Paulo, andre.hirakawa@poli.usp.br 3 Bacharel em Ciência da Computação, UNICAMP, jesus.bueno@poli.usp.br Subprojeto 4 Anexo 22

(2)

statistical estimation and prediction, multiple regressions on the data and the main topic that involves a change on the algorithm of the k-nearest neighbors for the given problem.

KEY-WORDS: Features Selection, data mining, data preprocessing, Multivariate Statistical Analysis, Multiple Regression, K-Nearest Neighbors Algorithm.

1. INTRODUÇÃO

O estudo realizado primeiramente por (Shröeder, 1995) levou ao desenvolvimento de diversas ferramentas de automação do processo de identificação de asas de abelhas através de um sistema semi-automático de obtenção de medidas, classificação e identificação de espécies, chamado ABIS (Automated Bee Identification System), onde os pontos de junção das nervuras das asas anteriores tinham de ser manualmente marcados e o sistema identificava as nervuras e extraia as características de cada uma das asas. Este software era capaz de fornecer a detecção automática dos pontos de junção das nervuras e marcação automática dos marcos anatômicos das asas, assim como a utilização de análises discriminantes não lineares de Kernel que permitia uma melhor classificação dos grupos. Porém, os estudos de (Francoy e Imperatriz-Fonseca, 2006/2007) mostraram que alguns grupos de abelhas são impossibilitados de serem reconhecidos através desse processo de identificação desenvolvido. O estudo proposto neste documento pesquisa novos métodos para reconhecimento desses grupos de abelhas, buscando padrões através da morfometria geométrica das asas desses grupos que serão usados como caracterizadores através da aplicação do algoritmo modificado dos k-vizinhos mais próximos (KNN) como lógica classificatória.

2. OBJETIVO

A principal abordagem do problema se baseia no processo de reconhecimento de padrões e inserção do conhecimento abstrato do especialista sobre as asas das abelhas como caracterizadores de espécies para seleção das características encontradas nas imagens das asas das abelhas sem ferrão. O objetivo é conhecer como os marcos anatômicos são representativos para a classificação realizando uma análise computacional através do algoritmo dos k-vizinhos mais próximos nesses dados para que o processo de agrupamento não supervisionado veja o mais fiel possivel às análises realizadas pelo especialistas. Para isso, a hipótese leva em consideração que tanto o método de captura das imagens como a padronização dos dados são os mesmos realizados pelo especialista, a mudança do desenvolvimento da hipótese ocorre nos métodos computacionais utilizados para extração e seleção de características das imagens já padronizadas e digitalizadas, diferente das técnicas que são usadas no processo atual e deverá fornecer um resultado consistente de classificação.

3. MATERIAL E MÉTODO

A padronização dos dados é feita eliminando os tamanhos diferentes das amostras. Para isso, são utilizados os métodos da morfometria geométrica que, de acordo com (Guyon et al., 2006) e (Francoy & Imperatriz-Fonseca, 2006/2007) são a melhor técnica de captura de informação sobre a forma. Os dados dos marcos anatômicos das asas das abelhas requerem conhecimento supervisionado para a classificação. O desenvolvimento do algoritmo apresenta a formulação de um pseudocódigo que foi implementado na linguagem Java para execução e simulação dos passos descritos no pseudocódigo. O algoritmo se baseia na formulação de técnicas que são utilizadas pelos especialistas para reconhecimento de semelhanças e conseqüentemente classificação dos espécimes de acordo com essas semelhanças anotadas. Isto inclui a análise dos dados multivariados relacionados aos marcos anatômicos que são traduzidos neste trabalho através de regressões múltiplas dos dados e aplicação do algoritmo

(3)

dos k-vizinhos mais próximos (KNN). No caso do espécime se mostrar como pertencente a subespécie A. m. carnica, A. m. ligustica ou A. m. scutellata, uma anilise referente ao tamanho da asa é realizada pelo algortimo, pois dentre as subespécies introduzidas no Brasil a que apresenta maior valor de comprimento da asa anterior é de A. m. carnica seguida por A. m.

ligustica e A. m. scutellata (Francoy, 2007), esse conhecimento pode ajudar no processo

classificatorio. Outra observacao se relaciona aos marcos anatomicos e o quanto eles podem ser importantes para classificacao de determinadas especies o que significa verificar a importancia de cada um dos marcos para cada especie, para analise desta significancia, foram adotados pesos que servem para aprender quanto cada marco pode ser significante no processo de classificacao.

Existem dois tipos de abordagem de agrupamento: particionado ou hierárquico. O agrupamento particionado contém apenas um nível de grupos. O agrupamento hierárquico, por outro lado, contém múltiplos níveis de soluções de grupos. Os algoritmos de seleção de características como o KNN possuem dois componentes principais: (1) busca pelas características e (2) avaliação do subconjunto de características de acordo com (Liu et al., 2008). Atualmente, a maioria das aplicações em mineração de dados envolve centenas de variáveis, muita das quais podem conter uma relação linear com a variável alvo (variável de resposta). A modelagem de regressão múltipla provê um método conciso para descrever estas relações.

Da figura I abaixo podemos perceber que C1, C3 e C5 são positivamente correlacionados. Isto valida o modelo proposto na hipótese (Liu et al., 2008).

Figura I – Inserção no gráfico de probabilidades normais das variáveis correlacionadas. O algoritmo dos k-vizinhos mais próximos, que é geralmente utilizado para classificação, também pode ser usado para estimação e predição. Este algoritmo é um exemplo de aprendizagem baseada em instância, na qual os dados de treinamento são armazenados para que a classificação de um novo dado possa ser encontrada simplesmente comparando-o com os dados mais similares do conjunto de treinamento.

Para uma análise de 50 imagens contendo 10 pontos a Figura II apresenta um gráfico de dispersão (scatter plot) das coordenadas x, y dos pontos.

Agora suponha que apareça um novo dado de um espécime com o mesmo número de marcos anatômicos para ser analisado, mas sem sua classificação e o objetivo é classificar qual espécie pode ser atribuída àquele espécime que possui os marcos anatômicos mais similares.

(4)

Como se pode ver na também na Figura II abaixo, os novos dados inseridos estão circulados e são representados pelo símbolo do triângulo (C8 * C7) e correspondem a três espécimes novos para o conjunto de dados:

Figura II – Gráfico de dispersão (Scatter Plot) das variáveis.

Suponha que deixemos k = 1 para o algoritmo dos k-vizinhos mais próximos, então os novos dados C8*C7 poderão ser classificados de acordo com uma única observação dos dados mais próximos a eles. Neste caso, os novos dados poderão ser classificados como africanos após um simulação desses dados no programa desenvolvido. Esta metodologia funcionaria bem para as áreas circuladas de número 2 e 5, porém, para as demais áreas poderia haver confusão e é justamente nestas situações que os pesos deverão ser colocados. A metodologia adotada para o algoritmo dos k-vizinhos mais próximos considera todos os marcos anatômicos. Algumas informações que envolvem a construção de um classificador através do algoritmo dos k-vizinhos mais próximos são relevantes. Essas informações incluem:

• Quantos vizinhos devem ser considerados? Isto é, quanto deve ser o valor de k? • Como as distâncias serão medidas?

• Como combinar a informação de mais de uma observação? Outras questões que podem ser consideradas são:

• Devem todos os pontos ter o mesmo peso, ou alguns pontos podem influenciar mais que outros? Como acontece com os pontos mais isolados.

O principal problema para encontrar o vizinho mais próximo de um novo dado é definir o que é similaridade. O dado mais próximo será aquele que mais se assemelha ao novo dado.

K-Nearest-Neighbor Bee Modified Função: knn4Bees

Descrição: O algoritmo procura por k-vizinhos dos pontos na matriz de cada padrão. Se os rótulos de todos os vizinhos forem iguais, o padrão é descartado

Pseudo-código:

Inicialize j ←0 , D ←matriz com conjunto de dados, n ← num pontos construa matriz de pontos com marcos anatômicos

faça j ← j +1; para cada coordenada xj'

calcule distancia entre os pontos das espécies de treinamento e da nova especie marque a menor distancia

altere valor de peso para o ponto com menor distancia adicione padrão

se algum vizinho não for do mesmo padrão que xj' e tiver menor distancia então marque xj

(5)

descarte todos os pontos que não estão marcados construa a matriz com os pontos restantes (marcados) fim

4. RESULTADOS E DISCUSSÃO

O resultado apresentado pela execução do algoritmo proposto mostra melhorias na classificação de espécimes mesmo que estas sejam semelhantes entre si, pois o processo adotado no desenvolvimento do algoritmo considera fatores que são relevantes no processo manual realizado pelo especialista. Tanto a colocação de pesos quanto a analise do tamanho das asas são duas medidas subjetivas que são adotadas pelo especialista na classificação. O tamanho da base de treinamento foi fundamental para que se conseguisse um sistema confiável, a medida que mais amostras foram inseridas para aprendizagem de reconhecimento e alteração dos pesos, mais respostas corretas foram dadas na execução do algoritmo.

5. CONCLUSÃO

O objetivo de seleção de características das asas e classificação dos espécimes de abelhas através dos marcos anatômicos aplicados ao reconhecimento de padrões implementados no algoritmo dos k-vizinhos mais próximos foi alcançado de forma satisfatória para experimentos que forem conduzidos através de uma base da dados grande o suficiente e, mesmo em condições onde o resultado pode ser duvidoso, diversas outras técnicas não pertinentes ao algoritmo ainda são conclusivas para se re-avaliar o resultado obtido, existem diversos caminhos por onde a investigação pode ser continuada, um caminho proposto envolve a aplicação de outros métodos computacionais para classificação dos marcos anatômicos, como redes neurais artificiais e Máquinas de suporte Vetorial (SVM).

6. REFERÊNCIAS

FRANCOY, T.M.: Variabilidade genético-morfológica em populações Neotropicais de Apis

Mellifera. Tese apresentada à Universidade de São Paulo, Faculdade de Medicina de Ribeirão

Preto. Ribeirão Preto, 2007, p. 119.

FRANCOY, T. M.; IMPERATRIZ-FONSECA, V. L.: Sistema de identificação automática de espécies de meliponíneos por morfometria geométrica de asas. BIODIVERSIDADE E USO SUSTENTÁVEL DOS POLINIZADORES, COM ÊNFASE EM ABELHAS- PROJETO TEMÁTICO Primeiro relatório. Abril. In: Anexo à inclusão 6. Subprojeto 5. 2006/2007. p. 229

GUYON, I.; GUNN, S.; NIKRAVESH, M.; ZADEH, L.A.: Feature Extration – Fundations and Applications. In: Studies in Fuzziness and Soft Computing, Volume 207. Springer Verlag Berlin Heidelberg, 2006.

LIU, H.; MOTODA, H.: Computational Methods of Feature Selection. Chapman & Hall/ CRC. 2008.

SCHRÖDER, S.; DRESCHER, W.; STEINHAGE, V.; KASTENHOLZ, B. An Automated Method for the Identification of Bee Species (Hymenoptera: Apoidea), in Proc. Intern. Symp. on Conserving Europe's Bees, Int. Bee Research Ass. & Linnean Society London, UK, 6-7, 1995. Disponível em: http://www.informatik.uni-bonn.de/projects/ABIS/. Acessado em 05/04/2008.

Referências

Documentos relacionados