• Nenhum resultado encontrado

Uma API para extração de características de imagens médicas

N/A
N/A
Protected

Academic year: 2021

Share "Uma API para extração de características de imagens médicas"

Copied!
6
0
0

Texto

(1)

Uma API para extração de características de imagens

médicas

Alexsandro S. Saraiva, Tiago B. Borchartt

Departamento de Informática – Universidade Federal do Maranhão (UFMA) Caixa Postal 15.064 – Campus Bacanga – São Luís – MA – Brasil

alex_saraiva14@hotmail.com, tiago.bonini@ufma.br

Abstract. Breast cancer is the second most common cancer worldwide and the most common among women. The main way to detection breast cancer is the mammography examination combined with machine learning techniques and feature extraction of the exam, so a good set of features is critical to the final diagnosis by the physician. Our work has an emphasis on the extraction of these features in order to optimize them, increasing accuracy the quality of the final results. As we are in the early stages, the features are being implemented in order to be available later.

Resumo. O câncer de mama é o segundo tipo de câncer mais frequente no mundo e o mais comum entre as mulheres. A principal forma de detecção é através de exames por imagem das mamas, aliados à extração de características e técnicas de aprendizado de máquina aplicadas sobre estas imagens, portanto, um bom conjunto de características é fundamental para o diagnóstico final pelo médico. Este trabalho tem ênfase na extração dessas características e a disponibilização gratuitas delas de forma a otimizar seu uso, aumentando a precisão e a qualidade dos resultados finais. Como o trabalho está nos estágios iniciais, neste artigo são apresentados resultados parciais, as características estão sendo implementadas a fim de serem disponibilizadas posteriormente.

1. Introdução

O câncer de mama é uma neoplasia mamária ocorrente principalmente em mulheres acima dos 45 anos. É o segundo tipo mais frequente no mundo e o mais comum entre as mulheres, respondendo por 22% dos casos novos de câncer a cada ano [1]. Se diagnosticado e tratado oportunamente, o prognóstico é relativamente bom, mas esta detecção precoce continua sendo um desafio devido a grande variedade de fatores de riscos e das características genéticas dos tumores.

As imagens médicas da mama obtidas pelos diferentes tipos de exames apresentam um alto grau de informações relevantes para o médico ou especialista que está realizando a análise. O uso do computador auxilia no aproveitamento destas informações e facilita a sua interpretação. Este auxílio pode ser na forma de sistemas CADe (Computer Aided Detection – Sistema de detecção auxiliada por computador) ou CADx (Computer Aided Diagnosis – Sistema de diagnóstico auxiliado por computador).

(2)

Para o desenvolvimento de um sistema CADe ou CADx são utilizadas técnicas de visão computacional e reconhecimento de padrão. O primeiro passo para utilizar estes sistemas é a escolha das características que serão extraídas das imagens dos exames, a fim de compor um conjunto de características que irá representar a imagem. Existe uma gama de trabalhos na literatura que relatam o sucesso de diversos extratores de características na detecção e classificação de alterações em exames das mamas [2]. Entretanto, são raras às vezes em que eles são disponibilizados publicamente, gerando um retrabalho caso alguma pessoa necessite reutilizá-lo.

O objetivo deste trabalho é encontrar na literatura os melhores extratores de características relacionados à detecção e diagnóstico de doenças nas mamas, e implementá-los de forma a torná-los passíveis de disponibilização pública para grupos de pesquisa em nível mundial, pois a maioria destes métodos é utilizada por grupos fechados e sem compartilhamento de suas técnicas, as quais seriam de grande auxílio para o cenário global. À priori, as características serão disponibilizadas na forma de uma API (Application Programming Interface) [3], que se resume a um conjunto de padrões e métodos de programação que auxiliam no desenvolvimento de aplicativos.

2. Metodologia

A metodologia utilizada no desenvolvimento deste trabalho conta com cinco etapas principais: a revisão bibliográfica, seleção de características, a modelagem da API, a implementação da API modelada e a disponibilização da API desenvolvida, como pode ser visto na Figura 1.

Figura 1 – Esquema da metodologia utilizada.

2.1. Revisão bibliográfica

A primeira etapa que foi realizada consistiu-se de uma busca na literatura dos principais trabalhos relacionados com a extração de características para a detecção e classificação de alterações em exames da mama. Foram encontrados trabalhos, principalmente no formato survey, em que se reúnem diversos trabalhos relacionados ao assunto. A seguir são abordados os principais artigos que serviram de base para a seleção das características apresentadas neste trabalho.

O trabalho apresentado por Borchartt et. al. [4], investigou mais de uma centena de artigos científicos relacionados ao uso de extratores de características de imagens, entre outros aspectos, para o auxílio à detecção e diagnóstico de câncer e outras patologias da mama. Analisando estes trabalhos é possível perceber que características

(3)

simples, baseadas em estatística, tais como média, desvio padrão, mediana e variância, são as características mais frequentes na literatura.

O pesquisador Ng [2], em seu trabalho de 2009, abordou mais de oitenta artigos relacionados ao uso de imagens provenientes de exames não invasivos para o auxílio à detecção e diagnóstico do câncer de mama. O autor [2] ressalta que a escolha de um bom conjunto de característica está intimamente relacionada com a precisão de sistemas CAD.

Acharya et al. [5] apresentaram um estudo com cinquenta pacientes, sendo 50% delas saudáveis e 50% com câncer de mama. Os autores extraíram das imagens dos exames térmicos de seus pacientes dezesseis características baseadas em textura que são: homogeneidade, energia, entropia, os quatro primeiros momentos calculados da matriz de co-ocorrência, segundo momento angular, contraste, média, ênfase em primitivas curtas, ênfase em primitivas longas, uniformidade do nível de cinza e percentagem de primitivas.

Koay et al. [6] desenvolveram um estudo utilizando imagens termográficas de dezenove pacientes, sendo que catorze eram de pacientes saudáveis e cinco de pacientes com alguma doença na mama. Os autores extraíram dez características da imagem termográfica para cada quadrante da mama. As características extraídas foram: temperatura média, desvio padrão, mediana, máximo, mínimo, obliquidade (skewness), curtose (kurtosis), entropia, área e quantidade de calor (entalpia).

2.2. Seleção de características

A etapa de revisão bibliográfica serviu para a seleção das características que farão parte da API. Para a realização desta seleção foram analisadas as frequências com que as características apareciam nos trabalhos revisados. Os surveys [2][4] analisados apresentavam todas as características utilizadas por dezenas de trabalhos, apresentando detalhes de cada um deles. Cada ocorrência das características em cada um dos trabalhos citados nos surveys foram contabilizadas para a seleção das características deste trabalho.

Após a etapa de análise da frequência de uso das diversas características presentes na literatura, foram selecionadas e agrupadas as seguintes características:

2.2.1. Características Estatísticas

Decorrente do trabalho de Borchartt et. al. [4], foi criado um grupo de características baseadas em estatística simples que foram selecionadas conforme sua frequência de uso na literatura: média, desvio-padrão, mediana, variância, moda, valor máximo de intensidade, valor mínimo de intensidade e a amplitude.

2.2.2. Características baseadas em Histograma:

Tendo como base o trabalho de Koay et. al. [6], foi criado um grupo de características baseadas em histograma: curtose, obliquidade e a quantização de tons.

(4)

2.2.3. Características Fractais

O grupo das características baseadas em fractal reúne o cálculo da dimensão fractal de Higuchi [7], a lacunaridade [8] e a sucolaridade [9].

2.2.4. Características Geoestatísticas

Tendo como base a tese de Borchartt [10], foi criado um grupo de características geoestatística: o coeficiente de Geary, o índice de Moran e o coeficiente K de Ripley.

2.2.5. Níveis de cinza

As características selecionadas baseadas na distribuição de níveis de cinza são: ênfase em primitivas curtas, ênfase em primitivas longas, uniformidade do nível de cinza e percentagem de primitivas, baseadas principalmente no trabalho de Acharya et. al. [5].

2.3. Modelagem da API

O processo de modelagem da API resultou em 6 classes, sendo que as 5 primeiras são as descritas nos itens 2.2.1 ao 2.2.5 e a ultima classe destina-se a conversão de imagens de qualquer tipo de exame de mama que estejam no formato de imagem bmp, jpg, png ou tiff para o formato de matriz aceito pelos métodos que estarão implementados na API, evitando um trabalho maior a pessoa ou grupo que irá utilizar essa ferramenta. Para imagens em tons de cinza, o valor da matriz corresponde a intensidade dos pixels e no caso de imagens em rgb ou outro perfil de cor com mais de um canal, pode-se utilizar apenas de um dos canais ou a combinação deles.

2.4. Implementação da API

Visando uma maior portabilidade, facilidade de disponibilização e organização do projeto pelo uso da orientação a objeto, optamos por utilizar a linguagem de programação Java na implementação da API. Esta etapa está de acordo com a modelagem descrita no item anterior.

2.5. Disponibilização da API

Após o término do processo de implementação, a API juntamente com seus requisitos técnicos será apresentada em um artigo científico e disponibilizada em um website vinculado ao departamento de informática da UFMA.

3. Resultados parciais

Até o presente momento já foram implementadas as características baseadas em estatística simples que compõem a primeira classe da modelagem da API. Para cada uma das características foi implementado um método estático padrão que recebe uma matriz gerada pela classe de conversão e retorna o resultado da característica. Também é possível passar um parâmetro extra indicando se os valores zeros presentes na matriz devem ser contabilizados ou ignorados, visto que estes valores influenciam diretamente nas características estatísticas simples.

Esta classe de características baseadas em estatística simples foi testada em um conjunto de matrizes com dados gerados aleatoriamente. A Tabela 1 apresenta os tempos médios,

(5)

em milissegundos, obtidos no cálculo de cada característica em relação com a dimensão das matrizes testadas:

Tabela 1. Resultados parciais Dimensão

Característica 640px por 480px 1280px por 720px 1920px por 1080px

Média 0.00 0.00 0.00 Desvio-padrão 47.00 94.00 187.00 Mediana, 100.06 99.01 99.03 Variância 93.00 234.00 515.00 Moda 109.00 250.00 547.00 Valor máximo de intensidade 109.00 250.00 547.00 Valor mínimo de intensidade 109.00 250.00 562.00 Amplitude 109.00 250.00 562.00 4. Considerações finais

O aumento do poder de detecção de doenças nas mamas através de extração de características e metodologias computacionais de análise de exames é de fundamental importância tanto para médicos quanto para pacientes. Para isso ser possível, a extração de características deve ser estudada e explorada e a disponibilização gratuita irá auxiliar pesquisadores em todo o mundo.

Este trabalho ainda encontra-se em desenvolvimento, e após a conclusão da API de extração de características, esta será disponibilizada gratuitamente na internet e divulgada através de um website, além de publicada em artigo científico e podendo ainda ser realizado o contato com laboratórios de pesquisa que tenham interesse em utilizá-la.

Referências

[1] INCA, “Estimativa 2012: Incidência de Câncer no Brasil”. Rio de Janeiro: Divisão de Tecnologia da Informação, 2011.

[2] E. Y.-K. Ng, “A review of thermography as promising non-invasive detection modality for breast tumor.” International Journal of Thermal Sciences, vol. 48, no. 5, pp. 849–859, May 2009.

[3] ComputerWorld, “Application Programming Interface”, Disponível em: http://www.computerwor

ld.com/s/article/43487/Application_Programming_Interface, Acesso em 9 de outubro de 2014.

(6)

[4] T.B. Borchartt, A. Conci, R.C.F. Lima, R. Resmini, A. Sanchez, “Breast thermography from an image processing viewpoint: A survey.” Signal Processing, vol. 93, n. 10, pp. 2785-2803, 2013.

[5] U. R. Acharya, E. Y. K. Ng, J.-H. Tan, and S. V. Sree, “Thermography based breast cancer detection using texture features and Support Vector Machine,” J Med Syst, vol. 36, no. 3, pp. 1503–1510, Jun. 2012.

[6] J. Koay, C. Herry, and M. Frize, “Analysis of breast thermography with an artificial neural network,” Conf Proc IEEE Eng Med Biol Soc, vol. 2, pp. 1159– 1162, 2004.

[7] T. Higuchi, “Approach to an irregular time series on the basis of the fractal theory,” Physica D: Nonlinear Phenomena, vol. 31, no. 2, pp. 277–283, Jun. 1988.

[8] R. C. Serrano, “Análise da viabilidade do uso do coeficiente de Hurst e da lacunaridade no diagnóstico precoce de patologias da mama,” Dissertação de Mestrado, Universidade Federal Fluminense, Niterói, RJ, 2010.

[9] R. H. C. De Melo and A. Conci, “Succolarity: Defining a method to calculate this fractal measure,” in 15th International Conference on Systems, Signals and Image Processing, 2008. IWSSIP 2008, 2008, pp. 291–294.

[10] T.B. Borchartt, “Análise de imagens termográficas para a classificação de alterações na mama.” Tese de Doutorado, Universidade Federal Fluminense, Niterói-RJ, 2013.

Referências

Documentos relacionados

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

forficata recém-colhidas foram tratadas com escarificação mecânica, imersão em ácido sulfúrico concentrado durante 5 e 10 minutos, sementes armazenadas na geladeira (3 ± 1

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco 

Assim, propusemos que o processo criado pelo PPC é um processo de natureza iterativa e que esta iteração veiculada pelo PPC, contrariamente ao que é proposto em Cunha (2006)

A rede de teste 118 IEEE representada na figura 4.3 foi a rede que serviu de base para a aplicação da metodologia descrita e para os estudos de Data Mining apresentados nos

Podemos então utilizar critérios tais como área, arredondamento e alongamento para classificar formas aparentadas a dolinas; no processamento digital de imagem, esses critérios

Este trabalho busca reconhecer as fragilidades e potencialidades do uso de produtos de sensoriamento remoto derivados do Satélite de Recursos Terrestres Sino-Brasileiro

Apesar da longa distância dos grandes centros urbanos do país, Bonito destaca- se, regionalmente, como uma área promissora dentro do Estado de Mato Grosso do Sul. Bonito,