• Nenhum resultado encontrado

Avaliação do uso de agrupamento semissupervisionado na segmentação do disco óptico em imagens de retina

N/A
N/A
Protected

Academic year: 2021

Share "Avaliação do uso de agrupamento semissupervisionado na segmentação do disco óptico em imagens de retina"

Copied!
6
0
0

Texto

(1)

Avaliação do uso de agrupamento semissupervisionado na

segmentação do disco óptico em imagens de retina

Luis G. T. dos Santos1, Marcos A. de S. Frazão1, Rodrigo de M. S. Veras1 1Departamento de Computação,

Universidade Federal do Piauí, Teresina-PI

luisguilherme.ufpi@gmail.com, frazaomarcos@yahoo.com.br, rveras@ufpi.edu.br. Abstract. This paper aims to evaluate the semi-supervised clustering in

segmen-tation task of Optical Disc (OD) in retinal color images. The analysis of these images is important to assist the specialist in the detection of eye diseases as glaucoma. However, the segmentation of images follows a lineage of supervised and unsupervised clustering. Unlike the other clustering methods, we evaluated the segmentation to find out the algorithms that perform better results for retinal background.

Resumo. Este trabalho tem como objetivo avaliar o agrupamento semissuper-visionado na tarefa de segmentação do Disco Óptico (DO) em imagens colori-das de retina. A análise destas imagens constitui uma tarefa relevante para au-xiliar o especialista na detecção de doenças oculares assim como o glaucoma. Contudo, a segmentação de imagens segue uma linhagem do agrupamento su-pervisionado e não-susu-pervisionado. Diferente de outros agrupamentos, fizemos essa avaliação na segmentação do DO para saber quais dos algoritmos apre-sentam um melhor desempenho com imagens de retina.

1. Introdução

Recentes avanços na aquisição de imagem digitais e poder computacional tornaram possí-vel usar os dados fornecidos a partir de imagens médicas de maneiras novas e revolucioná-rias. Isso levou a um considerável interesse no desenvolvimento de sistemas automáticos de diagnóstico médico. Conhecidos como sistemas de Diagnóstico Auxiliado por Com-putador (CAD - Computer Aided Diagnosis). Estudos sobre sistemas CAD mostram que eles podem auxiliar os médicos em diversas tarefas, como medir estruturas anatômicas, monitorar as mudanças pela comparação de imagens sequenciais, diagnosticar e planejar o tratamento. Eles também aliviam o trabalho repetitivo, prevenindo erros por fadiga e aumentando a eficiência no trabalho. As aplicações de CAD mais estabelecidas em áreas médicas envolvem uso de sistemas automatizados em mamografias, tomografias compu-tadorizadas de tórax e radiografias [Gonzalez e Woods 2011].

(2)

necessidade de um diagnóstico mais rápido e preciso para a sua detecção em seus estágios iniciais [Dawn et al. 2015].

Uma forma de auxiliar o diagnóstico do glaucoma é a segmentação do DO em imagens de retina e, posteriormente, o cálculo relacionado a proporção da Escavação (parte mais interna) e do contorno do DO (parte mais externa e que engloba a escavação), como mostra a Figura 1. Segundo Póvoa et al. [Póvoa et al. 2001], quando essa proporção (Escavação/DO) chega a 0,7 suspeita-se que o paciente tenha glaucoma.

Figura 1. Exemplo de retina e detalhe no DO com marcação da verdade terrestre.

Segundo Muramatsu et al. [Muramatsu et al. 2011] os três principais métodos uti-lizados para segmentação do DO são modelos de contorno ativos, redes neurais artificiais e algoritmos de agrupamento (clustering). Partindo dessa ideia, analisamos algoritmos de agrupamento semissupervisionados com a finalidade de que o mesmo aprenda a par-tir de exemplos rotulados e não rotulados. A grande motivação para se estudar esse tipo de aprendizado se dá pelo fato de exemplos não rotulados existirem em abundância e exemplos rotulados serem geralmente escassos [Basu et al. 2002]. No futuro, pretende-mos criar um software capaz de auxiliar o médico especialista. Ele marcará alguns pontos pertencentes a cada uma das regiões e o sistema segmentará e calculará a proporção da Escavação e do contorno do DO (CDR) automaticamente. Segundo Muramatsu et al. [Muramatsu et al. 2011] o agrupamento não supervisionado pode ser vantajoso na mini-mização do efeito de overtrainning (perda da capacidade de generalização).

2. Algoritmos de Agrupamentos Avaliados

2.1. Base de Imagens

A base DRISHTI é composta por 101 imagens de retina. Todas as imagens foram tiradas com centro no DO, com um "campo de visão" de 30◦ e dimensões 2896 x 1944 pixels. Apenas 50 desse total possuem informações sobre suas verdades terrestres.

2.2. K-means

O algoritmo K-means é um método de agrupamento particional, primeiramente apresen-tando por Macqueen [Macqueen 1967]. O objetivo é particionar os dados em k grupos mutualmente exclusivos e indicar a qual grupo cada elemento pertence. Este método uti-liza uma medida de similaridade para encontrar os elementos pertencentes a cada grupo. 2.3. Seeded K-means

(3)

é o fato do Seeded K-means utilizar exemplos, inicialmente, rotulados como centroides inicias dos grupos, isto é, as sementes (Seed, em inglês), e não escolhê-los aleatoria-mente. Uma exigência do algoritmo é que para cada grupo seja atribuído no mínimo uma semente.

Dado um conjunto de exemplos E, toma-se um subconjunto S ⊂ E como sendo o conjunto de sementes. Na inicialização do algoritmo, o usuário é responsável por atribuir cada exemplo xi ∈ S a um dos k grupos a serem encontrados, dividindo o conjunto S em k subconjuntos Sl, de tal forma que S = Ul=1k Sl.

2.4. Constrained K-means

Assim como o Seeded K-means, o Constrained K-means também tem na inicialização dos centroides a utilização de sementes. A modificação principal feita por Wagstaff et al. [Wagstaff et al. 2001] ao Seeded K-means foi no momento da atualização dos centroides. O algoritmo garante que nenhuma das restrições antes especificadas são violadas, ou seja, o elemento que faz parte do conjunto do cálculo dos centroides iniciais não pode ter a classe que lhe foi dada alterada, garantindo assim que tais elementos não serão rotulados erroneamente.

2.5. K-meanski

O algoritmo K-meanski é uma abordagem semissupervisionada baseada no algoritmo Se-eded K-means proposta em Sanches [Sanches 2003]. Assim como o Seeded K-means, o K-meanski também se utiliza de exemplos rotulados, assim a sua diferença se dá no processo de clustering propriamente dito. Quando o Seeded K-means é utilizado, cada elemento é associado ao cluster (centroide) mais próximo. No caso do K-meanski é esti-pulado a priori um threshold (limiar) t. Esse threshold será o responsável pela associação exemplo/cluster, ou seja, o exemplo somente poderá ser associado a um dado cluster caso esteja a uma distância menor ou igual a t de seu respectivo centroide. Esse valor de t não é um valor absoluto, mas sim relativo. O valor absoluto do limiar é baseado em um vetor ordenado v contendo todas as distâncias entre todos os centroides (exemplos rotulados) e todos os exemplos não rotulados [Sanches 2003].

3. Experimentos

3.1. Metodologia de Avaliação

Para avaliar o desempenho dos algoritmos foram utilizadas as métricas Sobreposição, Sensibilidade, Especificidade e Acurácia, todas essas métricas são calculadas com base no valores VP, FP, VN e FN, representadas nas equações de 1 a 4.

A Sobreposição é a interseção da região segmentada com a real, a Sensibilidade representa a proporção de verdadeiros positivos, ou seja, avalia a capacidade do algoritmo predizer que um elemento pertence a um grupo quando ele realmente pertence a tal. A Especificidade reflete a proporção de verdadeiros negativos, isto é, avalia a capacidade do algoritmo predizer que um elemento não pertence a um grupo dado que ele realmente não pertence. Por fim, a acurácia é a proporção de predições corretas, sem considerar o que é positivo e o que é negativo e sim o acerto total.

Sobreposição= V P

(4)

Sensibilidade= V P V P + F N (2) Especificidade= V N V N + F P (3) Acurácia= V P + V N V P + F P + F N + V N (4)

Cada algoritmo foi executado 5 vezes, e em cada inicialização as sementes uti-lizadas foram diferentes. No grupo dos rotulados foi usado 1% dos dados da imagem original como sementes iniciais, e 99% nos conjunto dos não rotulados. Particularmente no K-meanski, utilizamos um limiar igual a 0,5%.

Em todas as execuções, foi utilizado um vetor de atributos como entrada para os algoritmos. Esse vetor contém o valor dos componentes: R (red - vermelho), G (green - verde), B (blue - azul), H (hue - matiz), S (saturation - saturação), V (value - valor do brilho), I (intensity - intensidade) e Luv de cada pixel da imagem.

3.2. Resultados e Discussão

A Figura 2 apresenta o resultado da segmentação para uma das imagens da base DRISHTI. Os pixels marcados de vermelho correspondem a região da Escavação, os marcados de verde correspondem ao Disco Óptico, os que foram marcados de azul correspondem ao fundo. Na Figura 2(d) a cor preta é a região em que não foi possível rotular, já que o K-meanski só agrupa um dado elemento quando tem um grau de certeza (definido previ-amente), ou seja, se ao tentar agrupar algum elemento e o mesmo não estiver dentro do limiar, ficará sem rótulo.

Na Figura 2(b) e 2(c), podemos ver a diferença entre as imagens geradas após o agrupamento feito pelo Seeded K-means e Constrained K-means, que a olho nu fica imperceptível a sua distinção. Por isso, em cada uma das duas imagens foi feito uma marcação (círculo) no mesmo ponto, exemplificando as diferenças de pixels referentes aos centroides iniciais que não poderiam mudar de classe.

A Tabela 1 apresenta o resultado da avaliação dos algoritmos. Como pode ser visto, o algoritmo K-meanski se sobressaiu no cálculo das taxas de Especificidade e Acu-rácia. Já nas taxas de Sobreposição e Sensibilidade, os melhores resultados ficaram divi-didos entre K-means e Constrained K-means. O K-meanski se destacou na Especificidade e Acurácia, justamente nos dois parâmetros de desempenho mais importantes, pois a Es-pecificidade é basicamente o cálculo da taxa de acerto referente aquele grupo, que neste caso são dois (Escavação e DO), e a Acurácia é a proporção de acertos no agrupamento geral de todas as classes.

4. Conclusão e Trabalhos Futuros

(5)

(a) K-means (b) Seeded K-means

(c) Constrained K-means (d) K-meanski

Figura 2. Resultado da segmentação dos quatro algoritmos avaliados.

Tabela 1. Avaliação de desempenho dos métodos.

(6)

Foi percebido que a presença dos vasos dificulta a diferenciação das regiões da Escavação e DO, visto que em algumas imagens esses vasos são segmentados, ora como Escavação, ora com Disco Óptico. Os bons resultados do K-meanskise deram justamente porque o algoritmo só agrupa o elemento quando ele está com um grau de certeza dentro do limiar, ou seja, se as distâncias de um elemento que seja vaso está muito confusa, tanto próximo aos centroides da Escavação como do DO, o algoritmo não rotula.

Com relação aos trabalhos futuros, pretende-se realizar um pré-processamento para todas as regiões segmentadas, tornando-as mais homogêneas, além de remover ruídos e os vasos presentes na imagem, portanto, apresentando uma avaliação da localização das bordas das regiões obtidas.

Referências

Basu, S., Barnejee, A., e Mooney, R. (2002). Semi-supervised clustering by seeding. In Proceedings of the Nineteenth International Conference on Machine Learning, pp 19–26, Austrália.

Dawn, S., Pearse, K., Adnan, T., Catherine, E., Lloyd, A., e Paolo, S. (2015). Automa-ted retinal image analysis for diabetic retinopathy in telemedicine. Current Diabetes Reports.

Gonzalez, R. C. e Woods, R. E. (2011). Processamento Digital De Imagens. Pearson Education, 3 edição.

Macqueen, J. (1967). Some methods for classfication and analysis of multivariate obser-vations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pp 17–33, University of California Press.

Muramatsu, C., Nakagawa, T., Sawada, A., Hatanaka, Y., Hara, T., Yamamoto, T., e Fujita, H. (2011). Automated segmentation of optic disc region on retinal fundus pho-tographs: Comparison of contour modeling and pixel classification method. Computer Methods and Programs in Biomedicine, 101(1):23–32.

Póvoa, C. A., Nicolela, M. T., Valle, A. L. S. L., de Siqueira Gomes, L. E., e Neustein, I. (2001). Prevalência de glaucoma identificada em campanha de detecção em são paulo. Arq Bras Oftalmol., 64:303–307.

Quigley, H. A. e Broman, A. T. (2006). The number of people with glaucoma worldwide in 2010 and 2020. British Jornal de ophthalmology, 90:262–267.

Sanches, M. K. (2003). Aprendizado de máquina semi-supervisionado: proposta de um algoritmo para rotular exemplos a partir de poucos exemplos rotulados. Dissertação de Mestrado, Universidade de São Paulo.

Referências

Documentos relacionados

Pretendo, a partir de agora, me focar detalhadamente nas Investigações Filosóficas e realizar uma leitura pormenorizada das §§65-88, com o fim de apresentar e

Declaro meu voto contrário ao Parecer referente à Base Nacional Comum Curricular (BNCC) apresentado pelos Conselheiros Relatores da Comissão Bicameral da BNCC,

Este era um estágio para o qual tinha grandes expetativas, não só pelo interesse que desenvolvi ao longo do curso pelas especialidades cirúrgicas por onde

O objetivo desse estudo é realizar uma revisão sobre as estratégias fisioterapêuticas utilizadas no tratamento da lesão de LLA - labrum acetabular, relacionada à traumas

Seja o operador linear tal que. Considere o operador identidade tal que. Pela definição de multiplicação por escalar em transformações lineares,. Pela definição de adição

Entre as atividades, parte dos alunos é também conduzida a concertos entoados pela Orquestra Sinfônica de Santo André e OSESP (Orquestra Sinfônica do Estado de São

O fortalecimento da escola pública requer a criação de uma cultura de participação para todos os seus segmentos, e a melhoria das condições efetivas para

Fonte: elaborado pelo autor. Como se pode ver no Quadro 7, acima, as fragilidades observadas após a coleta e a análise de dados da pesquisa nos levaram a elaborar