UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA CURSO DE BACHARELADO EM SISTEMAS DE INFORMAÇÃO

(1)

PEDRO WILSON STEINHEISER

Estudo do desempenho da detecção de objetos em exames de_AgNOR.

FLORIANÓPOLIS 2020

(2)

PEDRO WILSON STEINHEISER

Estudo do desempenho da detecção de objetos em exames de_AgNOR.

Trabalho Conclusão do Curso de Graduação em Sistemas de Informação do Departamento de Informática e Estatística da Universidade Federal de Santa Catarina como requisito para a obtenção do Título de Bacharel em Sistemas de Informação Orientador: Prof.Dr. rer.nat. Aldo von Wangenheim Coorientadores: Allan Cerentini e João Gustavo Atkinson Amorim.

Florianópolis 2020

(3)

Ficha de Identificação da obra

Steinheiser, Pedro Wilson

Estudo do desempenho da detecção de objetos em exames de AgNOR. / Pedro Wilson Steinheiser ;

orientador, Aldo von Wangenheim, coorientadores, Allan Cerentini, João Gustavo Atkinson Amorim 2020.

78 p.

Trabalho de Conclusão de Curso (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Graduação em Sistema de Informação, Florianópolis, 2020.

Inclui referências.

1. Sistema de Informação. 2. AgNOR. 3. Câncer de colo de útero. 4. Deep Learning. 5. Detecção de Objetos. I. von Wangenheim, Aldo . II. Cerentini, Allan . III. Universidade Federal de Santa Catarina. Graduação em Sistema de Informação. IV. Título.

(4)

Pedro Wilson Steinheiser

Estudo do desempenho da detecção de objetos em exames de_AgNOR

Este Trabalho de Conclusão de Curso foi Julgado adequado para obtenção do Título de Bacharel e aprovado em sua forma final pelo Curso de Sistemas de Informação

Florianópolis, 01 de novembro de 2020.

________________________ Prof. Dr. Cristian Koliver

Coordenador do Curso

Banca Examinadora:

_______________________ Prof. Antônio Carlos Sobieranski Universidade Federal de Santa Catarina

___________________________

Prof.Dr. rer.nat. Aldo von Wangenheim

Universidade Federal de Santa Catarina

___________________________ Allan Cerentini

Universidade Federal de Santa Catarina

_____________________________ João Gustavo Atkinson Amorim Universidade Federal de Santa Catarina

(5)

AGRADECIMENTOS

Agradeço primeiramente à Deus pelo dom da vida, e por sempre me abençoar. Aos meus pais Uilson Steinheiser e Marisete Steinheiser, que deram toda educação, amor e todo apoio que me fortaleceu muito.

Agradeço a minha querida e amada avó Andrelina Ribeiro, por me ceder sua casa para a minha moradia durante esses anos de estudos.

Agradeço aos meus amigos de turma, Vinicius Oliveira, Pedro Dalenogare, César Bess e Lucas Rocha por todos os momentos engraçados e de estudos neste curso.

Agradeço aos meus amigos de Palhoça/SC e Joinville/SC por sempre me apoiarem e estarem comigo.

Agradeço ao professor Aldo von Wangenheim por me dar a oportunidade de ser bolsista no LAPIX, me introduzindo ao mundo do _{Deep Learning.}

Agradeço ao coorientadores Allan Cerentini e ao João Gustavo Atkinson Amorim por me ajudarem neste trabalho.

(6)

RESUMO

Existem muitas formas de se predizer e descobrir um câncer, uma delas é utilizando as ferramentas que a citologia disponibiliza, especialmente para localizar um câncer de colo de útero. Através da citologia utilizando a técnica de AgNOR, torna-se um método acessível e eficaz para se antever essa doença que tem uma taxa de mortalidade muito expressiva por ano. A técnica consiste em destacar as regiões organizadoras de nucléolo de uma célula através da coloração com o nitrato de prata. A partir de um conjunto de fatores é possível identificar se a célula está em fase de proliferação ou está saudável. Um profissional da saúde analisa uma determinada quantidade de núcleos manualmente para chegar a um diagnóstico. Com o objetivo de poupar tempo e esforço dos profissionais de saúde e pacientes, o presente trabalho de conclusão de curso tem como objetivo automatizar a verificação das imagens com AgNOR, para evitar uma demora desnecessária para se ter um laudo. A execução da pesquisa se dará por meio de testes com rede detecção de objetos, que serão alimentadas de uma amostra considerável de imagens de células de colo de útero, a fim de que se possa encontrar a mais consistente para que se tenha um bom desempenho no reconhecimento.

Palavras-chaves: Deep Learning, Detecção de Objetos, saúde, câncer, colo de útero, AgNOR.

(7)

ABSTRACT

There are many ways to predict and discover a cancer, one of which is using the tools that cytology provides, especially to locate cervical cancer. Through cytology using the AgNOR technique, it becomes an accessible and effective method to predict this disease, which has a very significant mortality rate per year. The technique consists of detaching the nucleus organizing regions of a cell through staining with silver nitrate. From a set of factors it is possible to identify whether the cell is in a proliferation phase or is healthy. A healthcare professional analyzes a certain number of nuclei manually to arrive at a diagnosis. In order to save time and effort for healthcare professionals and patients, the present course conclusion work aims to automate the verification of images with AgNOR, to avoid an unnecessary delay in having a report. The research will be carried out by means of tests with an object detection network, which will be fed with a considerable sample of cervical cell images, so that the most consistent one can be found in order to have a good performance in the recognition

Keywords:_{Deep Learning, Object Detection, health, cancer, uterine cervix, AgNOR.}

(8)

LISTA DE FIGURAS

Figura 1 - Imagem de células com pontos de AgNOR, caracterizando malignidade.14

Figura 2 - Modelo de um neurônio humano e um neurônio artificial……….18

Figura 3 - _{Exemplificação de uma Rede Neural Convolucional……….19}

Figura 4 - _{Exemplificação de uma convolução……….20}

Figura 5 - Imagem do modelo de FCN……….23

Figura 6 - Imagem modelo SegNet………....24

Figura 7 - Imagem do modelo de Unet………..24

Figura 8 - Representação do esquema de Detecção de Objetos……….25

Figura 9 - A anatomia de um Detector de Objeto………....26

Figura 10 - Imagem evidencia, em vermelho a camada tridimensional em uma arquitetura da rede YOLO………26

Figura 11 - Gráfico que mostra o desempenho do YOLOv4 em relação a outras arquiteturas. Gráfico de AP/FPS……….……29

Figura 12 - Imagem utilizada no _{dataset……….……….31}

Figura 13 - Imagem do _{dataset utilizando saturação -50%...32}

Figura 14 - Matriz de Confusão……….…..33

Figura 15 - Representação da fórmula da IoU……….35

Figura 16 - Curva de AP……….…..36

Figura 17 - Curva de _{loss e mAP da YOLOv4-Tiny……….39}

Figura 18 - Exemplo de classificação rede YOLOv4-_{Tiny………..40}

Figura 19 - Resultados do modelo YOLOv4……….41

Figura 20 - Exemplo de classificação da rede YOLOv4……….42

Figura 21 - Resultados do modelo YOLOv4 com _{data augmentation……….43} Figura 22 - Exemplo de classificação do modelo YOLOv4 com _{data aumentation…44}

(9)

_{LISTA DE TABELAS}

Tabela 1 - Tabela dataset………37

Tabela 2 - Configuração da YOLOv4-_{Tiny………...37}

Tabela 3 - Configuração da YOLOv4 e YOLOv4 com _{data augmentation………...38}

(10)

SUMÁRIO 1. Introdução……….12 1.1. Objetivos………..13 1.1.1. Objetivos Gerais………...………..13 1.1.2. Objetivos Específicos……….13 2. Conceitos Básicos……….……….………...14 2.1. NOR………..………...14 2.1.1.AgNOR………….………..………...…14 2.2. _{Machine Learning………..16} 2.2.1. _{Deep Learning……….18}

2.2.2. Redes Neurais Convolucionais………...……….19

2.2.2.1 Camada _{Convolution………………….……...20}

2.2.2.2. ReLU………..20

2.2.2.3. Camada _{Pooling………...21}

2.2.2.4. Camada _{Fully Connected………...21}

2.2.2.5. Treinamento………...……...22 2.2.3 Segmentação Semântica……….………...22 2.2.3.1 FCN………..……….…...…...23 2.2.3.2 SegNet………...……….24 2.2.3.3 Unet………..……….………..24 2.2.4 Detecção de Objetos……….…………...25 2.2.4.1 YOLO ……….……….26 2.2.4.2 _{Detectron2 ……….…….30} 3. Estado da Arte………..……….31 4. Metodologia e Desenvolvimento………...………...….33 4.1 Base de Dados ………..……..33 4.2 Meios de Treinamento ………..…..35 4.3 Métricas de Qualidade ………..……..36 5. Experimentos e Resultados ………..………39

(11)

5.1 Experimentos ………..………..39

5.1.1 Experimentos com YOLOv4-Tiny………..………40

5.1.2 Experimentos com YOLOv4 e YOLOv4 com _{data augmentation} ………..……….40

5.2 Resultados ………..……….42

5.2.1 Resultados com YOLOv4-_{Tiny…………..……….42}

5.2.2 Resultados com YOLOv4 ………..……….43

5.2.3 Resultados com YOLOv4 com _{data augmentation……...………..45}

5.2.4 Comparação com Segmentação Semântica………...……….47

6. Conclusão ………...………..49

Referências……….50

(12)

1.Introdução

O câncer é uma doença mundialmente conhecida pois, anualmente tira a vida de milhões de pessoas pelo mundo. Em 2018, ocorreram mais de 18 milhões de casos no mundo, com um número alto de 9,5 milhões de mortes. Somente casos novos de colo de útero representam 3.2% do total, totalizando aproximadamente 570 mil casos com 311 mil mortes [1]. Para 2020, O INCA, Instituto Nacional de Câncer fez uma projeção de aproximadamente 620 mil novos casos de câncer no Brasil, desses, estima-se que por volta de 16,6 mil sejam de colo de útero [2]. Se comparar com os EUA, esperam-se para 2020, um total de casos próximo de 14 mil [3]. A maior incidência desse câncer se dá em países com um IDH menor, onde o acesso ao saneamento básico e à saúde são limitados. Esses são fatores que favorecem uma possível contaminação com o _{Human papillomavirus} _{(HPV), que é um grande vetor} para o surgimento da doença [1].

Uma alternativa ao método de diagnóstico mais conhecido, a biópsia, é a citologia. O câncer de colo de útero é capaz de ser identificado através desta técnica, por se tratar de um órgão de fácil acesso. O material citológico pode ser adquirido por Punção aspirativa por agulha fina(PAAF), raspagem ou por fluidos corporais. Sua principal característica é ser uma técnica menos custosa, além de ser indolor para o paciente [5].

Com a evolução da tecnologia, auxiliada com os métodos de Visão Computacional e _{Machine Learning,} _{ou aprendizagem de máquina, a possibilidade de} automatizar a análise de imagens citológicas tornou-se viável. Com algoritmos mais sofisticados e complexos que a aprendizagem de máquina, o conceito de _Deep Learning_{, ou aprendizagem profunda foi desenvolvido. Este que vem com um} paradigma similar às redes neurais do corpo humano, onde diversas camadas de neurônios artificiais são interligadas, isto permite uma melhora no aprendizado de padrões pela rede [6]. _{Por fim as Convolutional Neural Networks, ou Redes Neurais} Convolucionais, também classificada como Deep Learning tendo seu foco voltado a imagens digitais. Basicamente consiste em um extrator de características (camadas de convoluções) seguido por uma rede neural [7].

(13)

Entende-se por conseguinte a necessidade de se atrelar esses conhecimentos de áreas distintas a fim de se promover uma automatização na análise de imagens de AgNOR de colo de útero.

1.1. Objetivos

Esta seção apresentará os objetivos gerais e específicos do trabalho.

1.1.1. Objetivos gerais

Analisar o desempenho de diferentes modelos de deep learning, através do estudo do estado da arte e dos sucessivos testes, para se encontrar a mais consistente.

1.1.2. Objetivos específicos

Como objetivos específicos foram listados os três principais:

1. Analisar o estado da arte envolvendo redes Deep Learning para se obter as possíveis arquiteturas a serem usadas, para o desenvolvimento do trabalho;

2. Testar as arquiteturas escolhidas e obter resultados; e

3. Comparar os modelos escolhidos através da análise dos resultados.

(14)

2 Conceitos Básicos

Neste capítulo serão apresentados alguns conceitos básicos que fazem parte deste trabalho. Será descrito o conceito de NOR; do AgNOR; _{Machine Learning,} Deep Learning_{e Redes Neurais Convolucionais.}

2.1. NOR

As células são compostas por regiões organizadoras de núcleo, do inglês, NOR( _{Nucleolar Organizer Regions). São loops de rDNA(DNA recombinante),} localizado no núcleo da célula. Que por sua vez são encarregados por transcrever o rRNA( RNA ribossomal), que estão atrelados a divisão e proliferação celular [4] [6] [8]. Através de estudos ultra estruturais, experimentos usando sondas fluorescentes com mercúrio e rRNA marcado com análise por imuno transferência [9], descobriu-se que o NOR é envolto por proteínas que são naturalmente detectadas pela prata. Essa técnica é chamado de AgNOR(_{argyrophilic nucleolar organizer regions).}

2.1.1 AgNOR

Inicialmente o procedimento de AgNOR foi utilizado para estudos dos NOR’s propriamente ditos. Com o passar do tempo esse método foi moldado para a análise da taxa de proliferação em neoplasias malignas por métodos não invasivos de exames [10].

(15)

O interesse de patologistas com o AgNOR começou por volta dos anos de 1980 onde se foi constatado que as células malignas sempre exibiram um número maior de pontos AgNOR do que as encontradas em células benignas [12]. Após estudos, foram demonstrados que existem 3 tipos de configurações de AgNOR e como eles podem ser encontrados em nucléolos:

1. Caracterizada por um agrupamento total dos NORs, formando uma base arredondada e única, tratando-se de um nucléolo em si. Esse modelo usualmente é visualizado em linfócitos em repouso e outras células;

2. Apresenta com um modelo nucleolar que regularmente é visto em células que estão em divisão, no qual, após a aplicação da técnica do AgNOR, é possível ver o os NORs dentro do nucléolo;

3. Por fim é representada pela partilha de múltiplos pequenos pontos de AgNOR em todo o nucleoplasma, onde é normalmente encontrada em células com alto nível de malignidade [9].

Para se quantificar, entender como se analisa a gravidade da benignidade ou malignidade dos pontos de AgNOR nos núcleos de células, Trerè realizou um experimento: Primeiro foram pré-estabelecidos dois métodos: O de contagem e o de morfométrico. O modo de contagem consiste na contagem dos pontos de AgNOR por célula, tornando um método mais barato e fácil de se executar; O modo morfométrico por sua vez, representa a mensuração automática e semi-automática da área preenchida pelo pontos de AgNOR dentro do núcleo. Esta aferição é assistida via análise de imagem computadorizada, resumindo-se em um processo mais rápido e preciso. Após a análise de 40 carcinomas de seio, utilizando os dois métodos, chegou-se à conclusão que a técnica de morfometria tem melhor eficiência na avaliação das imagens do que o método de contagem. Isso se deve ao fato deste procedimento ter um melhor utilização para futuras comparações entre diferentes fixadores e protocolos de AgNORs [12].

O polimorfismo dos AgNORs são classificados de duas formas: A partir de seu formato mais típico, ou seja, os pontos de AgNOR são de formato circular simétrico possuindo atividade transcricional normal. Por outro lado, a outra classificação

(16)

trata-se de pontos atípicos, onde se evidencia uma característica atrelada com formas assimétricas de diferentes tamanhos, se assemelhando por vezes com formato de rim, como também de estruturas _{clusters. Fatores que são relacionados a} elevada taxa de atividade transcricional [8].

Nos últimos anos intensificou-se os estudos acerca do pleomorfismo do AgNOR, isto é, a capacidade do AgNOR sofrer alteração de tamanho e formato durante o período de sua vida útil. Análises comprovam que o pleomorfismo do AgNOR está diretamente relacionado à atividade proliferativa das células em situações patológicas mais severas no colo do útero. Bem como, evidenciou-se a associação desse pleomorfismo com a diferenciação de condições pré malignas e malignas [14].

Os pontos de AgNOR em células de colo de útero tem seu método de avaliação diferente de outras, nesse caso é essencial o uso de análise de imagens, visto a necessidade de se verificar a área dos AgNORs por perfil nuclear [13]. Em [8], [10], [11], [12], [14] e [15] é demonstrado o uso da tecnologia de processamento de imagens e inteligência artificial a fim de se estudar e entender o AgNORs e suas características.

A tecnologia e a saúde sempre caminharam juntos. Nesse contexto, abordaremos Machine Learning_{, Deep Learning e Redes Neurais Convolucionais, a} fim de se automatizar processos, com o objetivo de trazer eficiência e eficácia no atendimento à sociedade.

2.2. _{Machine Learning}

Machine Learning ou Aprendizado de Máquina é considerado um dos ramos mais expressivos da Inteligência Artificial. Atualmente está presente nas mais diversas áreas, como por exemplo no que se diz respeito a mineração de dados, robótica, visão computadorizada e outros, tendo um grande impacto na sociedade e trazendo assim, grandes benefícios para o nosso dia-a-dia. O conceito de _Machine Learning é expressado através da ideologia em que um sistema ou máquina, pode aprender através de dados e de experiências realizadas, a fim de que se possa identificar padrões ,e com isso posteriormente, oportunizar e desvendar soluções para problemas distintos.

(17)

Tem-se para aprendizado de máquina 4 métodos de abordagem, onde se evidenciam diferentes maneiras de se abstrair o treinamento, são eles:

Aprendizado supervisionado: consiste em algoritmos onde se viabiliza a utilização de _{datasets para se fazer o treinamento, como a entrada já é conhecida, a} saída do processo é esperada. Após os dados de treinamento serem feitos, ele é confrontado com diferentes dados, chamados de dados de teste, a fim de se testar o modelo e analisar o desempenho dele. O aprendizado supervisionado é geralmente empregado em métodos de classificação e regressão, utilizados sempre para predição.

Aprendizado não-supervisionado: É considerado o inverso do aprendizado supervisionado, pois não utiliza dados de treinamento para se fazer o processo de aprendizado. Sua utilização é baseada na descoberta de padrões, não tendo uma resposta considerada certa. Esse tipo de algoritmo tem sua aplicação geralmente em dados transacionais onde se evidencia as técnicas de agrupamento _{k-means e} Apriori.

Aprendizado semi-supervisionado: Por conceito é uma extensão do aprendizado supervisionado, porém seu treinamento se dá por uma pequena parte de dados já conhecidos e a maioria com dados não conhecidos. Esse algoritmo é utilizado quando se exige um grande esforço para se treinar com todos os dados já rotulados, pois tem um custo mais alto, com isso é aplicado o treino com a maior parte dados não rotulados.

Aprendizado por reforço: Trata-se de um algoritmo geralmente utilizado para robótica, onde o treinamento acontece de acordo com a experiência do elemento no ambiente. Seu foco maior se dá por meio da exploração do desconhecido, sendo dividido entre o agente que toma as decisões; as ações, significando o que o agente pode fazer; e o ambiente, onde as ações e decisões são feitas e tomadas. O aprendizado por reforço tem como característica buscar sempre o melhor benefício conforme as ações [17][18][19][20].

A partir dos quatro modelos de aprendizados apresentados, existem diversos algoritmos que implementam-os. Cada algoritmo é utilizado de acordo com sua necessidade e eficiência para resolver determinado problema. Temos como exemplo os algoritmos mais genéricos e comuns, usados para classificação e regressão, que são os de árvores de decisão, Bayesianos e os de _{Clustering [20]. Para questões de} maior complexidade, como solucionar problemas através de processamento de

(18)

imagens, tem-se técnicas mais poderosas de _{Machine Learning, expressados} principalmente pelos algoritmos de _{Deep Learning.}

2.2.1. _{Deep Learning}

Deep Learning é um dos segmentos mais fortes do _{Machine Learning. Tem} como principal característica a abstração do sistema neural humano, onde é representada através de uma rede neural artificial [21].

Figura 2: Modelo de um neurônio humano e um neurônio artificial. Fonte: DataCamp

Redes neurais artificiais simulam o funcionamento de vários neurônios conectados, que no corpo humano, se responsabilizam por se comunicarem por meio de sinapses. Sinapses são impulsos nervosos que são passados de neurônio em neurônio para passar uma informação ou possibilitar um movimento muscular [22][23]. Nos neurônios artificiais, os impulsos nervosos são produzidos por várias entradas, que são compostas por pesos diferentes. Cada neurônio artificial implementa um classificador, que no final, após o somatório dos pesos e a função de ativação aplicada, se tem uma saída que é passada para o próximo neurônio artificial, que se encontra em outra camada constituída por diferentes pesos [21][35]. Existem dois tipos de fluxos em que as informações podem ser passadas de neurônios e camadas, são eles:

Feedforward_{: É implementado nas Redes Neurais Artificiais mais simples, a} entrada alimenta a saída pelos somatório dos pesos em um único sentido, assim não havendo ciclos e _{loops dentro das camadas. Essa conexão é utilizada principalmente} para se reconhecimento de padrões.[22][23]

Feedback ou Current_{: É considerado uma forma mais complexa de conexão} entre os neurônios e camadas, pois sua característica se constitui a partir da retroalimentação dentro da rede, ou seja, as entradas alimentam as saídas em

(19)

diferentes sentidos. O _{feedback proporciona à rede uma maior capacidade de} aprendizado e performance, visto que a conexão se dá por diferentes direções, permitindo assim ciclos e _{loops dentro da rede. Conclui-se que o feedback tem um} desempenho melhor em termos de eficiência comparado ao _{feedforward [22][23].}

Para uma Rede Neural Artificial ter a capacidade de classificar imagens, que implementa o _{feedback, tem-se um tipo específico, todo voltado a este fim, chamado} de Redes Neurais Convolucionais.

2.2.2 Redes Neurais Convolucionais

Redes Neurais Convolucionais são responsáveis por conseguir, a partir de imagens, predizer e classificá-las, sendo assim muito útil para elucidar vários tipos de problemas atualmente [26]. A CNN( _{Convolutional Neural Network) foi inspirada a} partir do modo com que os animais visualizam as imagens e como elas são refletidas no córtex visual do cérebro [27].

Figura 3: Exemplificação de uma Rede Neural Convolucional. Fonte: Medium, Prabhu 2018

Uma CNN é composta por um conjunto de várias camadas que desempenham diferentes papéis no processo de aprendizado e classificação das imagens, são elas: Camada _Convolution, _{camada de Pooling, que são responsáveis pela abstração e} aprendizado da rede; e a camada _{Fully Connected} _{que tem como principal função} gerar a classificação das imagens baseado no aprendizado conquistado no treinamento. Entre as camadas de Convolução e _{Pooling está presente a função de} ativação ReLU, que auxilia no treino do modelo. [24].

(20)

2.2.2.1. Camada _Convolution

Por se tratar da primeira camada que a imagem atravessa, a camada Convolution tem como papel principal extrair as características da entrada, mediante a um filtro aplicado sobre a imagem que tem altura, largura e profundidade. O filtro é constituído por uma matriz de tamanho pequeno chamado _{kernel, que é aplicado na} imagem, onde é representada por uma grande matriz com diferentes valores associados com a coloração de cada pixel, chamado de _{tensor. Um filtro geralmente} de 3x3 é utilizado para se calcular os produtos da multiplicação entre _kernel _{e tensor,} após isso é feita uma soma para se obter o valor da saída equivalente a posição do kernel que é chamado de _{feature map. Esse procedimento é feito até o filtro ter} passado por toda matriz de entrada [24][25][26].

Figura 4: Exemplificação de uma convolução. Fonte: Anh Vo

Como resultado final se tem o _{feature map gerado, com tamanho menor que a} matriz de entrada original. Na atualidade existem algumas opções que possam melhorar o desempenho da rede, uma delas é o _{zero padding, descrito como a adição} de 0 em elementos da borda da matriz, proporcionando um melhor controle do tamanho do _{feature map [24].}

2.2.2.2. ReLU

ReLU( _{rectified linear unit) é usado após a camada de Convolution, tem como} principal objetivo aplicar uma função de ativação no_{feature map já pré-estabelecido,} para se aumentar a não linearidade na rede. A função de ativação facilita as relações dos dados que serão aprendidos, como também evita a saturação dos mesmos [24][26].

(21)

2.2.2.3. Camada de _Pooling

A camada de_{pooling é um exemplo de um processo de discretização, tendo} como atribuição reduzir a dimensionalidade do _{feature map. Sua finalidade pode ser} expressa por diminuir o poder computacional necessário para se processar os dados, e principalmente, extrair as principais características das imagens a fim que as classes possam ser reconhecidas não importando seu tamanho e como estão distribuídas na imagem [24][25]. Existem dois tipos de forma de se aplicar o _pooling na rede, sendo: _{Max Pooling e Average Pooling.}

_{• Max Pooling}_{: Tem como principal característica extrair do feature map, usando}

normalmente um filtro de 2x2, os maiores valores em cada aplicação do filtro, reduzindo assim, 75% das informações dos dados que não são as importantes. O max pooling _{tem uma performance melhor que o average pooling [25].}

• Average Pooling: Por sua vez, ao invés de se extrair os maiores valores de pixels

como é feito pelo _{max pooling, no average pooling, são extraídos valores que} representam as médias dos valores onde se encontram o filtro, e é aplicada apenas uma vez antes da próxima camada[24].

2.2.2.4. Camada _{Fully Connected}

Esta é a última camada de uma Rede Neural Convolucional. Após os filtros usados na camada anterior de _{pooling, tem-se os dados achatados e transformados} em um vetor de números de uma dimensão que são conectados por uma ou mais camadas _{fully connected. Essas camadas fazem parte das camadas específicas para} predição e classificação do que foi feito nas camadas anteriores. Através da função de _{softmax se atribui um array de scores de 0(0%) a 1(100%), representando a} acurácia da predição. [26][27].

(22)

2.2.2.5. Treinamento

Para se obter melhores resultados de acurácia e desempenho há algumas funções que ajudam nesse processo, como _{loss function, Gradient descent e} backpropagation_{; porém o excesso de treino pode ser prejudicial à performance da} rede, chamado de _overfitting.

• Loss Function: _{Esta função tem como objetivo medir a compatibilidade entre as} predições de saída na rede, para que possam ser recalculados os pesos e _kernels _na rede a fim de fomentar o _{backpropagation e otimizar a rede [24].}

• Gradient descent: _{Geralmente utilizado para otimizar os algoritmos que atualizam os} parâmetros de aprendizado, para minimizar a perda. Seu propósito é aplicar as funções de gradiente na _{loss function e na taxa de aprendizado(learning rate) para} achar o mínimo delas [24].

• Backpropagation: _{Por meio do cálculo de loss function, se tem os novos pesos} kernels recalculados, com isso, é a rede é treinada novamente para que se possa diminuir o valor da _{loss function e dessa forma, melhorar o desempenho da rede. Este} processo é chamado de _{backpropagation [25]}

• Overfitting: Overfitting é dado quando a rede neural convolucional memoriza os pequenos detalhes do _{dataset de treinamento. Desse modo se restringe a só} conseguir classificar imagens que fazem parte deste _{dataset de treinamento, e} quando são conflitadas com o _{dataset de teste, tem um desempenho muito ruim.} Tem-se diferentes maneiras de tentar minimizar o _{overfitting na rede, como por} exemplo: O uso da camada de _{pooling; ter mais dados de treino, assim a rede} consegue ter uma generalização da classe; _{batch normalization e data augmentation} [24][26].

2.2.3 _{Segmentação Semântica}

O intuito da segmentação semântica é rotular cada pixel de uma imagem equivalente a uma classe pré-estabelecida, ou seja, uma imagem Inicialmente é realizada uma predição da imagem de entrada. Logo após é feita a detecção que, por sua vez, tem o objetivo de se gerar as classes, como também se destaca a localização espacial em que o pixel se encontra na imagem. Por fim, a segmentação semântica faz predições profundas, onde infere-se os pixels que condiz com as classes [16] [29] [30].

(23)

Os modelos clássicos que utilizam a segmentação semântica em sua composição são conhecidos como: U-net, _{Fully Convolutional Network (FCN), e SegNet.}

2.2.3.1 _{Fully Convolutional Network for Semantic Segmentation (FCN)}

É conhecido como a primeira arquitetura _{end-to-end para segmentação} semântica de imagens [32]. É uma extensão de Rede Neural Convolucional convencional, que oportuniza a inserção de imagens com diferentes tamanhos [16]. Essa arquitetura usa diversos blocos de convolução e camadas _{max pool, fazendo} com que possa se fazer a predição das classes em diferentes níveis de granularidade [30]. No processo de_{upsampling se tem a imagem predita e do mesmo tamanho que} a original [16]. Porém como a resolução da imagem é afetada pelo _{encoder, o} decoder_{tem problemas para predizer segmentações corretamente [29].}

(24)

2.2.3.2 _SegNet:

Tem como estrutura a utilização de _{encoder-decoder framework, sendo} simétricos. Os _encoders _{aplicam convolução, batch normalization, por fim aplica o} max pooling no resultado. Os _{decoders por sua vez fazem a operação de} upsampling_{(aumento da quantidade de pixels) a partir dos dados guardados do} encoder_{. Vem como objetivo de reter a alta frequencia detalhada nas imagens} segmentadas e diminuir o número de parâmetros treináveis nos _{decoders [31][32].}

Figura 6: Imagem modelo SegNet, retirada de [31]

2.2.3.3 Unet:

A arquitetura Unet é considerada um upgrade da _{Fully Convolutional Network}

(FCN) [30]. Foi criada por Olaf Ronneberger, tendo como a principal característica ter um melhor desempenho em segmentação imagens biomédicas diferentes [33]. Assim como a modelo SegNet, a Unet é um modelo simétrico, onde tem a presença dos encoders e _decoders _{[32]. O encoder é focado na convolução e no max pooling das} camadas. A principal diferença que ela traz em relação às outras arquiteturas é a expansão da capacidade do _{decoder dando a oportunidade de melhorar a resolução} das imagens e se ter uma localização mais precisa [34].

(25)

Figura 7: Imagem do modelo de Unet retirada de [33].

2.2.4 Detecção de Objetos

Com o propósito de se identificar objetos e a região onde se encontram, tem-se esse modelo de redes neurais. Utilizando o sistema de reconhecimento através de bounding box_{(bordas retangulares que delimitam o objeto identificado).}

Existem duas maneiras diferentes de se detectar um objeto:

1. Classificadores de regiões associados a extratores de características baseados em CNN, que podem ser representados, como por exemplo, pelas técnicas de: R-CNN e Faster R-CNN.

2. Redes Neurais Convolucionais de disparo único para reconhecimento de objetos, que podem ser representados, como por exemplo, pelas técnicas de: YOLO [36].

(26)

Figura 8: Representação do esquema de Detecção de Objetos, retirado de [36].

2.2.4.1 YOLO

O método de detecção da YOLO funciona mediante a predição dos _{bounding boxes,} como também, a probabilidade de pertinência à classe [36]. A YOLO contém várias versões de atualizações.

Figura 9: A anatomia de um Detector de Objeto. Retirado de [40].

Na primeira versão era uma detecção de objetos crua, com identificação de classe de ponta a ponta [40]. Inspirada na AlexNet, a YOLO por sua vez contempla diversas camadas convolucionais, tendo um tensor de características, no _{output desse vetor,}

(27)

há uma camada tridimensional, onde se tem subdivisões ligadas ao _{bounding boxes} como objetos e suas respectivas classes estimadas. [42].

Figura 10: Imagem evidencia, em vermelho, a camada tridimensional em uma arquitetura da rede YOLO. Retirada de [42].

Basicamente, este vetor tridimensional tem como propósito, utilizando o backpropagation padrão, analisar a imagem de entrada, dividindo-a em grid_{(representando os quadrados do pixel). Existem blocos desse grid focados em} designar o centro de um objeto de acordo com a porcentagem de confiança, como também, o _{bounding box caracterizando sua altura e comprimento. A partir de uma} heurística que elimina as confianças mais baixas, tem-se a saída de detecção da classe [42].

Na segunda versão, houveram melhorias, incluindo _{Batch Normalization(usada para} estabilizar o treinamento nos conjuntos de imagens) e a melhora na resolução das imagens [40]; na terceira versão, baseada em uma variante da ResNet, que é a DarkNet53 [42] , foram feitos aperfeiçoamentos no que se diz respeito a adição dos score_{(pontuação) aos bounding boxes(demarcações nas imagens), conexões na} espinha dorsal das camadas da rede e foi possível se fazer predições de objetos pequenos [40]. A última e mais consolidada no meio, se trata da versão 4(quatro). Foi lançada com o objetivo de dar mais velocidade e melhor capacidade de detecção, aliado a otimização de cálculos paralelos [38]. Estudos indicam que a YOLOv4 é 12% mais rápida e 10% mais precisa que sua versão anterior YOLOv3 [37]. Seu backbone_{(espinha dorsal) está baseada em CSPDarknet53, CSPResNext,}

(28)

EfficientNet-B3, com os pesos já pré-treinados, e começam a se extrair os _feature maps_{(resultado das imagens passadas pelas camadas da rede) ; O neck(pescoço)} são camadas encontradas entre a espinha dorsal e a cabeça rede, são responsáveis por identificar _{feature maps diferentes do backbone para se preparar para a detecção.} O modelo de agregação presente no _neck _{é o PANet(Path Aggregation Network -} Camada de Caminho Agregador), cujo esquema permite a agregação entre _feature map com predição; E por fim, tem-se o _{Head(Cabeça), é o lugar onde é feito a parte} de detecção propriamente dita, ou seja, classificação e regressão dos objetos no bounding boxes_{. Na versão 4 do YOLO, é utilizado o mesmo head da versão 3, onde} se tem os três níveis de detecção de granularidade [38][40][41].

O YOLOv4 dispõe de dois pacotes de atualização, o primeiro chamado de _{Bag of} Freebies_{( Saco de Brindes) com o objetivo de melhorar o desempenho da rede, sem} alterar o tempo para a detecção. Nesse pacote o foco se dá por conta do trabalho de data augmentation_{( técnica capaz de alterar brilho, tamanho, cor da imagem original),} com isso é possível ter uma performance mais significativa do modelo. Uma das inovações para o modelo é a técnica do mosaico, na qual o permite em uma imagem ser composta por quatro imagens distintas, a fim de treinar o modelo a identificar pequenos objetos; O segundo pacote é chamado de _{Bag of Specials( Saco de} Especiais), seu intuito é aumentar um pouco o custo de treinamento, entretanto, para se ter um aumento expressivo na qualidade do funcionamento do modelo. Foram aplicada novas estratégias de funções de ativação no modelo. Função de ativação permite a conversão dos _{features maps de camada em camada, até chegar na área} de detecção da rede. Nesse contexto foi implementada a utilização da função de ativação _{mish no qual os sinais são enviados para a esquerda e para a direita,} viabilizando assim, a criação de novas _{features além de seus pontos máximos} [38][40][41]. Esse pacote possibilitou também, o treinamento da YOLOv4 em GPU mais convencionais, o que o torna mais acessível[38].

Existe uma versão mais simples da YOLOv4, chamada de YOLOv4-_{Tiny. É} aproximadamente oito vezes mais rápida na inferência que a YOLOv4 propriamente dita, e conta com cerca de dois terços (⅔) da performance da YOLOv4 original. A principal diferença da versão _{tiny da “normal” está na no tamanho da rede em si. A} YOLOv4-Tiny é uma versão achatada, com menos camadas e menos _{anchor boxes}

(29)

(parâmetros usados para se predizer uma classe) que a YOLOv4, ou seja, menor [47].

Para poder avaliar o desempenho do YOLOv4, foram feitos testes de comparação com outros detectores de objetos, com objetivo de se ter números e métricas que possam distinguir o comportamento dos mesmos. Essa comparação foi feita pelo MS COCO, através das oitenta classes cadastradas no COCO, foi possível se ter um parâmetro da capacidade dos detectores atuando com os mais diversos objetos com formas e tamanhos distintos. Foram confrontados seis detectores de objetos. O resultado final pode ser analisado no gráfico abaixo [38]:

Figura 11: Gráfico que mostra o desempenho do YOLOv4 em relação a outras arquiteturas. Gráfico de AP/FPS retirado de [38].

(30)

2.2.4.2 _Detectron2

Essa arquitetura foi lançada em 2018 pelo Facebook AI, especialmente focada na detecção de objetos, o modelo _{Detectron está na sua segunda versão. O Detectron2} vem com atualizações que buscam melhorar o desempenho do modelo. Implementado em _{PyTorch( Biblioteca para desenvolvimento de Machine Learning),} dá a oportunidade de se ter um design extensível e modular, ou seja, mesmo com milhares de linhas escritas, é possível manter o projeto organizados e separadamente limpos. Por fim, após mover todo o treinamento por meio da GPU, foi possível agilizar a performance de treinos, como também a escalabilidade em diferentes GPUs para uma grande quantidade de dados [39].

(31)

3.Estado da Arte

Esta seção tem como finalidade contextualizar o estado da arte recente no que se diz respeito à citologia e os modelos de _{deep learning. Para a análise dos} trabalhos correlatos foi utilizado como base o _{Systematic Literature Review of} Computer Vision Cytology [51]_{, confeccionado pelos integrantes do INCoD( Instituto} de Convergência Digital) da UFSC. Essa revisão conta com os artigos publicados entre Janeiro de 2016 a Março de 2020, nas fontes: IEEE Xplore, Science Direct, Springer Link, ACM Digital Library, bioRxiv e arXiv.

Ao todo foram 43_{papers focados em deep learning, sendo que 30 desses em} Redes Neurais Convolucionais. Destes não há nenhuma ocorrência de YOLOv4 e o procedimento de AgNOR no mesmo artigo. Com isso foi selecionado dois artigos que constam a YOLOv3 e o que será usado posteriormente neste trabalho para comparação de resultados, para discorrer sobre.

No trabalho [52] foi proposto um estudo usando o YOLOv3 para detectar as células de núcleo em derrame pleural utilizado a técnica de papanicolau, nos pulmões. Usando um dataset de 200 imagens, sendo 40% para treino e 60% para teste, chegou-se aos seguintes resultados: Precisão de 94%, _recall _{de 99%, 96% de} DSC.

No artigo [53], é apresentado um método de automação de células cervicais eficientes. Este trabalho buscou poder detectar as células propriamente ditas e seus aglomerados. A YOLOv3 foi utilizada como modelo base para o treinamento da base de dados. Para melhorar a performance do classificador, foi criado um efeito cascata nos exemplos para se ter uma nova tarefa específica classificadora. Os autores também investigaram a presença de anotações não confiáveis e suavizaram essa distribuição dos _{labels sem nexo. A base de dados foi coletada pelos autores e foi} processada com a técnica de coloração Feulgen, e foi dividida em 10 categorias na base de dados de teste. Este estudo do sistema de identificação de células cervicais alcançou um bom nível de detecção e também mostrou uma localização mais detalhada e uma informação categórica referenciada das células anormais. Os

(32)

resultados indicaram uma boa performance do método aliado com uma eficiência e robustez.

O _{paper [50] será utilizado como comparação de resultados na seção de} Experimentos e Resultados deste decorrente trabalho. Os autores começaram a dar uma noção do câncer de colo de útero e sobre a técnica de coloração AgNOR, de como ela não é explorada mesmo tendo um potencial muito grande. O trabalho proposto é o uso das Redes Neurais Convolucionais nesses exames em AgNOR a fim de se medir quantitativamente as informações nas imagens. Através da utilização da técnica de segmentação semântica representada por um modelo U-net com uma ResNet18 como espinha dorsal. O treinamento foi dividido entre os métodos de Weight Decay estático e _{Weight Decay variante. Os resultados obtidos foram de 0.87} na métrica de _{mean Intersection Over Union} _{(mIoU) e 0.99 na métrica de Dice} Similarity Coefficient _(DSC).

(33)

4.Metodologia e Desenvolvimento

Neste capítulo é explicitada a base de dados que foi empregada no desenvolvimento do trabalho, como também os meios onde os dados foram treinados, e as métricas que serão analisadas posteriormente.

4.1 Base de Dados

O Laboratório LAPIX, em parceria com a área da saúde da UFSC, recebeu imagens de exames de células de colo de útero, de pacientes não identificados, a fim de se fazer estudos e processamento das mesmas.

Através dos _{bounding boxes(retângulos) as três classes que foram usadas nas} detecções, que são: núcleos, _{clusters e os satélites foram marcados. , recebe por} meio de uma parceria com os departamentos de análises clínicas da universidade, várias imagens referentes a exames de telemedicina. Para a construção deste projeto, foi utilizado um dataset com imagens de células de colo de útero. _{O dataset} utilizado foi o CCAgT: Images of Cervical Cells with AgNOR Stain Technique(14,15) . O CCAgT consiste em 2540 imagens obtidos no Hospital Universitário Polydoro Ernani de São Thiago da Universidade Federal de Santa Catarina (HU-UFSC), por meio de exames em mulheres que foram tratadas pelo ambulatório de ginecologia e colposcopia do Hospital. Para se fazer a aquisição das imagens, foi usado um ZEISS Axio Scanner.Z1 com uma Hitachi HV-F202SCL como aparelho de imagem. A exposição ficou em 200µs, com um foco de 1.22µs e 246% de intensidade de luz. O processo final gera uma imagem de 232,000 x 169,000 pixels [50].

Para se marcar as imagens disponibilizadas, foi aplicada a ferramenta Labelme_{, que possibilita a marcação dos objetos, em polígonos e bounding boxes} para uma segmentação semântica e detecção de objetos respectivamente [43]. Nas marcações deste _{dataset, evidenciou-se a presença dos núcleos, clusters e satélites,} onde foram salvos em formato ‘json’ seguindo a configuração do COCO dataset.

(34)

Para a confecção deste projeto, foram usados dois _{datasets. A quantidade de} imagens usadas no primeiro _{dataset do trabalho foi 979. Onde, 70% destas, ficaram} para o treinamento, correspondendo a 686 imagens; 20% para validação, sendo 195 imagens; e 10% para teste, representado por 98 imagens.

Figura 12: Imagem utilizada no dataset. Fonte: Autor

No segundo _{dataset foi executada a função de data augmentation. Nele foram} adotados _{saturation +50% e -50%, deixando umas imagens mais em tons de} vermelho, ou seja, mais saturadas, e as outras em tons de cinza, onde ficaram menos saturadas; Por vezes, as imagens dos exames, podem vir distorcidas e de difícil visualização ao olho humano. Para tentar se reconhecer estes objetos, usou-se a opção de _{blur, que deixa as imagens mais desfocadas e distorcidas, foi desfocado} 1.25 pixels; E por último foi diminuído e aumentado o brilho da imagem em 30%. Ao todo, com todas essas mudanças, o segundo _{dataset ficou com 1665 imagens no} total. Considerando 1372 imagens para treinamento, 195 para validação e 98 imagens para teste.

(35)

Figura 13: Imagem do dataset utilizando saturação -50%. Fonte: Autor

4.2 Meios de Treinamento

Para se preparar os dados, dividi-los em _{dataset de treinamento, validação e} teste; Convertê-los do formato JSON para o formato YOLO Darknet e poder se fazer as alterações de _{data augmentation, foi usada a versão gratuita de uma ferramenta} chamada Roboflow [44]. Esta aplicação permite que seja possível analisar, pré-processar, converter, exportar e compartilhar _{datasets, é funcional a vários} frameworks_{(Aplicação pré-definida com uma função e componentes específicos que} auxiliam no desenvolvimento de um _{software) como por exemplo: Darknet, Keras,} PyTorch _{e Tensor Flow.}

O ambiente em que os _{datasets foram treinados é o Google Collaboratory.} Este meio é um dos produtos hospedados pela Google, onde é disponibilizado na nuvem. Este serviço permite ao usuário, de forma gratuita, desenvolver aplicações de Machine Learning e _{Deep Learning [45]. Esta ferramenta viabiliza o uso remoto de} uma GPU(_{Graphics Processing Unit} _{), para serem processados os treinamentos,} desta forma foi possível fazer o trabalho de conclusão de curso.

(36)

Para a confecção do mesmo, foi adaptada uma versão do _{Notebook do} Roboflow para YOLOv4. A base está em YOLO Darknet, um _{framework de código} aberto, escrito em C e CUDA, e dá toda a base para o desenvolvimento do detector de objetos YOLO [46].

4.3 Métricas de qualidade

Para se poder avaliar a qualidade e precisão da detecção, foram usadas diferentes métricas. Para se poder entender melhor, é necessário uma explicação da matriz de confusão.

Figura 14: Matriz de Confusão. Fonte: [48]

Esta tabela demonstra os erros e acertos de qualquer modelo, mostrando a expectativa e a realidade de uma classificação.

● O Verdadeiro Positivo (VP) representa uma classificação correta da classe Positiva.

● O Falso Positivo (FP) representa uma classificação errada para a classe Positiva, quando o resultado real era para ser da classe Negativa.

● O Verdadeiro Negativo (VN) representa uma classificação correta da classe Negativa.

● O Falso Negativo (FN) representa uma classificação errada para a classe Negativa, quando o resultado real era para ser da classe Positiva.

(37)

A partir das informações apresentadas anteriormente, é possível calcular algumas métricas de classificação para elucidar melhor o modelo. Tem-se a Acurácia, Precisão, Recall e o F1-Score.

A Acurácia tem como papel dar uma visão geral do desempenho do modelo, mostrando quanto o modelo classificou corretamente, sua fórmula pode ser expressa por:

a

curácia

=

_{V P + V N + F P + F N}V P + V N

(3.1) A Precisão está encarregada por evaluar as classificações da classe Positiva, dando um panorama de quantas estão corretas. Sua fórmula pode ser expressa por:

p

recisão

=

_{V P + F P}V P

(3.2) A Revocação, ou _{recall, pega o apanhado das classes Positivas como valor} esperado, e quantifica quantas estão corretas. Sua fórmula pode ser expressa por:

r

ecall

=

_{V P + F N}V P

(3.3) O F1-Score elucida a média harmônica entre a precisão e o _{recall. Sua fórmula} pode ser expressa por [48]:

F − S

1 core

= *

2

_{precisão + recall}precisão recall*

(3.4) Existem também avaliadores que buscam averiguar a qualidade da detecção, buscando semelhança no que foi marcado na imagem e com o que foi predito. Com base nessas métricas, tem-se o IoU e o mAP.

IoU, ou Intersecção sobre União ou coeficiente de similaridade de Jaccard, busca medir a similaridade entre dois conjuntos finitos. Atualmente é considerado um

(38)

dos coeficientes padrão na avaliação da qualidade de uma segmentação semântica ou detecção de objeto.

Figura 15: Representação da fórmula da IoU, retirado de [48]

Na figura 15, é possível entender a razão entre a intersecção da área em que está o objeto de fato( _{ground truth) com a classificação predita com a união do ground} truth _{e a área da classificação predita. Entende-se que, quanto maior o coeficiente} dessa razão, mais qualidade e precisão tem a classificação predita [48].

mAP, _{mean average precision é uma técnica de avaliação muito difundida} atualmente no campo de _{Deep Learning. Sua principal característica é poder} comparar diferentes modelos, contrapondo a precisão com o_recall.

A precisão como citado previamente, leva em conta em seu cálculo as classes que foram classificadas corretamente e as classificadas incorretamente, ou seja, é a associação entre as classificações corretas com todas as classificações.

No _{recall o seu cálculo é focado em todos os objetos na imagem, que são as} classes classificadas e aquelas que estão na imagem, porém não foram classificadas. A função se explica na relação entre as classificações corretas e a quantidade de objetos total na imagem.

Baseado em na curva de precisão e _{recall tem-se a AP( Average Precision).} Quando o monte de FN diminui, o valor de _{recall aumenta. A precisão trabalha em} zigue-zague, subindo com o aumento de VP e diminuindo com o aumento de FP.

(39)

Figura 16: Curva de AP, retirado de: [49].

Tudo que está para baixo da curva representa o AP. Mediante isto, a AP corresponde a precisão média de todos os valores de _recall _{entre 0 e 1. O mAP é} expressado pela interpolação de precisão com 11 pontos com_{re. Com isso, utiliza-se} o valor da precisão mais alta com o valor do _{recall que ultrapassa re, para se evitar o} zigue-zague. Por fim, considera-se mAP como a média da AP entre as classes do modelo [49].

5. Experimentos e Resultados

Este capítulo é destinado a contemplar os experimentos que foram feitos com as os modelos de YOLOv4 com o _{dataset de AgNOR, bem como uma explanação dos} resultados e um comparativo com as métricas finais de uma segmentação semântica.

5.1 Experimentos

Ao todo foram três experimentos utilizados na confecção deste trabalho. YOLOv4-_Tiny, _{YOLOv4 e YOLOv4 com data augmentation. Os modelos foram} treinados com uma pesos pré-treinados para tentar obter um melhor resultado. A tabela abaixo explica como foi dividido o _{dataset com os modelos.}

(40)

Tabela 1: Tabela dataset. Fonte: Autor

5.1.1 Experimentos com YOLOv4-_Tiny

Para o modelo YOLOv4- _{Tiny foi utilizado as configurações padrão do modelo} adaptado do Roboflow, que se encontram abaixo:

Tabela 2: Configuração da YOLOv4-Tiny. Fonte: Autor

5.1.2 Experimentos com YOLOv4 e YOLOv4 com _{data augmentation}

Para os modelos YOLOv4 e o modelo YOLOv4 com _{data augmentation foi usado as} mesmas configurações para os treinamentos, também foi adotado o padrão aconselhado pelo Roboflow. A configuração encontra-se abaixo:

Modelo Train Validation Test Total

YOLOv4-_Tiny 686 195 98 979 YOLOv4 686 195 98 979 YOLOv4 com data

augmentation 1372 195 98 1665 batch 64 subdivisions 24 altura imagem 416 largura imagem 416 channels 3 learning rates 0,00261 max batches 8000 steps 6400 e 7200 camadas convolucionais 20

(41)

Tabela 3: Configuração da YOLOv4 e YOLOv4 com data augmentation. Fonte: Autor batch 64 subdivisions 24 altura imagem 416 largura imagem 416 channels 3 learning rates 0,001 max batches 8000 steps 6400 e 7200 camadas convolucionais 100 YOLOv4-Data Augmentation: blur 1.25px YOLOv4-Data Augmentation: saturation +50% e -50% YOLOv4-Data Augmentation: brilho +30% e -30%

(42)

5.2 Resultados

Após a execução dos treinamentos aplicando os modelos e configurações pré-especificadas, os resultados adquiridos foram os seguintes:

5.2.1 Resultados com YOLOv4-_Tiny

Os resultados do modelo YOLOv4-Tiny, foram os que tiveram menos precisão na classificação das imagens, como mostrado na Figura 17:

Figura 17: Curva de _{loss e mAP da YOLOv4-Tiny. Fonte: Autor}

Por ser tratar de uma rede menor e mais compacta considerada a YOLOv4 em seu tamanho original, a versão _{Tiny obteve um average loss de 0.095, porém teve seu} máximo mAP em 20%, demonstrando grande erros em classificações, como também a baixa quantidade de objetos classificados.

Esse fato pode ser explicado pelo tamanho menor do montante de camadas convolucionais, ocasionando assim pouca generalização no que se diz respeito à classificação.

(43)

Figura 18: Exemplo de classificação rede YOLOv4-_{Tiny. Fonte: Autor}

Como mostrado no Figura 18, é possível perceber que nesse modelo, foi apenas detectado o núcleo da célula, deixando de classificar o _{cluster que se encontra dentro} da mesma.

Entende-se que para se detectar objetos de menor tamanho, este modelo não é o mais adequado.

5.2.2 Resultados com YOLOv4

Para o modelo original da YOLOv4, sem compactação, contando com mais camadas de convolução, alcançou-se melhores resultados, porém sem ser de boa porcetagem.

(44)

Figura 19: Resultados do modelo YOLOv4. Fonte: Autor

Após o fim das 8000 iterações, atingiu-se o melhor mAP com 28.35%, com 0.43 de precisão, 0.53 de recall, 0.48 de F1-Score e 32.35% de IoU. Esses resultados podem ser explicados pela grande quantidade de FP(Falsos Positivos) durante os cálculos.

Destaca-se a capacidade do modelo ter uma facilidade maior em reconhecer os núcleos, entretanto encontrou dificuldades na classificação dos _{clusters e satélites,} por serem de tamanhos menores, o número de FP se tornou muito evidente, tornando-se uma das causas das porcentagem das métricas, como precisão, _{recall e} F1-Score tendo um número variando entre e 0.43 e 0.53. O resultado do IoU, mostra que o modelo difere-se consideravelmente do _{ground truth e o que foi predito pelo} treinamento.

(45)

Figura 20: Exemplo de classificação da rede YOLOv4. Fonte: Autor

Os núcleos estão contornados em azul, os _{clusters em verde e os satélites em} vermelho. Assim demonstrado pela Figura 20, percebe-se a grande quantidade de detecções. O modelo conseguiu identificar as classes, todavia, algumas delas com erros visíveis de classificações, como esperado devido aos resultados das métricas .

5.2.3 YOLOv4 com _{data augmentation}

Empregando a _{data augmentation no modelo YOLOv4, esperava-se que o modelo} pudesse obter melhores números nas métricas, porém, notou-se resultados semelhantes aos logrados no modelo YOLOv4 sem _{data augmentation.}

(46)

Figura 21: Resultados do modelo YOLOv4 com data augmentation. Fonte: Autor

A partir da Figura 21, pode-se perceber com os resultados de 0.46 de precisão, 0.50 de recall, 0.48 de F1-Score são valores que tem uma similaridade com os apresentados na versão sem_{data augmentation, destacando-se para o valor de IoU} um pouco maior com 34.78%, mas com um mAP menor, com 27%.

Entende-se que mesmo com a utilização de _{data augmentation o modelo deu} resultados que não alcançaram melhorias, em comparação aos demais, mostrando o problema para se conseguir detectar os objetos melhores, mesmo com uma quantidade maior que de imagens para treinamento.

(47)

Figura 22: Exemplo de classificação do modelo YOLOv4 com data aumentation. Fonte: Autor.

Os núcleos estão contornados em azul, os _{clusters em verde e os satélites em} vermelho. Foi utilizada a mesma imagem da YOLOv4 sem _{data augmentation, para} poder comparar os dois modelos. Observou-se também, erros na classificação das classes como no modelo da YOLOv4.

5.2.4 Comparação com Segmentação Semântica

Utilizando o artigo descrito em [50], escrito e desenvolvido no laboratório LAPIX, na UFSC, buscou-se nesta seção, fazer uma comparação entre os resultados obtidos com uma segmentação semântica e uma detecção de objetos, utilizando dados de exames de AgNOR.

Para a confecção do artigo, usou-se 1320 imagens de treinamento, 889 de validação e 331 imagens foram destinadas para teste.

(48)

No artigo, foram testados dois tipos de métodos de treinos. O primeiro usando a técnica especial de segmentação semântica _{Weight Decay estática, ou seja, sem o} valor alterado durante o treinamento, e o segundo método foi variando os valores de Weight_{Decay ao longo do treinamento.}

Weight Decay é uma técnica utilizada para controlar as curvas de aprendizado de um modelo, para evitar o _{overfitting e se achar o ponto com o melhor resultado na} curva;

Os resultados comparados são esses:

Tabela 4: Comparação de resultado entre os modelos. Fonte: Autor

A partir da Tabela 4 é possível perceber claramente que o artigo de segmentação semântica atingiu níveis de precisão muito maiores que os resultados adquiridos neste trabalho. Um dos motivos pode ser evidenciado no maior número de imagens utilizadas para o desenvolvimento do projeto citado no artigo, como também o uso de técnicas mais refinadas para o treinamento, e uma confiança maior em que uma segmentação com polígonos proporciona em confrontação a uma detecção por bounding boxes_. Modelo YOLOv4 YOLOv4 com data augmentation Segmentação Semântica com _Weight Decay _estático Segmentação Semântica com _Weight Decay _variante IoU 32.35% 34.78% 78.49% 87.52%

(49)

6. Conclusão

Nos dias de hoje é inviável se pensar em novas descobertas, melhorias, curas, e novos procedimentos médicos, sem o vínculo da tecnologia empregada nestes processos. A aplicação de tecnologia em exames médicos, atualmente é de suma importância para poder se prever, encontrar em seu início, doenças perigosas e poder oportunizar a execução de tratamentos adequados.

O câncer de colo de útero, infelizmente, é uma doença que acomete muitas mulheres no Brasil e em todo o mundo, causando milhares de óbitos durante cada ano.

O exame de colo de útero, utilizando a coloração presente no AgNOR possibilita encontrar possíveis alterações celulares, causadoras de câncer. Todavia, essa análise toma muito tempo do profissional da saúde. Com o auxílio da visão computacional nestes exames, é possível automatizar esse processo.

Apesar da dificuldade atravessadas para se desenvolver o trabalho, como limitação de tempo e processamento, usando GPUs sem muita velocidade, no Google Colab. Considera-se que o principal objetivo proposto foi alcançado, que foi a comparação entre os resultados, e poder apresentar classificação dos núcleos, clusters_{e satélites.}

Para os trabalhos futuros, entende-se que podem ser efetuados aplicando configurações mais rebuscadas para se conseguir melhores resultados, como por exemplo: Aumentando valores de subdivisões, aumentando as dimensões das imagens, empregando GPUs com mais capacidade de processamento e a utilização de _{datasets com mais imagens. Pensa-se que com a ascensão da YOLOv5, novos} projetos podem ser testados neste modelo.

(50)

Referências

[1]BRAY, F., FERLAY, J., SOERJOMATARAM, I., SIEGEL, L., TORRE, A., JEMAL, A. Global Cancer Statistics 2018: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA: A Cancer Journal for Clinicians. 2019

[2] Estatística de câncer, disponível em:

<https://www.inca.gov.br/numeros-de-cancer>. Acessado em: 08/04/2020

[3] SIEGEL, R. L., MILLER, K. D., & JEMAL, A. Cancer statistics, 2020. CA: A Cancer Journal for Clinicians. 2020

[4] FILIPPIN, C; CHRISTOFOLETTI, L; RIBEIRO, M; VITURI, C. “Determinação do número de regiões organizadoras de nucléolo (AgNOR) em lesões do epitelo cervical uterino”. Revista Brasileira de Análises Clínicas (RBAC). 2006.

[5] ONCOGUIA. “Tipos de Citologia”, Disponível em:

<http://www.oncoguia.org.br/conteudo/tipos-de-citologia/7381/886/>. Acessado em Abril de 2020

[6]_{Machine Learning e Deep Learning: aprenda as diferenças. Disponível em} <https://sforce.co/2VY8uc5> , acessado em 30/05/2019.

[7] Entendendo Redes Convolucionais(CNNs). Disponível em <https://bit.ly/2W1oYju>, acessado em 30/05/2019

[8] GARCÍA-VIELMA, C., DÁVILA-RODRÍGUEZ, M., HERNÁNDEZ-GARZA, F.,

CERDA-FLORES, R., & CORTÉS-GUTIÉRREZ, E. Digital image analysis of AgNORs in cervical smears of women with premalignant and malignant lesions of the uterine cervix. Biotechnic & Histochemistry, 2015

(51)

[9] CROCKER, J., BOLDY, D. A. R., & EGAN, M. J.. How should we count AgNORS? Proposals for a standardized approach. The Journal of Pathology. 1989

[10] SAKAI, Y. I., SAKAI, A. T., ISOTANI, S., CAVALIERE, M. J., DE ALMEIDA, L. V., CALORE, E. E., & CALORE, E. E. . Morphometric Evaluation of Nucleolar Organizer Regions in Cervical Intraepithelial Neoplasia. Pathology - Research and Practice. 2001

[11] KC, S. R., & TALWAR, O.. Value of Nucleolar Organizer Regions count in cervical pathology. Journal of Pathology of Nepal, 2012.

[12] TRERÈ, D. AgNOR staining and quantification. Micron, 2000

[13] EGAN, J., & CROCKER, J. (1990). Molecular biology and respiratory disease. 3. Evaluation of nucleolar organiser regions in pulmonary pathology. Thorax

[14] SRIVASTAVA, MISRA, S., SINGH, U., KHAN, M., RAZA, S. . AgNOR Pleomorphic Count as a Tumor Marker in Cervical Carcinogenesis and Feasibility of Its Introduction in Cervical Cancer Screening Programs to Discriminate High-Risk Cases of Squamous Intraepithelial Lesions of the Cervix. 2019

[15] BELL, A., HERBERICH, G., MEYER-EBRECHT, D., BOCKING, A., AACH, T.

Segmentation and Detection of Nuclei in Silver Stained Cell Specimens for Early Cancer Diagnosis. 2007 IEEE International Conference on Image Processing, 2007

[16] LE, J. “How to do Semantic Segmentation using Deep Learning”. Disponível em <https://medium.com/nanonets/how-to-do-image-segmentation-using-deep-learning-c673cc5862ef>. Acessado em Março de 2020

UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA CURSO DE BACHARELADO EM SISTEMAS DE INFORMAÇÃO

a

curácia

=

​

p

recisão

=

​

r

ecall

=

​

F − S

1

core

= *

2

​