Aquisi¸ c˜ ao de dados - 4 Classifica¸ c˜ ao de Parasitas de

4 Classifica¸ c˜ ao de Parasitas de

4.1 Aquisi¸ c˜ ao de dados

Atualmente, dispomos de 1651 imagens coloridas com lâminas de esfrega¸co sangu´ıneo, contendo fases, espécies e outros elementos como WBCs. As configura¸cões de aquisi¸cão e locais já foram definidos no Se¸cão 3.1.1. Ao separar essas imagens em classes nós temos um total de: 1.401 (P.falciparum Trofozo´ıto), 1 (P.falciparum Esquizonte), 24 (P.falciparum Gametócito), 165 (P.vivax Trofozo´ıto), 0 (P.vivax Esquizonte), 22 (P.vivax Gametócito), 13 (P.malarie Trofozo´ıto), 30 (P.malarie Esquizonte), 2 (P.malarie Gametócito), 29 (P.ovale Trofozo´ıto), 79 (P.ovale Esquizonte), 17 (P.ovale Gametócito).

As CNNs necessitam de uma grande quantidade de dados para obter bons resultados (GOODFELLOW et al., 2016). Para ampliarmos nossa base de dados, propomos aplicar

Figura 4.2: Exemplo de data augmentation nas esp´ecies: (a) P.falciparum, (b)P.vivax.

rota¸cões de 45o, 90o e 180o nas imagens, além de varia¸cão na escala das imagens, com valores no intervalo entre 0.5 à 1.5. Desta forma, para cada imagem, outras 30 serão geradas no processo proposto de data augmentation (HAYKIN, 2007) (SZEGEDY et al., 2015), ou seja, criar novos dados a partir dessas opera¸cões, podemos visualizar um exemplo dessa opera¸cão na Figura 4.2. Os parasitos de plasmodium spp podem está em qualquer posi¸cão e rota¸cão nas células (CDC, 2016). A Figura 4.3 mostra exemplos do conjunto de dados de imagens.

Figura 4.3: Exemplo de imagens do banco de dados nas espécies: (a) P.falciparum, (b)P.vivax, (c)P.Malarie, (d)P.ovale da esquerda para a direita nas fases trofozo´ıta, esquizonte e gametócito. Negativos para malária: (e) Leucócitos e (f) Artefatos diversos.

Claramente, um grande desafio neste caso é a falta de dados de várias classes, já que é bem mais dif´ıcil encontrar parasitas nas fases esquizonte e gametócito do que na fase trofozo´ıta. Uma possibilidade é a utiliza¸cão de lâminas cultivadas em laboratório, e logo com grande controle sobre os estágios dos parasitas, para a captura de imagens de parasitas nessas duas outras fases. Existe ainda a dificuldade na aquisi¸cão de imagens de parasitas do P. knowlesi, por ser uma espécie que ocorre primariamente no sudeste asiático e apesar de eventualmente infectar humanos é mais facilmente encontrada em primatas (ORGANIZATION, 2017).

Nas próximas Se¸cões serão vistos os experimentos com as CNNs pré-treinadas na base Imagenet e treinada e/ou adaptadas nas últimas camadas com a base vista nesta Se¸cão, para a classifica¸cão de P.falciparum e P.vixax.

4.2 Experimentos

Nesta se¸cão, serão apresentados os experimentos utilizando redes neurais convolucionais CNN pré-treinadas para a identifica¸cão de parasitos do tipo P.falciparum e P.vivax na fase trofozo´ıto em forma anelar, essa forma pode ser vista na Figura 4.2a e 4.2b, sendo os objetos mais a esquerda. No conjunto de dados visto na Se¸cão 4.1 é utilizado a técnica de data augmentation para gerar novos dados sintéticos, no total serão 3.534 imagens de treinamento e 837 de valida¸cão, para cada classe. É justificado o uso de CNNs pré-treinadas pelo fato de dispormos de poucos dados para treinamento e valida¸cão, conforme visto anteriormente na Se¸cão 4.1. Basicamente, as camadas iniciais de uma CNN são compostas por recursos genéricos como, por exemplo, deteçcão de contornos e linhas. Para tal, é utilizado um grande volume de imagens e assim alimentando as camadas iniciais da CNN. O pré-treinamento dessas CNNs foi realizado utilizando o conjunto de dados Imagenet .

Para realizar o treinamento das CNNs, foi utilizado um computador com as seguintes configura¸cões: DELL PowerEdge R730, 2 Deca Core Intel Xeon E5-2660, GPU NVI- DIA Tesla K20m, 64GB RAM e Sistema Operacional Ubuntu 16.04. A linguagem de programa¸cão Python 3.6 e as bibliotecas de código aberto, tensorflow 1.12, numpy 1.17 e opencv 4.0 foram utilizadas para a implementa¸cão dos modelos de CNNs.

4.2.1 M´etricas de Avalia¸c˜ao

Podemos avaliar os modelos de CNNs através de algumas métricas já utilizadas pela literatura, tais como: acurácia, precisão, recall (sensibilidade), f1-score e loss (perda),

definidas nas Equa¸c˜oes 4.2, 4.5, 4.3, 4.4 e 4.6, respectivamente, utilizando as siglas definidas na Tabela 4.1 (GOODFELLOW et al., 2016; SZEGEDY et al., 2015; HAYKIN, 2007; SZELISKI, 2010). Siglas Significado P Positivos N Negativos VP Verdadeiro positivo VN Verdadeiro negativo FN Falso negativo FP Falso positivo

Tabela 4.1: Siglas utilizadas para avalia¸c˜ao.

acurácia = V P + V N V P + V N + F P + F N (4.2) precisão = V P V P + F P (4.3) recall = V P V P + F N (4.4) f 1 = 2 · precisão · recall precisão + recall (4.5) loss = Hp(q) = − 1 N N X i=1

yi· log(p(yi)) + (1 − yi) · log(1 − p(yi)) (4.6)

A acurácia faz uma avalia¸cão do modelo todo, ou seja, de todas as classifica¸cões, quantas foram rotuladas como corretas. A métrica de f1-score, trata-se da média harmônica entre precisão e sensibilidade. A precisão é basicamente todas as classifica¸cões positivas que o modelo previu e foram identificadas como corretas. O recall mede a porcentagem das amostras positivas rotuladas corretamente como positivas. A fun¸cão de perda ou loss function mede a distância para a solu¸cão ótima, no nosso caso é utilizado a fun¸cão de entropia cruzada binária ou binary cross-entropy.

4.2.2 Experimento 1 - MobileNetV2

Essa arquitetura utiliza o conceito de Depthwise Separable Convolution, onde sua ideia principal é substituir a opera¸cão de convolu¸cão geral por uma versão fatorada dividindo-as em duas camadas. A primeira camada, também nomeada por convolu¸cão profunda ou depthwise é onde são aplicados pesos leves ou lightweight para cada canal de entrada da rede. A segunda camada é uma convolu¸cão de 1 × 1 chamada de pointwise responsável por criar novas caracter´ısticas através da combina¸cão linear das camadas de entrada, com isso reduzindo a complexidade computacional e o tamanho do modelo, tornando-o acess´ıvel para dispositivos móveis(SANDLER et al., 2018).

A técnica de inverted residual structure é apresentada e seu funcionamento se dá por conexões de atalho entre as camadas lightweight do gargalo ou em inglês bottleneck. A estrutura da MobileNetV2 pode ser vista na Tabela 4.2.

Entrada Operador t c n s 2242× 3 conv2d - 32 1 2 1122× 32 bottleneck 1 16 1 1 1122× 16 bottleneck 6 24 2 2 562× 24 bottleneck 6 32 3 2 282× 32 bottleneck 6 64 4 2 142× 64 bottleneck 6 96 3 1 142× 96 bottleneck 6 160 3 2 72× 160 bottleneck 6 320 1 1 72× 320 conv2d 1x1 - 1280 1 1 72× 1280 avgpool 7x7 - - 1 - 1 × 1 × 1280 conv2d 1x1 - k - -

Tabela 4.2: MobileNetV2. Para cada linha é descrita uma sequência de 1 ou mais camadas de passos repetidas por n vezes. Todas as camadas tem o mesmo número c de sa´ıdas. A primeira camada de cada sequência tem um stride s e todas as outras 1. Em todas as opera¸cões de convolu¸cões espaciais utilizam um kernel de 3 × 3. A expansão é o fator t. Toda a arquitetura está detalhada em (SANDLER et al., 2018).

Para o problema da classifica¸cão de P.falciparum e P.vivax na fase trofozo´ıta, foi utilizada a abordagem de transfer learning (THRUN; PRATT, 2012). Justifica-se o uso dessa abordagem, pelo simples fato de dispormos de poucas imagens na base de dados. As imagens foram redimensionadas para 224 × 224 utilizando 3 canais e/ou camadas de cores no modelo RGB. O treinamento foi realizado utilizando 30 épocas e os resultados podem ser visualizados na Tabela 4.3. Na Figura 4.4 os gráficos de acurácia e entropia cruzada do modelo são plotados e podem ser visualizados .

0 5 10 15 20 25 30 0.6 0.7 0.8 0.9 1.0 Accuracy

No documento MalariaApp: um sistema de baixo custo para diagnóstico de malária em lâminas de esfregaço sanguíneo usando dispositivos móveis (páginas 50-55)