Materiais e Métodos - Detecção de distorção arquitetural mamária em mamografia digital utilizan

4.1 Banco de Dados

O presente trabalho contou com exames de mamografia digital (FFDM) anônimos obtidos em colaboração com médicos radiologistas do Instituto de Radiologia do Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo (InRad/HCFMUSP), utilizando o mamógrafo Selenia Dimensions da Hologic○1R _{. Para a utilização de tais ima-}

gens, foi obtido aprovação do Comitê de Ética em Pesquisa2 _{da Faculdade de Medicina} da USP e da Plataforma Brasil (Parecer no _{1.581.220) para a aquisição de imagens ma-} mográficas clínicas e dos laudos correspondentes.

Do total de exames, foram selecionados um conjunto com laudo de distorção arquitetural e o outro de igual tamanho com a ausência desta lesão (os demais exames foram de casos sem nenhuma lesão ou apenas imagens da mama com algumas microcalcificações). O conjunto de imagens conta com 100 exames provenientes de 92 pacientes, em sua maioria com cortes CC e MLO, resultando em 280 imagens de mamografia, dos quais 140 com laudo de DA. As mamografias possuem dimensão 4096x3328 ou 3328x2560 pixels de acordo com o tamanho da mama (dimensão estabelecida pelo sistema de aquisição), tamanho de pixel de aproximadamente 70 𝜇𝑚2 _{e quantização em 12 bits. A Figura 21} apresenta dois exemplos de imagens dos exames de um mama direita, um CC (21b) e outra MLO (21b).

As distorções arquiteturais foram marcadas nas imagens por outro radiologista experi- ente e confirmadas com o auxílio do laudo do InRad. A Figura 22 apresenta um exemplo com a imagem marcada e duas regiões de interesse do mamograma.

Algumas imagens de mamografias digitalizadas foram utilizadas como suporte para os primeiros testes de treinamento. Essas imagens são provenientes do banco de imagens DDSM, já há muito utilizado e disponibilizado publicamente na internet (HEATH et al.,

1_{https://www.hologic.com/hologic-products/breast-skeletal/selenia-dimensions-mammography-} system

54 Capítulo 4. Materiais e Métodos

Figura 21: Imagem de exemplos de mamograma de mama direita com corte: (a) CC e (b) corte MLO.

(a) (b)

Fonte: do autor, 2019.

2000). Embora essas imagens sejam digitalizações de exames de mamografia analógica por tela-filme, e portanto, com qualidade muito inferior às imagens de FFDM, foram possíveis dados que serviriam para ampliar o material de aprendizado da rede. Tal conjunto de imagens foi abandonado em uma segunda etapa por motivos de mudança de abordagem.

4.2 Método Proposto

O método elaborado visou a realização de diferentes abordagens de treinamento da mesma arquitetura de rede CNN com o objetivo de comparar seus resultados tanto entre si como entre os trabalhos já realizados na área para classificação da DA. A rede teve como tarefa classificar recortes extraídos dos mamogramas entre tecido normal e com DA. A utilização de regiões de interesse (do inglês ROI), apesar de já haver sido utilizada na maioria dos trabalhos correlatos (vide Capítulo 2), foi pensada para uma posterior classificação de todas as regiões extraídas da região interna da mama, obtendo-se uma resposta mais geral para o mamograma. Ao mesmo tempo, também serviu para diminuir a quantidade de memória utilizada para os dados de treinamento. Para tratar a questão da pequena quantidade de exames disponíveis para gerar regiões de interesse para trei- namento, foi escolhida a técnica de data augmentation. A rede CNN teve seus resultados comparados com a sua versão treinada com um conjunto ampliado por data augmentation. A extração das ROIs da região interna da mama nos mamogramas seguiu a abordagem de varredura em janela de dimensão 256x256. A dimensão foi fixada por motivo de ser

4.2. Método Proposto 55

Figura 22: (a): Exemplo de mamograma marcado; (b): região de interesse com DA e em (c): recorte de tecido normal do exame.

(a)

(b) (c)

Fonte: do autor, 2019.

uma dimensão média das lesões marcadas, e para definir um padrão de entrada da CNN, sem haver testes com outras dimensões. O passo da janela foi definido em 25 pixels. A segmentação excluiu o músculo peitoral e o plano de fundo. Para as regiões com lesão, foi estabelecido que os recortes que contivessem a coordenada central da lesão seriam considerados pertencentes a essa classe. A Figura 23 apresenta exemplos de ROIs de diferentes classes.

Ao final, gerou-se um mapa de calor das predições de cada uma das ROIs do mamograma, fornecendo uma resposta mais abrangente que a apresentada pelos sistemas CAD tradicionais. A Figura 24 apresenta um esquema geral do método proposto.

O desenvolvimento de toda a proposta foi realizado em três etapas, descritas nas subseções seguintes.

56 Capítulo 4. Materiais e Métodos

Figura 23: Exemplo de regiões de interesse com DA obtidas por varredura por janela. A estrela vermelha marca a coordenada central da distorção.

Fonte: do autor, 2019.

4.2.1 Primeira Etapa

Em um primeiro momento se estudou a possibilidade de utilizar dois recortes de um mesmo mamograma, sendo um da DA e outro de uma região com tecido normal para o treinamento de rede. Foram utilizados apenas 100 imagens de exames FFDM disponíveis com DA marcada. De cada uma extraiu-se uma ROI centrada na lesão, que em seguida foi ajustada para a dimensão 256x256, e uma região de tecido normal com mesma dimensão. Os 200 recortes resultantes foram adicionados a mais 400 amostras do banco de dados DDSM em classes balanceadas. O conjunto resultante foi dividido em 70%-15%-15% (treino-validação-teste). Visto que a quantidade de amostras é muito pequena para o treinamento da CNN, foram aplicadas transformações nas amostras de treino para se obter novas imagens, totalizando ao final 13440 regiões. A Figura 25 apresenta um esquema do método descrito para os primeiros testes.

As operação para data augmentation contaram com: espalhamento no eixo vertical; rotação em 90, 180 e 270 graus; e adição de ruído gaussiano de média zero e variância 0,02, 0,04 e 0,06 A Figura 26 apresenta um exemplo das ROIs geradas para uma amostra. Para avaliar o efeito do data augmentation, foram treinados dois modelos, um apenas com as amostras iniciais e outro com o conjunto aumentado. De forma a nomear os dois modelos para simplificar a notação, eles foram referenciados de CNN-O (referente às ROIs originais) e CNN-AUG (referente ao conjunto de ROIs com data augmentation).

4.2. Método Proposto 57

Figura 24: Diagrama simplificado do método proposto para treinamento, validação e visualização dos resultados da CNN.

Fonte: do autor, 2019.

das fases de elaboração dos modelos, de onde se obteve em torno de 3000 ROIs pelo método de varredura em janela. Todas as regiões foram enviadas para a classificação pela CNN-O e pela CNN-AUG, cujos resultados foram comparados.

4.2.2 Segunda Etapa

Posteriormente, em posse dos resultados da primeira etapa e do conjunto completo de imagens de exames FFDM, decidiu-se por extrair de mamogramas distintos as regiões de cada uma das classes, de forma que apenas fossem recolhidas amostras de tecido normal de exames com ausência de DA. Em seguida, optou-se em ampliar as técnicas de data

augmentation. Para tanto, gerou-se recortes por varredura em janela sobre a região interna

da mama, correspondendo ao aumento de ROIs por translação. Essa abordagem visou tornar o modelo mais generalista quanto às diferentes posições da lesão e ao final estar capacitado para gerar uma predição mais geral da imagem. Foram extraídos até 100 ROIs de cada mamograma. Para o caso do tecido normal, 100 recortes foram realizados em diversos locais do interior da mama. Tal procedimento gerou, após o balanceamento de classe, 26990 regiões de interesse. O conjunto de exames DDSM foi abandonado nesta etapa.

58 Capítulo 4. Materiais e Métodos

Figura 25: Diagrama simplificado da primeira etapa do método elaborada para com as extrações de recortes em 100 imagens FFDM e 200 DDSM.

Fonte: do autor, 2019.

Figura 26: Exemplo de amostras geradas pelas respectivas técnicas de data augmentation a partir de um recorte original para a pprimeira etapa do método.

Fonte: do autor, 2019.

De modo a avaliar de maneira mais precisa os resultados do modelo final, foi ado- tada a técnica de validação cruzada por k-fold. Essa técnica visa a divisão do conjunto total de dados em k subconjuntos, onde cada um é utilizado por vez como conjunto de teste do modelo em um sistema rotativo(BENGIO; GRANDVALET, 2004). Para o presente caso, estabeleceu-se que o subconjunto seguinte ao conjunto separado para teste seria utilizado como conjunto de validação. A cada revezamento, o modelo foi treinado com os

4.2. Método Proposto 59

8 subconjuntos restantes, resultando assim em 10 modelos. Para garantir que nenhuma região de um mesmo mamograma estivesse em conjuntos diferentes, foram separados de antemão todas as 280 imagens em subconjuntos de 28 (14 com DA e 14 sem DA), provenientes apenas de exames que não se repetiam nas demais fatias. As ROIs referentes a cada subconjunto de 28 imagens foram então recolhidas e separadas, resultando em média, em 2699 amostras (máximo de 2800 e mínimo de 2390 por subconjunto). Para cada treinamento foram utilizados em média 21592 ROIs. Com a finalidade de comparar modelos treinados com maior quantidade de dados com data augmentation, gerou-se 2 modelos para cada fold, um apenas com os recortes obtidos com a verredura em janela, referenciado por CNN-SW (referente ao termo em inglês para varredura em janela (sliding

window)), e outro com o aumento das amostras dos subconjuntos de treinamento pela

aplicação de mais transformações (CNN-SW+). A Figura 27 apresenta um diagrama do segundo método descrito.

Figura 27: Diagrama simplificado do método com 10-fold cross-validation utilizado para a segunda etapa com a CNN. Em cada rodízio de subconjuntos do k-fold, 8 eram utilizados para treinamento da rede, e dois modelos foram gerados, um com a adição de mais técnicas de data augmentation e outro apenas com as ROIs com aumento por translação.

Fonte: do autor, 2019.

Para que as operações de geração de novas regiões fossem mais condizentes com o tipo de imagem e problema tratado, decidiu-se por substituir a adição do ruído gaussiano utilizado na primeira etapa, por ruído Poisson. Essa mudança foi motivada pelo fato do ruído de efeito predominante em imagens de mamografia ser o ruído quântico, cuja modelação matemática segue uma distribuição Poisson (BORGES et al., 2018; HAUS; YAFFE, 2000).

60 Capítulo 4. Materiais e Métodos

Os recortes originais foram degradados com ruído Poisson e ambos foram posteriormente espelhados e rotacionados. Por cada ROI foram geradas mais 15 imagens, totalizando um conjunto de treinamento de quantidade 16 vezes maior. Para cada treinamento do refe- rido modelo foram utilizados em média 345472 recortes. Um resumo das transformações e imagens geradas com uma amostra é apresentado na Figura 28.

Figura 28: Exemplo de imagens geradas pelas respectivas técnicas de data augmentation a partir de um recorte original para o segundo método.

Fonte: do autor, 2019.

Após os testes serem realizados no conjunto de regiões de interesse separado para teste, realizou-se a classificação de todos os recortes extraídos da parte interna da mama para mamogramas com presença de DA presentes em cada uma das folds. Dos 28 mamogramas em cada uma das folds, 14 deles continham a lesão e tiveram seus recortes avaliados pela instância da CNN correspondente. As regiões foram recortadas seguindo a mesma especificação das utilizadas anteriormente (dimensão, passo da janela e critério de classe).

4.2.3 Terceira Etapa

A terceira etapa se concentrou na representação visual das predições realizadas pela CNN para cada recorte por meio de um mapa de calor. Sua coloração foi baseada nos valores de predição vinculados a classe com DA e plotadas na coordenada central de cada recorte. Essa técnica possibilitou a verificação da desenvoltura do sistema para um cenário mais próximo do cenário clínico, no qual se avalia toda a imagem. Também foi pensado para a fornecer uma informação mais quantitativa das regiões suspeitas, se diferenciando das indicações realizadas pelos sistemas CAD tradicionais.

4.2. Método Proposto 61

Por padrão o sistema de classificação define um limiar de 0,5 para estabelecer se o valor predito deve ser apontado pertencente à classe (>0,5) ou não. De modo a visualizar como essa variação de limiar afetaria as respostas dos modelos CNN-SW e CNN-SW+, gerou-se mapas de calor com diferentes faixas de valor centradas em diferentes limiares para perceber até que ponto ambas as redes ainda apontavam a região marcada como verdadeiro positivo.

4.2.4 Configuração da CNN

Com relação à configuração da CNN e do processo de treinamento, segue-se como foi estabelecido cada passo. Como etapa inicial, foi realizada a padronização das imagens por meio do z-score, ou seja, subtração da média e divisão pelo desvio padrão realizado no nível de intensidade de cada pixel. Na sequência, foi implementado o algoritmo da rede CNN utilizando a plataforma de desenvolvimento TensorFlow3 criada pelo Google. Essa ferramenta é disponível em código aberto e foi concebida inicialmente com o objetivo de conduzir pesquisas na área de aprendizagem de máquinas e deep learning, porém devido à sua abrangência, pode ser aplicada em vários domínios. A biblioteca Keras4 _{é uma inter-} face de alto nível para redes neurais, escrita em Python e que pode ser rodada por cima do TensorFlow. Ela possui diversas funções que tornam o código mais intuitivo, modular e extensível, e também foi utilizada para a elaboração do código utilizado. Um diagrama da arquitetura implementada é visualizado na Figura 29, onde a sigla TC referencia a camada de rede totalmente conectada.

Figura 29: Arquitetura de rede CNN utilizada para treinamento.

Fonte: do autor, 2019.

A escolha do conjunto parâmetros ótimos para a rede é infelizmente algo empírico e não há valores já pré-definidos (LITJENS et al., 2017). Dessa forma, concentrou-se em

3_{https://www.tensorflow.org/} 4_{https://keras.io/}

62 Capítulo 4. Materiais e Métodos

manipular mais os dados de entrada e técnicas de data augmentation.

A quantidade de camadas de convolução alternadas com camadas de agrupamento (max pooling) foi determinada de maneira a gerar mapas de característica na saída que possuíssem dimensão 4x4. Tal decisão foi baseada na implementação da rede CNN voltada a classificação de dígitos do banco de dados MNIST (LECUN, 1998) e também pelo fato do mapa de característica resultante ter dimensão inferior à dos filtros utilizados (5x5). A escolha do tamanho do filtro foi empírica e estabelecida inicialmente para realização dos testes. Nas etapas de convolução foi utilizado o preenchimento das bordas com espe- lhamento para que a dimensão fosse mantida. O passo da janela do filtro foi estabelecido em um pixel. Nas etapas de agrupamento foi aplicada a função max pooling com janelas de dimensão 2x2 com passo de 2 pixels, não ocorrendo assim a repetição dos valores ana- lisados e nem a sobreposição da janela. Após a última camada de agrupamento, foram entregues à camada totalmente conectada 4x4x1024 valores de mapa de característica que foram redimensionados em um vetor de tamanho 16384. Cada um dos 1024 neurônios da camada totalmente conectada foi associado a todos os valores do vetor de característica. Na camada de saída, a presença de dois neurônios correspondentes às classes: Normal (tecido com ausência de lesão) e DA (tecido com lesão), apresentam os valores resultantes da rede que são traduzidos em probabilidades pela função softmax. A taxa de dropout estabelecida para o treinamento foi de 0.5, ou seja, 50% de neurônios mantidos a cada iteração.

Para o gerenciamento da atualização das variáveis do sistema, foi utilizado as funções do Keras para monitoramento. Associado ao método de descida de gradiente para a otimização, foi utilizado o momentum, que consiste em uma variável de controle para as mudanças nos parâmetros de peso da rede, prevenindo que os novos parâmetros desviem demasiadamente de sua direção de mudança anterior (SILVA; SPATTI; FLAUZINO, 2010). O

momentum empregado foi o Adam, que de maneira geral leva em consideração o histórico

de mudanças do parâmetro e influência o decaimento do peso para que decresça menos a cada passo em direção ao estado de erro mínimo (PONTI et al., 2017). Como critério de parada foi avaliada a função de custo do conjunto de validação. Se em uma dada época este valor fosse registrado como valor mínimo até então, o sistema era treinado por uma margem de mais 3 épocas adicionais para garantir que este custo não seria superado por treinamentos subsequentes, e se caso continuasse a ser o valor mínimo, os resultados da época em questão eram salvos como o melhor modelo, caso contrário, o processo se repetia.

A execução do programa foi paralelizada com o auxílio de uma GPU de memória de 8 gigabytes da marca NVIDIA○R_{. A plataforma de desenvolvimento Tensorflow integra}

a biblioteca CUDA5 _{(Compute Unified Device Architecture) de modelo de programação} paralela e permite a aceleração da aplicação.

4.2. Método Proposto 63

Tabela 2: Classificação das amostras de acordo com sua classe genuína e a classificada. Classificado

Classes Normal DA

Genuíno Normal VN FP

DA FN VP

4.2.5 Métricas de Avaliação

Para a avaliação dos resultados foram utilizados cálculos de acurácia e curva ROC (Receiver Operating Characteristic Curve). Para o entendimento das equações dessas métricas de avaliação é necessário apresentar alguns conceitos, como sensibilidade e especificidade.

A quantidade de amostras classificadas corretamente como positivas é conhecida como VP, ou, verdadeiros positivos. As amostras negativas que são classificadas corretamente são referenciadas como verdadeiros negativos (VN). Quando há amostras que foram classificadas incorretamente como negativas, seu número é representado pelos falsos negativos (FN). E como falsos positivos (FP) são chamadas as amostras que foram incorretamente classificadas como positivas. A Tabela 2 apresenta um resumo dos conceitos apresentados (PRATI; BATISTA; MONARD, 2008).

A acurácia é a taxa de acerto do modelo definida como 𝐴𝐶𝐶 na Equação 5. A sensibilidade traduz o quanto o modelo é capaz de detectar as amostras genuinamente positivas e sua fórmula é apresentada na Equação 6. Já a especificidade traz a informação de quanto o sistema é capaz de discernir as amostras que são genuinamente negativas. A fórmula de especificidade é apresentada na Equação 7.

𝐴𝐶𝐶 = 𝑉 𝑃 + 𝑉 𝑁 𝑉 𝑃 + 𝑉 𝑁 + 𝐹 𝑁 + 𝐹 𝑃 (5) 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = 𝑉 𝑃 𝑉 𝑃 + 𝐹 𝑁 (6) 𝐸𝑠𝑝𝑒𝑐𝑖𝑓 𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝑉 𝑁 𝑉 𝑁 + 𝐹 𝑃 (7)

A precisão informa a proporção de predições positivas que realmente são VP. Quanto maior a quantidade de FP, menor será a precisão do modelo (DAVIS; GOADRICH, 2006). A Equação 8 define o cálculo da precisão.

𝑃 𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑉 𝑃

𝑉 𝑃 + 𝐹 𝑃 (8)

Quando existe uma classificação binária, assim como no presente caso, é necessário escolher uma regra de predição que determine quando a amostra será classificada como lesão ou não, estabelecendo um ponto de corte entre o valor 0 e o valor 1. Uma maneira

64 Capítulo 4. Materiais e Métodos

utilizada para determinar esse ponto é por meio da Curva ROC. A curva ROC plota a sensibilidade em função de 1 - especificidade para todos os possíveis pontos de corte entre os valores. A área sob a curva, conhecida como AUC, também fornece uma informação importante, representando a probabilidade de um par aleatório de amostras com lesão e sem lesão, ser corretamente classificado (HANLEY; MCNEIL, 1982). Como a área abaixo da curva ROC é uma fração da área de um quadrado de lado um, o seu valor está sempre entre 0 e 1, e quanto mais próxima a AUC do valor 1, melhor considerado é o modelo(PRATI; BATISTA; MONARD, 2008).

Para os testes no conjunto de ROIs extraídos de toda a região da mama, foram realizados o cálculo da curva ROC e AUC. A análise da AUC permitiu uma avaliação mais robusta ao desbalanceamento de classes para esse caso.

Capítulo

5

No documento Detecção de distorção arquitetural mamária em mamografia digital utilizando rede neural convolucional profunda (páginas 55-67)