• Nenhum resultado encontrado

Grupo 5

N/A
N/A
Protected

Academic year: 2021

Share "Grupo 5"

Copied!
8
0
0

Texto

(1)

1 Universidade Federal do Paraná

Setor de Ciências Exatas Departamento de Estatística

CE225 – Modelos Lineares Generalizados

PREDIÇÃO DE CÂNCER EM EXAMES DE MAMOGRAFIA

Hugo de Siqueira Pereira – GRR20170428 Isabella Possa Gonçalves – GRR20170377 Isadora Chiamulera – GRR20180797

(2)

2 1. RESUMO

O câncer de mama pode ser detectado através do exame de mamografia e a partir dele conclui-se a necessidade ou não da realização de biópsia, muitas dessas biópsias ocorrem de forma desnecessária. Com o objetivo de predizer um modelo mais assertivo para a presença de tumores malignos em exames de mamografia, esse estudo apresenta o ajuste de um modelo linear generalizado (GLM) pela distribuição Binomial, com função de ligação canônica (logito) e tendo como variável resposta a severidade do tumor do câncer de mama, que pode ser maligno ou benigno. As análises dos dados foram realizadas através do software estatístico R, chegando-se ao modelo mais eficaz através do algoritmo stepwise, composto pelas covariáveis age, shape e margin. Os resíduos foram analisados graficamente e apresentaram resultado satisfatório. Para verificar a assertividade do modelo o mesmo foi comparado a um modelo composto pelos dados da metodologia BI_RADS_assessment, presente na base de dados utilizada nesse estudo.

2. INTRODUÇÃO

No Brasil o câncer de mama é o segundo mais incidente em mulheres, em 2018 foram registrados 59.700 novos casos, sendo uma taxa de 56,33 para cada 100 mil mulheres (INCA, 2018). Métodos eficientes para diagnosticar a existência deste câncer nos estágios iniciais são importantes, pois as chances de cura são maiores nesse estágio. A mamografia é um exame de imagem que tem comprovada eficiência para detecção precoce do câncer, porém com alto índice de falso positivo (Thuler, 2003), levando os médicos a indicarem biópsias desnecessárias.

Para facilitar a descrição dos resultados da mamografia foi criado um padrão de relatório chamado BI-RADS (Breats Imaging Report and Data System) que considera as características mais importantes da lesão observada na imagem (Liberman and Menell, 2002). O objetivo deste trabalho é identificar quais variáveis descritas a partir destes exames de mamografias são significativas para a predição da severidade do tumor, como auxílio aos médicos na decisão da realização de biópsias em lesões suspeitas.

3. MATERIAL E MÉTODOS

A base de dados analisada foi adquirida do site (https://www.mldata.io/dataset-details/mammogram/) e contém 961 observações relacionadas a tumores mamários. Esses dados foram adquiridos de mamografias digitais e coletados no Instituto de Radiologia da Universidade Erlangen-Nuremberg entre 2003 e 2006. A variável resposta do estudo é severity e além dela há outras 5 covariáveis como possíveis variáveis explicativas do modelo de regressão linear generalizado. A descrição das variáveis é apresentada na Tabela 1 a seguir:

Nome da variável Descrição Valores observados

severity severidade do tumor 0 para tumores benignos e 1 para tumores malignos

shape formato do tumor 1 para “redondo”, 2 para “oval”, 3 para “lobular”, 4 para “irregular”

(3)

3 margin formato das bordas do tumor

1 para “circunscrita”, 2 para “microlobulada”, 3 para “obscurecida”, 4 para “mal definida” e 5 para

“especiculada”

age idade do paciente em anos

BI_RADS_assessment parecer dado por médicos de 1 para “definitivamente benigno” até 5 para “altamente sugestivo de malignidade” Tabela 1 - Descrição das variáveis.

Uma análise inicial dos dados foi realizada com o objetivo de identificar observações com informações não disponíveis (NA) ou inconsistentes, para serem posteriormente excluídas do estudo. Em seguida, os dados foram avaliados por meio de uma análise descritiva, onde foi verificado o comportamento de cada variável explicativa em relação à variável resposta.

Com a finalidade de avaliar a capacidade preditiva do modelo, os dados foram separados aleatoriamente em dados de ajuste, correspondendo a aproximadamente 75% das observações, e dados de validação.

Como estamos interessados em modelar a probabilidade de tumor maligno, variável com resposta binária, o modelo selecionado é o de regressão para dados binários com distribuição de probabilidades binomial, definido da seguinte forma:

𝑦𝑖|𝑥𝑖~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑚𝑖, 𝜋𝑖)

𝑔(𝜋𝑖) = 𝛽0+ 𝛽1𝑥𝑖1+ 𝛽2𝑥𝑖2+. . . +𝛽𝑝𝑥𝑖𝑝

onde 𝑦𝑖 é a variável resposta, 𝑥𝑖1, 𝑥𝑖2, ... , 𝑥𝑖𝑝 são as variáveis explicativas avaliadas no 𝑖-ésimo indivíduo, 𝑚𝑖 = 1 ∀ 𝑖 já que a variável resposta assume valores 0 ou 1, seguindo uma distribuição Bernoulli e 𝑔(𝜋𝑖) é a função de ligação a ser escolhida.

Diversos testes foram realizados para a seleção da melhor função de ligação e das covariáveis significativas para o modelo. Os modelos foram comparados pelo Critério de Informação de Akaike (AIC) e pelas respectivas verossimilhanças e os resíduos foram analisados graficamente. Por fim, o poder preditivo do modelo escolhido foi avaliado através da curva ROC. Um ponto de corte foi estabelecido para determinar a necessidade da realização de biópsias, o resultado foi comparado com a metodologia utilizada atualmente, descrita pela variável BI_RADS_assessment.

Para o ajuste do modelo foi utilizada a função glm do software estatístico R, assim como os pacotes adicionais car, statmod, hnp, ROCR, pROC.

4. RESULTADOS E DISCUSSÃO

A variável BI_RADS_assessment corresponde a uma metodologia utilizada pelos médicos para resumir o resultado da mamografia e estimar a chance do tumor ser maligno. Na escala de 1 a 5, tumores com avaliação maior que 3 tem indicação de biópsia (Hospital Albert Einsten, 2017). As variáveis shape, density e margin são correlacionadas com a variável BI_RADS_assessment, pois são atributos utilizados na metodologia.

(4)

4 Na análise exploratória dos dados foi observado que a variável BI_RADS_assessment é, de certa forma, uma outra maneira de expressar a variável resposta, informando a severidade do tumor e por essas razões não será utilizada nos ajustes dos modelos.

A Figura 1 representa o comportamento de cada covariável em relação a variável resposta.

Figura 1 - Gráficos descritivos da variável resposta x covariáveis.

Inicialmente o modelo foi ajustado com a função de ligação Logito (default da função GLM) e posteriormente por diferentes funções de ligação: Probito, Complemento Log-log e Cauchy. O critério utilizado para escolha do melhor modelo foi o AIC, que penaliza conforme o número de parâmetros existentes. Como todos os modelos possuem a mesma quantidade de parâmetros, o resultado do menor AIC é igual ao de maior verossimilhança. Conforme apresentado na Tabela 2 o modelo escolhido foi o com a função de ligação Logito.

Função de ligação AIC LogLik

Logito 556,8227 -266,4113 Probito 556,9343 -266,4672 Cloglog 562,1464 -269,0732 Cauchy 560,3758 -268,1879

(5)

5 Sendo assim, foi ajustado um GLM considerando a distribuição Binomial, com função de ligação logito e como componente sistemático a combinação linear de todas as variáveis preditoras presentes na base. Para esse ajuste, a deviance residual foi igual a 532 e o AIC 556, a covariável density não foi significativa para o modelo. Para a seleção do melhor modelo, foi utilizado o algoritmo de seleção stepwise, resultando em um modelo sem a variável density, com deviance residual de 535 e AIC 553. As demais covariáveis foram significativas ao nível de 0,1%.

Para verificar a existência de correlação foi realizada uma análise bivariada do modelo onde foi possível observar efeito não significativo de interação entre as covariáveis.

O teste da razão de verossimilhança do modelo inicial e do modelo reduzido, que indica a significância estatística das variáveis inclusas no modelo, apresentou um p-valor (0,40) não significativo, portanto pode-se concluir que o modelo restrito se ajusta aos dados amostrais tão bem quanto o modelo considerando todas as covariáveis.

O modelo final pode ser expresso da seguinte maneira na escala do preditor:

𝑔(𝜋𝑖) = ln (1 − 𝜋̂𝜋̂𝑖

𝑖) = −4,4950 − 0,5129𝐼(𝑠ℎ𝑎𝑝𝑒2) + 0,2934𝐼(𝑠ℎ𝑎𝑝𝑒3) + 1,0860𝐼(𝑠ℎ𝑎𝑝𝑒4) + 0,0506(𝑎𝑔𝑒)

+ 1,6576𝐼(𝑚𝑎𝑟𝑔𝑖𝑛2) + 1,5709𝐼(𝑚𝑎𝑟𝑔𝑖𝑛3) + 1,6984𝐼(𝑚𝑎𝑟𝑔𝑖𝑛4) + 2,4109𝐼(𝑚𝑎𝑟𝑔𝑖𝑛5)

onde I = 1 se a observação pertencer à categoria e I = 0, caso contrário.

Os resíduos do modelo escolhido foram analisados visualmente através dos gráficos (Figura 2). No gráfico de resíduos quantílicos aleatorizados versus valores ajustado verifica-se resíduos centrados na média, com variância constante e ausência de outliers. O gráfico quantil-quantil para resíduos quantílicos aleatorizados apresenta um bom ajuste à reta normal. Pelo gráfico de distância de Cook dois pontos aparecem em destaque, porém pela escala da distância não são definidos como observações influentes. No gráfico de resíduos com envelopes simulados todas as observações ficaram dentro das bandas de confiança. Dessa maneira não foi necessário realizar novos ajustes.

(6)

6 Figura 2 - a) Gráfico de resíduos quantílicos aleatorizados versus valores ajustados b) Gráfico Quantil-quantil para resíduos quantílicos aleatorizados; c) Distância de Cook; d) Gráfico normal de probabilidade com envelope simulado.

Para avaliação do poder preditivo do modelo foi utilizada a base de dados para validação, contendo 208 observações. As probabilidades de câncer maligno foram calculadas para cada observação, possibilitando a construção da curva ROC. A área sob a curva foi de 86%, indicando uma boa capacidade de predição do modelo.

Através da função coords do R foi possível estabelecer um ponto de corte ótimo que maximize a sensibilidade e a especificidade do modelo. As regras de Youden e Closest topleft atingiram o mesmo resultado, para probabilidades superiores a 0,5748 o tumor é considerado maligno. A partir disso foi possível comparar os resultados preditos pelo modelo ajustado e pela metodologia descrita pela variável BI_RADS_assessment. A Tabela 3 mostra os resultados dessa comparação.

Modelo Sensibilidade Especificidade

GLM proposto 0,8461 0,7596

BI_RADS_assessment 0,4742 0,8333

Tabela 3 – Comparação entre as metodologias.

Conforme já descrito na proposição do problema, a metodologia BI_RADS apresenta uma sensibilidade muito baixa, indicando muitos falsos positivos. O modelo de GLM proposto apresenta valores maiores e mais equilibrados para sensibilidade e especificidade.

(7)

7 Uma próxima etapa é comparar as predições e os valores realmente observados da variável resposta, assim é possível construir uma tabela de classificação dos modelos (Tabela 4). Para o modelo proposto com ponto de corte igual a 0,5748, aproximadamente 17% dos tumores foram considerados benignos, quando na realidade são malignos. Para a metodologia BI_RADS esse percentual seria de apenas 2%. No entanto, o modelo proposto recomenda biópsias desnecessárias para apenas 22% dos casos, com a metodologia BI_RADS esse número aumenta para 91%.

A título de comparação, para que o modelo proposto tivesse resultados similares à metodologia BI_RADS, um ponto de corte igual a 0,05 deveria ser considerado.

Método

Benigno Maligno

Estimado benigno Estimado maligno Estimado benigno Estimado maligno

BI-RADS 10 102 2 92

Modelo com

p > 0.5748 88 25 16 79

Modelo com

p > 0.05 15 98 2 93

Tabela 4 - Número de tumores benignos estimados para o critério Bi-RADS e para diferentes valores de p com o modelo de GLM.

5. CONCLUSÃO

A aplicação de um modelo linear generalizado para dados binários foi satisfatória para a estimação da probabilidade de câncer maligno em mamografias. Os resultados finais mostram que a partir das covariáveis do modelo proposto é possível gerar predições mais assertivas para a necessidade de biópsias, porém isto implicaria em aumentar o risco de falsos positivos. A capacidade preditiva do modelo proposto foi de 86%. A combinação entre diferentes técnicas baseadas em imagens tem sido propostas para gerar maior capacidade de acerto (Kuhl et al., 2005; Vachon et al., 2007).

(8)

8 6. REFERÊNCIAS

Base de dados. Disponível em: <https://www.mldata.io/dataset-details/mammogram/>

Hospital Albert Einstein. O que é Birads? Disponível em: < https://www.einstein.br/noticias/noticia/o-que-e-birads>

Kuhl, C.K., Schrading, S., Leutner, C.C., Morakkabati-Spitz, N., Wardelmann, E., Fimmers, R., Kuhn, W., Schild, H.H., 2005. Mammography, breast ultrasound, and magnetic resonance imaging for

surveillance of women at high familial risk for breast cancer. J. Clin. Oncol. 23, 8469–8476. https://doi.org/10.1200/JCO.2004.00.4960

Liberman, L., Menell, J.H., 2002. Breast imaging reporting and data system (BI-RADS). Radiol. Clin. North Am. 40, 409–430. Disponível em: <https://doi.org/10.1016/S0033-8389(01)00017-3>.

Ministério da Saúde. Instituto Nacional de Câncer (Brasil). Estimativas da incidência e mortalidade por câncer no Brasil, 2018. Rio de Janeiro: INCA; 20018.

Thuler, L.C., 2003. Considerações sobre a prevenção do câncer de mama feminino. Rev. Bras. Cancerol. 49, 227–238.

Vachon, C.M., van Gils, C.H., Sellers, T.A., Ghosh, K., Pruthi, S., Brandt, K.R., Pankratz, V.S., 2007. Mammographic density, breast cancer risk and risk prediction. Breast Cancer Res. 9. https://doi.org/10.1186/bcr1829.

Referências

Documentos relacionados

Analisando as curvas de convergência para cada configuração na Figura 15, é possível ver que utilizando o ajuste correlacional (Gráficos à esquerda), os operadores de

Além disso, o tamanho do grão do sedimento e o teor de matéria orgânica também são fatores importantes que contribuem para essa acumulação, porque os sedimentos ricos

Para o ensino das clínicas da Escola Paulista de Me- dicina, a entidade mantenedora do Hospital de São Paulo assegurará, mediante cláusula na escritura referida

A clara noção de negociação política presente nos moradores de São Miguel Paulista, como demonstra o autor, constrói-se na trajetória das experiências, que

Para o campo de formação de professores este assunto também tem grande relevância, pois através deste podemos tratar sobre questões pedagógicas encontradas através

Rev. Assim, a justificativa para a escolha da temática parte de discussões realizadas a pedido na disciplina; Formação e Desenvolvimento Profissional Docente

Uma avaliação dos programas divulgados pela emissora oficial leva à conclusão que o canal do MinC privilegiava a cultura dita erudita em detrimento das expressões populares;

Neste momento, em que pelas circunstâncias políticas, acadêmicas e administrativas deixamos a Direção do CCS para assumir um compromisso maior com a UFSM, agradecemos a todos