Resultados do Classificador RANDOM FOREST

Para obtenção de resultados através do classificador Random Forest utilizou-se o software Anaconda (ANACONDA NAVIGATOR 3) e o Notebook Jupyter 6.0.3, uma aplicação IPython gratuita baseada na web que permite a execução de documentos que, para além do código, podem incluir texto, equações, imagens, etc.

É preciso ter em consideração que o data set utilizado é significativamente não balanceado, havendo um desequilíbrio na amostra em todos os testes de classificação efetuados (por exemplo: 100 doentes com COVID-19 e 20 doentes com outras pneumonias). O classificador Random Forest apresenta um bom desempenho na classificação para este tipo de dados, não existindo a necessidade da normalização dos mesmos.

Para a se dar início à “construção” do classificador é necessária a realização de alguns passos tal como a importação de algumas bibliotecas de funções para o notebook.

Em baixo encontram-se as linhas de comandos para importação das bibliotecas necessárias, assim como a linha de comando que permite a leitura do data set, ou seja, do ficheiro que contém todas as características, radiómicas e clínicas, que irá ser usado.

#Importação de bibliotecas

#Leitura de dados

df1 = pd.read_excel("DataSetRADIOMICS_IN_COVID_19VSPNEUMONIA_RF.xlsx",header = 0) df1.head(10)

Outros comandos são necessários para construir o classificador, tal como a identificação das características que pretendemos estudar.

Na construção do nosso modelo do classificador Random Forest, utilizamos 100

“árvores” de decisão.

#Construção do modelo

# Random Forest with 100 trees

RF = RandomForestClassifier(n_estimators = 100)

Usamos 30 % do data set para teste e o restante 70% para treino.

#Definição dos sub conjuntos de teste e de treino

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)

No próximo subcapítulo serão descritos os resultados obtidos no que diz respeito aos objetivos propostos deste documento.

1º Capacidade de diferenciação a pneumonia COVID-19 de outras pneumonias.

2º Capacidade de predição de internamento em Unidade de Cuidados Intensivos de doentes com COVID-19.

3º Capacidade de predição de internamento prolongado (>12 dias) para doentes com COVID-19.

4º Capacidade de predição do desfecho do caso clínico (óbito vs. alta) para doentes com COVID-19.

Para obtenção dos resultados finais repetiram-se várias vezes os testes e foi visualizado o melhor desempenho do classificador para compreender resultados e tendências e corrigir aspetos que poderiam influenciar os resultados. Características como o código do doente no estudo foram retiradas (por não ter, obviamente, interesse do ponto de vista do classificador). No caso do teste para diferenciar doentes COVID-19 VS

67 pneumonia, foram excluídas características que não se encontravam disponíveis no data set dos doentes com outras pneumonias (relacionadas com internamento hospitalar, internamento em UCI, número de dias de internamento, etc.).

Foram também excluídas características de primeira ordem como o volume da região segmentada, uma vez que era muito dependente da área anatómica da segmentação das imagens.

Um aspeto que deve ser salientado é que, para cada paciente (dos 100 COVID-19 e 20 de pneumonia não COVID-19), o data set inclui as características obtidas para cada pulmão (direito e esquerdo) o que nos permitiu “duplicar” a amostra.

7.1 COVID-19 vs outras pneumonias

Neste subcapítulo testamos a capacidade do classificador em identificar casos de pneumonia COVID-19 versus outras pneumonias, denominadas apenas como Pneumonia (não COVID-19), tendo em conta as características radiómicas previamente extraídas.

Segundo o modelo utilizado, na classificação COVID-19 versus Pneumonia as características mais importantes foram: Conventional HUmin, GLCM Correlation, Conventional HUmax, Conventional HUmean e Discretized HUSkewness.

Figura 43 Ranking das características radiómicas mais importantes na classificação pelo classificador Random Forest no estudo COVID-19 vs pneumonia.

Quanto a acurácia do modelo obtivemos o valor de 1.0 ou seja de 100% na capacidade de identificar corretamente os casos positivos e negativos no conjunto de dados testados, sendo considerados “positivos” os doentes COVID-19 e “negativos” os doentes com outras pneumonias. Em relação à precisão, ou valor preditivo positivo, obtivemos o valor de 1.00, ou seja, obtivemos uma classificação de 100 % na fração de verdadeiros positivos no conjunto dos classificados como positivos pelo classificador. Na sensibilidade, que indica a fração dos verdadeiros positivos no conjunto dos doentes obtivemos também o valor de 1.00 (100%). Com zero falsos positivos e falsos negativos (Figura 44).

0-Penumonia 1-COVID-19

Figura 44 Matriz de confusão obtida pelo classificador, para o teste COVID-19 vs pneumonia.

Contudo verificámos que, no ranking de importância das características na classificação, a característica mais importante era a Conventional HUmin, que viemos a excluir, uma vez que este parâmetro é muito influenciado pelo ruído e os protocolos utilizados nos dois data sets apresentavam imagens com diferentes níveis de ruído, acabando por ser este o aspeto que permitia ao classificador distinguir os dois grupos. Os volumes de TC do data set Pneumonia tinham sido obtidos utilizando um protocolo de baixa dose de radiação, fazendo com que houvesse mais ruido nas imagens (ver Tabela 7) e condicionando assim os resultados.

Tabela 7 Conventional HUmin nos protocolos dos data sets COVID-19 e Pneumonia.

COVID-19 Pneumonia

70 75% -1007.06

max -921.27

75% -1218.98 max -1192.47

Após gerarmos novo modelo, excluindo a característica Conventional HUmin, obtivemos como principais características: GLCM Contrast Variance, GLCM Correlation, Conventional HUmean, GLCM Homogeneity InverseDifference e DISCRETIZED_HISTO_Entropy_log10.

Figura 45 Ranking das características mais importantes na classificação pelo classificador Random Forest no estudo COVID-19 vs Pneumonia após exclusão da característica Conventional HUmin.

Quanto a acurácia do modelo obtivemos o valor de 0.99 ou seja de 99% na capacidade de identificar corretamente os casos de COVID-19 e de outras pneumonias no conjunto de dados testados. Para a classe 1 obtivemos uma precisão de 0,98 (98%) e sensibilidade de 1 (100%). Em relação à precisão global (ponderada) obtivemos o valor de 0.99 (99%). Na sensibilidade obtivemos o valor de 1 (100%). Com 1 falso positivo e zero falsos negativos (Figura 46).

0-Penumonia 1-COVID-19

Figura 46 Matriz de confusão obtida pelo classificador, para o teste COVID-19 vs Pneumonia após exclusão da característica Conventional HUmin.

Assim, através deste modelo podemos afirmar que o nosso classificador nos permite diferenciar a patologia COVID-19 de outras pneumonias com elevada acurácia, precisão e sensibilidade.

7.2 Internamento Unidades de Cuidados Intensivos (UCI).

Para a questão da capacidade de predição do nosso modelo no que diz respeito ao internamento, ou não, em UCI de doentes com COVID-19, obtivemos os seguintes resultados. As cinco caracteristicas radiomicas identificadas como mais importantes pelo classificador, foram: GLCM_Contrast_Variance, Conventional_HUmax, GLCM_Correlation, GLCM_Dissimilarity e Idade.

Figura 47 Principais características radiómicas para a predição de internamento em unidade de cuidados intensivos.

Na acurácia do modelo obtivemos o valor de 0.87 ou seja de 87% na capacidade de identificar corretamente os doentes que precisaram de internamento em UCI (positivos) e os que não precisaram (negativos) no conjunto de dados utilizados para o teste.

Infelizmente este teste demonstrou precisão e sensibilidade nulas para a classe 1, pese embora, do ponto de vista global uma precisão ponderada de 0.78 (78%) e uma sensibilidade ponderada de 0.87 (87%). Com 1 falso positivo e 7 falsos negativos

0-Não em UCI 1- Em UCI

Figura 48 Matriz de confusão obtida pelo classificador na predição de internamento em unidade de cuidados intensivos.

73 Releva-se que, de toda a amostra, apenas 14% dos pacientes foram internados em UCI, pelo que, no que diz respeito a esta pergunta, o data set era fortemente não balanceado.

7.3 Internamento prolongado ( 12 dias)

Uma das questões que colocamos também foi a capacidade de predição do classificador na identificação dos casos que implicaram internamento prolongado (12 dias). O limiar dos 12 dias foi escolhido por este valor ser a mediana do número de dias de internamento para a amostra de pacientes com COVID-19, o que nos permitiu ter uma amostra balanceada.

O classificador identificou como características mais determinantes na predição de internamento prolongado: IDADE, GLCM_Correlation, GLCM_Homogeneity_ Inverse Diffference, DISCRETIZED_HISTO_Energy_Uniformity e GLCM_Contrast_Variance.

Figura 49 Principais características radiómicas para predição de mais de 12 dias de internamento.

Na acurácia do modelo obtivemos o valor de 0.58 ou seja de 58% na capacidade de identificar corretamente os casos que implicaram, ou não, internamento prolongado, no conjunto de dados utilizados para o teste. Os valores de precisão e sensibilidade são baixos para ambas as classes. Para a classe 1 (internamento prolongado) a precisão é de 0.61

74 (61%) e a sensibilidade de 0.55 (55%) e para a classe 0 a precisão é de 0.56 (56%) e a sensibilidade de 0.62 (62%). No que diz respeito aos valores ponderados pelas duas classes, obtiveram-se precisão global de 0.59 (59%) e sensibilidade global de 0.58 (58%). Com 11 falsos positivos e 14 falsos negativos (Figura 50).

Salientamos aqui, que para esta questão estamos a lidar com um data set balanceado, em que 54% dos casos da amostra implicaram internamento prolongado.

0-Menos de 12 dias 1- Mais de 12 dias

Figura 50 Matriz de confusão obtida pelo classificador para predição de mais de 12 dias em internamento hospitalar.

7.4 Desfecho (óbito vs. alta)

Com este modelo, designado “desfecho”, procuramos a capacidade do classificador identificar os casos clínicos que tiveram como desfecho o óbito dos que tiveram como desfecho positivo a alta. As características radiómicas que o modelo identificou como mais relevantes nesta classificação foram: IDADE, GLCM_Contrast_Variance, GLCM_Dissimilarity, GLCM_Homogeneity_ Inverse e DISCRETIZED_HISTO_Energy_

Uniformity.

Figura 51 Principais características radiómicas para a previsão de desfecho (óbito vs alta).

Quanto a acurácia do modelo obtivemos o valor de 0.88 ou seja, em 88% dos casos o classificador identificou corretamente os desfechos (óbito ou alta) no conjunto de dados de teste. Os valores de precisão e sensibilidade são baixos para a classe 1: a precisão é de 0.67 (67%) e a sensibilidade de 0.25 (25%). Na apreciação global, a precisão ponderada é de 0.86 (86%) e a sensibilidade ponderada é de 0.88 (88%). Com 1 falsos positivos e 6 falsos negativos (Figura 52). Mais uma vez, importa salientar a natureza fortemente não balanceada do data set no que diz respeito a esta classificação, sendo que apenas 19% dos casos tiveram o óbito como desfecho.

0-Alta 1-Óbito

Figura 52 Matriz de confusão obtida pelo classificador para a previsão do desfecho dos casos clínicos (óbito vs alta).

7.5 Discussão

A Tabela 8, reúne os valores de acurácia, precisão e sensibilidade globais (ponderados pelas duas classes) dos testes de classificação realizados.

Tabela 8 Resultados globais dos testes de classificação realizados

Acurácia (%) Precisão (%) Sensibilidade

(%)

Característica Principal

COVID-19 vs. Pneumonia 99 99 99 GLCM_Contrast_Variance

(1)

Pacientes em UCI 87 78 87 GLCM_Contrast_Variance

Internamento mais 12 dias 58 59 58 IDADE

Desfecho (óbito vs alta)) 88 86 88 IDADE

A GLCM_Contrast_Variance, que mede a variabilidade local da matriz de coocorrência dos níveis de cinzento, esteve como característica mais relevante quer na diferenciação entre COVID-19 e Pneumonia, quer no teste de predição de internamento em UCI, e também foi relevante na previsão do desfecho (2º lugar no ranking), indicando que esta característica radiómica pode ser diferenciadora, no que diz respeito ao diagnóstico da COVID-19.

A idade também resulta ser uma característica relevante em todos os testes de classificação preditivos, ficando em primeiro lugar na previsão de internamento prolongado e de óbito, e também foi relevante na previsão de internamento em UCI. O que, naturalmente, não surpreende, uma vez que a probabilidade de existência de outras comorbilidades aumenta com a idade. A salientar, o facto que a idade não aparece como caraterística relevante na discriminação entre COVID-19 e outras pneumonias.

Apesar do bom resultado no que diz respeito à diferenciação entre COVID-19 e pneumonia não COVID-19, deve ressalvar-se que este resultado poderá de alguma medida estar enviesado em consequência de estarmos perante dois data sets (um para cada doença) adquiridos com diferentes protocolos.

Ao comentar os resultados obtidos, não podemos esquecer o processo que nos levou a estes.

77 Encontramos vários desafios técnicos, essencialmente a nível da segmentação de imagens e da capacidade de memória do computador. Mesmo após ultrapassados estes obstáculos, não podemos esquecer que a segmentação foi realizada apenas em porções dos pulmões (não na sua totalidade) e de forma semiautomática (sendo o resultado dependente do operador), e que também a segmentação total dos pulmões poderia influenciaria os resultados finais. O processo de segmentação é moroso, podendo demorar várias horas, o que, naturalmente, não é desejável dado que um dos objetivos da aplicação da radiómica é o de contribuir para um diagnóstico mais célere. Na literatura alguns autores não demonstram o processo de segmentação de imagens nem a seleção dos pacientes para a obtenção dos resultados radiómicos, o que não nos permite estabelecer comparações.

Tal como dito no início, o processo de segmentação automático era rápido para um determinado grupo de pacientes com pouca tradução imagiológica da doença, mas nós não excluímos nenhum paciente da amostra com base na dificuldade de segmentação (apenas foram excluídos poucos casos que apresentavam evidentes artefactos de movimento que iriam comprometer a análise textural). Na nossa perspetiva existe ainda um longo caminho para o estudo desta patologia no sentido de um aperfeiçoamento na segmentação de imagens de forma a obter-se resultados de forma automática ou, pelo menos, mais rápida.

Outro aspeto que merece atenção é o protocolo usado na aquisição de imagens, que comprovámos ser importante no que diz respeito à análise radiómica. Os protocolos variam de equipamento para equipamento e de instituição para instituição, e uma aplicação robusta da radiómica devia ser multicêntrica e independente do protocolo utilizado, todavia, no nosso caso, tínhamos duas bases de dados de estudos de TC: numa, apesar de ser multicêntrica, os estudos de TC tinham sido adquiridos utilizando sempre o mesmo tipo de equipamento e protocolo, e noutra, monocêntrica, os estudos tinham sido adquiridos com um protocolo muito diferente e com baixa dose. Assim, foi necessário eliminar do data set as características mais dependentes do protocolo para não criar vieses nos resultados.

Tudo parece indicar que a inclusão de características não imagiológicas nos classificadores é de todo recomendável, contudo, no nosso estudo não foi exequível devido à falta de informação sobre os dados clínicos presentes na base de dados. Por exemplo, os

78 valores de saturação de Oxigénio não estavam devidamente contextualizados (será que o doente estava com algum suporte ventilatório, ou já medicado?).

Nos resultados obtidos pelo estudo observam-se algumas variações como demonstrado no resumo da Tabela 8, mas com resultados bastante expectáveis.

A acurácia dos modelos é extremamente importante e, quanto mais elevada, melhor.

Todavia, no caso de data set não balanceados o valor da acurácia pode ser elevado sem que o classificador seja particularmente eficaz (por exemplo, a sensibilidade no que diz respeito à previsão de internamento em UCI foi nula).

A precisão é útil nos casos em que o falso positivo é uma preocupação maior que o falso negativo. Já no que toca a sensibilidade dos modelos, é relevante ter um valor elevado valor de sensibilidade quando os falsos negativos são uma preocupação maior, o que é comum na área da saúde, e particularmente no caso de doenças contagiosas (como ´caso do COVID-19). Ou seja, podemos ter um modelo com uma acurácia elevada e uma sensibilidade baixa, para estudos radiómicos na área da saúde é preocupante. Pois indica existir uma falha na deteção de casos, que são erroneamente classificados como negativos.

Por exemplo no nosso modelo para classificação entre COVID-19 vs. Pneumonia obtivemos uma acurácia, precisão e sensibilidade de 99%, com zero falsos negativos, na qual podemos afirmar que este modelo obteve uma excelente classificação. Quanto aos outros modelos do nosso estudo radiómico estes não obtiveram bons resultados, no entanto temos que ter em consideração o facto que o data set não era balanceado.

No caso da predição de internamento prolongado (amostra balanceada), o classificador não foi eficaz, apresentando baixos níveis de acurácia, precisão e sensibilidade, quer para cada classe, quer globais (valores ponderados).

Verificámos também que o uso de descritores de textura de segunda ordem (GLCM) foi útil na obtenção dos resultados, nos testes de classificação elaborados.

8 Conclusão

A COVID-19 rapidamente se tornou pandémica em poucos meses causando milhares de mortes e milhões de infetados por todo mundo. Trata-se de uma doença ainda com poucos estudos no que toca ao uso de características radiómicas no diagnóstico, acompanhamento e prognóstico, mas os estudos até agora publicados tem demonstrado ser possível identificar com precisão a doença, inclusive distinguir de outras pneumonias, tanto virais como bacterianas, a partir de imagens de TC, algo que também verificámos no nosso estudo quando comparamos a patologia COVID-19 com outras pneumonias de outra causa. Apesar da TC não ser o exame de primeira linha para esta doença, torna-se primordial na deteção, acompanhamento e prognóstico, sendo que a confirmação da presença de SARS-CoV-2 é feita através do teste RT-PCR.

A COVID-19 pode provocar lesões extratorácicas, em especial cerebrais e renais, principalmente devido ao aparecimento de sintomas mais severos que aumentam a probabilidade de outras complicações. Têm sido reportados achados imagiológicos em modalidades como a RM, TC, e PET em doentes não suspeitos. Outras modalidades como o RX e ultrassonografia têm sido ferramentas uteis em unidades de cuidados intensivos e de urgência.

Desde o seu início muitas terapêuticas foram usadas, algumas das quais experimentais, até atualmente obtermos vacinas que têm sido distribuídas mundialmente.

O uso das técnicas de ML aliadas ao historial clínico dos pacientes e imagens de TC pode prever a doença COVID-19 em tempos mais rápidos que o teste RT-PCR, ainda que sem o mesmo nível de sensibilidade, auxiliando os radiologistas e clínicos no diagnóstico e tratamento mais rápidos e eficazes ou no prognóstico da doença.

Uma boa segmentação das imagens é necessária para a extração das características radiómicas para utilização em modelos preditivos, podendo ser usados métodos manuais ou semiautomáticos. No decorrer do projeto, optou-se por uma técnica de segmentação semiautomática que verificámos ser um processo consumidor de tempo e dependente do

80 operador. Por outro lado, no que toca à segmentação automática, a segmentação pulmonar com patologia caracterizada pelo aumento da densidade do parênquima é um enorme desafio.

Na literatura verificámos que existe um futuro promissor no uso das características radiómicas como suporte à decisão clínica, mas dada a incerteza do seu significado clínico ainda não é devidamente aceite.

Um fator que carece de maior contributo para o desenvolvimento destes estudos tem a ver com as aplicações informáticas. A obtenção de dados radiómicos após realizada a segmentação de imagens é relativamente rápida. Mas no futuro, podiam ser desenvolvidas aplicações mais rápidas no que toca à segmentação de imagens e extração de características radiómicas.

Como também verificámos, parte do estudo desenvolveu-se na segmentação de imagens e extração de características radiómicas, com lesões pulmonares muito significativas, que dificultaram o processo de segmentação. Refira-se que muitos dos estudos apresentados na literatura, apenas expõem os resultados obtidos da população estudada e não o processo usado para a obtenção dos mesmos. No contexto desta pandemia para além da informação disponibilizada de forma gratuita, os esforços deviam ser maximizados para a disponibilização de mais fontes de dados devidamente contextualizados no que respeita aos processos de aquisição.

O nosso estudo obteve um resultado muito bom por parte do classificador Random Forest na identificação de pacientes COVID-19 vs. Pneumonia, na sua acurácia, precisão e sensibilidade, mesmo tendo em conta o possível enviesamento devido ao protocolo de aquisição das TC’s torácicas.

Para as outras questões propostas no estudo desta tese, os resultados globais obtidos pelo classificador (ponderados pelas duas classes) em termos de acurácia, precisão e sensibilidade decresceram, e no que toca à sua especificidade o classificador na sua resposta preditiva para a classe 1 obteve resultados muito baixos.

81 No caso da predição de internamento em UCI e Desfecho (alta/óbito), apesar dos resultados globais aceitáveis, o resultado é questionável devido ao não balanceamento das classes. Já no caso da predição de internamento prolongado, o data set apresentava-se balanceado, mas os resultados preditivos foram francamente maus. De qualquer forma, tal como seria de esperar, o modelo de classificação sugere a idade como fator mais relevante, no caso de predição em internamento prolongado e Desfecho.

Quanto à relevância das características radiómicas obtidas no estudo, mais concretamente as de GLCM, estiveram sempre presentes nas 5 mais significativas tal com também a idade indo ao encontro das espectativas baseadas na clínica.

É nossa convicção que o desempenho da classificação poderia ser melhorado, se os data sets de trabalho fossem enriquecidos com outras variáveis de índole clínica.

9 Referências bibliográficas

Ai, T., Yang, Z., Hou, H., Zhan, C., Chen, C., Lv, W., Tao, Q., Sun, Z., & Xia, L. (2020). Correlation of

No documento Universidade de Aveiro João Paulo da Fonseca Amaro. Avaliação Radiómica em TC Torácica de Pacientes com COVID-19 (páginas 93-115)