Modelo A - Sara Miguel Dinis Mamede da Cruz

2. Metodologia

2.1 Modelo A

2.1.1 Construção da base de dados

Para a realização da base de dados foram extraídos todos os compostos orgânicos que

continham valores de IC

(medida da concentração de inibição de metade da população) contra

a linha celular HCT-116 nas bases de dados ChemBL

_{, ZINC}

_{e Antimarin}

_{. Na primeira}

extraíram-se 9866 compostos, na ZINC 8953 compostos, e na Antimarin 31 compostos. A base

de dados ZINC apresenta como principal vantagem a possibilidade de compra de compostos, que

ainda não foram testados, para possível validação do modelo, a Antimarin é a junção da base

dados AntiBase (produtos naturais microbianos terrestres e marinhos) com a MarinLit (produtos

naturais marinhos), tendo sido descontinuada em 2013. Obteve-se 18850 compostos, removendo

estruturas com peso molecular superior a 1500Da. De forma a completar e atualizar a base de

dados, fez-se uma pesquisa no Web of Science desde Maio 2013 a 12 Outubro 2015, de onde

foram recolhidas 668 estruturas, que foram construídas no Marvin Sketch (versão:15.9.14)

_.

Os SMILES das estruturas foram uniformizadas no Standardizer de JChem

(versão:15.9.14)

_{com os parâmetros: adicionar hidrogénios, mesomerizar, tautomerizar,}

neutralizar, remover sais e aromatizar.

Para casos com valores de IC

diferentes para um determinado composto, teve-se em conta

o valor mais recente descrito na bibliografia. Utilizando o software Mona

58–60

_{, foram retirados os}

restantes duplicados, obtendo-se uma base de dados com 8958 compostos. As correções

adicionais foram realizadas ao decorrer da seleção de descritores e encontram-se descritas ao

longo do texto.

Converteu-se o valor de IC

em M para pIC

, seguindo a equação:

pIC

= −log

(IC

)

(16)

2.1.2 Cálculo de descritores

Utilizando o software PaDEL (versão 2.21)

_{calculou-se os descritores 1D, 2D, 3D e}

fingerprints, tendo para o cálculo dos descritores 3D utilizado as estruturas 3D produzidas pelo

programa CORINA

_.

Os descritores 1D, 2D e alguns fingerprints não foram calculados para três estruturas,

possivelmente pela sua complexidade. Houve sete compostos onde não foi possível calcular o

volume de Van der Waals, tendo sido descartado o descritor.

Para os descritores 3D, o programa CORINA não conseguiu calcular a estrutura 3D de um

número significativo de compostos. De modo a tentar resolver este problema foi feito o cálculo

Metodologia

22 dos descritores 3D usando as duas possibilidades do conversor de 3D dado pelo PaDEL, MM2

forcefield e MMFF94 forcefield. Contudo o problema não foi resolvido e obtiveram-se mais

compostos onde não foi possível calcular os descritores 3D. A base de dados ficou então reduzida

a 7447 compostos.

2.1.3 Partição dos conjuntos de treino e de teste

Para a partição da base de dados em conjunto de treino e conjunto de teste, foram efetuados

dois modos de separação distintos: um aleatório e outro usando o mapa de Kohonen para a seleção

dos compostos.

Para construir o conjunto não aleatório, usando o mapa de Kohonen

_{, utilizaram-se os}

fingerprints Substruture para codificar a diversidade estrutural do conjunto de dados, e foram

consideradas 3 classes com base na bioatividade apresentada contra a linha celular HCT-116,

podendo classificar os compostos como: ativos A (valores de IC

inferiores de 10 µM

),

moderadamente ativos B (valores de IC

entre 10 µM e 50 µM) e inativos C (valores de IC

superiores a 50 µM), com 4552, 1726 e 1061 compostos respetivamente. Desta forma,108

compostos foram descartados devido à sua redundância, tendo valores de IC

superiores a um

valor inferior a 10 µM, não se podendo tirar conclusões sobre a sua bioatividade. Casos sem valor

específico de IC

, mas cuja relação é superior a 10 µM foram colocados na categoria C.

Após a remoção de descritores desnecessários e a normalização dos dados usando a

ferramenta Weka (versão 3.7)

62,63

_{, os dados foram utilizados para construir um mapa de Kohonen,}

usando a aplicação JATOON

_{. O melhor mapa representado na Figura 3.1, página 31 foi obtido}

numa rede de tamanho 15, com 50 epochs e com um learning span de 5 tendo um valor de

clustering factor de 3,21, originou a seleção de 1464 compostos para o conjunto de teste e 5875

compostos para o conjunto de treino.

A partição aleatória foi realizada no Mona com uma separação de 20% obtendo assim 1466

e 5873 compostos para o conjunto de teste e de treino, respetivamente.

Utilizando o programa R (versão 3.7), com a ferramenta random Forest comparou-se o

modo aleatório com o modo SOM, utilizando os fingerprints Substructure tendo os melhores

modelos obtidos com os valores de m

try

de 112 e 120 respetivamente. Também se utilizou o

conjunto de treino resultante da partição com o SOM depois da remoção de descritores com uma

correlação superior de 99% utilizando um dos filtros do Weka, para comprovar que quando se

utiliza a random Forest não há necessidade de haver seleção de descritores, neste caso o melhor

modelo teve-se com um m

try

de 44. Os resultados da validação interna obtida com o conjunto de

Metodologia

23

2.1.4 Seleção de descritores

De forma a selecionar os melhores descritores removendo a informação redundante, correu-

-se o filtroweka.filters.unsupervised.attribute.RemoveUseless do programa Weka, que também

tinha sido utilizado no ponto anterior. De seguida, foram selecionados os descritores com o

classificador weka.classifiers.meta.AttributeSelectedClassifier e a formação do modelo com a

técnica de aprendizagem automática kNN com os parâmetros K=10 com distância =1/d, sendo d

a distância Euclidiana. Utilizou-se vários métodos de pesquisa: BestFirst (BF);

LinearForwardSelection (LFS) alterando o número de descritores usados entre 10, 30, 50 e 80;

GreedyStepwise pesquisando backwards (GSWb); PSOsearch com diferentes valores para os

pesos: individuais, inertia e social (exemplo: PSO334: PSOsearch com 0,33 para o peso

individual e de inertia e 0,34 para o peso social).

O melhor resultado da validação cruzada com 10 folds para cada um dos conjuntos de

descritores e fingerprints utilizados e as suas condições encontram-se na Tabela 3.2, página 32.

2.1.5 Otimização do modelo (A.1)

Para os conjuntos de descritores selecionados no passo anterior (descritores moleculares

1D2D e 1D2D3D e os fingerprints CDK e PubChem) foram otimizados os modelos de previsão

tendo em conta o RMSE obtido em validação interna. Tentou-se melhorar os resultados alterando

o número de interações que se realizavam com o PSOsearch, utilizando a SVM LibSVM do

programa Weka com o tipo epsilon-SVR alterando o valor de cost e utilizando também a

randomForest do programa R com 500 árvores. Os parâmetros de avaliação para os melhores

modelos de cada um dos casos juntamente com as suas condições encontram-se na Tabela 3.3,

página 33.

2.1.6 Avaliação de previsão do modelo por classes

De forma a esclarecer quais os intervalos de IC

que o modelo estava a prever melhor ou

pior dividiu-se o conjunto de treino em 5 classes descritas na Tabela 2.1. Para cada uma destas

classes, utilizando o melhor resultado do ponto anterior para o conjunto de treino, calculou-se a

média dos valores previstos e dos valores experimentais de pIC

e a diferença entre estes dois

valores para determinar se havia classes onde o modelo era mais aplicável do que outras. Os

resultados encontram-se na Tabela 3.4, página 33.

Metodologia

24

Tabela 2.1 - Classes usadas para avaliar capacidade de previsão do modelo A.1 do conjunto de treino

Classe IC

(

µM)

Nº de compostos pIC

(M

exp

)

A

<1

1856

7,129

B

1-5

1016

5,634

C

5-10

569 5,157

D

10-50

1407

4,710

E

≥50

928 3,888

pIC50 (Mexp) é o valor médio de pIC50 experiemental dos compostos

2.1.7 Nova abordagem - Classificação/Regressão (Modelo A.2)

Compostos com IC

≥ 10 µM mas sem valor exato, podem estar a piorar a capacidade de

previsão do modelo. Tendo em conta este facto e a avaliação realizada no passo anterior foi

realizada uma nova abordagem intitulada A.2, que consta de primeiro um modelo de classificação

e depois um modelo de previsão do valor de pIC

para os ativos.

Continuou-se a usar ambos conjuntos de descritores 2D e 2D3D e os fingerprints CDK e

PubChem para a construção dos modelos.

Para o modelo de classificação considerou-se os compostos com IC

< 10 µM

como

ativos e os restantes como inativos, tendo para o conjunto de treino 3441 compostos ativos e 2434

inativos.

De forma a tentar encontrar fragmentos de interesse para a classificação de compostos

ativos e inativos, utilizou-se os SMARTS dos fingerprints e tentou-se encontrar uma relação entre

a presença ou ausência destes e a sua classificação. Os resultados encontram-se na secção 3.1.5.2.

Para a segunda parte desta abordagem, o modelo de regressão, treinaram-se os modelos

usando os 3441 compostos ativos e os seus valores de pIC

.

Sendo que a random Forest tinha sido a melhor ferramenta na abordagem anterior foi esta

a técnica de aprendizagem automática utilizada para a construção destes novos modelos. Os

resultados de validação interna com o conjunto de treino e de validação externa utilizando o

conjunto de teste encontram-se na Tabela 3.5, página 34 e na Tabela 3.10, página 38 para o

modelo de classificação e para o de regressão respetivamente. Sendo que esta ferramenta fornece

informação sobre os descritores mais relevantes.

Para tentar selecionar o número necessário de descritores, e constatar se o modelo perde

capacidade de previsão reduzindo o número de descritores, realizam-se modelos com a random

Forest com os 75, 100 e 150 descritores mais relevantes fornecidos nos resultados anteriores, foi

também utilizado o conjunto de descritores que deram melhores resultados provenientes da

seleção feita através do Weka para comparação. Os resultados da seleção de descritores

Metodologia

25 encontram-se na Tabela 3.8, página 37 e na Tabela 3.12, página 40 para os modelos de

classificação e de regressão, respetivamente.

Cinco compostos recentemente publicados com um valor de IC

para a linha celular HCT-

-116 foram utilizados como um segundo conjunto de validação externa, para o melhor modelo

quer para a classificação quer para a regressão. As estruturas destes compostos encontram-se na

Figura 2.1, e as suas previsões encontram-se na Tabela 3.9, página 37.

Figura 2.1 - Estruturas de composto do segundo conjunto de validação para o Modelo A (1 corresponde a TMC-26464_{; 2 e 3 colchicina e derivado}65_{; 4 e 5}_{escaleno e β-sitosterol}66₎

2.1.8 Comparação de outras técnicas

Com os conjuntos dos melhores resultados após a seleção do número de descritores para a

classificação e para a regressão, comparou-se os resultados da random Forest no passo anterior

com os obtidos através de várias técnicas de aprendizagem automática disponíveis no programa

Weka. A SVM LibSVM com os mesmos parâmetros descritos na secção 2.1.5. e duas técnicas de

redes neuronais artificiais: Multilayer Perceptron (MLP) e Artificial Neural Networks (ANN). A

primeira encontra-se disponível no pacote proveniente do Weka, enquanto a segunda tem de ser

instalada à parte. Para o caso da MLP (weka.classifiers.functions.MultilayerPerceptron) alterou-

se o número de neurónios e utilizou-se os valores de 0,003 e de 0,002 para a learning rate e para

o momentum, respetivamente, tendo o melhor modelo obtido com 9 neurónios. No caso da técnica

ANN (weka.classifiers.functions.NeuralNetwork) usou-se o valor de 0,001 para os parâmetros

inputLayerDropoutRate e hiddenLayerParams, e variou-se o número de neurónios entre 20, 50

e 100, tendo que para ambos os conjuntos o melhor resultado foi obtido com 100 neurónios. De

forma a tentar otimizar os modelos ANN utilizou-se convolutional layers alterando os valores

para a largura e a altura do fragmento (patch) entre 5, 10 e 15. Os resultados desta secção

encontram-se na Tabela 3.14 e Tabela 3.15 nas páginas 41 e 42.

Metodologia

26

No documento Sara Miguel Dinis Mamede da Cruz (páginas 45-50)