2. Metodologia
2.1 Modelo A
2.1.1
Construção da base de dados
Para a realização da base de dados foram extraídos todos os compostos orgânicos que
continham valores de IC
50(medida da concentração de inibição de metade da população) contra
a linha celular HCT-116 nas bases de dados ChemBL
53, ZINC
54e Antimarin
55. Na primeira
extraíram-se 9866 compostos, na ZINC 8953 compostos, e na Antimarin 31 compostos. A base
de dados ZINC apresenta como principal vantagem a possibilidade de compra de compostos, que
ainda não foram testados, para possível validação do modelo, a Antimarin é a junção da base
dados AntiBase (produtos naturais microbianos terrestres e marinhos) com a MarinLit (produtos
naturais marinhos), tendo sido descontinuada em 2013. Obteve-se 18850 compostos, removendo
estruturas com peso molecular superior a 1500Da. De forma a completar e atualizar a base de
dados, fez-se uma pesquisa no Web of Science desde Maio 2013 a 12 Outubro 2015, de onde
foram recolhidas 668 estruturas, que foram construídas no Marvin Sketch (versão:15.9.14)
56.
Os SMILES das estruturas foram uniformizadas no Standardizer de JChem
(versão:15.9.14)
57com os parâmetros: adicionar hidrogénios, mesomerizar, tautomerizar,
neutralizar, remover sais e aromatizar.
Para casos com valores de IC
50diferentes para um determinado composto, teve-se em conta
o valor mais recente descrito na bibliografia. Utilizando o software Mona
58–60, foram retirados os
restantes duplicados, obtendo-se uma base de dados com 8958 compostos. As correções
adicionais foram realizadas ao decorrer da seleção de descritores e encontram-se descritas ao
longo do texto.
Converteu-se o valor de IC
50em M para pIC
50, seguindo a equação:
pIC
50= −log
10(IC
50)
(16)
2.1.2
Cálculo de descritores
Utilizando o software PaDEL (versão 2.21)
26calculou-se os descritores 1D, 2D, 3D e
fingerprints, tendo para o cálculo dos descritores 3D utilizado as estruturas 3D produzidas pelo
programa CORINA
61.
Os descritores 1D, 2D e alguns fingerprints não foram calculados para três estruturas,
possivelmente pela sua complexidade. Houve sete compostos onde não foi possível calcular o
volume de Van der Waals, tendo sido descartado o descritor.
Para os descritores 3D, o programa CORINA não conseguiu calcular a estrutura 3D de um
número significativo de compostos. De modo a tentar resolver este problema foi feito o cálculo
Metodologia
22
dos descritores 3D usando as duas possibilidades do conversor de 3D dado pelo PaDEL, MM2
forcefield e MMFF94 forcefield. Contudo o problema não foi resolvido e obtiveram-se mais
compostos onde não foi possível calcular os descritores 3D. A base de dados ficou então reduzida
a 7447 compostos.
2.1.3
Partição dos conjuntos de treino e de teste
Para a partição da base de dados em conjunto de treino e conjunto de teste, foram efetuados
dois modos de separação distintos: um aleatório e outro usando o mapa de Kohonen para a seleção
dos compostos.
Para construir o conjunto não aleatório, usando o mapa de Kohonen
43, utilizaram-se os
fingerprints Substruture para codificar a diversidade estrutural do conjunto de dados, e foram
consideradas 3 classes com base na bioatividade apresentada contra a linha celular HCT-116,
podendo classificar os compostos como: ativos A (valores de IC
50inferiores de 10 µM
16),
moderadamente ativos B (valores de IC
50entre 10 µM e 50 µM) e inativos C (valores de IC
50superiores a 50 µM), com 4552, 1726 e 1061 compostos respetivamente. Desta forma,108
compostos foram descartados devido à sua redundância, tendo valores de IC
50superiores a um
valor inferior a 10 µM, não se podendo tirar conclusões sobre a sua bioatividade. Casos sem valor
específico de IC
50, mas cuja relação é superior a 10 µM foram colocados na categoria C.
Após a remoção de descritores desnecessários e a normalização dos dados usando a
ferramenta Weka (versão 3.7)
62,63, os dados foram utilizados para construir um mapa de Kohonen,
usando a aplicação JATOON
43. O melhor mapa representado na Figura 3.1, página 31 foi obtido
numa rede de tamanho 15, com 50 epochs e com um learning span de 5 tendo um valor de
clustering factor de 3,21, originou a seleção de 1464 compostos para o conjunto de teste e 5875
compostos para o conjunto de treino.
A partição aleatória foi realizada no Mona com uma separação de 20% obtendo assim 1466
e 5873 compostos para o conjunto de teste e de treino, respetivamente.
Utilizando o programa R (versão 3.7), com a ferramenta random Forest comparou-se o
modo aleatório com o modo SOM, utilizando os fingerprints Substructure tendo os melhores
modelos obtidos com os valores de m
tryde 112 e 120 respetivamente. Também se utilizou o
conjunto de treino resultante da partição com o SOM depois da remoção de descritores com uma
correlação superior de 99% utilizando um dos filtros do Weka, para comprovar que quando se
utiliza a random Forest não há necessidade de haver seleção de descritores, neste caso o melhor
modelo teve-se com um m
tryde 44. Os resultados da validação interna obtida com o conjunto de
Metodologia
23
2.1.4
Seleção de descritores
De forma a selecionar os melhores descritores removendo a informação redundante, correu-
-se o filtroweka.filters.unsupervised.attribute.RemoveUseless do programa Weka, que também
tinha sido utilizado no ponto anterior. De seguida, foram selecionados os descritores com o
classificador weka.classifiers.meta.AttributeSelectedClassifier e a formação do modelo com a
técnica de aprendizagem automática kNN com os parâmetros K=10 com distância =1/d, sendo d
a distância Euclidiana. Utilizou-se vários métodos de pesquisa: BestFirst (BF);
LinearForwardSelection (LFS) alterando o número de descritores usados entre 10, 30, 50 e 80;
GreedyStepwise pesquisando backwards (GSWb); PSOsearch com diferentes valores para os
pesos: individuais, inertia e social (exemplo: PSO334: PSOsearch com 0,33 para o peso
individual e de inertia e 0,34 para o peso social).
O melhor resultado da validação cruzada com 10 folds para cada um dos conjuntos de
descritores e fingerprints utilizados e as suas condições encontram-se na Tabela 3.2, página 32.
2.1.5
Otimização do modelo (A.1)
Para os conjuntos de descritores selecionados no passo anterior (descritores moleculares
1D2D e 1D2D3D e os fingerprints CDK e PubChem) foram otimizados os modelos de previsão
tendo em conta o RMSE obtido em validação interna. Tentou-se melhorar os resultados alterando
o número de interações que se realizavam com o PSOsearch, utilizando a SVM LibSVM do
programa Weka com o tipo epsilon-SVR alterando o valor de cost e utilizando também a
randomForest do programa R com 500 árvores. Os parâmetros de avaliação para os melhores
modelos de cada um dos casos juntamente com as suas condições encontram-se na Tabela 3.3,
página 33.
2.1.6
Avaliação de previsão do modelo por classes
De forma a esclarecer quais os intervalos de IC
50que o modelo estava a prever melhor ou
pior dividiu-se o conjunto de treino em 5 classes descritas na Tabela 2.1. Para cada uma destas
classes, utilizando o melhor resultado do ponto anterior para o conjunto de treino, calculou-se a
média dos valores previstos e dos valores experimentais de pIC
50e a diferença entre estes dois
valores para determinar se havia classes onde o modelo era mais aplicável do que outras. Os
resultados encontram-se na Tabela 3.4, página 33.
Metodologia
24
Tabela 2.1 - Classes usadas para avaliar capacidade de previsão do modelo A.1 do conjunto de treino
Classe IC
50(
µM)Nº de compostos pIC
50(M
exp)
A
<1
1856
7,129
B
1-5
1016
5,634
C
5-10
569
5,157
D
10-50
1407
4,710
E
≥50
928
3,888
pIC50 (Mexp) é o valor médio de pIC50 experiemental dos compostos
2.1.7
Nova abordagem - Classificação/Regressão (Modelo A.2)
Compostos com IC
50≥ 10 µM mas sem valor exato, podem estar a piorar a capacidade de
previsão do modelo. Tendo em conta este facto e a avaliação realizada no passo anterior foi
realizada uma nova abordagem intitulada A.2, que consta de primeiro um modelo de classificação
e depois um modelo de previsão do valor de pIC
50para os ativos.
Continuou-se a usar ambos conjuntos de descritores 2D e 2D3D e os fingerprints CDK e
PubChem para a construção dos modelos.
Para o modelo de classificação considerou-se os compostos com IC
50< 10 µM
16como
ativos e os restantes como inativos, tendo para o conjunto de treino 3441 compostos ativos e 2434
inativos.
De forma a tentar encontrar fragmentos de interesse para a classificação de compostos
ativos e inativos, utilizou-se os SMARTS dos fingerprints e tentou-se encontrar uma relação entre
a presença ou ausência destes e a sua classificação. Os resultados encontram-se na secção 3.1.5.2.
Para a segunda parte desta abordagem, o modelo de regressão, treinaram-se os modelos
usando os 3441 compostos ativos e os seus valores de pIC
50.
Sendo que a random Forest tinha sido a melhor ferramenta na abordagem anterior foi esta
a técnica de aprendizagem automática utilizada para a construção destes novos modelos. Os
resultados de validação interna com o conjunto de treino e de validação externa utilizando o
conjunto de teste encontram-se na Tabela 3.5, página 34 e na Tabela 3.10, página 38 para o
modelo de classificação e para o de regressão respetivamente. Sendo que esta ferramenta fornece
informação sobre os descritores mais relevantes.
Para tentar selecionar o número necessário de descritores, e constatar se o modelo perde
capacidade de previsão reduzindo o número de descritores, realizam-se modelos com a random
Forest com os 75, 100 e 150 descritores mais relevantes fornecidos nos resultados anteriores, foi
também utilizado o conjunto de descritores que deram melhores resultados provenientes da
seleção feita através do Weka para comparação. Os resultados da seleção de descritores
Metodologia
25
encontram-se na Tabela 3.8, página 37 e na Tabela 3.12, página 40 para os modelos de
classificação e de regressão, respetivamente.
Cinco compostos recentemente publicados com um valor de IC
50para a linha celular HCT-
-116 foram utilizados como um segundo conjunto de validação externa, para o melhor modelo
quer para a classificação quer para a regressão. As estruturas destes compostos encontram-se na
Figura 2.1, e as suas previsões encontram-se na Tabela 3.9, página 37.
Figura 2.1 - Estruturas de composto do segundo conjunto de validação para o Modelo A (1 corresponde a TMC-26464; 2 e 3 colchicina e derivado65; 4 e 5 escaleno e β-sitosterol66)
2.1.8
Comparação de outras técnicas
Com os conjuntos dos melhores resultados após a seleção do número de descritores para a
classificação e para a regressão, comparou-se os resultados da random Forest no passo anterior
com os obtidos através de várias técnicas de aprendizagem automática disponíveis no programa
Weka. A SVM LibSVM com os mesmos parâmetros descritos na secção 2.1.5. e duas técnicas de
redes neuronais artificiais: Multilayer Perceptron (MLP) e Artificial Neural Networks (ANN). A
primeira encontra-se disponível no pacote proveniente do Weka, enquanto a segunda tem de ser
instalada à parte. Para o caso da MLP (weka.classifiers.functions.MultilayerPerceptron) alterou-
se o número de neurónios e utilizou-se os valores de 0,003 e de 0,002 para a learning rate e para
o momentum, respetivamente, tendo o melhor modelo obtido com 9 neurónios. No caso da técnica
ANN (weka.classifiers.functions.NeuralNetwork) usou-se o valor de 0,001 para os parâmetros
inputLayerDropoutRate e hiddenLayerParams, e variou-se o número de neurónios entre 20, 50
e 100, tendo que para ambos os conjuntos o melhor resultado foi obtido com 100 neurónios. De
forma a tentar otimizar os modelos ANN utilizou-se convolutional layers alterando os valores
para a largura e a altura do fragmento (patch) entre 5, 10 e 15. Os resultados desta secção
encontram-se na Tabela 3.14 e Tabela 3.15 nas páginas 41 e 42.
Metodologia
26
No documento
Sara Miguel Dinis Mamede da Cruz
(páginas 45-50)