• Nenhum resultado encontrado

Capítulo I Predição in silico da permeabilidade intrínseca determinada

3. Metodologia /Materiais e métodos 1 Recolha dos dados

5.1. Construção dos modelos e validação

A P0 representa a máxima permeabilidade que um composto pode apresentar,

corrigida para o efeito da UWL, ou seja, a permeabilidade que o composto apresenta na sua forma não ionizada. A fração não ionizada do composto presente a um determinado pH encontra-se relacionada com as equações de equilíbrio regidas pelas constantes de ionização desse composto.

Como referido anteriormente, os valores de P0 são conseguidos através da análise dos

valores de Pe obtidos no ensaio in vitro DS-PAMPA para esse composto, recorrendo ao método

pKaflux. Ao ter-se utilizado uma vasto número de compostos na construção do modelo de

previsão da P0 obtida em DS-PAMPA, bem como o facto de estes serem heterogéneos entre si,

garante uma boa aplicabilidade do modelo obtido. Visto recorrer-se à utilização de um parâmetro corrigido para o efeito da UWL, bem como recolher-se apenas valores obtidos segunda a mesma metodologia, material e equipamento comercial, uma importante redução da variabilidade dos resultados é conseguida. Também importante neste ponto é a variabilidade inerente ao ensaio in vitro, pelo que a variabilidade reportada da determinação da P0, devida a possíveis erros envolvendo os processos de: produção das soluções e

quantidades utilizadas destas, constituição da membrana artificial, medição da quantidade de composto no compartimento aceitador e a temperatura a que se realiza o ensaio, é relativamente baixa, com variações entre ± 0,2 unidades logarítmicas [17], garantindo desta forma que foram utilizados valores com informação fidedigna, com o mínimo ruído possível, melhorando assim a qualidade dos modelos produzidos [53].

Uma vantagem inerente à aproximação da P0 em detrimento da Pe a um dado pH é

que esta última é influenciada pela resistência da UWL presente no ensaio. Para além da inevitável influência da UWL, a necessidade de se obter o valor de Pe a diversos valores de pH

para se obter uma melhor aproximação do perfil in vivo constitui também uma desvantagem, obrigando assim à construção de não apenas um modelo, ou a utilização de um modelo capaz de prever duas respostas simultaneamente. Uma outra vantagem é a possibilidade do cálculo da Pm a qualquer pH, sendo apenas necessárias as constantes de ionização do composto em

causa.

A metodologia utilizada para a recolha dos descritores moleculares, redução do número destes e construção dos modelos baseados em ANN foi baseada em publicações anteriores [67–69]. Inicialmente, a utilização de um grande número de descritores moleculares aumenta a quantidade de informação química disponível para a construção do modelo, evitando que informação necessária para aproximação da P0 não seja incluída. A

redução do grande número inicial de descritores é um processo de extrema importância [37, 53]. Como visto anteriormente, a utilização de um menor número de variáveis no processo de construção de ANN origina normalmente melhores modelos. Também a exclusão dos descritores moleculares cuja informação não se encontra relacionada com a P0, ou já se

encontra descrita noutro descritor ou não possibilita a discriminação entre as diferentes moléculas aumenta a qualidade dos modelos construídos, limitando o número de relações possíveis entre as variáveis a serem utilizadas, garantindo que é escolhida aquela que melhor descreve a variável a ser aproximada.

No processo de construção e otimização das ANNs, foi sempre tomado em atenção o número de ponderações que o modelo apresentava comparativamente com o número de casos utilizado, mantendo sempre o número de casos várias vezes superior ao número de ponderações, reduzindo a probabilidade de ocorrer overfitting dos dados [70].

Para além da utilização de um processo de early-stopping com um grupo de validação constituído por 40 moléculas, devolvendo a iteração com um menor erro associado e boa capacidade de generalização, a construção de 50 ANN em cada etapa e a seleção daquela com um melhor perfil de erro no grupo de validação garante que foram selecionadas as melhores relações entre os descritores moleculares usados para prever a P0 e que se atingiu

um mínimo global nas funções utilizadas, garantindo desta forma que apenas são eliminados descritores com uma importância mínima para o modelo [37]. Torna-se importante nesta fase de escolha dos descritores moleculares a utilizar, obter-se o número de descritores necessários que melhor performance apresentem, ao que após degradação visível do MSE obtido se pode concluir que foi retirada informação importante para o modelo, devendo-se neste ponto finalizar o processo de redução dos descritores. Como esperado, à medida que se reduz o número de descritores, menor o erro que se obtém no grupo de valid ação. Apesar do erro obtido no processo de redução de descritores recorrendo a ANN nem sempre apresentar uma diminuição com a redução dos descritores, pode ser observada uma redução global do

Os aumentos transitórios do MSE do grupo de validação ou treino são de esperar num sistema dinâmico de aproximação, podendo ser devido à eliminação de relações entre os descritores não previstas pelo método utilizado de cálculo da importância relativa das variáveis, mas que globalmente não possuíam um peso importante no modelo, visto ocorrer uma redução geral do erro até aos 13 descritores. Como referido anteriormente, a incapacidade do método de

OCW em prever relações entre variáveis torna-se uma desvantagem possível, no entanto

foram obtidos bons resultados no processo de redução de descritores. O método utilizado para calcular a importância dos descritores foi escolhido por comprometer tanto simplicidade de cálculo, como pela qua lidade reportada do modelo, classificando-se como superior em relação a outros [41].

A utilização sempre que possível de processos de automatização foi de extrema importância, tanto em termos de redução do tempo necessário nas diversas tarefas, como homogeneização da metodologia aplicada, reduzindo a possibilidade de erros aleatórios ocorrerem em qualquer parte da metodologia.

A validação dos modelos construídos é um ponto de grande importância, garantindo assim que é possível a generalização dos dados para moléculas não incluídas inicialmente no processo de construção e otimização das ANNs [64]. Para estes efeitos, recorreu-se a um grupo de 27 moléculas, cuja função única é servir como uma validação externa. Ao se analisar os erros dos diversos grupos utilizados no processo de construção das ANNs, pode ser observado que não ocorreu overfitting, visto erros semelhantes terem sido obtidos, garantindo uma boa capacidade preditiva da P0 por parte de qualquer uma das ANNs

apresentadas. De modo a melhorar ainda mais as previsões feitas, o modelo final proposto como a média aritmética da resposta obtida com cada uma das seis ANNs apresentadas, obtém-se uma clara melhoria na capacidade preditiva, conseguindo-se desta forma um modelo melhor que cada um dos utilizados para a construção deste último. O modelo final proposto apresenta uma excelente capacidade preditiva de P0 de qualquer molécula, desde

que respeite as limitações impostas pelos softwares utilizados, com uma boa correlação do grupo de teste com os dados reais (0,98), quase a totalidade dos valores previstos no grupo de teste dentro de um interva lo de confiança de ±1 unidade logarítmica (93%) e um RMSE do grupo de teste de quase metade de uma unidade logarítmica (0,59).