• Nenhum resultado encontrado

85estratégia “planejar-gerar-testar” discutida nas seções anteriores Na etapa de planejamento estão inclusos os

bancos de dados, na etapa de geração estão os geradores de estruturas, e na etapa de teste ou validação está a maioria dos programas disponíveis na atualidade, que são aqueles capazes de realizar predições de propriedades espectroscópicas e, a partir delas, as simulações de espectros, o que será detalhado nos próximos parágrafos. Já os programas CASE e os sistemas especialistas podem incluir todas essas etapas.

Nos bancos de dados estão inseridas as principais ferramentas de busca por estruturas, subestruturas ou fragmentos estruturais com seus respectivos dados espectrais (UV, IV e RMN), ou ainda ferramentas de busca por espectros e subespectros. Muito esforço tem sido despedido no sentido de desenvolver métodos de busca cada vez mais eficazes, envolvendo técnicas de quimioinformática (KOCHEV et al., 2003). Com o uso dessas técnicas, as informações estruturais (ou espectrais) podem ser armazenadas em bancos de dados e, posteriormente, procuradas e acessadas de modo apropriado. Por exemplo, a busca por similaridade se revelou como uma técnica extremamente útil para casos de programas CASE e sistemas especialistas, uma vez que moléculas similares possuem propriedades físico-químicas similares. Entretanto, outros aspectos devem ser observados no desenvolvimento dessas ferramentas, tais como rapidez, capacidade de buscas completas e sem redundância, sejam por fórmula ou peso molecular, por nomes, dentre outros. Um dos maiores bancos de dados espectroscópicos disponíveis atualmente é o SpecInfo, que possui dados de RMN, IV e EM, além de várias informações complementares; já o CSEARCH e o NMRShiftDB possuem apenas dados de RMN, o que será discutido na seção intitulada Bancos de Dados. Muitos bancos de dados são utilizados não apenas para armazenar espectros ou subestruturas, mas também para realizar predições.

A geração de estruturas é realizada por geradores de estruturas que operam através de dois métodos: determinístico ou estocástico. Nesses métodos, normalmente, os átomos e as ligações químicas das estruturas são tratadas matematicamente como um conjunto de vértices e arestas, tendo como base a teoria dos grafos (ENGEL, 2003). No método determinístico, um algoritmo matemático especial gera e testa todas as combinações possíveis de estruturas a partir de um dado conjunto de fragmentos e de dados espectrais, juntamente com restrições impostas. Nesse método, há também a etapa de montagem e de redução de estruturas através de metodologias exaustivas (STEINBECK, 2004). No método estocástico, são geradas estruturas aleatoriamente de acordo com um determinado conjunto de dados espectrais e combinações possíveis. Todas as estruturas geradas são quimicamente corretas e compatíveis com os dados fornecidos, porém nem todas as estruturas possíveis são geradas (STEFANI et al., 2007).

Como mencionado no início desta seção, é na etapa de teste ou validação que é encontrada a grande maioria dos programas disponíveis na atualidade, ou seja, aqueles que realizam predições de propriedades. Para realizar essas predições, os métodos ab initio, semiempíricos e de IA são os mais comuns.

As metodologias baseadas em métodos ab initio, fundamentados na mecânica quântica, tem se restringido a RMN ou IV (também são utilizadas em RAMAN e técnicas espectroscópicas de fotoionização) e os programas que as contêm são capazes de realizar predições de frequências vibracionais, deslocamentos químicos e assim simular espectros. Porém, ao contrário das demais metodologias, antes da predição a estrutura em questão deve ter sua geometria otimizada, empregando-se algoritmos apropriados, para que se obtenha um ponto de mínimo na superfície de energia potencial. Os métodos mais utilizados para tal tem como base a teoria do funcional de densidade (Density Functional Theory – DFT) e aqueles associados a equações de Hartree-Fock-Roothaan (STEINBECK, 2003). Após a otimização de geometria são realizados os cálculos de predições para a grandeza de interesse. Apesar de ser uma ferramenta poderosa, devido a algumas limitações, tais como a necessidade de um maior tempo de computação, disponibilidade de computadores mais potentes, cálculos realizados no vácuo (embora, exista a oportunidade de se empregar

86

modelos para a solvatação e fenômenos correlacionados), essas metodologias ainda estão disponíveis em poucos programas. Porém, hoje em dia, alguns desses cálculos podem se realizados em poucas horas em PCs comuns, o que será discutido na seção Métodos in Silico para Elucidação Estrutural de Substâncias: Aplicações em Produtos Naturais e Metabolômica.

Na atualidade a predição de propriedades e as simulações de espectros envolvendo IA e técnicas de aprendizado de máquina têm recebido mais atenção pela comunidade de produtos naturais (DA COSTA et al., 2004) e este tema será abordado de maneira mais detalhada no decorrer deste capítulo. No contexto da elucidação estrutural, a predição de propriedades envolve, por exemplo, estimar deslocamentos químicos de RMN ou número de ondas do IV, ou ainda simular espectros com base nas propriedades calculadas, tendo como base a correlação entre estrutura química e propriedade espectroscópica. No caso de RMN-1H, também

é possível realizar a predição de constantes de acoplamento. Logo, é importante saber como as predições são realizadas.

Nas predições, geralmente, o problema em questão baseia-se em modelagem e envolve investigar a relação entre uma dada estrutura química (objeto) e uma propriedade, envolvendo um sistema de pares entrada/saída. Como o computador não consegue realizar essa tarefa de modo direto, pode-se utilizar como artifício ferramentas de estatística e aprendizagem por máquina (GASTEIGER, 2006; KUHN et al., 2008), como mostra a figura 4. Esta situação é exatamente a mesma dos estudos sobre QSAR (Quantitative Structure- Activity Relationship), com única diferença de que em elucidação a propriedade estrutural em questão é uma dada propriedade espectral e não biológica.

FIGURA 4 | Representação esquemática de um caso típico de modelo computacional para predição de uma propriedade

espectrométrica, utilizando técnicas de aprendizado de máquina (adaptado de GASTEIGER, 2006).

Como técnicas de aprendizado de máquina podem ser usadas redes neurais artificiais, algoritmos genéticos, regressão por máquina de vetores de suporte (Support Vector Machines – SVM regression), árvores de decisão (decision trees), floresta randômica (random forest) e kNN, dentre outras (Figura 4). Essas técnicas

87