Considerações Finais - Capítulo 1. Introdução

Neste trabalho considerou-se a aplicação do algoritmo genético como método de busca por QTL’s epistáticos, em delineamentos com cruzamentos controlados (delineamentos F2). Os resultados dos

estudos de simulações realizados indicaram que o método condicional é pouco sensível, por preterir diversos pares de posições sem que estes sejam pesquisados e, inclusive, em diversos casos, pares de posições não pesquisadas por este método foram selecionados como soluções “ótimas” por outros métodos de busca, como o algoritmo genético e a busca exaustiva.

O método exaustivo avalia todas as possibilidades em um espaço de busca, mas vai se tornando inviável à medida que o tamanho do genoma aumenta. O algoritmo genético, por sua vez, mostrou-se nas simulações tão sensível quanto o método exaustivo, uma vez que, em muitos casos, a busca por algoritmo genético coincidiu com a busca exaustiva. Os resultados das simulações indicaram que a busca por algoritmo genético converge mais rapidamente para o ponto ótimo global (par de posições no mapa de marcadores moleculares “maior” efeito epistático) à medida que aumenta-se a taxa de mutação (de 0,1 para 0,4), diminui-se o comprimento do genoma (o que já é esperado), aumenta-se a quantidade de gerações/solução e aumenta-se a quantidade de soluções.

Para mapas de marcadores “grandes” (digamos, com aproximadamente 10.000 posições a serem pesquisadas) um melhor cenário é manter um número grande o suficiente de soluções (aproximadamente 500) e um número moderado de gerações (aproximadamente 1.000), não sendo aconselhável, fixar poucas soluções e um número grande de gerações. Neste contexto, a escolha dos parâmetros do algoritmo genético merece estudos aprofundados para se garantir mais suporte na detecção de soluções ótimas globais.

126

Como aplicação, realizou-se o mapeamento de QTL’s epistáticos que afetam a pressão arterial em ratos F2 após a administração de sal. Foram aplicadas as metodologias de busca por algoritmo

genético, busca condicional e a busca via o ajuste do modelo de regressão intervalar de múltiplos locos (MIM) do WinQTLCart, que é uma ferramenta bastante utilizada na área. Da análise destes dados as seguintes conclusões foram obtidas:

• O método exaustivo torna-se inviável computacionalmente devido à necessidade de serem avaliadas um número muito grande de possibilidades (21.000.000 de ajustes aproximadamente);

• A busca por AG encontrou um par de posições “ótimo” considerando 100 soluções e 1.000 gerações por solução. Contudo não é possível afirmar que essa seja a melhor solução (ponto ótimo global), por não se conhecer os resultados da busca exaustiva e não se ter um suporte menos conservador que assegure com grande de probabilidade que após um determinado número de gerações e soluções atinja-se o ponto ótimo global. Considerando-se como critério de seleção do melhor ajuste as funções objetivo SSE, AIC e BIC, a busca por AG teve melhor desempenho que a busca condicional e que a busca realizada no WinQTLCart.

• Levando-se em conta que a pesquisa por QTL’s epistáticos é feita com base nos dados de marcadores, que representam uma amostra do genoma que está sendo estudado, os resultados indicaram que os sinais em regiões intermediárias no mapa, entre os dados de marcadores, não obedecem diretamente a distribuição dos efeitos aparentes mostrados pelos marcadores, indicando a real necessidade de se refinar as posições entre os marcadores.

Nota-se que Carlborg et al. (2000) considerou como função objetivo somente o SSE, delineamento backcross e como operador de crossingover o crossover uniform de dois pontos com probabilidade de 0,85 e mutação uniforme. Nakamich et al. (2001) considerou apenas como função objetivo o AIC, e no caso de operador de crossingover foi adotado o uniforme de n pontos, como operador de mutação drástica adota um dos seguintes procedimentos: adição ou deleção, ou ainda, a substituição de uma posição no genoma com probabilidade pd, para operador de mutação leve seleciona uma posição de

forma aleatória e uniforme e a desloca em uma unidade à direita ou à esquerda do genoma com probabilide 1 – pd.

127

Para este trabalho foi considerado como critérios as funções AIC, BIC e SSE, delineamento F2,

operador de crossover o BLX-α, operador de mutação drástica foi a mutação limite, operador de mutação leve foi a uniforme de um ponto, que varia de um até o tamanho do genoma em estudo, substitui o valor mais próximo das posições obtidas após a etapa de seleção.

Há interesse também em incluir no programa do algoritmo genético já implementado para os modelos com efeitos aditivos e sua interação, efeitos de dominância e as correspondentes interações. Pode-se também expandir o programa para situações que envolvem mais que dois locos (Carlborg et al., 2000; Nakamichi et al., 2001). Além disso, o problema da epistasia pode ser pesquisado de forma mais geral, levando-se em conta não apenas a interação entre diferentes locos, também a interação entre genes e ambiente (Carlborg and Haley, 2004; Cordell, 2002; Moore and Williams, 2005).

Uma outra questão que pode ser levada em conta é como o algoritmo genético pode ser aplicado de forma a minimizar os erros tipo I e II, pois sabe-se que ao cometer o erro tipo I assume-se a existência de QTL´s epistáticos que na verdade não têm efeito, o que aumentará desnecessariamente, o número de parâmetros a serem estimados no mapeamento. Por outro lado, cometer um erro tipo II, implica em eliminar efeitos de interação importantes sobre o fenótipo. Deste modo, há interesse em acoplar critérios ao AG que permitam minimizar simultaneamente as probabilidades de cometer os erros tipo I e erro tipo II.

Um dos problemas que ocorreu na elaboração do AG neste trabalho foi que o espaço de busca não é completamente admissível, ou seja, existem determinadas soluções que devem ser excluídas. Tal restrição conduz à necessidade de se fazer consistências no passo de atualização do programa, para que seja encontrado um par de posições factíveis. Dependendo do problema a restrição não é fácil de ser incorporada.

Segundo Arroyo (2002) o uso de métodos de consistência tem como vantagem trabalhar com um espaço de busca menor e elimina o problema de escolher funções de penalizações adequadas para cada problema do AG. Porém, fazer consistência nos pares de posições oferece como desvantagens alto custo computacional, pois o programa consumirá mais tempo para executar e o nível de consistência pode variar de acordo com a complexidade da restrição.

128

Ainda, como proposta futura, o algoritmo genético pode ser implementado considerando outras funções objetivo, como o algoritmo genético multi-objetivo, onde os ajustes por BIC, AIC e SSE seriam calculados numa única função objetivo que representasse um compromisso entre os diferentes critérios mencionados.Tal alternativa, permitiria encontrar tanto as melhores soluções como a maior diversidade possível entre elas (Ticona, 2003; Linden, 2006).

Pode-se também considerar o uso do AG para modelos com múltiplos QTL’s sem efeito de epistasia (Nakamichi et al., 2001) e comparar os resultados com os obtidos pelo MIM e pela busca condicional.

Outras alternativas de funções objetivo são TIC (do inglês, Takeuchi Information criterion), que possui um termo de penalização associado à distância de Kuback Leibler, e o QAIC (do inglês, Quase-

Likelihood Akaike Information Criterion) para comparação de modelos que apresentam superdispersão

(Burnham and Anderson, 1998 e 2002).

Outros métodos de atualização, além de mutação e recombinação, poderiam ser pesquisadas, como o método de Boltzman que estabelece probabilidades de mutação ou recombinação diferentes em cada geração (Ichihara, 1998).

Outros autores têm recomendado o algoritmo MCMC com saltos reversíveis (Silva, 2007) na busca por pares de locos epistáticos, conforme a proposta de Yi et al. (2005) de desenvolver um método Bayesiano para seleção de modelos na identificação de QTL’s epistáticos. Neste caso, o procedimento utiliza o conhecimento prévio sobre o número de QTL’s a serem detectados e especifica distribuições a priori para indicadores de efeitos genéticos. O algoritmo MCMC pode ser utilizado em combinação com o amostrador de Gibbs e o algoritmo Metropolis-Hasting para explorar a distribuição a posteriori. Considerando no AG que cada etapa de avaliação da aptidão de cada ponto do espaço de busca seja independente das demais, uma outra proposta pode ser o emprego da computação paralela (neste caso, vários modelos de AG podem ser executados simultaneamente) como uma forma de obter um ganho em termos de tempo (Linden, 2006). Neste caso, pode ser utilizado o método panmitic, que consiste de vários algoritmos genéticos simples executando cada operador distinto e operando sobre uma única população global (genoma).

129 Uma proposta interessante no mapeamento é considerar o ajuste do modelo com Erros nas

No documento Capítulo 1. Introdução (páginas 125-129)