Compara¸c˜ao dos m´etodos polybayes e MSASNP

4.7 Confiabilidade estat´ıstica de SNPs

4.7.2 Compara¸c˜ao dos m´etodos polybayes e MSASNP

Para avaliar os métodos utilizamos um conjunto de dados formado por 8198 clusters de seqüências de cana-de-a¸cúcar, que descrevemos na Se¸cão 5.4.1. Nestes clusters, os pesquisadores do projeto SUCEST apontaram a presen¸ca de 42853 posi¸cões de SNPs (5.23 SNP/cluster ).

Como estamos trabalhando apenas com posi¸cões bialélicas, nós retiramos todas as posi¸cões que apresentaram varia¸cões tri ou tetra alélicas ou que apresentaram eventos de INDEL. Após a filtragem, obtivemos uma lista de 41558 posi¸cões, contendo SNPs bialélicos, distribu´ıdas em 8115 clusters (5.07 SNP/cluster ).

Executamos o software polybayes com e sem filtro de seqüências parálogas. Este filtro do polybayes analisa as seqüências e, a partir das discrepâncias que elas apresentarem em rela¸cão à âncora (consenso do cluster, neste caso), separa-as em dois grupos: nativas e parálogas. Para o cálculo de SNPs, o programa considera apenas as seqüências nativas. Quando o filtro é aplicado o número de seqüências a ser analisada em busca de SNPs é menor e, portanto, a execu¸cão é mais rápida. Se o filtro é desligado, além da execu¸cão ser mais lenta, geralmente o programa retorna um número maior de posi¸cões de SNPs.

A execu¸cão do polybayes sem o filtro de parálogos produziu um total de 172842 posi¸cões de polimorfismo (21.08 SNP/cluster ). Deste total, 131622 posi¸cões eram SNPs bialélicos distribu´ıdos em 8195 clusters (16.06 SNP/cluster ). O tempo de execu¸cão foi de 661 minutos e 45 segundos em uma máquina com 2 processadores INTEL Xeon 3.2 GHz, 4 GB DDR ECC e 4 discos 320 ULTRA SCSI 133 GB rodando Fedora Core 4.

Utilizando o filtro, o número de posi¸cões polimórficas obtido foi de 138695, distribu´ıdas em 8042 clusters (16.05 SNP/cluster). Destas, 103325 eram posi¸cões bialélicas distribu´ıdas em 8029 clusters (12.60 SNP/cluster ). Para produzir estes dados, o programa gastou 578 minutos e 59 segundos na mesma máquina.

Aplicamos o método MSASNP no mesmo conjunto de clusters. O método gastou 302 minutos e 27 segundos na mesma máquina utilizada para executar o polybayes.

Os dados brutos, produzido pelo método, indicavam os valores para todas as posi¸cões que tinham pelo menos duas bases diferentes em uma se¸cão transversal do alinhamento. Um total de 4144426 posi¸cões apresentaram esta caracter´ıstica m´ınima, resultando em

4.7. Confiabilidade estat´ıstica de SNPs 105

505, 54 SNP/cluster.

Este número de posi¸cões é muito maior do que o número de posi¸cões indicadas pelo SUCEST, por exemplo. Obviamente, a maior parte não se trata de SNPs e, portanto, um critério deve ser criado para separar as posi¸cões que realmente são polimorfismos.

Decidimos utilizar como crit´erio o valor de probabilidade PSN P calculado. Contudo,

este número, pela própria natureza do cálculo, tende a ser, na maioria dos casos, muito próximo de 1. Por exemplo, se utilizamos o valor m´ınimo de 0.9 para considerar a posi¸cão como um SNP, temos um total de 4115998 posi¸cões (502.07 SNP/cluster ), ou seja, apenas 0.68% do conjunto total é descartado.

Para avaliar o efeito da escolha de diferentes valores para a probabilidade m´ınima requerida, utilizamos a f´ormula f (x) = 1 − 10−x_{, com x variando no intervalo [1.20], para}

definir o conjunto de probabilidades m´ınimas a ser testado. Os números de posi¸cões defi- nidas como sendo SNPs, segundo cada valor utilizado, é exibido no gráfico da Figura 4.31 (curva vermelha). Neste gráfico podemos ver também o número de posi¸cões em que ocor- reu correspondência com o conjunto de SNPs definido pelo SUCEST (curva verde). A curva azul representa o número de polimorfismos bialélicos encontrados pelo polybayes sem o filtro de parálogos. Já a curva magenta indica a interseçcão entre polybayes e SUCEST.

Podemos observar no gráfico que o método MSASNP aponta muitas posi¸cões, apre- sentando número maior de SNPs que o polybayes em grande parte dos casos. Podemos notar também que apresenta sempre um número maior de SNPs que o apresentado pela interseçcão entre SUCEST e polybayes.

O gráfico da Figura 4.32 exibe a porcentagem de posi¸cões de SNPs apontadas pelo polybayes que conferem com os dados do SUCEST (curva verde). E na curva vermelha apresentamos os valores obtidos com o método MSASNP que conferem com os apresentados pelo SUCEST. Podemos observar que o polybayes acerta bastante e que o método MSASNP acerta cada vez menos quando impomos mais restri¸cões.

O gráfico nos mostra que mesmo com a utiliza¸cão de um valor para probabilidade m´ınima, o método MSASNP continua a apontar muitas posi¸cões. Isso ocorre porque os alinhamentos dos clusters possuem muitas regiões com baixa qualidade, produzindo uma grande quantidade de SNPs em posi¸cões consecutivas.

Assim, decidimos aplicar um filtro de janela deslizante que percorre as posi¸cões do alinhamento e elimina SNPs consecutivos. A janela inicia a procura pelo primeiro candidato a SNP existente no alinhamento. Ao encontrar esta posi¸cão, a janela a indica como SNP e pula 5 posi¸cões, ignorando qualquer candidato a SNP existente neste intervalo. Este procedimento, portanto, não permite que exista um SNP distante do outro a menos de 5 posi¸cões.

1e+3 1e+4 1e+5 1e+6 1e+7

1−1e−011−1e−021−1e−031−1e−041−1e−051−1e−061−1e−071−1e−081−1e−091−1e−101−1e−111−1e−121−1e−131−1e−141−1e−151−1e−161−1e−171−1e−181−1e−191−1e−20

Número de posições

Psnp

Posições de SNP

MSASNP Intersecção entre MSASNP e SUCEST POLYBAYES (sem filtro) Intersecção entre POLYBAYES (sem filtro) e SUCEST

Figura 4.31: Gráfico comparativo no número de posi¸cões marcadas como SNP. No eixo X temos um limite inferior, para a probabilidade de ser SNP, onde consideramos que seja um SNP. No eixo Y temos o número de posi¸cões marcadas como sendo SNP. A curva vermelha refere-se ao método MSASNP. A curva azul apresenta o número de SNP apontados pelo polybayes (sem filtro). A curva magenta apresenta o número de SNPs que aparecem no SUCEST (dados de referência) e polybayes ao mesmo tempo. A curva verde aponta o número de SNPs que aparecem no SUCEST e método MSASNP ao mesmo tempo.

4.7. Confiabilidade estat´ıstica de SNPs 107 0 20 40 60 80 100

Número de posições

Psnp

Porcentagem de posições de SNP preservadas

MSASNP POLYBAYES (sem filtro)

Figura 4.32: Gráfico comparativo no número de SNPs preservados, tomando como re- ferência os dados do SUCEST. No eixo X temos um limite inferior, para a probabilidade de ser SNP, onde consideramos que seja um SNP. No eixo Y temos o número de posi¸cões preservadas. A curva verde refere-se ao polybayes (sem filtro) e a curva vermelha ao método MSASNP.

agora utilizando a janela deslizante. Como podemos ver, o número de posi¸cões indicadas como SNP pelo método MSASNP caiu bastante. Contudo, a porcentagem de posi¸cões apontadas pelo SUCEST e pelo polybayes também ca´ıram. Isso indica que este filtro não é capaz de eliminar falsos positivos sem afetar os verdadeiros positivos.

1e+3 1e+4 1e+5 1e+6 1e+7

Número de posições

Psnp

Posições de SNP

MSASNP MSASNP intersecção SUCEST POLYBAYES (sem filtro) Intersecção entre POLYBAYES (sem filtro) e SUCEST

Figura 4.33: Gráfico comparativo no número de posi¸cões marcadas como SNP quando utilizamos uma janela deslizante de cinco posi¸cões entre dois SNPs. No eixo X temos um limite inferior, para a probabilidade de ser SNP, onde consideramos que seja um SNP. No eixo Y temos o número de posi¸cões marcadas como sendo SNP. A curva vermelha refere-se ao método MSASNP. A curva azul apresenta o número de SNP apontados pelo polybayes (sem filtro). A curva magenta apresenta o número de SNPs que aparecem no SUCEST (dados de referência) e polybayes ao mesmo tempo. A curva verde aponta o número de SNPs que aparecem no SUCEST e método MSASNP ao mesmo tempo.

Além disso, analisando o polybayes, verificamos que a interseçcão de suas posi¸cões de SNP com as do SUCEST é de 41138, ou seja, 98.99% das posi¸cões bialélicas.

Para isso, o polybayes produziu 131622 posi¸c˜oes, ou seja 3.17 vezes mais do que o apontado pelo SUCEST.

Por outro lado, o m´etodo MSASNP usando probabilidade m´ınima de 1−10−6 _produziu

uma interseçcão de posi¸cões de SNP com as do SUCEST é de 40828, ou seja, 98.27% das posi¸cões bialélicas. Porém produziu 567618 posi¸cões, ou seja 13.66 vezes mais do que o apontado pelo SUCEST.

Se utilizarmos o filtro de janelas nos dados do polybayes, o número de posi¸cões de SNP cai para 112247 (2.70 vezes mais que o conjunto SUCEST). A interseçcão entre estes

4.7. Confiabilidade estat´ıstica de SNPs 109 0 20 40 60 80 100

Número de posições

Psnp

Porcentagem de posições de SNP preservadas

MSASNP POLYBAYES (sem filtro)

Figura 4.34: Gráfico comparativo no número de SNPs preservados, tomando como re- ferência os dados do SUCEST, quando utilizamos uma janela deslizante de cinco posi¸cões entre dois SNPs. No eixo X temos um limite inferior, para a probabilidade de ser SNP, onde consideramos que seja um SNP. No eixo Y temos o número de posi¸cões preservadas. A curva verde refere-se ao polybayes (sem filtro) e a curva vermelha ao método MSASNP.

dois conjuntos foi de 39034 posi¸c˜oes, ou seja, 93.96% do total.

Usando o filtro de janelas no m´etodo MSASNP com probabilidade m´ınima de 1 − 10−6 _{temos 120089 posi¸c˜oes de SNP (2.89 vezes mais que o conjunto SUCEST) e uma}

interseçcão de 19437 posi¸cões. Apesar de atingirmos um número de posi¸cões próximo do obtido pelo polybayes, o número de verdadeiros positivos caiu para 46.79% dos SNPs apontados pelo SUCEST.

De acordo com os resultados apresentados nos gráficos concluimos que o método MSASNP não foi capaz de obter resultados satisfatórios. Como pudemos ver, o método gera uma quantidade enorme de falsos positivos e apresenta um menor ´ındice de acerto que o polybayes. Pudemos verificar também que a ferramenta polybayes apresenta bons resultados.

4.8 Conclus˜ao e trabalhos futuros

Os resultados obtidos no trabalho de deteçcão de SNPs por análise de cromatograma foram bastante satisfatórios, se comparados com os resultados gerados pelos programas polybayese polyphred. Devemos também levar em conta que os lotes utilizados possuem baixa cobertura média de cada base da seqüência de referência, com alta porcentagem de bases com baixa qualidade e grande quantidade de polimorfismos, dificultando o trabalho de deteçcão.

Após executarmos os diversos algoritmos de deteçcão de SNPs propostos com diversas parametriza¸cões, estabelecemos que o melhor algoritmo é o de “Rela¸cão de Áreas”, com parâmetros:

(

MIN RELATION= 0.25

DISTANCE PERCENTAGE= 0.5

Seqüências virais, como o HIV utilizado neste trabalho, possuem um alto número de muta¸cões. Seria portanto interessante repetirmos o experimento utilizando seqüencias genéticas de seres vivos mais conservados, como, por exemplo, mam´ıferos, de forma a validar os algoritmos desenvolvidos.

Quanto aos estudos sobre métodos estat´ısticos de confiabilidade, definimos um método simples de determina¸cão da confiabilidade de SNPs, que chamamos de MSASNP. Analisa- mos também a ferramenta polybayes e comparamos os resultados. Pudemos observar que a ferramenta polybayes exigiu um pouco mais de tempo para realizar o processamento dos dados, porém apresentou resultados melhores.

Cap´ıtulo 5

Correla¸c˜ao de polimorfismos

Neste cap´ıtulo discutiremos o uso de SNPs em desequil´ıbrio de liga¸cão, também chamado de Linkage Disequilibrium ou LD, para mapeamento fino de genes. O relatório técnico “Um algoritmo para identifica¸cão de correla¸cões múltiplas de polimorfismos” (IC-06-14) por Almeida, Galves e Dias [3], descrevendo os resultados obtidos neste cap´ıtulo, foi depositado no Instituto de Computa¸cão da UNICAMP.

Estima-se que o mapeamento de genes baseado em Linkage Disequilibrium trará resultados mais completos e precisos, permitindo obter informa¸cões de grande utilidade para compreensão e tratamento de doen¸cas com causas genéticas [101]. LD tem sido apontado como uma ferramenta de grande utilidade para facilitar o mapeamento de genótipos complexos [6], e para refinar a busca por locus responsáveis por doen¸cas. Neste Cap´ıtulo apresentamos uma análise sobre LDs e LDs múltiplos em genes do cromossomo 6 humano e da cana-de-a¸cúcar, obtidos através do projeto SUCEST.

Na Se¸cão 5.1 descreveremos brevemente os problemas relacionados à metodologias de mapeamento de genes, e os mecanismos genéticos que levam à cria¸cão de LDs. Na Se¸cão 5.2, vamos definir algumas medidas utilizadas para quantificar o grau de associa¸cão entre loci de um cromossomo. Na Se¸cão 5.3 definiremos o conceito de LD múltiplo, e o algoritmo para cálculo de LDs múltiplos a partir de uma estrutura de grafo. Na Se¸cão 5.4 apresentaremos os dados que foram utilizados nos testes. Na Se¸cão 5.5 apresentaremos a análise de LDs múltiplos em dados do genoma da cana-de-a¸cúcar. Na Se¸cão 5.6 apresentaremos a análise de LDs nos dados do genoma humano. E, finalmente, na Se¸cão 5.7 apresentaremos a conclusão do trabalho.

5.1 Correla¸c˜ao de polimorfismos

Na Se¸cão 5.1.1 descreveremos a metodologia tradicional de mapeamento de genes. Na Se¸cão 5.1.2, vamos definir o conceito de Linkage Disequilibrium, e como ele é usado para

mapeamento fino de genes e haplótipos. Na Se¸cão 5.2 vamos definir algumas medidas usadas para descrever associa¸cão entre alelos.

No documento Uma abordagem computacional para determinação de polimorfismo de base unica (páginas 133-141)