• Nenhum resultado encontrado

Compara¸c˜ao dos m´etodos polybayes e MSASNP

4.7 Confiabilidade estat´ıstica de SNPs

4.7.2 Compara¸c˜ao dos m´etodos polybayes e MSASNP

Para avaliar os m´etodos utilizamos um conjunto de dados formado por 8198 clusters de seq¨uˆencias de cana-de-a¸c´ucar, que descrevemos na Se¸c˜ao 5.4.1. Nestes clusters, os pesquisadores do projeto SUCEST apontaram a presen¸ca de 42853 posi¸c˜oes de SNPs (5.23 SNP/cluster ).

Como estamos trabalhando apenas com posi¸c˜oes bial´elicas, n´os retiramos todas as posi¸c˜oes que apresentaram varia¸c˜oes tri ou tetra al´elicas ou que apresentaram eventos de INDEL. Ap´os a filtragem, obtivemos uma lista de 41558 posi¸c˜oes, contendo SNPs bial´elicos, distribu´ıdas em 8115 clusters (5.07 SNP/cluster ).

Executamos o software polybayes com e sem filtro de seq¨uˆencias par´alogas. Este filtro do polybayes analisa as seq¨uˆencias e, a partir das discrepˆancias que elas apresentarem em rela¸c˜ao `a ˆancora (consenso do cluster, neste caso), separa-as em dois grupos: nativas e par´alogas. Para o c´alculo de SNPs, o programa considera apenas as seq¨uˆencias nativas. Quando o filtro ´e aplicado o n´umero de seq¨uˆencias a ser analisada em busca de SNPs ´e menor e, portanto, a execu¸c˜ao ´e mais r´apida. Se o filtro ´e desligado, al´em da execu¸c˜ao ser mais lenta, geralmente o programa retorna um n´umero maior de posi¸c˜oes de SNPs.

A execu¸c˜ao do polybayes sem o filtro de par´alogos produziu um total de 172842 posi¸c˜oes de polimorfismo (21.08 SNP/cluster ). Deste total, 131622 posi¸c˜oes eram SNPs bial´elicos distribu´ıdos em 8195 clusters (16.06 SNP/cluster ). O tempo de execu¸c˜ao foi de 661 minutos e 45 segundos em uma m´aquina com 2 processadores INTEL Xeon 3.2 GHz, 4 GB DDR ECC e 4 discos 320 ULTRA SCSI 133 GB rodando Fedora Core 4.

Utilizando o filtro, o n´umero de posi¸c˜oes polim´orficas obtido foi de 138695, distribu´ıdas em 8042 clusters (16.05 SNP/cluster). Destas, 103325 eram posi¸c˜oes bial´elicas distribu´ıdas em 8029 clusters (12.60 SNP/cluster ). Para produzir estes dados, o programa gastou 578 minutos e 59 segundos na mesma m´aquina.

Aplicamos o m´etodo MSASNP no mesmo conjunto de clusters. O m´etodo gastou 302 minutos e 27 segundos na mesma m´aquina utilizada para executar o polybayes.

Os dados brutos, produzido pelo m´etodo, indicavam os valores para todas as posi¸c˜oes que tinham pelo menos duas bases diferentes em uma se¸c˜ao transversal do alinhamento. Um total de 4144426 posi¸c˜oes apresentaram esta caracter´ıstica m´ınima, resultando em

4.7. Confiabilidade estat´ıstica de SNPs 105

505, 54 SNP/cluster.

Este n´umero de posi¸c˜oes ´e muito maior do que o n´umero de posi¸c˜oes indicadas pelo SUCEST, por exemplo. Obviamente, a maior parte n˜ao se trata de SNPs e, portanto, um crit´erio deve ser criado para separar as posi¸c˜oes que realmente s˜ao polimorfismos.

Decidimos utilizar como crit´erio o valor de probabilidade PSN P calculado. Contudo,

este n´umero, pela pr´opria natureza do c´alculo, tende a ser, na maioria dos casos, muito pr´oximo de 1. Por exemplo, se utilizamos o valor m´ınimo de 0.9 para considerar a posi¸c˜ao como um SNP, temos um total de 4115998 posi¸c˜oes (502.07 SNP/cluster ), ou seja, apenas 0.68% do conjunto total ´e descartado.

Para avaliar o efeito da escolha de diferentes valores para a probabilidade m´ınima requerida, utilizamos a f´ormula f (x) = 1 − 10−x, com x variando no intervalo [1.20], para

definir o conjunto de probabilidades m´ınimas a ser testado. Os n´umeros de posi¸c˜oes defi- nidas como sendo SNPs, segundo cada valor utilizado, ´e exibido no gr´afico da Figura 4.31 (curva vermelha). Neste gr´afico podemos ver tamb´em o n´umero de posi¸c˜oes em que ocor- reu correspondˆencia com o conjunto de SNPs definido pelo SUCEST (curva verde). A curva azul representa o n´umero de polimorfismos bial´elicos encontrados pelo polybayes sem o filtro de par´alogos. J´a a curva magenta indica a intersec¸c˜ao entre polybayes e SUCEST.

Podemos observar no gr´afico que o m´etodo MSASNP aponta muitas posi¸c˜oes, apre- sentando n´umero maior de SNPs que o polybayes em grande parte dos casos. Podemos notar tamb´em que apresenta sempre um n´umero maior de SNPs que o apresentado pela intersec¸c˜ao entre SUCEST e polybayes.

O gr´afico da Figura 4.32 exibe a porcentagem de posi¸c˜oes de SNPs apontadas pelo polybayes que conferem com os dados do SUCEST (curva verde). E na curva vermelha apresentamos os valores obtidos com o m´etodo MSASNP que conferem com os apresen- tados pelo SUCEST. Podemos observar que o polybayes acerta bastante e que o m´etodo MSASNP acerta cada vez menos quando impomos mais restri¸c˜oes.

O gr´afico nos mostra que mesmo com a utiliza¸c˜ao de um valor para probabilidade m´ınima, o m´etodo MSASNP continua a apontar muitas posi¸c˜oes. Isso ocorre porque os alinhamentos dos clusters possuem muitas regi˜oes com baixa qualidade, produzindo uma grande quantidade de SNPs em posi¸c˜oes consecutivas.

Assim, decidimos aplicar um filtro de janela deslizante que percorre as posi¸c˜oes do ali- nhamento e elimina SNPs consecutivos. A janela inicia a procura pelo primeiro candidato a SNP existente no alinhamento. Ao encontrar esta posi¸c˜ao, a janela a indica como SNP e pula 5 posi¸c˜oes, ignorando qualquer candidato a SNP existente neste intervalo. Este procedimento, portanto, n˜ao permite que exista um SNP distante do outro a menos de 5 posi¸c˜oes.

1e+3 1e+4 1e+5 1e+6 1e+7

1−1e−011−1e−021−1e−031−1e−041−1e−051−1e−061−1e−071−1e−081−1e−091−1e−101−1e−111−1e−121−1e−131−1e−141−1e−151−1e−161−1e−171−1e−181−1e−191−1e−20

Número de posições

Psnp

Posições de SNP

MSASNP Intersecção entre MSASNP e SUCEST POLYBAYES (sem filtro) Intersecção entre POLYBAYES (sem filtro) e SUCEST

Figura 4.31: Gr´afico comparativo no n´umero de posi¸c˜oes marcadas como SNP. No eixo X temos um limite inferior, para a probabilidade de ser SNP, onde consideramos que seja um SNP. No eixo Y temos o n´umero de posi¸c˜oes marcadas como sendo SNP. A curva vermelha refere-se ao m´etodo MSASNP. A curva azul apresenta o n´umero de SNP apontados pelo polybayes (sem filtro). A curva magenta apresenta o n´umero de SNPs que aparecem no SUCEST (dados de referˆencia) e polybayes ao mesmo tempo. A curva verde aponta o n´umero de SNPs que aparecem no SUCEST e m´etodo MSASNP ao mesmo tempo.

4.7. Confiabilidade estat´ıstica de SNPs 107 0 20 40 60 80 100

1−1e−011−1e−021−1e−031−1e−041−1e−051−1e−061−1e−071−1e−081−1e−091−1e−101−1e−111−1e−121−1e−131−1e−141−1e−151−1e−161−1e−171−1e−181−1e−191−1e−20

Número de posições

Psnp

Porcentagem de posições de SNP preservadas

MSASNP POLYBAYES (sem filtro)

Figura 4.32: Gr´afico comparativo no n´umero de SNPs preservados, tomando como re- ferˆencia os dados do SUCEST. No eixo X temos um limite inferior, para a probabilidade de ser SNP, onde consideramos que seja um SNP. No eixo Y temos o n´umero de posi¸c˜oes preservadas. A curva verde refere-se ao polybayes (sem filtro) e a curva vermelha ao m´etodo MSASNP.

agora utilizando a janela deslizante. Como podemos ver, o n´umero de posi¸c˜oes indicadas como SNP pelo m´etodo MSASNP caiu bastante. Contudo, a porcentagem de posi¸c˜oes apontadas pelo SUCEST e pelo polybayes tamb´em ca´ıram. Isso indica que este filtro n˜ao ´e capaz de eliminar falsos positivos sem afetar os verdadeiros positivos.

1e+3 1e+4 1e+5 1e+6 1e+7

1−1e−011−1e−021−1e−031−1e−041−1e−051−1e−061−1e−071−1e−081−1e−091−1e−101−1e−111−1e−121−1e−131−1e−141−1e−151−1e−161−1e−171−1e−181−1e−191−1e−20

Número de posições

Psnp

Posições de SNP

MSASNP MSASNP intersecção SUCEST POLYBAYES (sem filtro) Intersecção entre POLYBAYES (sem filtro) e SUCEST

Figura 4.33: Gr´afico comparativo no n´umero de posi¸c˜oes marcadas como SNP quando utilizamos uma janela deslizante de cinco posi¸c˜oes entre dois SNPs. No eixo X temos um limite inferior, para a probabilidade de ser SNP, onde consideramos que seja um SNP. No eixo Y temos o n´umero de posi¸c˜oes marcadas como sendo SNP. A curva vermelha refere-se ao m´etodo MSASNP. A curva azul apresenta o n´umero de SNP apontados pelo polybayes (sem filtro). A curva magenta apresenta o n´umero de SNPs que aparecem no SUCEST (dados de referˆencia) e polybayes ao mesmo tempo. A curva verde aponta o n´umero de SNPs que aparecem no SUCEST e m´etodo MSASNP ao mesmo tempo.

Al´em disso, analisando o polybayes, verificamos que a intersec¸c˜ao de suas posi¸c˜oes de SNP com as do SUCEST ´e de 41138, ou seja, 98.99% das posi¸c˜oes bial´elicas.

Para isso, o polybayes produziu 131622 posi¸c˜oes, ou seja 3.17 vezes mais do que o apontado pelo SUCEST.

Por outro lado, o m´etodo MSASNP usando probabilidade m´ınima de 1−10−6 produziu

uma intersec¸c˜ao de posi¸c˜oes de SNP com as do SUCEST ´e de 40828, ou seja, 98.27% das posi¸c˜oes bial´elicas. Por´em produziu 567618 posi¸c˜oes, ou seja 13.66 vezes mais do que o apontado pelo SUCEST.

Se utilizarmos o filtro de janelas nos dados do polybayes, o n´umero de posi¸c˜oes de SNP cai para 112247 (2.70 vezes mais que o conjunto SUCEST). A intersec¸c˜ao entre estes

4.7. Confiabilidade estat´ıstica de SNPs 109 0 20 40 60 80 100

1−1e−011−1e−021−1e−031−1e−041−1e−051−1e−061−1e−071−1e−081−1e−091−1e−101−1e−111−1e−121−1e−131−1e−141−1e−151−1e−161−1e−171−1e−181−1e−191−1e−20

Número de posições

Psnp

Porcentagem de posições de SNP preservadas

MSASNP POLYBAYES (sem filtro)

Figura 4.34: Gr´afico comparativo no n´umero de SNPs preservados, tomando como re- ferˆencia os dados do SUCEST, quando utilizamos uma janela deslizante de cinco posi¸c˜oes entre dois SNPs. No eixo X temos um limite inferior, para a probabilidade de ser SNP, onde consideramos que seja um SNP. No eixo Y temos o n´umero de posi¸c˜oes preservadas. A curva verde refere-se ao polybayes (sem filtro) e a curva vermelha ao m´etodo MSASNP.

dois conjuntos foi de 39034 posi¸c˜oes, ou seja, 93.96% do total.

Usando o filtro de janelas no m´etodo MSASNP com probabilidade m´ınima de 1 − 10−6 temos 120089 posi¸c˜oes de SNP (2.89 vezes mais que o conjunto SUCEST) e uma

intersec¸c˜ao de 19437 posi¸c˜oes. Apesar de atingirmos um n´umero de posi¸c˜oes pr´oximo do obtido pelo polybayes, o n´umero de verdadeiros positivos caiu para 46.79% dos SNPs apontados pelo SUCEST.

De acordo com os resultados apresentados nos gr´aficos concluimos que o m´etodo MSASNP n˜ao foi capaz de obter resultados satisfat´orios. Como pudemos ver, o m´etodo gera uma quantidade enorme de falsos positivos e apresenta um menor ´ındice de acerto que o polybayes. Pudemos verificar tamb´em que a ferramenta polybayes apresenta bons resultados.

4.8

Conclus˜ao e trabalhos futuros

Os resultados obtidos no trabalho de detec¸c˜ao de SNPs por an´alise de cromatograma foram bastante satisfat´orios, se comparados com os resultados gerados pelos programas polybayese polyphred. Devemos tamb´em levar em conta que os lotes utilizados possuem baixa cobertura m´edia de cada base da seq¨uˆencia de referˆencia, com alta porcentagem de bases com baixa qualidade e grande quantidade de polimorfismos, dificultando o trabalho de detec¸c˜ao.

Ap´os executarmos os diversos algoritmos de detec¸c˜ao de SNPs propostos com diversas parametriza¸c˜oes, estabelecemos que o melhor algoritmo ´e o de “Rela¸c˜ao de ´Areas”, com parˆametros:

(

MIN RELATION= 0.25

DISTANCE PERCENTAGE= 0.5

Seq¨uˆencias virais, como o HIV utilizado neste trabalho, possuem um alto n´umero de muta¸c˜oes. Seria portanto interessante repetirmos o experimento utilizando seq¨uencias gen´eticas de seres vivos mais conservados, como, por exemplo, mam´ıferos, de forma a validar os algoritmos desenvolvidos.

Quanto aos estudos sobre m´etodos estat´ısticos de confiabilidade, definimos um m´etodo simples de determina¸c˜ao da confiabilidade de SNPs, que chamamos de MSASNP. Analisa- mos tamb´em a ferramenta polybayes e comparamos os resultados. Pudemos observar que a ferramenta polybayes exigiu um pouco mais de tempo para realizar o processamento dos dados, por´em apresentou resultados melhores.

Cap´ıtulo 5

Correla¸c˜ao de polimorfismos

Neste cap´ıtulo discutiremos o uso de SNPs em desequil´ıbrio de liga¸c˜ao, tamb´em chamado de Linkage Disequilibrium ou LD, para mapeamento fino de genes. O relat´orio t´ecnico “Um algoritmo para identifica¸c˜ao de correla¸c˜oes m´ultiplas de polimorfismos” (IC-06-14) por Almeida, Galves e Dias [3], descrevendo os resultados obtidos neste cap´ıtulo, foi depositado no Instituto de Computa¸c˜ao da UNICAMP.

Estima-se que o mapeamento de genes baseado em Linkage Disequilibrium trar´a resul- tados mais completos e precisos, permitindo obter informa¸c˜oes de grande utilidade para compreens˜ao e tratamento de doen¸cas com causas gen´eticas [101]. LD tem sido apon- tado como uma ferramenta de grande utilidade para facilitar o mapeamento de gen´otipos complexos [6], e para refinar a busca por locus respons´aveis por doen¸cas. Neste Cap´ıtulo apresentamos uma an´alise sobre LDs e LDs m´ultiplos em genes do cromossomo 6 humano e da cana-de-a¸c´ucar, obtidos atrav´es do projeto SUCEST.

Na Se¸c˜ao 5.1 descreveremos brevemente os problemas relacionados `a metodologias de mapeamento de genes, e os mecanismos gen´eticos que levam `a cria¸c˜ao de LDs. Na Se¸c˜ao 5.2, vamos definir algumas medidas utilizadas para quantificar o grau de associa¸c˜ao entre loci de um cromossomo. Na Se¸c˜ao 5.3 definiremos o conceito de LD m´ultiplo, e o algoritmo para c´alculo de LDs m´ultiplos a partir de uma estrutura de grafo. Na Se¸c˜ao 5.4 apresentaremos os dados que foram utilizados nos testes. Na Se¸c˜ao 5.5 apresentaremos a an´alise de LDs m´ultiplos em dados do genoma da cana-de-a¸c´ucar. Na Se¸c˜ao 5.6 apre- sentaremos a an´alise de LDs nos dados do genoma humano. E, finalmente, na Se¸c˜ao 5.7 apresentaremos a conclus˜ao do trabalho.

5.1

Correla¸c˜ao de polimorfismos

Na Se¸c˜ao 5.1.1 descreveremos a metodologia tradicional de mapeamento de genes. Na Se¸c˜ao 5.1.2, vamos definir o conceito de Linkage Disequilibrium, e como ele ´e usado para

mapeamento fino de genes e hapl´otipos. Na Se¸c˜ao 5.2 vamos definir algumas medidas usadas para descrever associa¸c˜ao entre alelos.

Documentos relacionados