• Nenhum resultado encontrado

Domínio

9.5. Imunoprecipitação da Cromatina

9.5.4. Estatística e análise dos dados

O experimento realizado não é suficiente para definir os sítios de ligação da RNA Pol II devido à baixa cobertura (somente 1 corrida), mas foi utilizado para o estabelecimento da plataforma de análise. A quantidade de dados disponível com apenas uma corrida já é grande, e pela ausência de algoritmos e programas para a realização das análises, inicialmente estamos desenvolvendo a plataforma de mapeamento centrando nossas análises inicialmente nos 105 BACs, que possui quantidade de dados menor em comparação com o shotgun, sendo, portanto mais fácil de ser avaliado enquanto a infraestrutura computacional para visualizar o genoma completo ainda não se encontra disponível.

O mapeamento por BLASTN das leituras de ChIP-Seq IgG nos 105 BACs geraram um total de 2.955.509 hits, enquanto para o ChIP-Seq RNA Pol II tivemos 4.029.685 hits. Estes hits podem gerar uma boa cobertura do genoma analisado, mas mapear todos estes hits para identificação de regiões regulatórias não seria o correto, visto que o princípio do ChIP-Seq é utilizar uma grande cobertura das

CAP2. Resultados 146 regiões alvo utilizando apenas sequências únicas (Park, 2009), e quando referimos a cobertura, referimos a cobertura advinda de sequenciamento, e não de mapeamento em diferentes regiões do genoma.

Segundo dados para experimentos de ChIP-Seq utilizando a plataforma

SOLID ou Illumina, acredita-se que é possível mapear unicamente 75% do genoma

humano com leituras de 25 pb com no máximo 2 mismatches (McKernan et al., 2009). No entanto, 2 mismatches é quase 10% da identidade da leitura, ou seja, seria uma consideração de alinhamento com cobertura de 100% e identidade de 90%.

Na tentativa de transpor esta estringência para os nossos dados, inicialmente realizamos uma filtragem do mapeamento dos BACs com o ChIP-Seq IgG com cobertura maior do que 90%. Observamos que apenas 13,68% dos hits mapeados por BLAST estão acima deste corte, mas a porcentagem de leituras dentro desta região é de 23,94%. Se utilizarmos um corte de 80% de cobertura observamos que 29,42% dos hits mapeados por BLAST estão acima deste corte, mas a porcentagem de leituras dentro desta região é de 43,69 %, ou seja, diminuindo a cobertura de 90% para 80%, praticamente dobramos a quantidade de hits/leituras do ChIP-Seq que estão sendo mapeadas. Uma vez que o sequenciamento com o 454 gera fragmentos maiores, de aproximadamente 400 pb, acreditamos que diminuir a cobertura utilizada não é tão prejudicial como no caso de leituras de 25 pb obtidas a partir de sequenciadores como SOLID e Illumina.

Para ter uma estimativa do comportamento do mapeamento com relação à cobertura, geramos uma figura comparando o número de hits obtidos pelo mapeamento utilizando o BLASTN em cada valor de cobertura (Veja figura 9.23). O gráfico nos permite observar que mais de 70% dos hits mapeados estão abaixo da

CAP2. Resultados 147 cobertura de 80%, e acreditamos que isto em parte deve-se ao fato do alinhamento local utilizado pelo BLAST. No entanto, a porcentagem de leituras do ChIP-Seq abaixo do corte de 80 % de cobertura soma mais de 50% das leituras, o que poderia ser indício da falta de sequências alvos (sequências ainda desconhecidas de cana) ou então de sequenciamento com qualidade ruim.

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 cobertura (%) N u m er o d e h it s

Figura 9.25. Distribuição da cobertura do ChIP-Seq RNA Pol II nos 105 BACs Após

mapear os dados do ChIP-Seq RNA Pol II nos 105 BACs, foi realizado um parser para verificar o número de hits obtido (eixo y) em cada valor de cobertura (eixo x, em porcentagem).

Uma análise similar, só que utilizando como parâmetro 90% de identidade, revelou que 65,81% dos hits do ChIP-Seq IgG mapearam nos 105 BACs. E este valor corresponde a 87,35% das leituras, ou seja, neste corte já conseguimos o mapeamento de uma grande quantidade de leituras obtidas. Similar ao realizado anteriormente, geramos uma figura comparando o número de hits obtidos pelo mapeamento utilizando o BLASTN em cada valor de identidade (Veja figura 9.24). O gráfico nos permite observar que mais de 85% das leituras mapeadas estão dentro

CAP2. Resultados 148 do corte de 90% identidade, e acreditamos que isto em parte pode ser uma evidência que as sequências de cana foram sequenciadas, mas estão com tamanho curto ou com a qualidade baixa em parte de sua extensão.

0 50000 100000 150000 200000 250000 300000 350000 100 98 96 94 92 90 88 86 84 82 80 78 identidade (%) N ú m e ro d e h it s

Figura 9.26. Distribuição da identidade do ChIP-Seq RNA Pol II nos 105 BACs. Após o

mapear os dados do ChIP-Seq RNA Pol II nos 105 BACs, foi realizado um parser para verificar o número de hits obtido (eixo y) em cada valor de identidade (eixo x, em porcentagem).

Utilizando como corte 90% de identidade e 90% de cobertura obtivemos 9,93 % dos hits mapeados, o que corresponde a apenas 20,37% das leituras. A utilização do corte 90% de identidade e 80% de cobertura resultou na obtenção de 20,54% dos hits, mas 37,25% das sequências do ChIP-Seq IgG. Um resumo dos dados apresentados se encontra-se na tabela 9.5.

90 %

cobertura 80 % cobertura 90 % identidade

90 % cobertura e 90 % identidade 80 % cobertura e 90 % identidade ChIP-Seq IgG hits 383348 (13%) 825799 (28%) 1847212 (62%) 278731 (9%) 576601 (20%) ChIP-Seq IgG leituras 28700 (24%) 52369 (44%) 104711 (87%) 24417 (20%) 44656 (37%) ChIP-Seq Pol II hits 514678 (13%) 1060576 (26%) 2432712 (60%) 365839 (9%) 721622 (18%) ChIP-Seq Pol II leituras 40348 (25%) 70636 (43%) 140250 (87%) 34044 (21%) 59459 (37%)

CAP2. Resultados 149

Tabela 9.5. Resumo do número de leituras/hits obtidos pela curagem dos dados. Foi

realizada uma curagem do mapeamento por BLASTN entre os 105 BACs um contigs com o ChIP-Seq. Após cada curagem, foi obtido o número de hits obtidos pelo BLASTN e o número de leituras dentro destes hits. Os valores de porcentagem foram calculados dividindo o número de hits obtidos pela curagem em relação ao total de hits (ex.: 2.806.938, no caso do IgG), enquanto o número de leituras obtidas foi calculado dividindo o número de leituras obtidas pela curagem em relação ao total de leituras (ex.: no caso do ChIP-Seq IgG, 119.876).