• Nenhum resultado encontrado

Bioinformática. João Varela Aulas T9-T10 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, E ENGENHARIA BIOLÓGICA

N/A
N/A
Protected

Academic year: 2021

Share "Bioinformática. João Varela Aulas T9-T10 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, E ENGENHARIA BIOLÓGICA"

Copied!
53
0
0

Texto

(1)

C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A , E E N G E N H A R I A B I O L Ó G I C A

Bioinformática

João Varela jvarela@ualg.pt Aulas T9-T10

(2)

Esquema de anotação Annothaton

1.

ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -?

(SMS ORF Finder)

2.

Existem proteínas homólogas? (BLASTp, BLASTx)

3.

Existem domínios funcionais? Onde? (InterProScan)

4.

Qual o tamanho / massa molecular da proteína codificada

pela ORF em aa / kDa?

5.

A que organismo ou táxon pertencerá a sequência

metagenómica? (BLAST Taxonomy Report)

6.

Relações filogenéticas (MSA; Prof. Rita Castilho)

7.

Conclusões e Análise de Resultados (PONTO PRINCIPAL DA

(3)

Massa Molecular (Molecular Weight)

—

1 Da = 1 unidade de massa atómica = 1/12 massa de um

átomo de C ≈ massa de um átomo de H

—

1 mole de H tem uma massa de 1 g

—

Logo: 1 Da => 1 g mol

-1

—

A massa molecular de uma macromolécula depende do

nº de unidades que a forma

—

Mw Proteína = somatório da Mw dos resíduos de aa

—

Mw DNA = somatório da Mw dos resíduos de nucleótidos

—

Annothaton

: anotar Mw - apenas se a ORF estiver

(4)

A ORF está completa quando:

—

Identificámos o seu codão STOP (a 3’)

—

Identificámos o seu codão START (a 5’)

—

O

alinhamento múltiplo

(

MSA = multisequence

alignment

) com sequências homólogas não revela a

falta de qualquer sequência

(5)

Determinação do codão START por MSA

GOS_12345 MSAHNTMALAGHAHHHAIKLYVVFA

BD_P0001 MSAHYTMALVGHAHKHAIKLYVIFA BP_P0002 MSAHYTMALVGHAHHHAIKLYVVFA

Exemplo 1 Conclusão

A ORF está completa na sua extremidade 5’

GOS_12345 MALAGHAHHHAIKLYVVFA

BD_P0001 MSAHYTMALVGHAHKHAIKLYVIFA BP_P0002 MSAHYTMALVGHAHHHAIKLYVVFA

Exemplo 2 Conclusão

A ORF está incompleta na sua extremidade 5’ GOS_12345 MSAHNTMALAGHAHHHAIKLYVVFA BD_P0001 MALVGHAHKHAIKLYVIFA BP_P0002 MALVGHAHHHAIKLYVVFA Exemplo 3 Conclusão A ORF começa no 2º codão START

(6)

Alinhamentos de sequências múltiplas (MSA)

Para que servem?

—

Determinar qual o verdadeiro codão START por

comparação com sequências homólogas e

corrigir a extremidade 5’ dada pela “greedy

approach”

—

Procurar sequências adicionais

—

Montar sequências genómicas

—

Montar ESTs

(7)

Alinhamentos de sequências múltiplas (MSA)

Pesquisa de sequências adicionais

5’-ACTGATTAGCAACTAAGGACATAAAACTGCTTAGCCAT-3’ 5’-ACTGATTACCATACATTGACTTAACTGACTAATCTTAT-3’ 5’-ACTGATTAGCATCCAAGGACATAAAACTGCTATGTTAT-3’ ACTGATTASCAWMYAWKGACWTAAMWSWSYWWWSYYAT Consenso primer, sonda

(sequência comum usada para detectar famílias de genes [homólogos] por hibridação)

(8)

Alinhamentos de sequências múltiplas (MSA)

Montagem de sequências genómicas

5’-AGCTATTACAGGAACTTGCACATGGGCTTAGCTAGCAAATTTAGC-3’ seq123_67 seq123_24 5’-CTTGCACATGGGCTTAGCTAGCAAATTTAGCTAGCT-3’

seq123_89 5’-CAAATTTAGCTAGCTTGCCATTA-3’

(9)

ESTs (Expressed Sequence Tags)

Expressed Sequence Tags (fragmentos de sequências de cDNA

de RNAs transcritos de um dado tecido ou células) RNA1 RNA2 RNA3 RNA4... RNAn cDNA1 cDNA2 cDNA3 cDNA4... cDNAn Célula Extracção de RNA, Síntese de cDNA Sequenciação EST1-1 EST1-2 cDNA1 5’ 5’

(10)

Alinhamentos de sequências múltiplas (MSA)

Montagem de ESTs para a dedução de sequências completas de RNA transcrito numa célula / tecido

http://cseweb.ucsd.edu/groups/bioinformatics/ESTs/index.html Detecção de splicing alternativo

(11)

Esquema de anotação Annothaton

1.

ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -?

(SMS ORF Finder)

2.

Existem proteínas homólogas? (BLASTp, BLASTx)

3.

Existem domínios funcionais? Onde? (InterProScan)

4.

Qual o tamanho / massa molecular da proteína codificada

pela ORF em aa / kDa?

5.

A que organismo ou táxon pertencerá a sequência

metagenómica? (BLAST Taxonomy Report)

6.

Relações filogenéticas

7.

Conclusões e Análise de Resultados (PONTO PRINCIPAL DA

(12)
(13)
(14)

A importância do Organism Report

Valor E Score

(15)

Critérios de decisão de taxonomia da fonte

biológica de sequências metagenómicas

—

Escolher o táxon que tenha valores E e scores com

diferenças significativas com os restantes taxa

—

Caso haja apenas taxa com valores E e scores muito

próximos (não significativos) essa sequência não é

diagnosticante para esse táxon; por isso escolher um

táxon mais abrangente

(16)

Esquema de anotação Annothaton

1.

ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -?

(SMS ORF Finder)

2.

Existem proteínas homólogas? (BLASTp, BLASTx)

3.

Existem domínios funcionais? Onde? (InterProScan)

4.

Qual o tamanho / massa molecular da proteína codificada

pela ORF em aa / kDa?

5.

A que organismo ou táxon pertencerá a sequência

metagenómica? (BLAST Taxonomy Report)

6.

Relações filogenéticas

7.

Conclusões e Análise de Resultados (PONTO PRINCIPAL DA

(17)

Taxonomia e Ontologia Molecular

—

Taxonomia (Annotathon)

—

Ontologia Génica (GO)

(18)

Taxonomia

—

Uma das funções das anotações (meta)genómicas é a

(19)

Tipos de Classificações

—

Classificação

hierárquica

(de Lineu)

—

Classificação

cladística

(20)

Classificação Hierárquica de Sistemas Biológicos

—

Domínio

—

Superreino,

Reino

, Subreino

—

Superfilo,

Filo

(≈ divisão), Subfilo

—

(Superclasse,)

Classe

, Subclasse

—

Superordem,

Ordem

, Subordem (, Infraordem)

—

(Superfamília, Epifamília,)

Família

, Subfamília (, Tribo,

Subtribo, Infratribo)

—

Género

, Subgénero

—

Espécie

, Subespécie

(21)

Clades

(22)

Monofilia, Parafilia e Polifilia

—

Grupo monofilético – grupo taxonómico que

provém de um ancestral comum cujos descendentes se

encontram incluídos neste grupo (≈ grupo holofilético)

—

Grupo parafilético – grupo taxonómico que provém

de um ascendente comum cujos descendentes se

encontram parcialmente incluídos neste grupo

—

Grupo polifilético – grupo taxonómico que provém

(23)
(24)
(25)

NCBI Taxonomy Database

—

Cada táxon tem um nº de identificação - NCBI

(26)

Filogenia

—

http://www.ncbi.nlm.nih.gov/Taxonomy/

—

Pesquisa por

táxon

ou

identificador numérico

—

Colocar o identificador numérico no campo Taxonomy

para o

táxon menos abrangente

ao qual a sequência

deverá pertencer com uma elevada probabilidade

(analisar valores E do BLAST e o nó imediatamente superior do ramo à qual

pertence a sequência em estudo das árvores filogenéticas obtidas)

—

Raramente se consegue identificar até à espécie a fonte

(27)

Determinação da fonte biológica de uma

sequência metagenómica

—

Os resultados do Taxonomy Report do BLAST não

são indicadores suficientes para a fonte biológica de

uma sequência metagenómica

—

Nem sempre os melhores resultados do BLAST

correspondem ao táxon indicado pela análise

filogenética

—

Os resultados do BLAST e da análise filogenética

devem ser

congruentes

e

significativos

para a

atribuição da fonte biológica ser credível

(28)

Determinação da fonte biológica de uma

sequência metagenómica

—

Os resultados do Taxonomy Report do BLAST não

são indicadores suficientes para a fonte biológica de

uma sequência metagenómica

—

Nem sempre os melhores resultados do BLAST

correspondem ao táxon indicado pela análise

filogenética

—

Os resultados do BLAST e da análise filogenética

devem ser

congruentes

e

significativos

para a

atribuição da fonte biológica ser credível

(29)

Fonte biológica de uma sequência metagenómica

—

A fonte biológica de uma sequência metagenómica

corresponde ao táxon que terá maior probabilidade

de ser o dador da sequência nucleotídica em estudo

—

A classificação taxonómica da fonte biológica nem

sempre pode ser realizado até à espécie

—

A classificação taxonómica da fonte biológica deve

corresponder ao táxon menos abrangente do qual se

tenha fortes indicações através da análise

(30)

Critérios de atribuição taxonómica

—

Se o melhor resultado ter uma identidade > 98% e valores E

claramente diferente do 2º melhor resultado que aponte

para um táxon diferente do 1º, muito provavelmente esse

será o táxon da fonte biológica

Function [species] Identity E value

Glycerol 3-P dehydrogenase [species x] 99 % 0.0 Glycerol 3-P dehydrogenase [species y] 74% 1o-74 Glycerol 3-P dehydrogenase [species z] 65% 1o-46

Function [species] Identity E value

Glycerol 3-P dehydrogenase [species x] 99 % 1o-106 Glycerol 3-P dehydrogenase [species y] 98% 1o-105 Glycerol 3-P dehydrogenase [species z] 94% 1o-103

?

(31)

Critérios de atribuição taxonómica

—

Se o melhor resultado ter uma identidade << 98% e valor E

claramente diferente do 2º melhor resultado que aponte

para um táxon diferente do 1º, a espécie x poderá ser

aparentada com a da fonte biológica ou poderemos a estar

lidar com sequências parálogas à nossa sequência (query)

Function [species] Identity E value

Glycerol 3-P dehydrogenase [species x] 75 % 10-86 Glycerol 3-P dehydrogenase [species y] 55% 1o-74

(32)

Filogenia e taxonomia molecular

—

A análise filogenética serve para apoiar ou não conclusões

tiradas com resultados do BLAST em relação à atribuição

da fonte biológica mais provável da sequência query

—

A análise filogenética dá-nos também informação sobre as

relações evolutivas entre sequências

—

A análise filogenética é uma ferramenta essencial em

taxonomia molecular (atribuição de classificação

taxonómica de um ou mais organismos dadores de DNA

por métodos moleculares)

(33)

Filogenia

—

A análise filogenética serve para apoiar ou não conclusões

tiradas com resultados do BLAST em relação à atribuição

da fonte biológica mais provável da sequência query

—

A análise filogenética dá-nos também informação sobre as

relações evolutivas entre sequências

—

A análise filogenética é uma ferramenta essencial em

taxonomia molecular (atribuição de classificação

taxonómica de um ou mais organismos dadores de DNA

por métodos moleculares)

(34)

Exemplo: Filogenia dos Primatas

15-30 Seres Humanos Gorilas Chimpanzés Bonobos Orangotangos MYA 0 Via morfologia MYA Seres Humanos Chimpanzés Bonobos Gorilas Orangotangos 0 14

Via mtDNA, genes nucleares e hibridização de moléculas de DNA

(35)

Exemplo: Filogenia e a Ciência Forense

Controlo 2 Controlo 3 Controlo 9 Controlo 35 Controlo 3

Não

Não

Fonte: Ou et al. (1992) and Page & Holmes (1998), redesenhado por Caro-Beth Stewart

Sim:

A fonte provável de contaminação será o dentista para estes pacientes Paciente D Paciente F DENTISTA Paciente C Paciente A Paciente G Paciente B Paciente E Paciente A DENTISTA Árvore filogenética de sequências genómicas do HIV

(36)

Filogenia melhora a atribuição de função

(37)

Passos da análise filogenética

—

Seleção da ORF a estudar

—

Identificação de sequências homólogas

—

Alinhamento múltiplo (MSA) da sequência query com

sequências homólogas

—

Construção de árvores filogenéticas

—

Inferência funcional das sequências utilizadas

—

Inferência filogenética das sequências utilizadas

(38)

Sequências parálogas vs. ortólogas

Eisen et al. (1998) Árvore A: Indica a existência de sequências parálogas Árvore B: Indica apenas a existência de sequências ortólogas

(39)

Semelhança vs. Homologia

—

Sequências muitos semelhantes entre si são geralmente

homólogas (i.e., têm um ancestral comum) e têm a mesma

função

—

Sequências semelhantes podem ter a mesma função, mas

não ser homólogas se a

semelhança resultar de evolução

convergente

—

Árvores filogenéticas podem indicar a presença de

sequências parálogas caso haja sequências da mesma

espécie com scores e valores E significativamente diferentes

(40)

Termos associados a árvores filogenéticas

A E B C D ramos ou linhagens nós internos ou ancestrais hipotéticos raiz nós terminais ou nós “foliares” (leaf nodes) ou taxa ou OTUs

Fonte: Swofford (2003) (OTUs = Operational Taxonomical Units)

(41)

Termos associados a árvores filogenéticas

A B C D E

Árvore binária com

elevada resolução

A B C D E

politomia "hard"

A B C D E

Árvore não binária

com resolução

parcial

politomia "soft"

Árvore estrelada com resolução nula (árvore colapsada)

(42)

A importância de enraizar uma árvore

Fonte: Swofford (2003) Para enraizar uma árvore

mentalmente, imagine que puxa um fio com 4 pontas pela raiz, até que as extremidades (os taxa) fiquem no lado oposto ao da raiz. A C Raiz D A B C D Root Notar que na árvore enraizada, o táxon

A não está mais relacionado com o

taxon B que com os taxa C ou D.

árvore enraizada árvore não enraizada

Slide por Caro-Beth Stewart

B

Para inferir relações evolutivas é necessário determinar a raiz da árvore

(43)

Número de árvores não enraizadas possíveis

Taxa Nu 3 1 4 3 5 15 6 105 7 945 8 10395 9 135,135 10 2,027,025 11 34,459,425 12 654,729,075 13 13,749,310,575 14 316,234,143,225 15 7,905,853,580,625

1

3

4

2

1

3

4

2

1

3

4

2

Nu=(2n-5) . (2n-7) . (...) . 3 . 1=(2n-5)!/[2n-3 . (n-3)!] Adaptado de Swofford (2003)

(44)

Número de árvores enraizadas possíveis

Taxa Nr 3 3 4 15 5 105 6 945 7 10395 8 135,135 9 2,027,025 10 34,459,425 11 654,729,075 12 13,749,310,575 13 316,234,143,225 14 7,905,853,580,625 15 2,134,580,4667,6875 Nr=(2n-3) . (2n-5) . (...) . 3 . 1=(2n-3)!/[2n-2 . (n-2)!] Adaptado de Swofford (2003)

1

3

1

2

1

3

4 2 3 1

2

4

3

4

4

2

4 2 3 1 2 4 3 1 4 2 1 3 4 2 3 1

(45)

Árvores com a mesma topologia

Fonte: Swofford (2003)

B

A

C

D

C

D

A

B

B

C

D

A

B

A

C

D

Árvore enraizada

A

D

C

B

D

C

A

B

B

D

C

A

(46)

Como enraizar uma árvore

Fonte: Swofford (2003)

Por definição de “outgroup”:

Definido por um táxon ou taxa exterior ao grupo em estudo (“ingroup”), mas requer um conhecimento taxonómico prévio (usado no Annotathon). Pode ser também uma família molecular (não usado no Annotathon).

Por ponto de meia-distância (midpoint):

A raiz é o ponto de meia-distância entre os taxa mais distintos da árvore e é determinado pelo tamanho dos ramos. Porém, assume que a evolução molecular é igual para todos os ramos (i.e., assume a existência de um ”relógio molecular”).

Adaptado de um slide por Caro-Beth Stewart Existem duas maneiras:

A B C D 10 2 3 5 2 outgroup d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9

(47)

Métodos de inferência filogenética: caracteres

Fonte: Swofford (2003) Adaptado de um slide por Caro-Beth Stewart

Métodos de caracteres: Alinhamento de caracteres, nucleótidos ou

aminoácidos, para construir uma árvore e inferir filogenia:

Taxa Caracteres Species A ATGGCTATTCTTATAGTACG Species B ATCGCTAGTCTTATATTACA Species C TTCACTAGACCTGTGGTCCA Species D TTGACCAGACCTGTGGTCCG Species E TTGACCAGTTCTCTAGTTCG

(48)

Métodos de inferência filogenética: distância

Fonte: Swofford (2003) Adaptado de um slide por Caro-Beth Stewart

Métodos de distância: Transforma as dissemelhanças entre

sequências em distâncias, sendo utilizada a respetiva matriz para

calcular a árvore.

A B C D E Species A ---- 0.20 0.50 0.45 0.40 Species B 0.23 ---- 0.40 0.55 0.50 Species C 0.87 0.59 ---- 0.15 0.40 Species D 0.73 1.12 0.17 ---- 0.25 Species E 0.59 0.89 0.61 0.31 ----Distância não corrigida (= % de diferença entre sequências)

Parâmetro de distância Kimura 2

(estimativa corrigida da verdadeira distância de substituições de caracteres (nt. ou aa.) entre taxa.

(49)

Semelhança vs. Relação Evolutiva

Fonte: Swofford (2003) Adaptado de um slide por Caro-Beth Stewart

Semelhança e relação evolutiva são conceitos diferentes, apesar da segunda ser inferida

através da primeira.

Semelhança: parecença (observação)

Relação evolutiva: há uma relação genética (um facto histórico)

Dois taxa podem ser semelhantes, mas não terem uma relação evolutiva próxima. Como?

Taxon A Taxon C Taxon D 1 1 1 3 5

C tem maior semelhança com A (d = 3) que com B (d = 7), mas C e B são mais próximos em termos evolutivos (i.e., C e B partilham um ancestral comum mais recente do que com A).

Taxon B

(50)

Tipos de semelhanças: Simplesiomorfia e Sinapomorfia

Fonte: Swofford (2003) Adaptado de um slide por Caro-Beth Stewart

A semelhança observada entre dois taxa pode ser devido a:

Relação evolutiva:

com caracteres ancestrais partilhados: simplesiomorfia com caracteres ancestrais derivados: sinapomorfia

caracter ancestral caracter derivado C C G G C plesiomorfia apomorfia

(51)

Tipos de semelhanças: homoplasia

Fonte: Swofford (2003)

Homoplasia: Evolução independente do mesmo caracter Relação evolutiva convergente:

Eventos evolutivos convergentes entre taxa relacionados (ou não) evolutivamente: através de eventos paralelos:

C

G

G

C

C

G

G

C

(52)

Tipos de semelhanças: homoplasia

Homoplasia: Evolução independente do mesmo caracter Relação evolutiva convergente:

Eventos evolutivos convergentes entre taxa relacionados (ou não) evolutivamente: através de eventos de reversão:

C C G G C G C C G C C C C G C Reversão Mutação

Mutações e reversões podem esconder a verdadeira história evolutiva. Por isso, é necessário cuidado com interpretações de árvores. Em

métodos de distância, semelhança = relação evolutiva caso as distâncias forem baseadas em matrizes / árvores “ultramétricas”.

(53)

Distâncias / matrizes / Árvores Ultramétricas

—

Satisfazem a hipótese do “relógio molecular”

—

Todas as distâncias desde a raiz até aos nós foliares são

iguais

—

O tamanho dos ramos é proporcional ao tempo evolutivo

Referências

Documentos relacionados

Cubos de filé mignon ao molho madeira com arroz à Piemontese (medalhão para empratado ou bufê) Medalhão de mignon com crosta crocante e batata gratinada (para empratado ou

Disto decorre que cada entidade sindical minimamente representativa deverá, num futuro próximo, escolher, em primeiro lugar, um dado mix de serviços,sejam de de natureza

Visando aprimorar o conhecimento acerca do comportamento mecânico sob influência de temperaturas elevadas de compósitos poliméricos pultrudados reforçados com fibras de

Este direito implica na garantia de condições para fazê-lo, se assim escolher, sem prejuízo ou relativização de quaisquer direitos e sem sofrer quaisquer formas de violência ou

a) As bases de dados aeronáuticos utilizadas nas aplicações dos sistemas de aeronaves certificados devem satisfazer requisitos de qualidade dos dados adequados à utilização

1. Reconhecendo os direitos soberanos dos Estados sobre os seus recursos naturais, a autoridade de determinar o acesso aos recursos genéticos cabe aos governos nacionais e

A figura abaixo mostra que o preço de exportação do bacalhau salgado e seco segue uma tendência para aumentar, como acontece com os preços de primeira venda do bacalhau

a) Analisar os PCI que lhes forem encaminhados, devolvendo os que julgarem improcedentes, os que estiverem incompletos e aqueles cujas ligações preliminares não houverem sido