C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A , E E N G E N H A R I A B I O L Ó G I C A
Bioinformática
João Varela jvarela@ualg.pt Aulas T9-T10Esquema de anotação Annothaton
1.
ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -?
(SMS ORF Finder)
2.
Existem proteínas homólogas? (BLASTp, BLASTx)
3.Existem domínios funcionais? Onde? (InterProScan)
4.
Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa?
5.
A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report)
6.
Relações filogenéticas (MSA; Prof. Rita Castilho)
7.
Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
Massa Molecular (Molecular Weight)
1 Da = 1 unidade de massa atómica = 1/12 massa de um
átomo de C ≈ massa de um átomo de H
1 mole de H tem uma massa de 1 g
Logo: 1 Da => 1 g mol
-1
A massa molecular de uma macromolécula depende do
nº de unidades que a forma
Mw Proteína = somatório da Mw dos resíduos de aa
Mw DNA = somatório da Mw dos resíduos de nucleótidos
Annothaton
: anotar Mw - apenas se a ORF estiver
A ORF está completa quando:
Identificámos o seu codão STOP (a 3’)
Identificámos o seu codão START (a 5’)
O
alinhamento múltiplo
(
MSA = multisequence
alignment
) com sequências homólogas não revela a
falta de qualquer sequência
Determinação do codão START por MSA
GOS_12345 MSAHNTMALAGHAHHHAIKLYVVFA
BD_P0001 MSAHYTMALVGHAHKHAIKLYVIFA BP_P0002 MSAHYTMALVGHAHHHAIKLYVVFA
Exemplo 1 Conclusão
A ORF está completa na sua extremidade 5’
GOS_12345 MALAGHAHHHAIKLYVVFA
BD_P0001 MSAHYTMALVGHAHKHAIKLYVIFA BP_P0002 MSAHYTMALVGHAHHHAIKLYVVFA
Exemplo 2 Conclusão
A ORF está incompleta na sua extremidade 5’ GOS_12345 MSAHNTMALAGHAHHHAIKLYVVFA BD_P0001 MALVGHAHKHAIKLYVIFA BP_P0002 MALVGHAHHHAIKLYVVFA Exemplo 3 Conclusão A ORF começa no 2º codão START
Alinhamentos de sequências múltiplas (MSA)
Para que servem?
Determinar qual o verdadeiro codão START por
comparação com sequências homólogas e
corrigir a extremidade 5’ dada pela “greedy
approach”
Procurar sequências adicionais
Montar sequências genómicas
Montar ESTs
Alinhamentos de sequências múltiplas (MSA)
Pesquisa de sequências adicionais
5’-ACTGATTAGCAACTAAGGACATAAAACTGCTTAGCCAT-3’ 5’-ACTGATTACCATACATTGACTTAACTGACTAATCTTAT-3’ 5’-ACTGATTAGCATCCAAGGACATAAAACTGCTATGTTAT-3’ ACTGATTASCAWMYAWKGACWTAAMWSWSYWWWSYYAT Consenso primer, sonda
(sequência comum usada para detectar famílias de genes [homólogos] por hibridação)
Alinhamentos de sequências múltiplas (MSA)
Montagem de sequências genómicas
5’-AGCTATTACAGGAACTTGCACATGGGCTTAGCTAGCAAATTTAGC-3’ seq123_67 seq123_24 5’-CTTGCACATGGGCTTAGCTAGCAAATTTAGCTAGCT-3’
seq123_89 5’-CAAATTTAGCTAGCTTGCCATTA-3’
ESTs (Expressed Sequence Tags)
Expressed Sequence Tags (fragmentos de sequências de cDNA
de RNAs transcritos de um dado tecido ou células) RNA1 RNA2 RNA3 RNA4... RNAn cDNA1 cDNA2 cDNA3 cDNA4... cDNAn Célula Extracção de RNA, Síntese de cDNA Sequenciação EST1-1 EST1-2 cDNA1 5’ 5’
Alinhamentos de sequências múltiplas (MSA)
Montagem de ESTs para a dedução de sequências completas de RNA transcrito numa célula / tecido
http://cseweb.ucsd.edu/groups/bioinformatics/ESTs/index.html Detecção de splicing alternativo
Esquema de anotação Annothaton
1.
ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -?
(SMS ORF Finder)
2.
Existem proteínas homólogas? (BLASTp, BLASTx)
3.Existem domínios funcionais? Onde? (InterProScan)
4.
Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa?
5.
A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report)
6.
Relações filogenéticas
7.
Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
A importância do Organism Report
Valor E Score
Critérios de decisão de taxonomia da fonte
biológica de sequências metagenómicas
Escolher o táxon que tenha valores E e scores com
diferenças significativas com os restantes taxa
Caso haja apenas taxa com valores E e scores muito
próximos (não significativos) essa sequência não é
diagnosticante para esse táxon; por isso escolher um
táxon mais abrangente
Esquema de anotação Annothaton
1.
ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -?
(SMS ORF Finder)
2.
Existem proteínas homólogas? (BLASTp, BLASTx)
3.Existem domínios funcionais? Onde? (InterProScan)
4.
Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa?
5.
A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report)
6.
Relações filogenéticas
7.
Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
Taxonomia e Ontologia Molecular
Taxonomia (Annotathon)
Ontologia Génica (GO)
Taxonomia
Uma das funções das anotações (meta)genómicas é a
Tipos de Classificações
Classificação
hierárquica
(de Lineu)
Classificação
cladística
Classificação Hierárquica de Sistemas Biológicos
Domínio
Superreino,
Reino
, Subreino
Superfilo,
Filo
(≈ divisão), Subfilo
(Superclasse,)
Classe
, Subclasse
Superordem,
Ordem
, Subordem (, Infraordem)
(Superfamília, Epifamília,)
Família
, Subfamília (, Tribo,
Subtribo, Infratribo)
Género
, Subgénero
Espécie
, Subespécie
Clades
Monofilia, Parafilia e Polifilia
Grupo monofilético – grupo taxonómico que
provém de um ancestral comum cujos descendentes se
encontram incluídos neste grupo (≈ grupo holofilético)
Grupo parafilético – grupo taxonómico que provém
de um ascendente comum cujos descendentes se
encontram parcialmente incluídos neste grupo
Grupo polifilético – grupo taxonómico que provém
NCBI Taxonomy Database
Cada táxon tem um nº de identificação - NCBI
Filogenia
http://www.ncbi.nlm.nih.gov/Taxonomy/
Pesquisa por
táxon
ou
identificador numérico
Colocar o identificador numérico no campo Taxonomy
para o
táxon menos abrangente
ao qual a sequência
deverá pertencer com uma elevada probabilidade
(analisar valores E do BLAST e o nó imediatamente superior do ramo à qualpertence a sequência em estudo das árvores filogenéticas obtidas)
Raramente se consegue identificar até à espécie a fonte
Determinação da fonte biológica de uma
sequência metagenómica
Os resultados do Taxonomy Report do BLAST não
são indicadores suficientes para a fonte biológica de
uma sequência metagenómica
Nem sempre os melhores resultados do BLAST
correspondem ao táxon indicado pela análise
filogenética
Os resultados do BLAST e da análise filogenética
devem ser
congruentes
e
significativos
para a
atribuição da fonte biológica ser credível
Determinação da fonte biológica de uma
sequência metagenómica
Os resultados do Taxonomy Report do BLAST não
são indicadores suficientes para a fonte biológica de
uma sequência metagenómica
Nem sempre os melhores resultados do BLAST
correspondem ao táxon indicado pela análise
filogenética
Os resultados do BLAST e da análise filogenética
devem ser
congruentes
e
significativos
para a
atribuição da fonte biológica ser credível
Fonte biológica de uma sequência metagenómica
A fonte biológica de uma sequência metagenómica
corresponde ao táxon que terá maior probabilidade
de ser o dador da sequência nucleotídica em estudo
A classificação taxonómica da fonte biológica nem
sempre pode ser realizado até à espécie
A classificação taxonómica da fonte biológica deve
corresponder ao táxon menos abrangente do qual se
tenha fortes indicações através da análise
Critérios de atribuição taxonómica
Se o melhor resultado ter uma identidade > 98% e valores E
claramente diferente do 2º melhor resultado que aponte
para um táxon diferente do 1º, muito provavelmente esse
será o táxon da fonte biológica
Function [species] Identity E value
Glycerol 3-P dehydrogenase [species x] 99 % 0.0 Glycerol 3-P dehydrogenase [species y] 74% 1o-74 Glycerol 3-P dehydrogenase [species z] 65% 1o-46
Function [species] Identity E value
Glycerol 3-P dehydrogenase [species x] 99 % 1o-106 Glycerol 3-P dehydrogenase [species y] 98% 1o-105 Glycerol 3-P dehydrogenase [species z] 94% 1o-103
✔
?
Critérios de atribuição taxonómica
Se o melhor resultado ter uma identidade << 98% e valor E
claramente diferente do 2º melhor resultado que aponte
para um táxon diferente do 1º, a espécie x poderá ser
aparentada com a da fonte biológica ou poderemos a estar
lidar com sequências parálogas à nossa sequência (query)
Function [species] Identity E value
Glycerol 3-P dehydrogenase [species x] 75 % 10-86 Glycerol 3-P dehydrogenase [species y] 55% 1o-74
Filogenia e taxonomia molecular
A análise filogenética serve para apoiar ou não conclusões
tiradas com resultados do BLAST em relação à atribuição
da fonte biológica mais provável da sequência query
A análise filogenética dá-nos também informação sobre as
relações evolutivas entre sequências
A análise filogenética é uma ferramenta essencial em
taxonomia molecular (atribuição de classificação
taxonómica de um ou mais organismos dadores de DNA
por métodos moleculares)
Filogenia
A análise filogenética serve para apoiar ou não conclusões
tiradas com resultados do BLAST em relação à atribuição
da fonte biológica mais provável da sequência query
A análise filogenética dá-nos também informação sobre as
relações evolutivas entre sequências
A análise filogenética é uma ferramenta essencial em
taxonomia molecular (atribuição de classificação
taxonómica de um ou mais organismos dadores de DNA
por métodos moleculares)
Exemplo: Filogenia dos Primatas
15-30 Seres Humanos Gorilas Chimpanzés Bonobos Orangotangos MYA 0 Via morfologia MYA Seres Humanos Chimpanzés Bonobos Gorilas Orangotangos 0 14Via mtDNA, genes nucleares e hibridização de moléculas de DNA
Exemplo: Filogenia e a Ciência Forense
Controlo 2 Controlo 3 Controlo 9 Controlo 35 Controlo 3Não
Não
Fonte: Ou et al. (1992) and Page & Holmes (1998), redesenhado por Caro-Beth StewartSim:
A fonte provável de contaminação será o dentista para estes pacientes Paciente D Paciente F DENTISTA Paciente C Paciente A Paciente G Paciente B Paciente E Paciente A DENTISTA Árvore filogenética de sequências genómicas do HIVFilogenia melhora a atribuição de função
Passos da análise filogenética
Seleção da ORF a estudar
Identificação de sequências homólogas
Alinhamento múltiplo (MSA) da sequência query com
sequências homólogas
Construção de árvores filogenéticas
Inferência funcional das sequências utilizadas
Inferência filogenética das sequências utilizadas
Sequências parálogas vs. ortólogas
Eisen et al. (1998) Árvore A: Indica a existência de sequências parálogas Árvore B: Indica apenas a existência de sequências ortólogasSemelhança vs. Homologia
Sequências muitos semelhantes entre si são geralmente
homólogas (i.e., têm um ancestral comum) e têm a mesma
função
Sequências semelhantes podem ter a mesma função, mas
não ser homólogas se a
semelhança resultar de evolução
convergente
Árvores filogenéticas podem indicar a presença de
sequências parálogas caso haja sequências da mesma
espécie com scores e valores E significativamente diferentes
Termos associados a árvores filogenéticas
A E B C D ramos ou linhagens nós internos ou ancestrais hipotéticos raiz nós terminais ou nós “foliares” (leaf nodes) ou taxa ou OTUsFonte: Swofford (2003) (OTUs = Operational Taxonomical Units)
Termos associados a árvores filogenéticas
A B C D EÁrvore binária com
elevada resolução
A B C D Epolitomia "hard"
A B C D EÁrvore não binária
com resolução
parcial
politomia "soft"
Árvore estrelada com resolução nula (árvore colapsada)
A importância de enraizar uma árvore
Fonte: Swofford (2003) Para enraizar uma árvore
mentalmente, imagine que puxa um fio com 4 pontas pela raiz, até que as extremidades (os taxa) fiquem no lado oposto ao da raiz. A C Raiz D A B C D Root Notar que na árvore enraizada, o táxon
A não está mais relacionado com o
taxon B que com os taxa C ou D.
árvore enraizada árvore não enraizada
Slide por Caro-Beth Stewart
B
Para inferir relações evolutivas é necessário determinar a raiz da árvore
Número de árvores não enraizadas possíveis
Taxa Nu 3 1 4 3 5 15 6 105 7 945 8 10395 9 135,135 10 2,027,025 11 34,459,425 12 654,729,075 13 13,749,310,575 14 316,234,143,225 15 7,905,853,580,6251
3
4
2
1
3
4
2
1
3
4
2
Nu=(2n-5) . (2n-7) . (...) . 3 . 1=(2n-5)!/[2n-3 . (n-3)!] Adaptado de Swofford (2003)Número de árvores enraizadas possíveis
Taxa Nr 3 3 4 15 5 105 6 945 7 10395 8 135,135 9 2,027,025 10 34,459,425 11 654,729,075 12 13,749,310,575 13 316,234,143,225 14 7,905,853,580,625 15 2,134,580,4667,6875 Nr=(2n-3) . (2n-5) . (...) . 3 . 1=(2n-3)!/[2n-2 . (n-2)!] Adaptado de Swofford (2003)1
3
1
2
1
3
4 2 3 12
4
3
4
4
2
4 2 3 1 2 4 3 1 4 2 1 3 4 2 3 1Árvores com a mesma topologia
Fonte: Swofford (2003)B
A
C
D
C
D
A
B
B
C
D
A
B
A
C
D
Árvore enraizada
A
D
C
B
D
C
A
B
B
D
C
A
Como enraizar uma árvore
Fonte: Swofford (2003)
Por definição de “outgroup”:
Definido por um táxon ou taxa exterior ao grupo em estudo (“ingroup”), mas requer um conhecimento taxonómico prévio (usado no Annotathon). Pode ser também uma família molecular (não usado no Annotathon).
Por ponto de meia-distância (midpoint):
A raiz é o ponto de meia-distância entre os taxa mais distintos da árvore e é determinado pelo tamanho dos ramos. Porém, assume que a evolução molecular é igual para todos os ramos (i.e., assume a existência de um ”relógio molecular”).
Adaptado de um slide por Caro-Beth Stewart Existem duas maneiras:
A B C D 10 2 3 5 2 outgroup d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9
Métodos de inferência filogenética: caracteres
Fonte: Swofford (2003) Adaptado de um slide por Caro-Beth Stewart
Métodos de caracteres: Alinhamento de caracteres, nucleótidos ou
aminoácidos, para construir uma árvore e inferir filogenia:
Taxa Caracteres Species A ATGGCTATTCTTATAGTACG Species B ATCGCTAGTCTTATATTACA Species C TTCACTAGACCTGTGGTCCA Species D TTGACCAGACCTGTGGTCCG Species E TTGACCAGTTCTCTAGTTCG
Métodos de inferência filogenética: distância
Fonte: Swofford (2003) Adaptado de um slide por Caro-Beth Stewart
Métodos de distância: Transforma as dissemelhanças entre
sequências em distâncias, sendo utilizada a respetiva matriz para
calcular a árvore.
A B C D E Species A ---- 0.20 0.50 0.45 0.40 Species B 0.23 ---- 0.40 0.55 0.50 Species C 0.87 0.59 ---- 0.15 0.40 Species D 0.73 1.12 0.17 ---- 0.25 Species E 0.59 0.89 0.61 0.31 ----Distância não corrigida (= % de diferença entre sequências)Parâmetro de distância Kimura 2
(estimativa corrigida da verdadeira distância de substituições de caracteres (nt. ou aa.) entre taxa.
Semelhança vs. Relação Evolutiva
Fonte: Swofford (2003) Adaptado de um slide por Caro-Beth Stewart
Semelhança e relação evolutiva são conceitos diferentes, apesar da segunda ser inferida
através da primeira.
Semelhança: parecença (observação)
Relação evolutiva: há uma relação genética (um facto histórico)
Dois taxa podem ser semelhantes, mas não terem uma relação evolutiva próxima. Como?
Taxon A Taxon C Taxon D 1 1 1 3 5
C tem maior semelhança com A (d = 3) que com B (d = 7), mas C e B são mais próximos em termos evolutivos (i.e., C e B partilham um ancestral comum mais recente do que com A).
Taxon B
Tipos de semelhanças: Simplesiomorfia e Sinapomorfia
Fonte: Swofford (2003) Adaptado de um slide por Caro-Beth Stewart
A semelhança observada entre dois taxa pode ser devido a:
Relação evolutiva:
com caracteres ancestrais partilhados: simplesiomorfia com caracteres ancestrais derivados: sinapomorfia
caracter ancestral caracter derivado C C G G C plesiomorfia apomorfia
Tipos de semelhanças: homoplasia
Fonte: Swofford (2003)
Homoplasia: Evolução independente do mesmo caracter Relação evolutiva convergente:
Eventos evolutivos convergentes entre taxa relacionados (ou não) evolutivamente: através de eventos paralelos:
C
G
G
C
C
G
G
C
Tipos de semelhanças: homoplasia
Homoplasia: Evolução independente do mesmo caracter Relação evolutiva convergente:
Eventos evolutivos convergentes entre taxa relacionados (ou não) evolutivamente: através de eventos de reversão:
C C G G C G C C G C C C C G C Reversão Mutação
Mutações e reversões podem esconder a verdadeira história evolutiva. Por isso, é necessário cuidado com interpretações de árvores. Em
métodos de distância, semelhança = relação evolutiva caso as distâncias forem baseadas em matrizes / árvores “ultramétricas”.