Bioinformática 1
Bioinformática 1
Prof. Dr. Walter F. de Azevedo Jr.
Prof. Dr. Walter F. de Azevedo Jr.
Laboratório de Sistemas BioMoleculares.
Laboratório de Sistemas BioMoleculares.
Departamento de Física. UNESP
Departamento de Física. UNESP
São José do Rio Preto. SP.
São José do Rio Preto. SP.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
Resumo
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Mapa de restrição
Problema da digestão parcial (Partial Digest Problem, PDP)
Algoritmos de mapas de restrição
Motivos regulatórios em seqüências de DNA
Perfis
O problema de procura de motivos
Algoritmo de procura de motivos
Distância de Hamming
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Mapa de restrição
Em 1970 Hamilton Smith descobriu que a enzima de restrição
HindII cliva moléculas de DNA em sítios de seqüências GTGCAC
ou GTTAAC, quebrando a longa molécula de DNA em conjuntos
de fragmentos de restrição. As posições dos sítios onde ocorrem
as seqüências são chamados mapas de restrição. As enzimas de
restrição são endonucleases e apresentam especificidades diversas.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Multiset
Um multiset é um conjunto que permite duplicar os elementos do
conjunto.
Ex:
X={0,2,4,7,10} então o multiset
∆
X = {2, 2, 3, 3, 4, 5, 6, 7, 8, 10}.
Se X={x
1
=0, x
2
, x
3
,....,x
n
} é um conjunto de n pontos sobre um
segmento de reta ordenado, então
∆
X representa o multiset de
todas as distâncias de pares entre os pontos X.
∆
X = {x
j
– x
i
: 1≤i<j≤n }
n
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br
n
k =
n!
(n-k)! k!
Para o exemplo X={0, 2, 4, 7, 10} temos:
5
2 =
5!
(5-2)! 2!
= 10
De uma forma geral, para k=2, que é o caso de distância de pares,
temos:
n
2 =
n!
(n-2)! 2!
=
n(n-1)(n-2)!
(n-2)! 2!
=
n(n-1)
2
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br
Digestão parcial
0 2 4 7 10
2
2
3
3
4
5
6
7
8
10
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Tabela para representar
∆
X
10 3 7 6 3 4 8 5 2 2 10 7 2 2 0 10 7 4 2 0 i/j
X={0,2,4,7,10} então o multiset
∆
X = {2, 2, 3, 3, 4, 5, 6, 7, 8, 10}
ou
∆
X={2
2
, 3
2
, 4, 5, 6, 7, 8, 10} .
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Problema da Digestão Parcial (PDP)
Temos que determinar as posições de clivagem a partir da
informação sobre os fragmentos, ou seja, temos que determinar
o X, a partir do
∆
X.
Ex: Dado o
∆
X = {2, 2, 3, 3, 4, 5, 6, 7, 8, 10} determine o X.
Problema.
Entrada: O multiset de distâncias de pares L, contendo inteiros.
Saída: Um conjunto X, de n inteiros, tal que
∆
X = L.
n
2
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Problema da rodovia
Saídas da rodovia = sítios de restrição no DNA
Conjuntos homométricos
15 13 12 7 5 4 3 1 0 15 13 12 7 5 4 3 1 0 i/jX = {0, 1, 3, 4, 5, 7, 12, 13, 15}
Conjuntos homométricos
15 2 13 3 1 12 8 6 5 7 10 8 7 2 5 11 9 8 3 1 4 12 10 9 4 2 1 3 14 12 11 6 4 3 2 1 15 13 12 7 5 4 3 1 0 15 13 12 7 5 4 3 1 0 i/jX = {0, 1, 3, 4, 5, 7, 12, 13, 15}
∆
X={1
4
, 2
4
, 3
4
, 4
3
, 5
2
, 6
2
, 7
2
, 8
3
, 9
2
, 10
2
, 11
2
, 12
3
, 13, 14, 15}
Conjuntos homométricos
15 13 12 11 9 8 3 1 0 15 13 12 11 9 8 3 1 0 i/jY = {0, 1, 3, 8, 9, 11, 12, 13, 15}
Conjuntos homométricos
Y = {0, 1, 3, 8, 9, 11, 12, 13, 15}
∆
Y={1
4
, 2
4
, 3
4
, 4
3
, 5
2
, 6
2
, 7
2
, 8
3
, 9
2
, 10
2
, 11
2
, 12
3
, 13, 14, 15}
15 2 13 3 1 12 4 2 1 11 6 4 3 2 9 7 5 4 3 1 8 12 10 9 8 6 5 3 14 12 11 10 8 7 2 1 15 13 12 11 9 8 3 1 0 15 13 12 11 9 8 3 1 0 i/jLaboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Os conjuntos X e Y são homométricos. Em geral dois conjuntos
A e B são homométricos se
∆
A =
∆
B.
Sejam U e V dois conjuntos de números. Pode-se verificar que,
os multisets:
U
⊕
V = {u + v : u
∈
U, v
∈
V}
e
U - V = {u-v : u
∈
U, v
∈
V}
são homométricos.
Conjuntos homométricos
Algoritmo para resolver o PDP
PARTIALDIGEST(L)
1 width←máximo de L
2 DELETE(width,L)
3 X←{0, width}
4 PLACE(L,X)
PLACE(L,X)
1 se L está vazio
3
saída X
4
retorna
4 y←máximo de L
5 se
∆
(y,X)
⊆
L
7
Adicione y a X e remova as distâncias
∆
(y,X) de L
8
PLACE(L,X)
9
Remova y de X e some as distâncias
∆
(y,X) para L
9 se
∆
(width-y,X)
⊆
L
11
adicione width-y a X e remova as distâncias
∆
(width-y,X) de L
12
PLACE(L,X)
13
remova width-y de X e adicione distâncias
∆
(width-y,X) para L
14
Retorna
Obs:
∆
(y,X) representa o multiset
de distâncias entre um ponto y e
todos os pontos no conjunto X.
Ex:
∆
(2,{1,3,4,5})={1,1,2,3}
Exemplo para X= {0, 3, 5, 7}
7 2 5 4 2 3 7 5 3 0 7 5 3 0 i/j∆
X=L={2, 2, 3, 4, 5, 7}
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br PARTIALDIGEST(L) PLACE(L, X) {0, 7} 7 {2, 2, 3, 4, 5} 4 {0, 7} 7 {2, 2, 3, 4, 5} 3 7 {2, 2, 3, 4, 5} 2 7 {2, 2, 3, 4, 5, 7} 1 Ação X width L Linha executada PLACE(L, X) PLACE(L, X) {2, 5} 5 {0, 5, 7} {2, 3, 4} 7 {2, 5} 5 {0, 5, 7} {2, 3, 4} 6 ∆(y, X)⊆L? SIM {2, 5} 5 {0, 7} {2, 2, 3, 4, 5} 5 5 {0, 7} {2, 2, 3, 4, 5} 4 L={ }? NÃO {0, 7} {2, 2, 3, 4, 5} 1 Ação ∆(y, X) y X L Linha executada ∆(5, {0, 7}) = {2, 5}
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br PLACE(L, X) PLACE(L, X) {2, 3, 4} 4 {0, 3, 5, 7} { } 11 {2, 3, 4} 4 {0, 3, 5, 7} { } 10 ∆(width-y, X)⊆L?SIM {2, 3, 4} 4 {0, 5, 7} {2, 3, 4} 9 ∆(y, X)⊆L? NÃO {1, 3, 4} 4 {0, 5, 7} {2, 3, 4} 5 4 {0, 5, 7} {2, 3, 4} 4 L={ }? NÃO {0, 5, 7} {2, 3, 4} 1 Ação ∆(y, X) y X L Linha executada PLACE(L, X) RETORNA X {0, 3, 5, 7} { } 2 L={ }? SIM {0, 3, 5, 7} { } 1 Ação ∆(y, X) y X L Linha executada ∆(4, {0, 5, 7}) = {1, 3, 4}
X= {0, 3, 5, 7}
Motivos regulatórios em
seqüências de DNA
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Encontrar motivos em seqüências de DNA sem conhecimento
prévio do motivo é um problema comum em análise de genomas.
Perfis
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics
algorithms. The MIT Press,Cambridge, MA (2004).
Perfis
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics
algorithms. The MIT Press,Cambridge, MA (2004).
É possível identificar o padrão P a partir da análise das
seqüências?
Perfis
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics
algorithms. The MIT Press,Cambridge, MA (2004).
Perfis
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics
algorithms. The MIT Press,Cambridge, MA (2004).
d) A mesma seqüência de DNA mostrada em b) agora com o padrão P (ATGCAACT) mutado em duas posições aleatórias.
t sequências n nucleotídeos
Perfis
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics
algorithms. The MIT Press,Cambridge, MA (2004).
t sequências
O array s = (s
1
,...,s
t
), onde t é número de seqüências de DNA,
armazena as posições iniciais de cada motivo na seqüência.
8 19 3 5 31 27 15
O array s varia da seguinte forma: 1≤s
i
≤n-l+1.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics
algorithms. The MIT Press,Cambridge, MA (2004).
Encontro de motivos
t seqüencias de DNA l nucleotídeos
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
P(s) representa a matriz perfil e M
P(s)
(j) representa a maior contagem
na coluna j de P(s).
Encontro de motivos
M
P(s)
(1)=5
M
P(s)
(2)=5
M
P(s)
(3)=6
M
P(s)
(4)=4
M
P(s)
(5)=5
M
P(s)
(6)=5
M
P(s)
(7)=6
M
P(s)
(8)=6
Score(s, DNA) = M
Σ
P(s)
(j) = 42
j=1 lLaboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br
Encontro de motivos
Score(s, DNA) = M
Σ
P(s)
(j)
j=1 lO score(s, DNA) pode ser usado para medir a força de um perfil.
Um score de l.t corresponde ao melhor possível.
Sítios de ligação NF-
κ
B
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics
algorithms. The MIT Press,Cambridge, MA (2004).
Score(s, DNA) = M
Σ
P(s)
(j) = 159
j=1 l
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Problema de encontro de motivos
Score(s, DNA) = M
Σ
P(s)
(j)
j=1 l
Dado um conjunto de sequências de DNA, encontre o conjunto que
maximiza a função score.
Entrada: Uma matriz t x n de DNA, e l o comprimento do padrão
a se encontrar.
Saída: Um array com t posições iniciai s = (s
1
,...,s
t
)
maximizando o score(s, DNA).
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Algoritmo de encontro de motivos
BRUTEFORCEMOTIFSEARCH(DNA, t, n, l)
1 bestsocore←0
2 para cada (s
1
,...,s
t
) de (1,....,1) até (n-l+1,....,n-l+1)
3 se score(s, DNA) > bestscore
5 bestscore←score(s, DNA)
6 bestmotif←(s
1
,...,s
n
)
6 retorna bestmotif
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br
Distância de Hamming
Considere duas seqüências u e v, a distância de Hamming é definida
como o número de posições que difere nas duas strings d
H
(u,v).
A T T G T C
: x : x : :
A C T C T C
Exemplo:
u =
v =
d
H
(u,v) = 2
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.
www.biocristalografia.df.ibilce.unesp.br
www.biocristalografia.df.ibilce.unesp.br