• Nenhum resultado encontrado

Bioinformática 1. Prof. Dr. Walter F. de Azevedo Jr. Laboratório de Sistemas BioMoleculares. Departamento de Física. UNESP São José do Rio Preto. SP.

N/A
N/A
Protected

Academic year: 2021

Share "Bioinformática 1. Prof. Dr. Walter F. de Azevedo Jr. Laboratório de Sistemas BioMoleculares. Departamento de Física. UNESP São José do Rio Preto. SP."

Copied!
32
0
0

Texto

(1)

Bioinformática 1

Bioinformática 1

Prof. Dr. Walter F. de Azevedo Jr.

Prof. Dr. Walter F. de Azevedo Jr.

Laboratório de Sistemas BioMoleculares.

Laboratório de Sistemas BioMoleculares.

Departamento de Física. UNESP

Departamento de Física. UNESP

São José do Rio Preto. SP.

São José do Rio Preto. SP.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

(2)

Resumo

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Mapa de restrição

Problema da digestão parcial (Partial Digest Problem, PDP)

Algoritmos de mapas de restrição

Motivos regulatórios em seqüências de DNA

Perfis

O problema de procura de motivos

Algoritmo de procura de motivos

Distância de Hamming

(3)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Mapa de restrição

Em 1970 Hamilton Smith descobriu que a enzima de restrição

HindII cliva moléculas de DNA em sítios de seqüências GTGCAC

ou GTTAAC, quebrando a longa molécula de DNA em conjuntos

de fragmentos de restrição. As posições dos sítios onde ocorrem

as seqüências são chamados mapas de restrição. As enzimas de

restrição são endonucleases e apresentam especificidades diversas.

(4)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Multiset

Um multiset é um conjunto que permite duplicar os elementos do

conjunto.

Ex:

X={0,2,4,7,10} então o multiset

X = {2, 2, 3, 3, 4, 5, 6, 7, 8, 10}.

Se X={x

1

=0, x

2

, x

3

,....,x

n

} é um conjunto de n pontos sobre um

segmento de reta ordenado, então

X representa o multiset de

todas as distâncias de pares entre os pontos X.

X = {x

j

– x

i

: 1≤i<j≤n }

n

(5)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br

n

k =

n!

(n-k)! k!

Para o exemplo X={0, 2, 4, 7, 10} temos:

5

2 =

5!

(5-2)! 2!

= 10

De uma forma geral, para k=2, que é o caso de distância de pares,

temos:

n

2 =

n!

(n-2)! 2!

=

n(n-1)(n-2)!

(n-2)! 2!

=

n(n-1)

2

(6)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br

Digestão parcial

0 2 4 7 10

2

2

3

3

4

5

6

7

8

10

(7)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Tabela para representar

X

10 3 7 6 3 4 8 5 2 2 10 7 2 2 0 10 7 4 2 0 i/j

X={0,2,4,7,10} então o multiset

X = {2, 2, 3, 3, 4, 5, 6, 7, 8, 10}

ou

X={2

2

, 3

2

, 4, 5, 6, 7, 8, 10} .

(8)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Problema da Digestão Parcial (PDP)

Temos que determinar as posições de clivagem a partir da

informação sobre os fragmentos, ou seja, temos que determinar

o X, a partir do

X.

Ex: Dado o

X = {2, 2, 3, 3, 4, 5, 6, 7, 8, 10} determine o X.

Problema.

Entrada: O multiset de distâncias de pares L, contendo inteiros.

Saída: Um conjunto X, de n inteiros, tal que

X = L.

n

2

(9)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Problema da rodovia

Saídas da rodovia = sítios de restrição no DNA

(10)

Conjuntos homométricos

15 13 12 7 5 4 3 1 0 15 13 12 7 5 4 3 1 0 i/j

X = {0, 1, 3, 4, 5, 7, 12, 13, 15}

(11)

Conjuntos homométricos

15 2 13 3 1 12 8 6 5 7 10 8 7 2 5 11 9 8 3 1 4 12 10 9 4 2 1 3 14 12 11 6 4 3 2 1 15 13 12 7 5 4 3 1 0 15 13 12 7 5 4 3 1 0 i/j

X = {0, 1, 3, 4, 5, 7, 12, 13, 15}

X={1

4

, 2

4

, 3

4

, 4

3

, 5

2

, 6

2

, 7

2

, 8

3

, 9

2

, 10

2

, 11

2

, 12

3

, 13, 14, 15}

(12)

Conjuntos homométricos

15 13 12 11 9 8 3 1 0 15 13 12 11 9 8 3 1 0 i/j

Y = {0, 1, 3, 8, 9, 11, 12, 13, 15}

(13)

Conjuntos homométricos

Y = {0, 1, 3, 8, 9, 11, 12, 13, 15}

Y={1

4

, 2

4

, 3

4

, 4

3

, 5

2

, 6

2

, 7

2

, 8

3

, 9

2

, 10

2

, 11

2

, 12

3

, 13, 14, 15}

15 2 13 3 1 12 4 2 1 11 6 4 3 2 9 7 5 4 3 1 8 12 10 9 8 6 5 3 14 12 11 10 8 7 2 1 15 13 12 11 9 8 3 1 0 15 13 12 11 9 8 3 1 0 i/j

(14)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Os conjuntos X e Y são homométricos. Em geral dois conjuntos

A e B são homométricos se

A =

B.

Sejam U e V dois conjuntos de números. Pode-se verificar que,

os multisets:

U

V = {u + v : u

U, v

V}

e

U - V = {u-v : u

U, v

V}

são homométricos.

Conjuntos homométricos

(15)

Algoritmo para resolver o PDP

PARTIALDIGEST(L)

1 width←máximo de L

2 DELETE(width,L)

3 X←{0, width}

4 PLACE(L,X)

PLACE(L,X)

1 se L está vazio

3

saída X

4

retorna

4 y←máximo de L

5 se

(y,X)

L

7

Adicione y a X e remova as distâncias

(y,X) de L

8

PLACE(L,X)

9

Remova y de X e some as distâncias

(y,X) para L

9 se

(width-y,X)

L

11

adicione width-y a X e remova as distâncias

(width-y,X) de L

12

PLACE(L,X)

13

remova width-y de X e adicione distâncias

(width-y,X) para L

14

Retorna

Obs:

(y,X) representa o multiset

de distâncias entre um ponto y e

todos os pontos no conjunto X.

Ex:

(2,{1,3,4,5})={1,1,2,3}

(16)

Exemplo para X= {0, 3, 5, 7}

7 2 5 4 2 3 7 5 3 0 7 5 3 0 i/j

X=L={2, 2, 3, 4, 5, 7}

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

(17)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br PARTIALDIGEST(L) PLACE(L, X) {0, 7} 7 {2, 2, 3, 4, 5} 4 {0, 7} 7 {2, 2, 3, 4, 5} 3 7 {2, 2, 3, 4, 5} 2 7 {2, 2, 3, 4, 5, 7} 1 Ação X width L Linha executada PLACE(L, X) PLACE(L, X) {2, 5} 5 {0, 5, 7} {2, 3, 4} 7 {2, 5} 5 {0, 5, 7} {2, 3, 4} 6 ∆(y, X)⊆L? SIM {2, 5} 5 {0, 7} {2, 2, 3, 4, 5} 5 5 {0, 7} {2, 2, 3, 4, 5} 4 L={ }? NÃO {0, 7} {2, 2, 3, 4, 5} 1 Ação ∆(y, X) y X L Linha executada ∆(5, {0, 7}) = {2, 5}

(18)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br PLACE(L, X) PLACE(L, X) {2, 3, 4} 4 {0, 3, 5, 7} { } 11 {2, 3, 4} 4 {0, 3, 5, 7} { } 10 ∆(width-y, X)⊆L?SIM {2, 3, 4} 4 {0, 5, 7} {2, 3, 4} 9 ∆(y, X)⊆L? NÃO {1, 3, 4} 4 {0, 5, 7} {2, 3, 4} 5 4 {0, 5, 7} {2, 3, 4} 4 L={ }? NÃO {0, 5, 7} {2, 3, 4} 1 Ação ∆(y, X) y X L Linha executada PLACE(L, X) RETORNA X {0, 3, 5, 7} { } 2 L={ }? SIM {0, 3, 5, 7} { } 1 Ação ∆(y, X) y X L Linha executada ∆(4, {0, 5, 7}) = {1, 3, 4}

X= {0, 3, 5, 7}

(19)

Motivos regulatórios em

seqüências de DNA

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Encontrar motivos em seqüências de DNA sem conhecimento

prévio do motivo é um problema comum em análise de genomas.

(20)

Perfis

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics

algorithms. The MIT Press,Cambridge, MA (2004).

(21)

Perfis

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics

algorithms. The MIT Press,Cambridge, MA (2004).

É possível identificar o padrão P a partir da análise das

seqüências?

(22)

Perfis

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics

algorithms. The MIT Press,Cambridge, MA (2004).

(23)

Perfis

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics

algorithms. The MIT Press,Cambridge, MA (2004).

d) A mesma seqüência de DNA mostrada em b) agora com o padrão P (ATGCAACT) mutado em duas posições aleatórias.

t sequências n nucleotídeos

(24)

Perfis

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics

algorithms. The MIT Press,Cambridge, MA (2004).

t sequências

O array s = (s

1

,...,s

t

), onde t é número de seqüências de DNA,

armazena as posições iniciais de cada motivo na seqüência.

8 19 3 5 31 27 15

O array s varia da seguinte forma: 1≤s

i

≤n-l+1.

(25)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics

algorithms. The MIT Press,Cambridge, MA (2004).

Encontro de motivos

t seqüencias de DNA l nucleotídeos

(26)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

P(s) representa a matriz perfil e M

P(s)

(j) representa a maior contagem

na coluna j de P(s).

Encontro de motivos

M

P(s)

(1)=5

M

P(s)

(2)=5

M

P(s)

(3)=6

M

P(s)

(4)=4

M

P(s)

(5)=5

M

P(s)

(6)=5

M

P(s)

(7)=6

M

P(s)

(8)=6

Score(s, DNA) = M

Σ

P(s)

(j) = 42

j=1 l

(27)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br www.biocristalografia.df.ibilce.unesp.br

Encontro de motivos

Score(s, DNA) = M

Σ

P(s)

(j)

j=1 l

O score(s, DNA) pode ser usado para medir a força de um perfil.

Um score de l.t corresponde ao melhor possível.

(28)

Sítios de ligação NF-

κ

B

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Fonte: JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics

algorithms. The MIT Press,Cambridge, MA (2004).

Score(s, DNA) = M

Σ

P(s)

(j) = 159

j=1 l

(29)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Problema de encontro de motivos

Score(s, DNA) = M

Σ

P(s)

(j)

j=1 l

Dado um conjunto de sequências de DNA, encontre o conjunto que

maximiza a função score.

Entrada: Uma matriz t x n de DNA, e l o comprimento do padrão

a se encontrar.

Saída: Um array com t posições iniciai s = (s

1

,...,s

t

)

maximizando o score(s, DNA).

(30)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Algoritmo de encontro de motivos

BRUTEFORCEMOTIFSEARCH(DNA, t, n, l)

1 bestsocore←0

2 para cada (s

1

,...,s

t

) de (1,....,1) até (n-l+1,....,n-l+1)

3 se score(s, DNA) > bestscore

5 bestscore←score(s, DNA)

6 bestmotif←(s

1

,...,s

n

)

6 retorna bestmotif

(31)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

Distância de Hamming

Considere duas seqüências u e v, a distância de Hamming é definida

como o número de posições que difere nas duas strings d

H

(u,v).

A T T G T C

: x : x : :

A C T C T C

Exemplo:

u =

v =

d

H

(u,v) = 2

(32)

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

Laboratório de Sistemas BioMoleculares. Departamento de Física. Câmpus Rio Preto.

www.biocristalografia.df.ibilce.unesp.br

www.biocristalografia.df.ibilce.unesp.br

http://www.biocristalografia.df.ibilce.unesp.br/cursos/index.php

http://en.wikipedia.org/wiki/

JONES, N. C. & PEVZNER, P. A. Introduction to Bioinformatics

algorithms. The MIT Press,Cambridge, MA (2004).

Referências

Documentos relacionados

A composição e edição do boletim de informação da FPAm, «FPAm NEWS», é da responsabilidade da Federação Portuguesa de Aeromodelismo, sendo o boletim de publicação mensal,

Programa Brasil Arte Contemporânea, da Fundação Bienal de São Paulo e do Ministério da Cultura do Brasil.. Programa Brasil Arte Contemporânea, da Fundação Bienal de São Paulo e do

já tinha apresentado na reunião anterior, como as vantagens de se utilizar câmaras de arbitragem para a solução de contenciosos envolvendo cargas, armadores, embarcadores, agentes

[r]

· Outras informações Não existe mais nenhuma informação relevante disponível. 10 Estabilidade

a) será necessário esperar mais de 400 anos para que o objeto deixe de oferecer risco. b) já se passou 50 anos do início do processo radioativo. c) após exatamente 400 anos,

Para responder a essa questão, este estudo se propôs analisar as alterações posturais, a percepção de desconforto corporal (dor), o tempo de prática e as lesões

Anais / 1 Escola Regional de Alto Desempenho; editores Tiarajú Asmuz Diverio, - Porto Alegre: SBC/ Instituto de Informática da UFRGS/ Faculdade de Informática da