• Nenhum resultado encontrado

Banco de Dados Biológicos conceitos básicos, indexação, VSTree

N/A
N/A
Protected

Academic year: 2021

Share "Banco de Dados Biológicos conceitos básicos, indexação, VSTree"

Copied!
52
0
0

Texto

(1)

Banco de Dados Biológicos

conceitos básicos, indexação, VSTree

Felipe Alves da Louza Profª Cristina D. A. Ciferri

(2)

Conteúdo

• Conceitos básicos

• Banco de dados biológicos (BDBs)

• Indexação

• VSTree

(3)

Bioinformática

• A bioinformática é uma área da ciência que utiliza métodos da biologia, da matemática e da

computação para solucionar questões relevantes a partir de dados biológicos

(4)

Bioinformática

• Pesquisas nessa área incluem o desenvolvimento de

métodos para armazenamento, recuperação e

análise de dados biológicos

(5)

Dados biológicos

• Dados biológicos são dados ou medidas coletadas a partir de fontes biológicas

• São armazenados em banco de dados biológicos (BDBs) através de arquivos ou de SGBDs

(6)

Dados biológicos

• A quantidade de dados biológicos coletados e

armazenados em BDBs e disponíveis para análise tem aumentado exponencialmente

(7)

Dados biológicos

(8)

Conteúdo

• Conceitos básicos

• Banco de dados biológicos (BDBs)

• Indexação

• VSTree

(9)

Banco de dados biológicos

• BDBs podem ser divididos em três categorias

a partir do

tipo e do conteúdo

dos dados neles

armazenados

– Primário – Secundário

– Especializados

(10)

Banco de dados biológicos

• BDBs Primários:

– armazenam informações biológicas originais

• sequências de nucleotídeos ou de proteínas

(11)

Banco de dados biológicos

• BDBs Primários:

– Utilizam-se basicamente arquivos de tipo texto simples (e.g, tipo fasta) para armazenar essas informações.

– Dentre os principais BDBs primários destacam-se o GenBank, o EMBL e o DDBJ (Xiong, 2006).

(12)

Dados biológicos

(13)

Banco de dados biológicos

• BDBs Secundários:

– armazenam resultados de análises feitas a partir de dados primários

• a partir de sequências de nucleotídeos ou de proteínas

armazenas em BDBs primários

(14)

Banco de dados biológicos

• BDBs Secundários:

– Dados são armazenados utilizando SGBDs

– O SWISS-Prot e o PIR (Protein Information Resources) são exemplos de BDBs secundários que armazenam

informações referentes às proteínas, incluindo:

• anotações de funcionalidades • estruturas tridimensionais e • literatura associada

(15)

Dados biológicos

(16)

Banco de dados biológicos

• BDBs Especializados:

– são aqueles que atendem a um interesse particular de pesquisa.

– Dados são armazenados utilizando SGBDs ou arquivos

– Por exemplo, Flybase, HIV sequence database, e RDP (Ribossomal Database Project) são BDBs especializados

para um particular organismo ou tipo de dado

(17)

Dados biológicos

(18)

Conteúdo

• Conceitos básicos

• Banco de dados biológicos (BDBs)

• Indexação

• VSTree

(19)

Consultas em BDBs

• Através de

consultas por similaridade

em

BDBs pode-se responder perguntas como:

1. Qual parte do DNA é responsável por uma doença hereditária?

2. Quais genes do ser humano são parecidos com os do rato?

3. etc..

(20)

Métodos de Acesso

• Problemas que envolvem buscas em banco de dados, na maioria das vezes, requerem como resposta

apenas um subconjunto dos dados

• Dessa forma, a utilização de métodos de acesso visa

reduzir o custo computacional destas buscas

(21)

Métodos de Acesso

• Um

método de acesso

(MA) é definido por:

– uma estrutura de dados, que pode ser armazenada em memória primária ou em memória secundária – um conjunto de algoritmos, tais como construção,

manipulação e busca, que são adaptados para essa estrutura de dados

(22)

Métodos de Acesso para BDBs

• Métodos de acesso para

Banco de dados

biológicos Primários

(Sequências de Nucleotídeos):

Nucleotídeos - adenina (A), citosina (C), timina (T) e guanina (G).

Aminoácidos

Estruturas 3D de Proteinas

Identificação e anotação de Genes ....

(23)

Métodos de Acesso para BDBs

• Métodos de acesso para

Banco de dados

biológicos Primários

(Sequências de Nucleotídeos):

ACATACACATTAGAGAATACA TACATGATAGAGAATACATAC ACATTAGAGAATACATACACA TTAGAGATGAAATACACATAA GAGAATACATACACATTTAAG GAATACATACACATTATAAGA

(24)

Métodos de Acesso para BDBs

• Métodos de acesso para

Banco de dados

biológicos Primários

(Sequências de Nucleotídeos):

ACATACACATTAGAGAATACA TACATGATAGAGAATACATAC ACATTAGAGAATACATACACA TTAGAGATGAAATACACATAA GAGAATACATACACATTTAAG GAATACATACACATTATAAGA ... TGA

(25)

Métodos de Acesso para BDBs

• Métodos de acesso para

Banco de dados

biológicos Primários

(Sequências de Nucleotídeos):

ACATACACATTAGAGAATACA TACATGATAGAGAATACATAC ACATTAGAGAATACATACACA TTAGAGATGAAATACACATAA GAGAATACATACACATTTAAG GAATACATACACATTATAAGA ... TGA

(26)

Dados biológicos

26

• Arquivo do tipo .fasta

– Um arquivo do tipo fasta possui na sua primeira linha um cabeçalho indicado pelo símbolo “>”.

– Este cabeçalho contém o nome da sequência armazenada e algumas informações extras separadas pelo símbolo “|”.

(27)

Métodos de Acesso

• Existem vários trabalhos na literatura voltados

à métodos de acesso para sequências de

nucleotídeos

• Duas linhas estudadas:

1. Estruturas matriciais (MRS)

2. Árvores de sufixo

(28)

Métodos de Acesso

• A árvore de sufixo é um método de acesso utilizado por muitas aplicações que envolvem pesquisa em dados biológicos

• Sua estrutura permite que problemas que envolvem buscas por similaridade entre dados sejam resolvidos de forma eficiente

(29)

Sufixo e Prefixo

• Seja ∑ = {α1, α2, ..., αn} um alfabeto com n caracteres • Seja ∑* um conjunto com todas as sequências que

podem ser construídas a partir de ∑

(30)

Sufixo e Prefixo

• Seja S Є ∑* uma string com m caracteres, |S| = m

• Seja S[i:j] (1≤ i≤ j≤ m) uma substring entre (inclusive) o i-ésimo e j-ésimo caracteres de S

• Define-se

– a substring S[1:j] como um prefixo de S – a substring S[i:m] como um sufixo de S

(31)

• Prefixos de S:

– S[1:1] = A – S[1:2] = AG – S[1:3] = AGT = S

• Sufixos de S:

– S[3:3] = T – S[2:3] = GT – S[1:3] = AGT = S 31

S = AGT

|S| = 3

Exemplos

(32)

Árvore de Sufixo

• Seja S Є ∑* uma string com m caracteres, ou seja |S| = m

• A árvore de sufixo Ts, é uma árvore com exatamente m

folhas numeradas de 1 a m

(33)

Árvore de Sufixo

• Seja S Є ∑* uma string com m caracteres, ou seja |S| = m

• A árvore de sufixo Ts, é uma árvore com exatamente m

folhas numeradas de 1 a m

33

S = AGAGAT

|S| = 6

(34)

Árvore de Sufixo

• Cada nó interno, exceto a raiz, tem pelo menos 2 filhos

34

(35)

Árvore de Sufixo

• Cada aresta da árvore é rotulada com uma subsequência de

S não vazia

35

S = AGAGAT

S[6:6] = T

(36)

Árvore de Sufixo

• Duas arestas que saiam do mesmo nó não podem ter seus rótulos começando com o mesmo caractere

36

(37)

Árvore de Sufixo

• Para cada folha i, a concatenação dos rótulos que

estão no caminho da raiz até a folha i, forma o sufixo

de S que começa na posição i

37

S = AGAGAT

S[3:6] = AGAT

(38)

Árvore de Sufixo

• Sufixos que possuem prefixos em comum fazem parte de uma mesma subárvore

38

S = AGAGAT

S[2:6] = GAGAT

(39)

Árvore de Sufixo

• Árvores prefixadas:

S = TAGAGA$

P = A

39

(40)

Árvore de Sufixo

• No entanto as propriedades acima não garantem a existência de uma árvore de sufixo para qualquer string S

• O problema é que se um sufixo de S for prefixo de outro sufixo de S,

– então o caminho para esse sufixo pode terminar em um nó não folha

(41)

Árvore de Sufixo

41

S[3:6] = GAGA

S = TAGAGA

S[5:6] = GA

(42)

Árvore de Sufixo

• Este problema não acontece quando o

último

caractere de S

não ocorre em nenhum outro

ponto de S

42

(43)

Árvore de Sufixo

• Para solucionar este problema, adiciona-se a S

um

caractere terminal

, que não pertença ao

conjunto dos caracteres de ∑ , normalmente

$

43

(44)

Árvore de Sufixo

• Dessa forma nenhum

sufixo de S será prefixo

de outro sufixo

de S

44

(45)

Algoritmo de Construção Trivial

• Inicialmente é criado uma aresta para

representar

o sufixo de maior tamanho

• Em seguida são adicionados os outros sufixos da

string

(46)

Algoritmo de Construção Trivial

• A cada iteração, conforme necessário, as

arestas

são particionadas de forma a preservar a

propriedade

de não existir arestas que saiam do

mesmo nó com prefixos comuns

46

(47)

Busca na árvore

• A busca por uma subsequência em uma

árvore de sufixo é feita de forma simples e

direta

– Uma vez que as arestas de um mesmo nó não compartilham prefixos comuns

(48)

Conteúdo

• Conceitos básicos

• Banco de dados biológicos (BDBs)

• Indexação

• VSTree

(49)

Visual SuffixTree

(50)

Visual SuffixTree

• Funcionalidades:

– Construção interativa a partir de uma string

fornecida pelo usuário, a partir do algoritmo de construção trivial

– Busca interativa por uma substring fornecida pelo

usuário

– Entre outras..

(51)

Visual SuffixTree

• A ferramenta foi desenvolvida na

linguagem JAVA

• Utiliza a

biblioteca JGraph

que é baseada na

arquitetura MVC

(52)

FIM

Felipe Alves da Louza Profª Cristina D. A. Ciferri

Referências

Documentos relacionados

seria usada para o parafuso M6, foram utilizadas as equações 14 e 15, referentes aos parafusos de 8 mm de diâmetro e folga entre parafuso e furo de 0,5 mm, que definem,

No entanto, os resultados apresentados pelo --linalol não foram semelhantes, em parte, aos do linalol racêmico, uma vez que este apresenta um efeito vasorelaxante em anéis de

Resumo: O presente trabalho corresponde a um estudo empírico descritivo e exploratório que aborda comportamentos e falas de atores políticos que participaram do processo legislativo

As micotoxinas são compostos químicos tóxicos provenientes do metabolismo secundário de fungos filamentosos e conhecidas pelos danos causados à saúde humana e

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Quando analisamos o peso molecular das bandas de proteínas urinárias verificamos que nas gestantes com manifestação de pré-eclâmpsia, isolada ou superposta à hipertensão

A não uniformização quanto ao método de referência pode promover diferenças entre as curvas de calibração geradas por laboratórios de dosimetria citogenética, que podem

Esse foco teve de ser calibrado, considerando as características e os posicionamentos práticos e ideológicos que condicionam os rumos da educação e também o monopólio