• Nenhum resultado encontrado

Curso de Verão Bioinformática

N/A
N/A
Protected

Academic year: 2021

Share "Curso de Verão Bioinformática"

Copied!
60
0
0

Texto

(1)

Curso de Verão 2012 -

Bioinformática

Bancos de Dados Biológicos

(2)

Agenda

• Introdução:

– O que são bancos de dados? – Por que são importantes?

• Bancos de dados biológicos:

– Como tratar dados biológicos?

– Padrões de armazenamento e processamento de dados.

– Problemas comuns em bancos de dados biológicos.

(3)

Introdução

• Dados, informação e conhecimento

Os dados são elementos brutos, sem significado, desvinculados da realidade.

"observações sobre o estado do mundo". Davenport, 1998. “descrição elementar”. Turban, 2007.

As informações são dados com significado - resultado do encontro de uma situação de decisão com um conjunto de dados

(4)

Introdução

• Dados, informação e conhecimento

O conhecimento pode então ser considerado como a informação processada pelos indivíduos – entendimento, experiência, aprendizagem acumulada e prática.

(5)

Introdução

• O que são bancos de dados?

– Qualquer conjunto organizado de dados.

– O termo “organização de dados” é relacionado ao planejamento de seu armazenamento, à sua

(6)

Exemplos de bancos de dados

• São exemplos de bancos de dados:

– Lista de supermercado;

– Lista de alunos matriculados em uma disciplina; – Lista de preços de uma loja;

– Lista de sequencias de um organismo; – Lista de remédios;

(7)

Introdução

• Por que é importante organizar dados?

– Como vimos antes, a organização está ligada essencialmente a três elementos:

(8)

Introdução

• Armazenamento de dados:

– Garantir que seus dados estão protegidos e guardados em local seguro;

• Confiabilidade:

– Garantir que seus dados estão corretos e coerentes;

• Utilização:

(9)

Introdução

• Problemas:

– Também relacionados às três características de organização de dados:

• Armazenamento: os dados não estão em local seguro; • Confiabilidade: os dados podem estar errados;

• Utilização: os dados não são fáceis de manipular e usar. Pergunta que não quer calar:

(10)

Introdução

(11)

Planilhas eletrônicas

• Planilhas eletrônicas são sistemas de software

amplamente difundidos para visualização e

manipulação de dados.

• São sistemas poderosos, permitindo a criação

de gráficos, automatização de cálculos e

programação.

(12)

Planilhas eletrônicas

• Muito usadas para organizar dados de forma

geral;

• Podem importar e exportar diversos formatos,

permitindo integração com outros sistemas de

(13)

Planilhas eletrônicas

• Problemas:

– Não há verificação de tipos de dados;

– A programação em planilhas não é difícil e pouco portável;

– Os mecanismos de segurança são limitados; – Não há como registrar o histórico de

modificações;

– Embora possível, a integração dos dados da

(14)

Planilhas eletrônicas

• Problemas:

– Não há formas fáceis de eliminar redundância; – É difícil manter a consistência dos dados;

(15)

Planilhas eletrônicas

• A questão chave é não confundir dois perfis

de tratamento de dados:

– Visualização e manipulação (ótima em planilhas); – Armazenamento, segurança e compartilhamento

(16)

Arquivos estruturados

• Além de planilhas, arquivos estruturados

representam uma forma muito usada para

armazenamento de dados;

• Veja exemplos de arquivos estruturados:

– Arquivos FASTA;

– Arquivos GenBank; – Arquivos CSV;

(17)

Arquivos estruturados

• Arquivos FASTA

– 1ª linha com comentário

– Sequência (nucleotídeos ou aminoácidos)

> seq1 This is the description of my first sequence. AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA

CGACGTAGATGCTAGCTGACTCGATGC

(18)
(19)

Arquivos estruturados

• Arquivos CSV (Comma Separated Values)

– Padrão usado para armazenar tabelas em arquivos texto;

(20)

Arquivos estruturados

• Problemas:

– Nem sempre é fácil automatizar o seu uso;

– Não é fácil pesquisar informações, normalmente demandando bastante esforço manual;

(21)

Bancos de Dados Relacionais

• Bancos relacionais representam a maior parte

das implementações em uso no mercado;

• Há muitas ferramentas muito bem sucedidas;

• Sistemas poderosos já foram construídos e

encontram-se em produção;

(22)

Bancos de dados relacionais

• Considere o seguinte exemplo:

– Banco de dados acadêmico

Aluno N. USP Sexo Dt_nasc Disciplina Nota Faltas

(23)

Bancos de dados relacionais

• Problemas:

– Redundância;

– Dados sem regras de controle de qualidade.

Aluno N. USP Sexo Dt_nasc Disciplina Nota Faltas

(24)

Bancos de dados relacionais

• Passos para eliminar os problemas:

– Separar as tabelas em unidades lógicas;

Aluno N. USP Sexo Dt_nasc

Alan José 101222 M 01/01/1990 Alan José 101222 M 01/01/1990 Ana Maria 304211 F 03/02/1991 Ana Maria 304211 F 03/02/1991 Ana Maria 304211 F 03/02/1991 Antonio Jr. 331215 M 11/04/1989 Antonio Jr. 331215 M 11/04/1989

Disciplina Nota Faltas

(25)

Bancos de dados relacionais

• Passos para eliminar os problemas:

– Separar as tabelas em unidades lógicas; – Elimina as redundâncias.

Aluno N. USP Sexo Dt_nasc

Alan José 101222 M 01/01/1990 Ana Maria 304211 F 03/02/1991 Antonio Jr. 331215 M 11/04/1989

Disciplina Nota Faltas

(26)

Bancos de dados relacionais

• Passos para eliminar os problemas:

– Cria o relacionamento entre as tabelas.

Aluno N. USP Sexo Dt_nasc Alan José 101222 M 01/01/1990 Ana Maria 304211 F 03/02/1991 Antonio Jr. 331215 M 11/04/1989

(27)

Bancos de dados relacionais

• O que há de novo?

Aluno N. USP Sexo Dt_nasc Alan José 101222 M 01/01/1990 Ana Maria 304211 F 03/02/1991 Antonio Jr. 331215 M 11/04/1989

N. USP Disciplina Nota Faltas 101222 Fitopatologia 9,0 5 101222 Estatística 7,5 4 304211 Fitopatologia 9,5 0 304211 Estatística 8,5 0 304211 Biologia Celular 8,0 1 331215 Fitopatologia 6,7 4 331215 Biologia Celular 5,9 7

Não há mais redundância

Posso exigir que o CPF seja único, prevenindo cadastramentos

(28)
(29)

Bancos de dados relacionais

• A maioria esmagadora das instituições utiliza

bancos de dados relacionais, em todos os

(30)

Bancos de dados relacionais

• Alguns gerenciadores de bancos de dados

(31)

Bancos de dados relacionais

• O que os bancos de dados relacionais

oferecem?

– Segurança sobre os dados; – Consistência;

– Velocidade;

(32)

Bancos de dados relacionais

• Segurança:

– Controle de acesso em nível de usuário (ou grupos de usuários);

– Os dados não são visíveis em arquivos texto, mas organizados em estruturas especiais que também melhoram o desempenho de consultas;

(33)

Bancos de dados relacionais

• Consistência:

– Todos os campos de tabelas tem associação forte com tipos de dados específicos;

– Pode-se configurar domínios dos dados;

(34)

Bancos de dados relacionais

• Velocidade:

– Os dados são armazenados em arquivos binários otimizados, construídos para acelerar ao máximo as consultas;

(35)

Bancos de dados relacionais

• Portabilidade:

– Todo gerenciador de banco de dados relacional adota a linguagem padrão SQL (Structured Query Language); – É relativamente fácil migrar bancos de dados inteiros

de uma plataforma para a outra;

– Sistemas construídos em SQL não precisam ser

(36)

Bancos de dados relacionais

• Baseado em relações:

– Entidades;

(37)

Modelo relacional

• Entidades

– Elementos com significado próprio dentro do modelo de dados;

– Necessário identificar as características principais (atributos);

(38)
(39)

Bancos de dados relacionais

• Entidades como tabelas:

Nome N. USP CPF Sexo Dt_nasc

cadeia inteiro cadeia caracter data ALUNO

Nome

(40)

Bancos de dados relacionais

• Tipos de dados:

– char[(n)] – Sequência de caracteres com tamanho fixo. n indica a quantidade de caracteres.

– int – Inteiro – Valores possíveis de -231

(-2,147,483,648) até 231 (2,147,483,647).

– smallint – Inteiro de -215 (-32,768) até 215 - 1

(32,767).

– datetime – Armazena data e horário.

(41)

Bancos de dados relacionais

• Relacionamentos

– Estabelecem o vínculo entre duas (ou mais) entidades;

(42)
(43)

Bancos de dados relacionais

Nome N. USP CPF Sexo Dt_nasc

ALUNO

Nome

DISCIPLINA

Nome N. USP Nota Faltas

(44)

Bancos de dados relacionais

Nome N. USP Sexo Dt_nasc Alan José 101222 M 01/01/1990 Ana Maria 304211 F 03/02/1991 Antonio Jr. 331215 M 11/04/1989

(45)

Bancos de dados relacionais

Nome

Fitopatologia Estatística

Biologia Celular N. USP Disciplina Nota Faltas

(46)

Bancos de dados relacionais

• A modelagem é essencial para grandes

(47)
(48)

Bancos de dados relacionais

• SQL:

– Linguagem de definição e manipulação de dados em sistemas gerenciadores de bancos de dados; – Linguagem declarativa;

– Idealizada para ser de fácil compreensão,

(49)

Bancos de dados relacionais

• Exemplo de consulta:

– Selecionar todos os nomes e CPFs dos alunos matriculados na disciplina ‘Biologia Celular’

• Em SQL:

– select ALUNO.NOME, ALUNO.CPF

from ALUNO, MATRICULA, DISCIPLINA where ALUNO.NUSP = MATRICULA.NUSP

(50)

Bancos de dados biológicos

• Algumas considerações:

– Bancos de dados biológicos são bancos de dados com conteúdo de caráter biológico.

– O termo “banco de dados biológico” é

(51)

Bancos de dados biológicos

• Os bancos de dados disponíveis na internet

(52)

Bancos de dados biológicos

• GenBank

– Banco de dados de sequências do NIH (National Institute of

Health), operando desde

1982;

– Aproximadamente

126.551.501.141 bases em 135.440.924

(53)

Bancos de dados biológicos

• Escala de

crescimento

do Genbank:

(54)

Bancos de dados biológicos

• EMBL (European Molecular Biology

Laboratory)

– Primeiro banco de dados de bases de nucleotídeos da Europa (1997);

(55)
(56)

Projetos

• Alguns projetos em andamento:

– Bancos de dados especializados;

– Algoritmos de geração de relatórios e cruzamento de dados;

– Modelagem de redes complexas; – Análise estatística de dados;

(57)

Sugestões de leitura

• Livros introdutórios de bancos de dados:

– ELMASRI, R.; NAVATHE, S. B. [Trad.]. Sistemas de bancos de dados. Traduzido do original:

FUNDAMENTALS OF DATABASE SYSTEMS. São Paulo: Pearson(Addison Wesley), 2005. 724 p. ISBN:

85-88639-17-3.

– Korth, H.; Silberschatz, A. Sistemas de Bancos de Dados. 3a. Edição, Makron Books, 1998.

(58)

Considerações finais

• Tenha cuidado especial com seus dados (você

precisará deles um dia... ou todos os dias!)

• O software muda, mas os dados ficam.

• Desafios:

– Modelagem;

– Armazenamento; – Análise;

(59)

Considerações finais

• Nem sempre é preciso usar gerenciadores de

dados. Eles oferecem poder e escalabilidade,

mas demandam esforço para modelar e

trabalhar os dados;

(60)

Curso de Verão 2012 -

Bioinformática

Bancos de Dados Biológicos

Márcio K. Oikawa

Referências

Documentos relacionados

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

A não uniformização quanto ao método de referência pode promover diferenças entre as curvas de calibração geradas por laboratórios de dosimetria citogenética, que podem

seria usada para o parafuso M6, foram utilizadas as equações 14 e 15, referentes aos parafusos de 8 mm de diâmetro e folga entre parafuso e furo de 0,5 mm, que definem,

No entanto, os resultados apresentados pelo --linalol não foram semelhantes, em parte, aos do linalol racêmico, uma vez que este apresenta um efeito vasorelaxante em anéis de

Resumo: O presente trabalho corresponde a um estudo empírico descritivo e exploratório que aborda comportamentos e falas de atores políticos que participaram do processo legislativo

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para