Versão 0.3 Capítulo 5. Bancos de dados. Estrutura e modelos de dados

(1)

Versão 0.3 Capítulo 5 Bancos de dados

Estrutura e modelos de dados

Banco de dados, em uma definição geral, é uma coleção dados inter-relacionados que representa algum aspecto do mundo real ou um subconjunto dele. A parte do mundo real dos bancos de dados muitas vezes é referida como "universo de discurso", termo que tem origem na teoria dos modelos, ou como "database miniworld", termo em inglês que poderia ser traduzido como "o pequeno mundo da base de dados". Em uma definição mais restritiva, um banco de dados é uma coleção persistente, logicamente coerente de dados inerentemente significativos, relevante para alguns aspectos do mundo real. Deste modo, os bancos de dados foram criados para operar em grandes quantidades de informação, propiciando um ambiente conveniente e eficiente para introdução, armazenamento, recuperação e gerenciamento das informações.

Um sistema de gerenciamento de banco de dados (database management system, DBMS) é um conjunto de softwares, ou programas computacionais que provém uma interface entre o(s) usuário(s) e o(s) banco(s) de dados. Esse gerenciamento envolve tanto a definição das estruturas de armazenamento da informação quanto o fornecimento de mecanismos para construí-los e manipulá-los. Além disso, um DBMS é responsável por manter a integridade e segurança dos dados armazenados e também para recuperação de informação se o sistema falhar. Um DBMS deve ser concebido em um sistema de multi-camadas, segundo relatório da ANSI/SPARC, como mostrado na figura 1.

Figura 1. As camadas de um banco de dados, desde o armazenamento físico (bits em um sistema de armazenamento ) até a interface que deve fazer sentido para o usuário final.

(2)

Um sistema de banco de dados consiste na combinação dos DBMS e dos bancos de dados. Os elementos de um sistema de bancos de dados consistem em:

• Modelo de dados • Esquemas e instâncias • Arquitetura três esquemas • Dicionário de dados • Linguagens DBMS Modelo de dados

Conjunto de conceitos que são usados para descrever a estrutura do banco de dados. E este modelo determinará a estrutura lógica do banco de dados que, na prática, significa a maneira pela qual os dados serão armazenados, organizados e manipulados. Os tipos de modelos de dados são:

Modelo conceitual de dados – Alto nível de conceitos, uma representação da realidade (ou parte dela), próximo de como o usuário percebe os dados, por exemplo, modelo de Entidade-Relacionamento, modelo orientado a objeto. Modelo de dados de implementação– Conceitos que podem ser compreendidos pelo usuário final, mas que não estão muito longe da organização de dados. Eles escondem alguns detalhes de armazenamento de dados, mas podem ser implementados em um sistema de computador de forma direta. Por exemplo, modelo hierárquico, modelo de rede, modelo relacional.

Modelo físico de dados – Conceitos de baixo nível que descreve detalhes físicos de armazenamento dos dados.

Esquemas e instâncias

Em quaisquer modelos de dados é importante distinguir a diferença entre a descrição dos dados e os próprios dados. Esquema do banco de dados é a descrição do banco de que é específica da etapa de projeto do banco de dados e não deverá mudar com muita frequência. Instância do banco de dados é o conjunto de dados guardados em determinado momento, sendo que qualquer introdução, modificação ou exclusão de informações altera o estado do banco de dados.

Para exemplificar, usaremos um banco de dados de um herbário para um esquema de banco de dados. Note que o esquema do banco de dados deve ter uma estrutura fixa e não deve estar sujeito a muitas mudanças.

(3)

Figura 2. Modelo de um banco de dados para um herbário fictício. Arquitetura três esquemas

A proposta dessa abordagem é utilizar três níveis de abstrações diferentes no desenvolvimento do sistema. Nesta proposta, cada nível representa um modelo diferente das mesmas informações e processos, mas utiliza

(4)

um sistema de expressões que envolve um conjunto único de objetos e composições que se aplicam em apenas um determinado domínio. Cada nível relativamente abstrato superior baseia-se em um nível relativamente concreto inferior. Neste tipo de arquitetura, as mudanças em um nível devem ter um impacto mínimo nos outros níveis.

Visão externa/ visão do usuário – Cada esquema externo descreve parte do banco de dados no qual um grupo particular de usuários é interessado e esconde o restante do banco de dados do grupo de usuários. Modelos de modelo de dados de alto nível ou uma implementação de modelos de dados pode ser utilizada neste nível.

Esquema conceitual – Nele os detalhes físicos de armazenamento são ocultos, concentrando-se nas descrições das entradas, o tipo de dados, relações e restrições. Aqui também pode ser utilizado um alto nível de modelagem de dados ou uma implementação de modelos de dados.

Esquema Interno – Especifica como os dados serão armazenados e organizados fisicamente. Aqui as estruturas complexas e os caminhos de acesso ao banco de dados são descritas em detalhes.

A independência dos dados é um ponto importante na utilização de bancos de dados, pois permite que o usuário faça modificações em um esquema de dados sem afetar a definição de um esquema em um nível mais alto. Existem dois tipos de independência de dados, são eles:

Independência física de dados o qual é possível modificar o esquema físico sem a necessidade de modificar programas. Tais modificações são utilizadas para otimizar o desempenho. DBMS provem a interface entre os modelos de dados conceituais e físicos;

Independência lógica dos dados o qual modifica-se o sem a necessidade refazer algum programa. Esta independência possibilita modificações na estrutura lógica, como por exemplo, a adição de um novo atributo. DBMS provem a interface entre o esquema conceitual e a visão externa.

Dicionário de dados

É o repositório central com informações sobre os dados, tais como: significado, relações com outros dados, origem uso e formato., ou seja, ele é uma estrutura de dados que armazena os metadados, dados estruturados sobre os dados contento as informações sobre visão externa, esquema conceitual e físico.

Linguagens DBMS

Linguagens de banco de dados são linguagens de propósito específico, que fazem um ou mais dos seguintes procedimentos:

Linguagem de definição de dados (data definition language, DDL) – linguagem utilizada pelo administrador do banco de dados para definir os esquemas do banco de dados. E o resultado da compilação dos comandos desta linguagem é o conjunto das tabelas que serão armazenadas no dicionário de dados.

Linguagem de manipulação de dados (data manipulation language, DML) – linguagem utilizada para recuperar, inserir, deletar e modificar os dados. As declarações DML podem ser introduzidas a partir de um terminal ou incorporadas em uma linguagem de programação de propósito geral.

Banco de dados biológicos

Os bancos de dados tiveram um impacto significativo para o avanço no entendimento da biologia. Atualmente, os bancos de dados em biologia são bibliotecas com conteúdo diversificado de informações obtidos por diferentes técnicas experimentais, análises computacionais e publicados em literaturas científicas. As informações contidas em bancos de dados biológicos vem de diferentes áreas de pesquisas, tais como: genômica, proteômicas, metabolômica, transcriptomica, filogenética, entre outras. Banco de dados é uma grande ferramenta a qual auxilia o cientista a analisar e explicar uma série de fenômenos biológicos desde análise de estrutura e interação de biomoléculas, passando pelo metabolismo de um organismo e para a compreensão da evolução das espécies. E este conhecimento tem

(5)

impacto biotecnológico possibilitando que sejam desenvolvidos no campo da saúde ou do agronegócio desenvolver ou modificar produtos ou processos que utilizem organismos vivos ou derivados dele.

Outro ponto importante quanto ao uso dos bancos de dados biológicos é que os bancos de dados possibilitam que os dados biológicos sejam lidos por computadores. Como a análise de dados biológicos quase sempre envolve computadores, com os dados em suporte informático em vez de impressos em papel, torna possível executar tarefas em larga escala integrando informações de uma forma que seria humanamente impossível.

Bancos de dados bioinformáticos: Um breve histórico

Em 1962, utilizando-se de dados recém obtidos de sequências de resíduos de aminoácidos de citocromos de diferentes espécies de organismos, Zuckerkandl e Pauling propuseram uma nova estratégia para o estudo das relações evolutivas entre os organismos chamaram de relógio evolutivo molecular. Esta teoria se baseia no fato da similaridade existente entre as sequências de proteínas funcionalmente relacionados e que esta similaridade é inversamente proporcional ao tempo transcorrido entre seus ACMR.

A história dos bancos de dados biológicos inicia no começo da década de 1960 quando o grupo liderado por Margareth Dayhoff do recurso de informação sobre proteína (protein information resource, PIR) coletaram e alinharam, se baseando no princípio de evolução molecular, todas as sequências de proteínas existentes até aquele momento e as publicaram em um livro que se chamou de Atlas de sequências e estruturas proteicas (Atlas of Protein Sequence and Structure). E quando uma grande quantidade de sequências nucleotídicas tornaram-se disponíveis os autores também as incluíram no livro. Diferentemente de outros livros publicados anteriormente, o Atlas de sequências e estruturas proteicas continha anotações por similaridade de sequências que até então não havia sido relacionadas. Dayhoff havia criado, no formato impresso, o primeiro banco de dados de proteínas anotadas, o qual se tornou uma ferramenta crucial não só para o desenvolvimento no campo de evolução molecular, mas de forma mais ampla para as ciências da vida. Anos depois por motivos óbvios o PIR passou a disponibilizar em formato digital o atlas o qual era distribuído em fitas magnéticas. Além do atlas na fita também havia alguns programas para realizar buscas e avaliar a distâncias evolutivas entre as sequências.

Em 1981 foi criado a biblioteca de dados do EMBL (European Molecular Biology Laboratory) baseada em Heidelberg, Alemanha, que foi o primeiro repositório central de dados de sequências de nucleotídeos do mundo. No ano seguinte o EMBL se juntou ao GenBank criando uma nova fase na história dos bancos de dados de sequências. Os institutos EMBL e NCBI (National Center for Biotechnology Information) inciaram uma atividade inicial que consistia em transcrever e interpretar o que havia sido publicado em revistas científicas impressas para um formato eletrônico. Poucos anos depois, o DNA Databank of Japan (DDBJ) se juntou a esta colaboração de coleção de dados que passou a se referida como Colaboração Internacional de Banco de Dados de Sequências Nucleotídicas após um encontro realizado entre os três grupos. Neste encontro eles também determinaram um acordo para usar um formato comum para o elemento de dados dentro de uma unidade de registro que eram submetidas para eles. Além disso, os três centros armazenam as submissões diretas e compartilham todas as sequências entre eles. Contudo o gerenciamento das sequências fica a cargo do centro que subiu aquela sequência para o banco de dados. Ao longo das 24 horas as sequências automaticamente são compartilhadas entre os bancos de dados.

Nesta mesma época, o início dos anos de 1980, houve a criação do banco de dados de sequência proteica Swiss-Prot quando transformaram o Atlas em um formato semelhante ao utilizado pelo EMBL. A primeira versão Swiss-Prot chamava-se PIR+ e informações sobre cada proteínas eram integradas ao banco melhorando a descrição sobre as proteínas. Em 1986, o banco PIR+ passou a ser distribuído em um precursor da internet atual (US BIONET) e renomeado para Swiss-Prot. Naquele momento já continha informações sobre 3900 proteínas que era visto com um expressivo montante de dados um contraste com os padrões atuais. Com o tempo a colaboração entre o Swiss-Prot e EMBL se tornou mais forte e as operações de ambos os grupos foram transferidas para EBI (European Bioinformatics Institute) em Hinxton, Reino Unido. E uma dos primeiros projetos colaborativos foi criar um suplemento aos dados do Swiss-Prot. E a este suplemento criado se deu o nome de TrEMBL e basicamente consistia de anotações computacionais (tradução) de todas as sequências codificantes (CDS, do inglês coding sequences) presentes em DDBJ/EMBL/GenBank e que não estavam contidas no Swiss-Prot. O TrEMBL permitia a liberação rápida dos dados de sequências não anotados com o padrão do Swiss-Prot.

(6)

Bancos de dados primários

Os bancos de dados primários contêm, em sua maior parte, apenas dados obtidos de resultados experimentais. Ocasionalmente os bancos de dados primário também pode conter algumas interpretações, mas não curadoria em seus dados. Atualmente, a submissão de sequências a um banco de dados é precondição para publicação na maioria das revistas científicas para garantir que os dados possam ser disponibilizados. Entretanto essas sequências não representam um consenso na população, nem

Bancos de dados secundários e biocuradoria

As sequências em banco de dados primários frequentemente contêm mínimas informações. Para tornar as informações acerca das sequências em um conhecimento biologicamente mais sofisticado é necessário que as informações obtidas dos bancos de dados primários sejam processadas, ou seja, é necessários que os dados primários sejam anotados. As anotações atribuem as sequências um significado biológico e estas anotações pode ser feitas tanto por humanos quanto por computadores. Entretanto considera-se um banco de dados secundários aquele banco que contenha informações processadas por um curador, um profissional com uma boa experiência no assunto.

Biocuradoria consiste na revisão de literatura ou conjuntos de dados publicados, levando à identificação e abstração dos principais resultados. Estes resultados são incorporados em uma base de dados de uma maneira organizada, muitas vezes utilizando vocabulários controlados, e está associada com os genes apropriados ou as regiões cromossômicas. Como o volume de dados biológicos continua a aumentar, biocuradoria está se tornando cada vez mais importante aspecto da pesquisa biomédica. Há poucos anos, biocuradores formaram uma sociedade profissional, a Sociedade Internacional para Biocuradoria, que se reúnem regularmente para trocar idéias e métodos para melhorar a precisão e a eficiência de todos os tipos de curadoria de dados biológicos.

Banco de dados privados

A maioria dos bancos de dados biológicos são públicos que significa que eles estão livres acessível para todos em todos os lugares do mundo. Mas nos últimos anos tornou-se cada vez mais comum as empresas privadas se interessarem em sequenciar genomas de organismos comercialmente ou cientificamente interessantes. Devido à necessidade das empresas em produzir lucros que normalmente não disponibilizam gratuitamente para o público o que significa que se você quiser ter acesso às informações contidas nos bancos de dados terá que arcar com os custos. A academia normalmente não é capaz de pagar o dinheiro necessário para o acesso a esses bancos de dados e que são utilizados principalmente pelas indústrias farmacêuticas e de biotecnologia. Isto significa que algumas informações sequências está disponível para todos, enquanto um monte de informações sequência está disponível apenas para as grandes indústrias.

Integração dos bancos de dados

Apesar dos esforços de curadores em todo mundo, ainda persiste entre os bancos de dados um grande problema: a integração dos dados biológicos existentes entre os diversos bancos de dados. Integrar os dados biológicos implica estabelecer uma via eficiente e automática de para integrar grandes conjuntos de dados biológicos, heterogêneos vindos de múltiplas fontes. Nos últimos anos, várias abordagens têm sido propostas para que haja integração de dados que de maneira geral podem ser classificadas em cinco grupos, descritos a seguir.

1.- Armazenamento de dados (data warehousing) – esta abordagem focaliza a tradução dos dados, buscando todos dados disponíveis nas diferentes bases de dados, transformando e importando para dentro do “data warehousing”;

2.- Bancos de dados federado – nesta abordagem são executadas todas as consultas sobre as fontes distribuídas por traduzir uma consulta no banco de dados federado em uma consulta contra muitas fontes. O banco de dados federado busca os dados de diferentes fontes de dados e exibe os dados buscados para sua base de usuários.;

3.- Integração orientada a serviço– a abordagem orientada a serviço permite a integração de dados de múltiplas fontes de dados heterogêneos através da interoperabilidade de computador. ou seja, a integração de dados é conduzida através de programação via web service e fontes de dados servem como prestadores de serviços;

(7)

4.- Integração semântica - a maioria das páginas da web em fontes de dados biológicos são projetados para leitura humana. A Web Semântica oferece uma forma legível por máquina para a representação de dados e interoperabilidade. A integração semântica usa ontologias para a descrição de dados e, portanto, representa integração baseada em ontologia;

5.- Integrações baseadas em wiki - com o crescente volume de dados biológicos, a integração de dados, inevitavelmente, vai exigir um grande número de participações dos usuários. Um exemplo de sucesso que utiliza a inteligência coletiva para a agregação de dados e de conhecimento é a Wikipedia, uma enciclopédia on-line (http://www.wikipedia.org) que permite a qualquer usuário criar e editar conteúdo. Embora existam temores de inconsistência e imprecisão, pois os usuários podem livremente e anonimamente mudar qualquer conteúdo e/ou adicionar novos conteúdos no wiki, já foi testado que é o wiki supera a enciclopédia tradicional em precisão. No entanto, a integração baseada em wiki tem suas próprias deficiências, incluindo os dados não-estruturados gerados, a falta de um formato padrão para a troca de dados, a falta de crédito para a autoria e vulnerabilidade a edição maliciosa.

Uma visão geral dos bancos de dados biológicos

Neste tópico será dada descrição geral de alguns bancos de dados. Bancos de sequências nucleotídicas

Existem três grandes bases de dados de nucleotídecas: EMBL (European Molecular Biology Laboratory), GenBank (Centro Nacional de Informações sobre Biotecnologia) e DDJB (DNA Databank do Japão). EMBL, GenBank e DDBJ colaboraram e sincronizam seus bancos de dados para que todos os bancos de dados contenham as mesmas informações. Como uma sequência é submetido apenas a um deles, há um atraso muito curto de tempo, para que estes bancos de dados se comuniquem um com o outro, diariamente. Como resultado, os dados das três bases são idênticos, embora o formato no qual eles são armazenados e a natureza de anotação, variem um pouco entre si. A maioria dos dados são gerados a partir do genoma sequenciado organismos, tais como o Homo sapiens, Caenorhabditis elegans, Mus musculus e Arabidopsis thaliana. Muitas dessas espécies também têm bases de dados especiais que combinam a sequência do genoma e sua anotação com outros dados relacionados. A taxa de crescimento das bases de dados de sequências nucleotídicas tem uma tendência exponencial, com um tempo de duplicação estimada em 9 a 12 meses.

Bancos de sequências proteicas

Bancos de dados de sequências proteicas coletam informações adicionais sobre as proteínas, como ligantes, associação da subunidade, pontes de dissulfeto, a atividade catalítica, família, etc. A maioria das informações são coletadas a partir da literatura. Estas bases de dados surgem pela tradução de sequências de ácidos nucleicos. Existem várias bases de dados de sequências de proteínas. Dois dos mais importantes são PIR Internacional e SwissProt.

Bancos de estruturas tridimensionais

Banco de dados de estruturas, armazenam, anotam e distribuem os conjuntos de coordenadas atômicas para visualizar estruturas tridimensionais. Existem várias bases de dados de estrutura. Bancos de dados estruturais contêm informações específicas sobre análise estereoquímica, tais como: comprimentos de ligação e ângulos, estruturas cristalinas de raios-X e os dados espectroscópicos de ressonância magnética nuclear. A melhor base de dados estabelecida para estruturas macromoleculares biológicas é o PDB (protein data bank).

• Bancos de motivos e domínios • Bancos de famílias

• Bancos de expressão

Banco de dados de expressão são utilizados para mensurar a abundância de RNAm de um grande número de genes simultaneamente ou para genotipar múltiplas regiões de um genoma. As informações podem ser geradas por técnicas, tais como microarranjos e RNAseq. A quantidade de deste tipo de dados nós últimos anos têm crescido muto e esse montante de dados tem gerado valiosos dados para genômica funcional.

(8)

Banco de literatura científica

As bases de dados bibliográficas contêm artigos científicos ou resumos dos mesmos. Procuras neste tipo de banco costumam retornar como resultado: o nome do autor, o título, a publicação e a data que são as informações para citação de um artigo. Alguns também oferecem resumos do artigo. Existem vários bancos de dados de alta qualidade, mas o mais utilizado é o PubMed.

PubMed é um projeto desenvolvido pelo Centro Nacional de Informações sobre Biotecnologia na Biblioteca Nacional de Medicina, localizada no Instituto Nacional de Saúde nos Estados Unidos da América. Ele fornece acesso a mais de 24 milhões de citações no MEDLINE, revistas científicas sobre a vida e livros onlines. PubMed é um banco de dados muito útil, sua cobertura é mundial, sendo a maioria dos artigos ou seus resumos publicados são em inglês.