• Nenhum resultado encontrado

Desenvolvimento de uma base de dados para fatores de transcrição de seres humanos e suas redes de interação: Human Transcriptional Regulation Interaction Database (HTRIDB 2.0)

N/A
N/A
Protected

Academic year: 2017

Share "Desenvolvimento de uma base de dados para fatores de transcrição de seres humanos e suas redes de interação: Human Transcriptional Regulation Interaction Database (HTRIDB 2.0)"

Copied!
73
0
0

Texto

(1)

Programa de Pós-graduação em Biologia Geral e Aplicada

Distrito de Rubião Júnior s/n CEP 18618-000 Cx Postal 510 Botucatu-SP Brasil Tel (14) 3811-6148 Fax (14) 3811-6148 posgraduacao@ibb.unesp.br

DESENVOLVIMENTO DE UMA BASE DE DADOS PARA

FATORES DE TRANSCRIÇÃO DE SERES HUMANOS E SUAS

REDES DE INTERAÇÃO:

HUMAN TRANSCRIPTIONAL

REGULATION INTERACTION DATABASE

(

HTRIDB

2.0)

LUIZ AUGUSTO BOVOLENTA

Dissertação apresentada ao Instituto de Biociên-cias, Câmpus de Botucatu, UNESP, para obtenção do título de Mestre no Programa de Pós-Graduação em Biologia Geral e Aplicada, Área de concentração Biologia Celular Estrutural e Funcional.

Orientador: Prof. Dr. Ney Lemke Coorientador: Dr. Marcio Luis Acencio

(2)

Programa de Pós-graduação em Biologia Geral e Aplicada

Distrito de Rubião Júnior s/n CEP 18618-000 Cx Postal 510 Botucatu-SP Brasil Tel (14) 3811-6148 Fax (14) 3811-6148 posgraduacao@ibb.unesp.br

UNIVERSIDADE ESTADUAL PAULISTA

“Júlio de Mesquita Filho”

INSTITUTO DE BIOCIÊNCIAS DE BOTUCATU

DESENVOLVIMENTO DE UMA BASE DE DADOS PARA

FATORES DE TRANSCRIÇÃO DE SERES HUMANOS E SUAS

REDES DE INTERAÇÃO:

HUMAN TRANSCRIPTIONAL

REGULATION INTERACTION DATABASE

(

HTRIDB

2.0)

LUIZ AUGUSTO BOVOLENTA

PROF. DR. NEY LEMKE

DR. MARCIO LUIS ACENCIO

Dissertação apresentada ao Instituto de Biociências, Campus de Botucatu, UNESP, para obtenção do título de Mestre no Programa de Pós-Graduação em Biologia Geral e Aplicada, Área de concentração Biologia Celular Estrutural e Funcional.

(3)

Bovolenta, Luiz Augusto.

Desenvolvimento de uma base de dados para fatores de transcrição de seres humanos e suas redes de interação :Human Transcriptional Regulation

Interaction Database(HTRIdb2.0) / Luiz Augusto Bovolenta. – Botucatu :

[s.n.], 2012

Dissertação (mestrado) – Universidade Estadual Paulista, Instituto de Biociências de Botucatu

Orientador: Ney Lemke

Coorientador: Marcio Luis Acencio Capes: 10303030

1. Banco de dados. 2. Genética – Expressão. 3. Software – Desenvolvimento.

(4)

Dedico este trabalho ao professor Dr. Ney Lemke por ter oferecido todo o suporte ne-cess´ario para a realizac¸˜ao deste trabalho, e por estar sempre presente nas principais tomadas de decis˜ao.

(5)

Agradec¸o,

Aos meus pais, a minha irm˜a e a minha av´o pelo apoio e incentivo `a alcanc¸ar mais um objetivo da minha vida.

A minha namorada, Cristiane Sanfelice, pelo companheirismo e por estar sempre presente. Ao Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnol´ogico (CNPq) pela con-cess˜ao da bolsa de estudos.

A todos os meus amigos, por auxiliarem em momentos de dificuldades e pelos momentos de alegria juntos.

E aos funcion´arios da UNESP por oferecerem sempre um ambiente de trabalho adequado e organizado.

(6)

Fatores de transcric¸˜ao s˜ao prote´ınas que interagem com sequˆencias nucleot´ıdicas espec´ıficas situadas nas regi˜oes promotoras de genes e, atrav´es dessa interac¸˜ao, regulam a transcric¸˜ao dos genes. Devido a essa func¸˜ao reguladora, a identificac¸˜ao e a caracterizac¸˜ao da rede de interac¸˜oes entre fatores de transcric¸˜ao e seus genes alvos s˜ao importantes por que essa rede representa o arcabouc¸o molecular atrav´es do qual os est´ımulos ambientais s˜ao convertidos em express˜ao di-ferencial dos genes. Como essa express˜ao didi-ferencial, por sua vez, determina o comportamento da c´elula em resposta a um certo est´ımulo, a rede de interac¸˜oes de regulac¸˜ao transcricional pode, portanto, fornecer uma compreens˜ao sistˆemica de como os comportamentos celulares emergem a partir dos est´ımulos ambientais. A primeira etapa para a construc¸˜ao de uma rede de regulac¸˜ao transcricional consiste na coleta de dados relacionados `as interac¸˜oes entre os fatores de transcric¸˜ao e seus genes alvos. Por´em, como esses dados s˜ao encontrados de forma dispersa na literatura ou em bancos de dados pagos, essa etapa demanda muito tempo. Com o objetivo de centralizar esses dados de forma a facilitar sua coleta e, consequentemente, a construc¸˜ao da rede de interac¸˜oes de regulac¸˜ao transcricional, desenvolvemos um banco de dados relacional chamado Human Transcriptional Regulation Interaction Database (HTRIdb). Desenvolvido em PostgreSQL e Java, oHTRIdbcont´em uma colec¸˜ao de milhares de interac¸˜oes de regulac¸˜ao transcricional experimentalmente verificadas em seres humanos que podem ser acessadas e ob-tidas gratuitamente por toda a comunidade cient´ıfica. Al´em do acesso gratuito e livre permiss˜ao para a obtenc¸˜ao dos dados, oHTRIdboferece uma ferramenta de visualizac¸˜ao das interac¸˜oes em forma de rede e meios de comunicac¸˜ao entre a comunidade cient´ıfica e os desenvolvedores do banco atrav´es dos quais a comunidade cient´ıfica pode participar ativamente tanto da correc¸˜ao de inconsistˆencias nos dados quanto da alimentac¸˜ao do banco com novas interac¸˜oes. OHTRIdb

pode ser acessado pelo enderec¸ohttp://www.lbbc.ibb.unesp.br/htri.

(7)

Transcription factors are proteins that interact with specific nucleotide sequences located in promoter regions of genes and, through this interaction, regulate gene transcription. Due of this regulatory function, the identification and characterization of the network of interactions between transcription factors and their target genes are important since this network represents the molecular framework that explains how environmental stimuli are converted into differential expression of genes. This network provides a systemic understanding of how cellular behaviors emerge from the environmental stimuli. The first step for the transcriptional regulatory network construction is the collection of data about interactions between transcription factors and their target genes. This step is very time-consuming as these data are found dispersed on the literature or in commercial databases. In an effort to provide researchers with a repository of transcriptio-nal regulatory interactions from which such interactions can be directly and easily extracted, we developed a relational database called the Human Interaction Database Transcriptional Regula-tion (HTRIdb). HTRIdb was implemented using PostgreSQL and Java and contains a collecRegula-tion of thousands of experimentally verified human transcriptional regulation interactions. HTRIdb can be freely accessed by the scientific community and offers a visualization tool for the regula-tory network and provides a communication interface between users and developers to enhance data quality and to stimulate users to include new interactions. The HTRIdb can be accessed at http://www.lbbc.ibb.unesp.br/htri.

(8)

2.1 Representac¸˜ao do modelo de dados hier´arquico. . . p. 16 2.2 Representac¸˜ao do modelo de dados em rede. . . p. 17 2.3 Representac¸˜ao do modelo de dados relacional. . . p. 18 2.4 Exemplo de diagrama UML utilizado para representar o modelo de banco de

dados orientado a objetos. . . p. 19 2.5 Esquema geral de modelagem utilizando o MER. . . p. 21 2.6 Representac¸˜ao do Diagrama Entidade Relacionamento . . . p. 22 2.7 Demonstrac¸˜ao da cardinalidade 1:1 pela teoria dos conjuntos . . . p. 22 2.8 Demonstrac¸˜ao da cardinalidade 1:Npela teoria dos conjuntos . . . p. 23 2.9 Demonstrac¸˜ao da cardinalidade N:N pela teoria dos conjuntos . . . p. 23 2.10 Exemplo de modelo f´ısico . . . p. 24 2.11 P´agina de apresentac¸˜ao do site wwPDB . . . p. 27 2.12 P´agina de apresentac¸˜ao doEntrez. . . p. 28 2.13 Quantidade anual de artigos sobre regulac¸˜ao gˆenica indexados no banco de

dados PubMed . . . p. 34 2.14 Crescimento da quantidade de artigos sobre regulac¸˜ao gˆenica indexados no

(9)

5.2 Estrutura antiga do banco de dados doHTRIdb. . . p. 48 5.3 Estrutura nova do banco de dados doHTRIdb. . . p. 49 5.4 P´agina antiga dos resultados por informac¸˜oes de FTs atrav´es de padr˜oes. . . . p. 50 5.5 Area de´ downloadspara todos os dados de interac¸˜oes de regulac¸˜ao

transcri-cional e f´ısicas entre as prote´ınas. . . p. 51 5.6 Representac¸˜ao gr´afica das interac¸˜oes (N´ıvel 1) . . . p. 52 5.7 Representac¸˜ao gr´afica das interac¸˜oes (N´ıvel 2) . . . p. 53 5.8 Representac¸˜ao gr´afica das interac¸˜oes (N´ıvel 3) . . . p. 54 5.9 P´agina estat´ıstica doHTRIdb . . . p. 55 5.10 P´agina de inserc¸˜ao de novas interac¸˜oes de regulac¸˜ao transcricional mostrando

o mecanismo “anti-spambot” . . . p. 56 5.11 P´agina inicial do tutotial de utilizac¸˜ao doHTRIdb. . . p. 57 5.12 Canal de comunicac¸˜ao entre o usu´ario e a equipe de administrac¸˜ao doHTRIdb. p. 58 5.13 P´agina de busca doHTRIdb. . . p. 59 5.14 P´agina de busca por fator de transcric¸˜ao. . . p. 60 5.15 P´agina intermedi´aria de busca por fator de transcric¸˜ao. . . p. 61 5.16 P´agina de resultados das informac¸˜oes do fator de transcric¸˜ao TP53. . . p. 62 5.17 P´agina de busca por genes alvos noTRED. . . p. 63 5.18 P´agina de resultados das informac¸˜oes sobre as interac¸˜oes do fator de transcric¸˜ao

TP53noTRED. . . p. 64 5.19 P´agina de resultados das informac¸˜oes da interac¸˜ao entre um determinado

gene alvo com oTP53noTRED. . . p. 64 5.20 P´agina de resultados do FTTP53noOREGANNO. . . p. 65 5.21 P´agina de resultados parciais para extrac¸˜ao de dados do FT TP53no

(10)

1 Introduc¸˜ao p. 10

2 Fundamentos e Conceitos p. 12

2.1 Banco de Dados . . . p. 12 2.1.1 Conceito de banco de dados . . . p. 12 2.1.2 Breve hist´orico dos sistemas de bancos de dados . . . p. 13 2.1.3 A estrutura de um banco de dados . . . p. 16 2.1.4 Sistemas Gerenciadores de Banco de Dados (SGBD) . . . p. 20 2.1.5 Modelagem de uma estrutura de banco de dados relacional . . . p. 20 2.1.6 A linguagem SQL . . . p. 24 2.1.7 Banco de dados biol´ogicos . . . p. 25 2.2 Regulac¸˜ao transcricional e a sua importˆancia . . . p. 31 2.2.1 O processo de transcric¸˜ao gˆenica . . . p. 31 2.2.2 A importˆancia das interac¸˜oes de regulac¸˜ao transcricional . . . p. 32 2.2.3 Crescimento dos dados na ´area de regulac¸˜ao gˆenica . . . p. 33 2.3 Principais bancos de dados de interac¸˜oes de regulac¸˜ao transcricional . . . p. 35 2.3.1 TRANSFAC . . . p. 35 2.3.2 TRED . . . p. 36 2.3.3 OREGANNO . . . p. 36

3 Objetivos p. 37

(11)

4.2 Interface gr´afica . . . p. 40 4.2.1 Recurso de visualizac¸˜ao gr´afica . . . p. 41 4.2.2 Recurso de extrac¸˜ao dos dados . . . p. 42 4.2.3 Estat´ıstica doHTRIdb . . . p. 43 4.2.4 Recurso de inserc¸˜ao de novos dados e de comunicac¸˜ao com a equipe

doHTRIdb . . . p. 43 4.3 Coleta e revis˜ao dos dados . . . p. 44

5 Resultados e Discuss˜ao p. 46

5.1 Funcionalidades do HTRIdb 2.0 . . . p. 47 5.2 Estudo de caso: busca por interac¸˜oes do TP53 . . . p. 58 5.3 Comparac¸˜ao com os outros bancos de dados . . . p. 62

6 Conclus˜ao p. 67

(12)

1

Introduc¸˜ao

Fatores de transcric¸˜ao (FTs) s˜ao prote´ınas reguladoras que se ligam a sequˆencias nucleot´ıdi-cas espec´ıfinucleot´ıdi-cas localizadas nas regi˜oes promotoras de genes e, atrav´es dessa ligac¸˜ao, regulam positivamente ou negativamente a transcric¸˜ao dos genes. A regulac¸˜ao gˆenica, atrav´es da ligac¸˜ao dos FTs, ´e o mecanismo prim´ario pelo qual processos biol´ogicos complexos, como proliferac¸˜ao e diferenciac¸˜ao celulares, s˜ao controlados. Devido a essa func¸˜ao reguladora, a construc¸˜ao da rede de interac¸˜oes de regulac¸˜ao transcricional, o que demanda a identificac¸˜ao e a caracterizac¸˜ao das interac¸˜oes de regulac¸˜ao transcricional, ´e importante para a compreens˜ao desses proces-sos e para o desenvolvimento de terapias dirigidas a patologias originadas pelo funcionamento anormal dos FTs, como dist´urbios de desenvolvimento e formac¸˜ao de neoplasias (DAVIDSON, 2006).

H´a uma profus˜ao de dados sobre interac¸˜oes de regulac¸˜ao transcricional humana. Por´em, esses dados encontram-se dispersos na literatura biom´edica ou com disponibilidade limitada em bancos de dados, o que torna a construc¸˜ao de uma rede de interac¸˜oes de regulac¸˜ao transcricional uma tarefa ´ardua e mac¸ante. Logo, a centralizac¸˜ao dessas informac¸˜oes em bancos de dados ´e uma soluc¸˜ao apropriada para a r´apida obtenc¸˜ao de informac¸˜oes sobre um determinado fator de transcric¸˜ao e seus respectivos genes alvos (GAs) e a consequente construc¸˜ao dessa rede de regulac¸˜ao (KORTH; SILBERSCHATZ, 1999). H´a, no momento, alguns bancos de dados de interac¸˜oes de regulac¸˜ao transcricional dispon´ıveis que possuem informac¸˜oes sobre FTs e quais os genes que esses fatores regulam como, por exemplo, o TRANSFAC (MATYS et al., 2006), o TRED (JIANG et al., 2007) e o OREGANNO (MONTGOMERY et al., 2006). Esses bancos de dados, por´em, s˜ao limitados.

(13)

in-consistentes, consideradas como interac¸˜oes de regulac¸˜ao transcricional, mas classificadas por especialistas como interac¸˜oes f´ısicas entre prote´ınas.

Com objetivo de centralizar essas informac¸˜oes e suprir as restric¸˜oes impostas, o aluno de-senvolveu, no per´ıodo da Iniciac¸˜ao Cient´ıfica, um banco de dados relacional para armazenar da-dos sobre as interac¸˜oes de regulac¸˜ao transcricional entre os FTs e e seus GAs batizado deHuman Transcriptional Regulation Interaction Database(HTRIdb;http://www.ibb.lbbc.unesp.br /htri) e o aperfeic¸oou no per´ıodo de mestrado, oferecendo `a comunidade cient´ıfica um banco de dados que disponibiliza gratuitamente acesso `as informac¸˜oes sobre interac¸˜oes de regulac¸˜ao transcricional, para facilitar a procura e obtenc¸˜ao destas informac¸˜oes.

(14)

2

Fundamentos e Conceitos

Todos os conceitos e fundamentos relacionados ao tema do trabalho s˜ao descritos nesta sec¸˜ao que, se dividi em 3 partes: bancos de dados, interac¸˜oes de regulac¸˜ao transcricional e os principais bancos de dados de interac¸˜oes de regulac¸˜ao transcricional existentes.

2.1

Banco de Dados

A abordagem do tema banco de dados ´e detalhado nessa sec¸˜ao, onde est˜ao descritos os principais conceitos de banco de dados, um breve hist´orico dos bancos de dados, as principais estruturas, a descric¸˜ao dos bacos de dados biol´ogicos e os principais bancos de dados biol´ogicos existentes.

2.1.1

Conceito de banco de dados

Banco de dados ´e um reposit´orio de colec¸˜ao de arquivos de dados computadorizados, que possui uma estrutura espec´ıfica para armazenar e definir os dados. O termo banco de dados muitas vezes ´e utilizado de forma errˆonea confundido com o sistema de banco de dados, quando na verdade ele ´e um dos elementos presentes em um sistema de banco de dados (DATE, 2003). Sistema de banco de dados pode ser conceituado como um sistema de armazenamento de dados baseados em recursos computacionais, cujo objetivo ´e registrar e manter presentes em um banco de dados informac¸˜oes consideradas significativas para um ´unico usu´ario, uma instituic¸˜ao ou uma empresa (DATE, 2000).

Esse sistema ´e respons´avel por refletir o estado de certos aspectos de interesse do mundo real, ou seja, uma vis˜ao instantˆanea do estado do mundo real. Mudanc¸as que ocorrem em itens presentes no banco de dados refletem-se de mudanc¸as ocorridas no mundo real (MACHADO; ABREU, 1996).

(15)

distinc¸˜ao importante ´e saber diferenciar o significado da informac¸˜ao e do dado. A informac¸˜ao ´e um conjunto de dados, que ao estarem organizados d˜ao significado a algo ou alguma coisa, o que torna os dados elementos primordiais para a formac¸˜ao da informac¸˜ao.

2.1.2

Breve hist´orico dos sistemas de bancos de dados

Com o avanc¸o da evoluc¸˜ao tecnol´ogica, a forma de como armazenamos nossas informac¸˜oes mudou. Antigamente os dados eram armazenados em pap´eis e organizados em arquivos, mas com o crescente n´umero e velocidade de gerac¸˜ao de dados, devido a recursos computacionais, essa forma de armazenamento se tornou ineficiente. Um dos recursos desenvolvidos para sanar esse tipo de problema ´e conhecido atualmente como banco de dados.

Os primeiros fundamentos de banco de dados surgiram na d´ecada de 60, com pesquisas na ´area de automac¸˜ao de escrit´orios. Nessa ´epoca as empresas comec¸aram a notar que os processos de armazenagem, indexac¸˜ao e gerenciamento de arquivos eram muito custosos, por em empre-gar um grande n´umero de pessoas. A necessidade de agilizar o processo e reduzir os custos impulsionaram as empresas a aplicar seus esforc¸os na pesquisa de uma soluc¸˜ao automatizada mais barata e eficiente (BARCELAR, 2011).

A forma de armazenagem nesse per´ıodo era feita diretamente em arquivos que possu´ıam muitos problemas na armazenagem como a redundˆancia e inconsistˆencias, dificuldade ao acesso aos dados, falta da integridade l´ogica, falta de automatizac¸˜ao nas transac¸˜oes e inseguranc¸a. Nesse cen´ario foi lanc¸ado oInformation Management System (IMS)pela IBM, um dos primeiros sistemas de banco de dados que utilizava a estrutura hier´arquica para armazenar e definir os dados (BARCELAR, 2011).

Logo ap´os o lanc¸amento doIMSe junto com a padronizac¸˜ao da linguagem de programac¸˜ao COBOL, um grupo de trabalho intituladoF deData Base Task Groupdesenvolveu oCODASYL database, um sistema de banco de dados com uma nova forma de gerenciamento de dados, que focava em seguir ponteiros que ligavam em uma rede de registros de dados, ou seja, o modelo de estrutura em rede (LIU; ¨OZSU, 2009).

OData Base Task Group, al´em de desenvolver o modelo de dados em rede, tamb´em definiu duas linguagens (comandos pr´e-definidos) para a definic¸˜ao da estrutura Data Definition Lan-guage (DDL) e para a extrac¸˜ao dos dadosData Manipulation Language (DML)do modelo de dados em rede (LIU; ¨OZSU, 2009).

(16)

Logo no seu surgimento, o modelo de dados relacional apresentou ser mais flex´ıvel que os modelos naveg´aveis j´a descobertos (hier´arquico e rede) (LIU; ¨OZSU, 2009).

O pesquisador Codd visava um sistema onde qualquer usu´ario seria capaz de acessar os dados armazenados em tabelas atrav´es de comandos (BARCELAR, 2011). Apesar do grande potencial que o modelo apresentava, ele foi considerado invi´avel no in´ıcio pelas barreiras com-putacionais da ´epoca, mas com a melhoria e a otimizac¸˜ao dos recursos com o passar dos anos, o modelo relacional acabou se tornando vi´avel (LIU; ¨OZSU, 2009).

A IBM, confiando no potencial do modelo relacional, montou um grupo de pesquisadores que deu origem ao primeiro sistema de banco de dados relacional conhecido com o mesmo nome do grupo, System R(BARCELAR, 2011). Junto aoSystem Rfoi desenvolvido uma lin-guagem de consulta estruturada conhecida originalmente comoStructured English Query Lan-guage (SEQUEL)e alterada posteriormente paraStructured Query Language (SQL), linguagem utilizada como interface entre usu´ario e o sistema de banco de dados. A linguagem SQL se tornou um padr˜ao na ind´ustria de banco de dados relacional e atualmente ´e um padr˜ao ISO e ANSI (BARCELAR, 2011).

Al´em da grande contribuic¸˜ao do pesquisador Codd, outro pesquisador que se destacou no projeto do modelo relacional foi o pesquisador Dr. Peter Chen, que ofereceu uma impor-tante contribuic¸˜ao ao desenvolvimento do modelo. Em 1976, o pesquisador publicou uma nova percepc¸˜ao do modelo de dados em seu artigoThe Entity-Relationship Model–Toward a Unified View of Data, o modelo entidade relacionamento. Este modelo ´e utilizado at´e os dias atuais por projetistas de banco de dados, pois oferece atrav´es de seus conceitos uma forma clara e f´acil de representar elementos do mundo real (CHEN, 1976).

Apesar da IBM ter inventado e desenvolvido o conceito e a linguagem SQL, a empresa publicou seus resultados na literatura. Esses resultados foram utilizados por outra empresa denominada de Relational Software Inc para produzir o primeiro produto comercial baseado em SQL em 1979. Esse produto ficou conhecido como Oracle, nome que foi adotado pela empresa posteriormente. A IBM foi lanc¸ar seu produto baseado em SQL somente em 1981, o SQL/ Data System e alterado para DB2 em 1983, produto que ´e comercializado at´e os dias atuais (LIU; ¨OZSU, 2009).

(17)

Nessa d´ecada, tamb´em surgiram os primeiros sistemas de banco de dados orientado a ob-jetos, que se utilizavam de conceitos e fundamentos da orientac¸˜ao a objetos em sua estrutura e forma de tratar os dados armazenados. Esse modelo surgiu pelas necessidades de novos re-quisitos de ambientes de projeto, mecanismos de transac¸˜oes e por causa da utilizac¸˜ao de dados complexos ou dados de tipo multim´ıdia em aplicac¸˜oes espec´ıficas como Sistemas de Informac¸˜ao de Escrit´orio e as aplicac¸˜oesComputer-Aided Design (CADs)(BANCILHON; DELOBEL; KA-NELLAKIS, 1992). Os pioneiros foram o Exodus (1986), Orion (1986) e O2 (1988) (BARCE-LAR, 2011).

Posteriormente esse modelo de sistema de banco de dados foi mesclado com o modelo relacional, o que deu origem a outro conceito de sistema de banco de dados, os sistemas de banco de dados objeto-relacionais, Postgres (1986) e o Starburst (1984-1992) (BARCELAR, 2011).

A d´ecada de 90 foi marcada pela popularizac¸˜ao da Internet e o surgimento de novas aplicac¸˜oes e metodologias. Nessa ´epoca os bancos de dados distribu´ıdos se destacaram, pois o modelo cliente-servidor passou a ser uma regra para futuras decis˜oes de neg´ocios, outra caracter´ıstica marcante era a interoperabilidade1(RIBEIRO, 2008).

Os Sistemas de Informac¸˜oes Geogr´aficos2comec¸aram a utilizar banco de dados distribu´ıdos pela necessidade de compartilhamento com outras instituic¸˜oes, para permitir dessa forma a integrac¸˜ao de informac¸˜oes espaciais por Sistemas de Informac¸˜oes Geogr´aficos distintos

(C ˆAMARA, 1995).

Aplicac¸˜oes utilizandoData Mining, minerac¸˜ao de dados em banco de dados para a gerac¸˜ao de conhecimento, eData Warehouse(“Armaz´ens de dados”), utilizados para armazenar grandes quantidades de dados extra´ıdos de fontes externas, se tornaram metodologias cada vez mais utilizadas (BARCELAR, 2011).

Finalmente, no s´eculo 21, grandes projetos de bancos de dados poder˜ao marcar essa ´epoca, como o projeto nas ´areas de biomedicina, geologia, seguranc¸a nacional e dados de explorac¸˜ao espacial (RIBEIRO, 2008). Poder˜ao surgir projetos semelhantes ao banco de dados presente no Conselho Europeu para Pesquisa Nuclear (CERN), que consiste em um banco de dados distribu´ıdo com capacidade de armazenamento emhexabytesde dados (BARCELAR, 2011). E tamb´em a utilizac¸˜ao com grande frequˆencia das metodologiasData MiningeData Warehouse

para gerac¸˜ao de informac¸˜oes importantes para as empresas e instituic¸˜oes (RIBEIRO, 2008).

1Capacidade de um sistema (informatizado ou n˜ao) de se comunicar de forma transparente (ou o mais pr´oximo

disso) com outro sistema (semelhante ou n˜ao).

2Sistema dehardware,software, informac¸˜ao espacial e procedimentos computacionais que permitem e

(18)

2.1.3

A estrutura de um banco de dados

A estrutura do banco de dados ´e definida conforme v´arios modelos desenvolvidos com o decorrer das d´ecadas desde o surgimento do conceito. S˜ao eles: modelo hier´arquico, modelo em rede, modelo relacional e o modelo orientado a objetos.

2.1.3.1 Modelo hier´arquico

O modelo hier´arquico foi um dos primeiros modelos de dados a ser desenvolvido, de-vido `a consolidac¸˜ao dos discos de armazenamento enderec¸´aveis. Esses discos viabilizaram a representac¸˜ao hier´arquica das informac¸˜oes atrav´es de sua estrutura de enderec¸amento f´ısico (TAKAI; ITALIANO; FERREIRA, 2005).

O modelo hier´arquico representa a estrutura do banco de dados em forma de ´arvore e cada ramificac¸˜ao do modelo representa registros de dados. O registro superior ´e conhecido como registro-pai e os registros pertencentes a ramificac¸˜ao ´e conhecido como registros filhos, que podem ser acessados segundo uma sequˆencia hier´arquica com uma navegac¸˜ao do topo para as folhas e da esquerda para a direita, observado na Figura 2.1 (TAKAI; ITALIANO; FERREIRA, 2005).

Figura 2.1: Representac¸˜ao do modelo de dados hier´arquico que demonstra a relac¸˜ao de clientes e suas respectivas contas banc´arias.

Fonte: http://www.devmedia.com.br/imagens/sqlmagazine/abr2006/20-04pic2.JPG

Esse modelo consegue representar de forma clara relacionamentos de cardinalidade 3 1:N e 1:1, mas quando a cardinalidade ´e N:N ´e feita a replicac¸˜ao dos registros. Esse recurso possui duas grandes desvantagens: a inconsistˆencia de dados quando h´a atualizac¸˜ao dos dados e o desperd´ıcio de espac¸o (TAKAI; ITALIANO; FERREIRA, 2005).

3Regras de associac¸˜ao que descrevem como elementos interagem entre si. Elas s˜ao descritas em 1:1 (um para

(19)

2.1.3.2 Modelo em rede

Este modelo de dados representa a estrutura do banco de dados em forma de rede, seme-lhante a um grafo (LIU; ¨OZSU, 2009). Ele surgiu como uma extens˜ao do modelo hier´arquico, mas eliminou o conceito de hierarquia, o que permitiu que um mesmo registro estivesse en-volvido em diferentes associac¸˜oes, ou seja, cardinalidade N:N. Um dos primeiros sistemas de banco de dados a implementar esse modelo foi oCODASYL Databasedesenvolvido peloData Base Task Group (TAKAI; ITALIANO; FERREIRA, 2005). O modelo em rede (Figura 2.2) possibilita acesso a qualquer n´o da rede sem necessidade de passar pela raiz, ao contr´ario do Modelo Hier´arquico (TAKAI; ITALIANO; FERREIRA, 2005).

Figura 2.2:Representac¸˜ao do modelo de dados em rede.

Fonte: http://www.alexberre.com/wp-content/uploads/2010/11/110510 0140 modelagemde21.jpg

2.1.3.3 Modelo relacional

O modelo relacional surgiu a partir de um estudo te´orico realizado pelo pesquisador Edgar Frank “Ted” Codd, que usou como base a teoria dos conjuntos e a ´algebra relacional para criar um modelo de dados (TAKAI; ITALIANO; FERREIRA, 2005).

O modelo relacional surgiu perante a necessidade de aumentar a independˆencia dos dados nos sistemas gerenciadores de banco de dados e prover um conjunto de func¸˜oes para armazena-mento e recuperac¸˜oes de dados (TAKAI; ITALIANO; FERREIRA, 2005).

(20)

colec¸˜ao de valores, que correspondem a um fato de uma entidade ou de um relacionamento do mundo real. Essas linhas s˜ao conhecidas como tuplas4ou registros. As colunas que formam o cabec¸alho das tabelas representam as carater´ısticas de cada registro, e s˜ao conhecidas como atributos, e os tipos de dados (num´erico ou literal) que essas tuplas suportam ´e denominado de dom´ınio (ELMASRI; NAVATHE, 2011).

Al´em do modelo relacional implementar a estrutura do banco de dados de uma forma or-ganizada em relac¸˜oes, foram criadas algumas restric¸˜oes junto ao modelo para evitar aspectos indesej´aveis como: a repetic¸˜ao de informac¸˜ao, incapacidade de representar parte da informac¸˜ao e evitar a perda de informac¸˜ao. Essas restric¸˜oes s˜ao conhecidas como integridade referencial, chaves e integridade de junc¸˜oes de relac¸˜oes (TAKAI; ITALIANO; FERREIRA, 2005). O mo-delo de dados relacional ´e representado na Figura 2.3. Atualmente esse momo-delo continua sendo um dos modelos de dados mais utilizados pelos sistemas gerenciadores de banco de dados do mercado.

Figura 2.3:Representac¸˜ao do modelo de dados relacional. Fonte: http://wikicts.med.up.pt/images/3/3f/Duasligacoes.gif

(21)

2.1.3.4 Modelo orientado a objetos

O modelo orientado a objetos surgiu como uma tentativa de melhorar aspectos de represen-tac¸˜ao semˆantica, da forma do armazenamento dos dados empregados no modelo relacional, e pela necessidade de aplicac¸˜oes espec´ıficas, como Sistemas de Informac¸˜oes Geogr´aficas (SIGs) e Sistemas Computer-Aided Design (CAD), lidarem com tipo de dados complexos. Tais as-pectos s˜ao facilmente resolvidos com a linguagem de programac¸˜ao orientada a objetos, pois uma de suas caracter´ısticas ´e criar os tipos de dados necess´arios para essas aplicac¸˜oes (TAKAI; ITALIANO; FERREIRA, 2005).

A metodologia dos bancos de dados orientados a objetos ´e uma extens˜ao de conceitos das linguagens de programac¸˜ao orientados a objetos, como C++ e Java. Esse modelo trata que o mundo real a ser modelado ´e composto de objetos e esses s˜ao derivados de classes, e que cada objeto seja individualizado atrav´es de um n´umero identificador, Object Identity (OID)

(GARCIA-MOLINA; ULLMAN; WIDOM, 2002). Esse modelo pode ser facilmente repre-sentado pelo diagrama de classes Unified Modeling Language (UML) (Figura 2.4) (TAKAI; ITALIANO; FERREIRA, 2005).

Figura 2.4:Exemplo de diagrama UML utilizado para representar o modelo de banco de dados orientado a objetos. Fonte: LIU e ¨OZSU, 2009

O modelo de banco de dados orientado a objetos ´e definido atrav´es da linguagemObject De-finition Language (ODL), que foi padronizada peloObject Data Management Group (ODMG)

(22)

A linguagem ODL define o objeto e suas propriedades, que podem ser dividas em trˆes partes: os atributos, que s˜ao os valores dos objetos; o relacionamento, que s˜ao as conex˜oes entre os objetos; e os m´etodos, que s˜ao func¸˜oes definidas que podem ser aplicadas aos objetos da classe (GARCIA-MOLINA; ULLMAN; WIDOM, 2002).

Acreditava-se que esse tipo de modelo de banco de dados dominaria o mercado e extingui-ria o modelo relacional por melhor representar e armazenar dados complexos de forma mais eficiente do que o modelo relacional.

Por´em, acredita-se atualmente que os bancos de dados orientados a objetos ser˜ao utilizados apenas em aplicac¸˜oes especializadas, enquanto os sistemas relacionais continuar˜ao presentes em bancos de dados tradicionais, onde as estruturas de dados baseadas em relac¸˜oes s˜ao suficientes (TAKAI; ITALIANO; FERREIRA, 2005).

2.1.4

Sistemas Gerenciadores de Banco de Dados (SGBD)

Os SGBDs s˜ao constitu´ıdos por um conjunto de programas para acessar e gerenciar a estru-tura de um banco de dados, que permite o armazenamento de diferentes tipos de dados a esse banco de dados. Os SGBDs tem como principal objetivo proporcionar um ambiente conveni-ente e eficiconveni-ente para a criac¸˜ao e gerenciamento da estrutura do banco de dados, recuperac¸˜ao e armazenamento dos dados nessa estrutura. (KORTH; SILBERSCHATZ, 1999).

Os SGBDs podem ser conceituados como aplicativos que tratam todo o acesso ao banco de dados, ou seja, todas as solicitac¸˜oes de acesso ao banco de dados s˜ao processadas pelo SGBD; portanto uma das funcionalidades do SGBD ´e isolar os usu´arios do banco de dados dos detalhes do n´ıvel de hardware atrav´es de poss´ıveis operac¸˜oes em um n´ıvel mais alto pelo usu´ario via linguagem SQL (DATE, 2000).

Os SGBDs tamb´em s˜ao respons´aveis por controlar redundˆancias com objetivo de impedir inconsistˆencias entre os dados, restringir o acesso n˜ao autorizado ao banco de dados, oferecer

backup e recuperac¸˜ao da estrutura e dos dados do banco de dados e impor as restric¸˜oes de integridade (ELMASRI; NAVATHE, 2011). Os principais SGBDs encontrados no mercado atualmente s˜ao o PostgreSQL, MySQL, Oracle, DB2 e o SQL Server.

2.1.5

Modelagem de uma estrutura de banco de dados relacional

(23)

na criac¸˜ao das estruturas de banco de dados a serem implantadas, para obtenc¸˜ao de melhores resultados e desempenho dos SGBDs (COUGO, 1997).

A modelagem pode ser classificada em duas categorias: modelos l´ogicos e modelos f´ısicos (Figura 2.5). Nos modelos l´ogicos, encontra-se o Modelo Entidade Relacionamento (MER), criado pelo pesquisador Dr. Peter Chen (KORTH; SILBERSCHATZ, 1999).

O MER representa, atrav´es de uma forma conceitual, toda a estrutura l´ogica do banco de dados relacional, sem apresentar os detalhes espec´ıficos de como os dados ser˜ao armazenados em um SGBD espec´ıfico. Os detalhes s˜ao demonstrados pelo modelo f´ısico (KORTH; SIL-BERSCHATZ, 1999).

Figura 2.5:Esquema geral de modelagem utilizando o MER. Fonte: TAKAI; ITALIANO; FERREIRA, 2005

(24)

repre-sentar os relacionamentos e os bal˜oes (elipses) para indicar e alocar os atributos, exemplificada na Figura 2.6 (COUGO, 1997).

Figura 2.6:Representac¸˜ao do Diagrama Entidade Relacionamento.

As entidades possuem um conjunto de propriedades, denominado atributo, sendo que al-guns destes atributos devem conferir individualidade aos elementos presentes nas entidades. A associac¸˜ao entre uma ou mais entidades denomina-se relacionamento. Al´em disso, o MER deve representar tamb´em regras que ser˜ao respeitadas pelo banco de dados, como o mapeamento das cardinalidades (regras de associac¸˜oes entre os elementos) (KORTH; SILBERSCHATZ, 1999). H´a trˆes tipos de cardinalidade, como descrito abaixo.

No relacionamento 1:1 (Um para Um), apenas um elemento do conjunto relaciona-se com outro elemento de outro conjunto, e vice-versa (Figura 2.7) (COUGO, 1997). Esse relaciona-mento ´e considerado um dos mais dif´ıceis de serem caracterizados na etapa da modelagem da estrutura do banco de dados, pois qualquer mudanc¸a de interpretac¸˜ao ou vis˜ao pode fazer com que facilmente ele seja questionado e at´e reconsiderado.

Figura 2.7:Demonstrac¸˜ao da cardinalidade 1:1 pela teoria dos conjuntos.

(25)

Figura 2.8:Demonstrac¸˜ao da cardinalidade 1:Npela teoria dos conjuntos.

O relacionamentoM:N(Muitos para Muitos) representa uma associac¸˜ao de elementos onde, teoricamente, n˜ao h´a restric¸˜ao quanto `as poss´ıveis ligac¸˜oes a serem estabelecidas entre os ele-mentos dos dois conjuntos. Assim, um elemento do primeiro conjunto pode associar-se a N

elementos do segundo conjunto, e vice-versa (Figura 2.9) (COUGO, 1997).

Figura 2.9:Demonstrac¸˜ao da cardinalidade N:N pela teoria dos conjuntos.

(26)

Figura 2.10: Exemplo de modelo f´ısico.

Fonte: http://vqv.com.br/uneb/MER Fisico Detran.png

A chave prim´aria ´e a chave candidata que ´e escolhida pelo projetista do banco de dados, para atribuir unicidade na identificac¸˜ao de um elemento dentro de um conjunto de mesma enti-dade. A chave estrangeira ´e uma restric¸˜ao que associa a chave prim´aria ou conjunto de chaves prim´arias, de uma entidade com outra entidade. Estes mecanismos permitem a implementac¸˜ao de restric¸˜oes de entidade e de relacionamentos no modelo relacional (COUGO, 1997).

A importˆancia da utilizac¸˜ao do MER e do DER em projetos de banco de dados deve-se pela facilidade agregada ao desenvolvimento dos projetos, por isso muitas ferramentas s˜ao concebi-das para a utilizac¸˜ao desses modelos (KORTH; SILBERSCHATZ, 1999).

2.1.6

A linguagem SQL

(27)

Manipulation Language- Linguagem de Manipulac¸˜ao de Dados (DML), respons´avel pela con-sulta e manipulac¸˜ao dos dados, o que inclui concon-sultas, delec¸˜oes, inserc¸˜oes e alterac¸˜oes de dados no banco de dados; e a Data Control Language - Linguagem de Controle de Dados (DCL), respons´avel pela seguranc¸a de acesso ao banco de dados (WILTON; COLBY; COLBY, 2005).

Muitas vantagens podem ser oferecidas pela linguagem SQL. Por ser uma linguagem pa-dronizada, oferece vantagens como a reduc¸˜ao dos custos com treinamento, ou seja, aplicac¸˜oes podem se movimentar de um ambiente de desenvolvimento para outro sem a necessidade de reciclagem da equipe de desenvolvimento. Ela tamb´em oferece aos desenvolvedores a portabi-lidade entre computadores, al´em de consulta interativa, m´ultiplas vis˜oes dos dados, definic¸˜ao dinˆamica dos dados entre outras (MACHADO; ABREU, 1996).

2.1.7

Banco de dados biol´ogicos

Nesta ´ultima d´ecada, profissionais das ´areas de biociˆencias tˆem mostrado uma capacidade impressionante de gerar dados com m´etodos de larga escala, e tˆem encontrado na tecnologia caminhos poderosos para organizar, armazenar, integrar e analisar esses diferentes tipos de dados (ALTMAN, 2004).

T´ecnicas experimentais eficientes nas ´areas de sequenciamento de DNA,microarrays, es-pectrometria de massa de prote´ınas, entre outras, s˜ao algumas das t´ecnicas respons´aveis pelo aumento dos dados em larga escala nas ´areas biol´ogicas. Em decorrˆencia da gerac¸˜ao dessa grande quantidade de dados, novos campos de estudo dentro da biologia vˆem surgindo, como a genˆomica, a transcritˆomica, proteˆomica e a interatˆomica, entre outras. Essas ciˆencias “ˆomicas” visam a compreens˜ao global do funcionamento dos sistemas biol´ogicos sob diferentes est´ımulos com o intuito de desenvolver novas drogas para humanos com altos valores terapˆeuticos e de baixo perfil toxicol´ogico (CHEN; SIDHU, 2007).

Com o intuito de facilitar a armazenagem e an´alise da grande quantidade de dados pro-duzidos pelas ciˆencias ˆomicas, tecnologias computacionais tˆem sido desenvolvidas para sua utilizac¸˜ao no ˆambito biol´ogico e, dentre essas tecnologias, est˜ao os bancos de dados. Os chama-dos banco de dachama-dos biol´ogicos s˜ao bancos com uma estrutura capaz de armazenar informac¸˜oes biol´ogicas de forma centralizada e organizada tornando a explorac¸˜ao dessas informac¸˜oes me-nos complexa e, consequentemente, promovendo a acelerac¸˜ao da aquisic¸˜ao de conhecimento sobre os sistemas biol´ogicos a partir dos resultados obtidos pelas ciˆencias ˆomicas (NELSON; REISINGER; HENRY, 2003).

(28)

prim´arios de sequˆencia (nucleot´ıdeos e amino´acidos), de genomas, especializados, de vias bi-oqu´ımicas, de estrutura de prote´ınas, de microarrays, e de interac¸˜ao entre prote´ınas. Todos esses bancos de dados est˜ao focados em apenas um objetivo, auxiliar profissionais das ´areas de biociˆencias a responder perguntas relacionadas a informac¸˜oes evolutivas (genes hom´ologos, frequˆencia de alelos e etc), informac¸˜oes genˆomicas (localizac¸˜ao no cromossomo, introns, regi˜oes reguladoras e etc), informac¸˜oes estruturais (estrutura de prote´ınas, dom´ınios estruturais e etc), informac¸˜oes de express˜ao (express˜oes espec´ıficas a um tecido, fen´otipos, doenc¸as e etc) e informac¸˜oes funcionais (func¸˜ao molecular e enzim´atica, papel em doenc¸as e etc). Na pr´oxima sec¸˜ao, ser˜ao descritos alguns dos principais bancos de dados biol´ogicos, com grande influˆencia nas ´areas biol´ogicas.

2.1.7.1 Protein Data Bank (PDB)

OProtein Data Bank (PDB)´e um conjunto de banco de dados, estabelecido pelo Dr Walter Hamilton em 1971, e originalmente desenvolvido no Brookhaven National Laboratory (BNL). O PDB (http://www.pdb.org/) ´e respons´avel por armazenar estruturas tridimensionais de prote´ınas, ´acidos nucleicos e outras macromol´eculas biol´ogicas. Em seus dados est˜ao conti-dos coordenadas atˆomicas, citac¸˜oes bibliogr´aficas, informac¸˜oes sobre estrutura prim´aria e se-cund´aria, dados experimentais de estrutura elucidadas ou por cristalografia ou por Ressonˆancia Magn´etica Nuclear(Nuclear Magnetic Resonance (NMR)), e enderec¸os para outros bancos de dados biol´ogicos (SUSSMAN et al., 1998).

O trabalho realizado no PDB ´e um trabalho colaborativo, seus avanc¸os s˜ao feitos por colaborac¸˜ao de cientistas ao redor do mundo, o que transformou o originalPDBde um simples conjunto de bancos de dados em um poderoso e sofisticado sistema de base de conhecimento em informac¸˜ao estrutural, que combina as tecnologias de sistemas de bancos de dados orientado a objetos e sistemas de banco de dados relacionais para arquivar e acessar informac¸˜oes estruturais (SUSSMAN et al., 1998).

(29)

Pro-tein Data Bank Japan (PDBj)(http://www.pdbj.org), localizado no Jap˜ao (STANDLEY et al., 2008).

Figura 2.11: P´agina de apresentac¸˜ao do site wwPDB Fonte:http://wwpdb.org/

2.1.7.2 Entrez

(30)

Figura 2.12: P´agina de apresentac¸˜ao doEntrez

Fonte:http://www.ncbi.nlm.nih.gov/sites/gquery

Atrav´es dos dados obtidos pelo Entrez os usu´arios podem identificar uma sequˆencia de miRNA, recuperar registros da literatura e de prote´ınas associadas, identificar dom´ınios con-servados dentro das prote´ınas, identificar prote´ınas similares, identificar mutac¸˜oes conhecidas dentro do gene ou prote´ına, encontrar uma estrutura tridimensional resolvida para a prote´ına ou, na sua ausˆencia, identificar estruturas com sequˆencia hom´ologas, obter uma vis˜ao do con-texto genˆomico e obter a regi˜ao da sequˆencia, entre outras informac¸˜oes relevantes `a biomedicina (GEER; SAYERS, 2003).

Em 2010, oEntrezcontava com um total de 38 bancos de dados e com mais de 450 milh˜oes de registros (SAYERS et al., 2011). Alguns bancos de dados que formam essa ferramenta s˜ao descritos abaixo: o GenBank e o PubMed (GEER; SAYERS, 2003).

2.1.7.3 GenBank

(31)

O banco de dados foi constru´ıdo e ´e distribu´ıdo gratuitamente peloNCBI, atrav´es da Internet (http://www.ncbi.nlm.nih.gov/genbank/), FTP e um amplo n´umero de servic¸osweb de an´alises e de recuperac¸˜ao de dados. Em 2010, oGenBankcontava com mais de 1200 genomas completos de bact´eria e arquea, e 286.730.369.256 pares de bases nucleot´ıdicas (12,6% a mais em relac¸˜ao a 2009). Desse total, a esp´ecieHomo sapiensera a esp´ecie como mais pares de base de nucleot´ıdeos inseridos, total de 14.792.487.417 (BENSON et al., 2011).

2.1.7.4 PubMed

Os resumos de grande parte da literatura sobre biomedicina est˜ao armazenados e dispon´ıveis no banco de dados PubMed (http://www.ncbi.nlm.nih.gov/pubmed/), desenvolvido e man-tido pelo NCBI. O PubMed ´e respons´avel por incluir toda a literatura contida no MEDLINE5 e mais algumas citac¸˜oes adicionais. Al´em dos resumos e citac¸˜oes, o PubMed tamb´em cont´em os enderec¸os eletrˆonicos das revistas para garantir o acesso ao artigo completo ao usu´ario (LE-TOVSKY, 2002).

Atualmente a quantidade de citac¸˜oes j´a ultrapassa a marca de 21 milh˜oes e a quantidade est´a aumentando aproximadamente 4% ao ano (LU, 2011). Em 2010, o Pubmed abrangia mais de 22.000 revistas cient´ıficas, com artigos publicados desde 1880 (artigo mais antigo relatado no Pubmed) (SAYERS et al., 2011). O Pubmed ´e utilizado por pesquisadores, profissionais da ´area da sa´ude e o p´ublico geral (LU, 2011).

2.1.7.5 Gene Ontology

OGene Ontology (GO) Consortium ´e a maior iniciativa na ´area da bioinform´atica na ten-tativa de padronizar a representac¸˜ao de genes e produtos criados pela regulac¸˜ao gˆenica, atrav´es de diversas esp´ecies e banco de dados. O GO utiliza um vocabul´ario controlado de termos para a descric¸˜ao das caracter´ısticas dos produtos dos genes e para a anotac¸˜ao dos dados de produtos de genes (ASHBURNER et al., 2000).

OGO Consortiumsurgiu a partir de uma colaborac¸˜ao entre trˆes bancos de dados de modelos de organismos: FlyBase (Drosophila), Saccharomyces Genome Database (SGD) e o Mouse Genome Database (MGD), em 1998. Desde ent˜ao, muitos bancos de dados vˆem sido inclu´ıdos no GO no objetivo de oferecer uma descric¸˜ao consistente de produtos de genes em diferentes bancos de dados atrav´es do uso da ontologia6(ASHBURNER et al., 2000).

5Banco de dados bibliogr´afico daU.S. National Library of MedicineR (NLM).

6E um modelo de dados que representa um conjunto de conceitos dentro de um dom´ınio e os relacionamentos´

(32)

O GO disponibiliza `a comunidade cient´ıfica um sistema de banco de dados relacional que armazena dados das ontologias e anotac¸˜oes de genes e produtos de genes. Esses da-dos s˜ao disponibilizada-dos atrav´es do navegador AmiGO e pela busca do pr´oprio site do GO (http://www.geneontology.org), e tamb´em podem ser obtidos atrav´es dedownload (ASH-BURNER et al., 2000).

OGO Database ´e atualizado periodicamente: ontologias, definic¸˜oes e mapeamento de ou-tros bancos de dados s˜ao inseridos diariamente; todas as anotac¸˜oes manuais de produtos de genes, anotac¸˜oes eletrˆonicas de todos os bancos de dados, sequˆencias de produtos dos genes s˜ao inseridos semanalmente; e as anotac¸˜oes geradas manualmente ou eletronicamente s˜ao inse-ridas mensalmente (ASHBURNER et al., 2000).

2.1.7.6 BioGrid

OBiological General Repository for Interaction Datasets (BioGRID)( http://www.thebio-grid.org) ´e um banco de dados p´ublico que armazena interac¸˜oes entre prote´ınas e interac¸˜oes gen´eticas de diversos organismos. Atualmente, o BioGRID cont´em cerca de 413.179 dados de interac¸˜oes (vers˜ao 3.1.81, outubro de 2011) gerados por t´ecnicas de alta escala e de trabalhos individuais. Esses dados s˜ao atualizados mensalmente e s˜ao analisados minunciosamente por um grupo de pesquisadores doutores do BioGRID com aux´ılio de um sistema de gerenciamento de interac¸˜oes (Interaction Management System - IMS) para garantir a qualidade das interac¸˜oes depositadas no banco.

O BioGRID armazena interac¸˜oes gen´eticas e entre prote´ınas de 25 organismos (Arabidopsis thaliana, Bacillus subtilis 168, Bos taurus, Caenorhabditis elegans, Candida albicans SC5314,

Canis familiaris, Chlamydomonas reinhardtii, Danio rerio, Drosophila melanogaster,

Escheri-chia coli K12 MG1655, Gallus gallus, Hepatitus C Virus, Homo sapiens, Human Herpesvirus

1, Human Herpesvirus 4, Human Immunodeficiency Virus 1, Macaca mulatta, Mus

muscu-lus, Plasmodium falciparum 3D7, Rattus norvegicus, Saccharomyces cerevisiae,

Schizosaccha-romyces pombe, Sus scrofa, Xenopus laevis, Zea mays) e seus dados podem ser procurados atrav´es de sua p´agina web ou ainda serem baixados em diversos formatos, como PSI-MI e XML (STARK et al., 2011).

(33)

disseminac¸˜ao dos dados por todos os bancos de dados parceiros (STARK et al., 2011).

2.1.7.7 HPRD

O Human Protein Reference Database (HPRD)(http://www.hprd.org/) ´e um sistema de banco de dados orientado a objetos, que armazena e integra informac¸˜oes relativas `a arqui-tetura de dom´ınio, redes de interac¸˜ao e associac¸˜ao de doenc¸as para cada prote´ına no proteoma humano. Os dados s˜ao obtidos atrav´es da literatura por bi´ologos que lˆeem, interpretam e anali-sam manualmente as publicac¸˜oes (KESHAVA PRASAD et al., 2009).

Outras caracter´ısticas encontradas no HPRD s˜ao: o mecanismo de procura por motivos fos-forilados na prote´ına de interesse; o sistema distribu´ıdo de anotac¸˜ao de prote´ınas, que permite que laborat´orios envolvidos com pesquisa proteˆomica (cerca de 75 em 2009) submetam seus dados (espectrometria de massa, dados de t´ecnica de microarraysde prote´ınas e outros tipos), que s˜ao mapeados na entrada dos dados no HPRD; e uma ligac¸˜ao com uma coletˆanea (Net-Path) de vias de sinalizac¸˜ao humana desenvolvido pelo mesmo grupo do HPRD (KESHAVA PRASAD et al., 2009).

Atualmente o HPRD cont´em 30.047 prote´ınas, 39.194 interac¸˜oes entre prote´ınas, 93.710 modificac¸˜oes p´os-traducionais, 112.158 dados de express˜ao de prote´ınas, 22.490 dados so-bre localizac¸˜ao subcelular, 470 dom´ınios e 453.521 enderec¸os eletrˆonicos de referˆencias bi-bliogr´aficas contidas no PubMed. Os dados foram obtidos diretamente do site oficial do HPRD em setembro de 2011.

2.2

Regulac¸˜ao transcricional e a sua importˆancia

Nesta sec¸˜ao s˜ao apresentados os principais conceitos e pontos relevantes associados com as interac¸˜oes de regulac¸˜ao transcricional.

2.2.1

O processo de transcric¸˜ao gˆenica

Todos os processos biol´ogicos que ocorrem em um ser vivo dependem de uma s´erie de instruc¸˜oes herdadas e passadas de gerac¸˜ao para gerac¸˜ao. Essas instruc¸˜oes s˜ao armazenadas de maneira codificada no ´acido desoxirribonucl´eico (DNA) (ALBERTS et al., 1999).

(34)

sobrepostos7. As prote´ınas e os RNAs n˜ao codificadores s˜ao as mol´eculas que efetivamente atuam nos processos biol´ogicos. A decodificac¸˜ao das informac¸˜oes contidas no gene para a produc¸˜ao das prote´ınas e dos RNAs funcionais ocorre da seguinte forma: as informac¸˜oes con-tidas no gene s˜ao transcritas em outra mol´ecula, chamada de RNA mensageiro (RNAm), e as informac¸˜oes transcritas nesse RNAm podem ser traduzidas caso o produto funcional seja uma prote´ına ou podem ser processadas para a formac¸˜ao de um RNA n˜ao codificador funcional (GERSTEIN et al., 2007).

O controle da produc¸˜ao de prote´ınas ou de RNAs n˜ao codificadores funcionais ´e feito prin-cipalmente atrav´es do controle da transcric¸˜ao do gene, isto ´e, o processo de formac¸˜ao do RNAm. As informac¸˜oes para esse controle est˜ao localizadas em sequˆencias de nucleot´ıdeos pr´oximas aos genes, que s˜ao conhecidas como sequˆencias reguladoras. O processo biol´ogico relacionado a este controle da transcric¸˜ao do gene ´e denominado de regulac¸˜ao gˆenica (ALBERTS et al., 1999).

Na regulac¸˜ao gˆenica, prote´ınas denominadas fatores de transcric¸˜ao (FTs) se ligam `as sequˆen-cias reguladoras presentes pr´oximos aos genes e regulam a transcric¸˜ao destes. Centenas de sequˆencias reguladoras de genes foram identificadas e cada uma dessas sequencias ´e reconhe-cida por um ou mais fatores de transcric¸˜ao que, dependendo da situac¸˜ao, podem aumentar ou di-minuir a transcric¸˜ao do gene e, consequentemente, aumentar ou didi-minuir a produc¸˜ao da prote´ına codificada por esse gene (KIM; PARK, 2011).

2.2.2

A importˆancia das interac¸˜oes de regulac¸˜ao transcricional

Os fatores de transcric¸˜ao s˜ao decisivos nos organismos vivos. O desenvolvimento de um ´org˜ao inteiro pode ser disparado por apenas um fator de transcric¸˜ao, como demonstrado, por exemplo, em estudos do desenvolvimento do olho na mosca-da-fruta Drosophila melanogas-ter. Neste organismo, um gene chamadoEyfoi transcrito artificialmente nas etapas iniciais do desenvolvimento em c´elulas que normalmente iriam formar as patas. Essa transcric¸˜ao gˆenica anormal resultou no desenvolvimento de um olho no meio das patas (HALDER; CALLAERTS; GEHRING, 1995).

Em humanos, fatores de transcric¸˜ao est˜ao relacionados tamb´em a v´arios dist´urbios, sendo que, dos 1988 fatores de transcric¸˜ao conhecidos em seres humanos, cerca de 300 est˜ao envol-vidos com doenc¸as humanas de acordo com o banco de dados“Morbid Map” do Online

Men-7Al´em da definic¸˜ao descrita h´a outras diversas definic¸˜oes de gene (MEYER; BOMFIM; EL-HANI, 2011). Foi

escolhida a definic¸˜ao proposta por Gerstein et al. por ser a mais adequada `a definic¸˜ao dos dados armazenados no

(35)

delian Inheritance in Man (OMIM)(BORATE; BAXEVANIS, 2009). Como exemplo, pode ser citado o dist´urbio de crescimento, onde foram encontradas mutac¸˜oes em fatores de transcric¸˜ao relacionados `a formac¸˜ao da hip´ofise, glˆandula que produz numerosos e importantes hormˆonios, ocasionando a baixa estatura (MARUI et al., 2002).

Desses 300 FTs, h´a alguns exemplos que j´a s˜ao alvos de tratamento. O fator de transcric¸˜ao

RARA, por exemplo, ´e alvo da droga alitretino´ına para o tratamento de acne e de outras doenc¸as. O fator de transcric¸˜aoPPARA, por sua vez, ´e alvo da droga clofibrato para o tratamento de hiper-lipoproteinemia tipo III e hipertrigliceridemia grave. H´a tamb´em exemplos de drogas utilizadas no tratamento do cˆancer, como o fator de transcric¸˜ao AR, que ´e alvo da droga nilutamida no tratamento de cˆancer de pr´ostata. Outro exemplo ´e o fator de transcric¸˜ao ESR1 que ´e alvo da droga tamoxifeno no tratamento de cˆancer de mama (WISHART et al., 2006).

Segundo Karamouzis et al. (2002), drogas desenvolvidas para controlar os FTs no trata-mento do cˆancer s˜ao mais eficientes do que as drogas convencionais. As drogas convencionais tˆem como alvos prote´ınas localizadas na membrana das c´elulas doentes, que funcionam como receptores e transmissores de informac¸˜oes do meio extracelular para o n´ucleo, para que a c´elula tenha uma resposta adequada ao seu meio extracelular. Essas prote´ınas de membrana, portanto, afetam todo comportamento celular e, justamente por estarem na superf´ıcie celular, s˜ao mais f´aceis de serem alvos para drogas. Por´em, como o processo de transmiss˜ao das informac¸˜oes at´e o n´ucleo pode seguir por mais de uma via, essas drogas convencionais podem elicitar compor-tamentos celulares indesej´aveis e, portanto, podem n˜ao ter o efeito esperado, com consequente perda de eficiˆencia. J´a as drogas que tˆem como alvos os FTs atuam diretamente no n´ucleo e, portanto, a probabilidade de ocorrˆencia de comportamentos celulares indesej´aveis ´e menor (KARAMOUZIS; GORGOULIS; PAPAVASSILIOU, 2002).

2.2.3

Crescimento dos dados na ´area de regulac¸˜ao gˆenica

(36)

Figura 2.13: Quantidade anual de artigos sobre regulac¸˜ao gˆenica indexados no banco de dados PubMed Fonte:http://www.ncbi.nlm.nih.gov/pubmed/

(37)

2.3

Principais bancos de dados de interac¸˜oes de regulac¸˜ao

transcricional

Devido ao crescimento de dados sobre regulac¸˜ao gˆenica mostrado na sec¸˜ao anterior, os pesquisadores sentiram a necessidade de organizar tais informac¸˜oes em banco de dados de interac¸˜oes de regulac¸˜ao transcricional. Atualmente, h´a alguns alguns bancos de dados relacio-nados com esta tarefa, sendo que os 3 principais s˜ao: o TRANSFAC, oTREDe oOREGANNO.

2.3.1

TRANSFAC

O TRANSFAC (http://www.gene-regulation.com/pub/databases.html) ´e um sis-tema de banco de dados relacional dividido em duas vers˜oes, uma p´ublica (menos da metade dos dados presentes) e uma profissional (com acesso privado, Figura 2.15), respons´avel por ar-mazenar informac¸˜oes sobre mapeamento de s´ıtios de regulac¸˜ao gˆenica, tais como as sequˆencias e as prote´ınas que interagem com essas sequˆencias (Fatores de Transcric¸˜ao). Tamb´em s˜ao ar-mazenadas informac¸˜oes sobre os genes (organismo, posic¸˜ao e sequˆencia do s´ıtio de ligac¸˜ao) e sobre os microRNAs (miRNA) (MATYS et al., 2006).

Os dados inseridos no TRANSFAC s˜ao baseados em evidˆencia experimental e extra´ıdos de artigos revisados por especialistas, que inspecionam na bibliografia a validade dos dados (MATYS et al., 2006). Esses pesquisadores varrem a literatura por dados compat´ıveis, e pos-teriormente armazenam-os ao banco de dados. O TRANSFAC utiliza vocabul´arios controlados e v´arias func¸˜oes automatizadas para realizar essas atualizac¸˜oes periodicamente (MATYS et al., 2006).

Desde o seu comec¸o, h´a cerca de 20 anos, o TRANSFAC disponibiliza os dados de regulac¸˜ao transcricional (MATYS et al., 2006), com a ideia principal em coletar as informac¸˜oes da bibli-ografia e gerar um mapa regulat´orio para os genes obtidos e ent˜ao disponibiliz´a-lo aos usu´arios (MATYS et al., 2006).

Em 2010, o TRANSFAC continha 14.490 fatores de transcric¸˜ao (incluindo miRNAS), 30.118 s´ıtios de ligac¸˜ao, 67.947 genes, 41.859 ligac¸˜oes entre fatores de transcric¸˜ao e seus res-pectivos s´ıtios, 1.549.846 fragmentos de Chip-Chip8, 24.560 referˆencias e 277.337 sequˆencias promotoras.

(38)

Figura 2.15: Valores de acesso ao TRANSFAC.

Fonte:http://www.biobase-international.com/buy

2.3.2

TRED

OTranscriptional Regulatory Element Database (TRED)(http://rulai.cshl.edu/TRED) ´e um banco de dados de interac¸˜oes entre fatores de transcric¸˜oes e genes alvos experimentalmente verificados ou computacionalmente preditos de mam´ıferos (JIANG et al., 2007).

OTREDpossui como caracter´ısticas anotac¸˜oes de promotores de genoma humano, de rato e de camundongo; informac¸˜oes sobre ligac¸˜oes entre fatores de transcric¸˜ao e genes regulados; e processo de verificac¸˜ao dos dados manualmente. Segundo dados obtidos da p´agina Web do

TRED, os dados armazenados no banco de dados s˜ao verificados manualmente, e atualmente essa verificac¸˜ao est´a focada em 36 fam´ılias de fatores de transcric¸˜ao envolvidos em carcinomas (TRED, 2012).

Atualmente o banco de dados possui cerca 3409 genes alvos de seres humanos, 1126 genes alvos de camundongos e 461 genes alvos de ratos (TRED, 2012).

2.3.3

OREGANNO

O Open REGulatory ANNOtation database (ORegAnno)(http://www.oreganno.org/) ´e um banco de dados de acesso gratuito de interac¸˜oes entre fatores de transcric¸˜ao e genes alvos retirados da literatura (MONTGOMERY et al., 2006).

(39)

3

Objetivos

Com base no que foi exposto na Introduc¸˜ao, o objetivo deste trabalho ´e a construc¸˜ao da vers˜ao 2.0 do banco de dadosHTRIdbatrav´es das seguintes melhorias:

• Ampliac¸˜ao da estrutura doHTRIdbpara suportar a inserc¸˜ao de novos dados relacionados a FTs de seres humanos, tais como os dados sobre interac¸˜ao f´ısica entre os FTs e as prote´ınas codificadas pelos GAs com outras prote´ınas e os nomes alternativos dos FTs e GAs;

• Desenvolvimento de recurso capaz de demonstrar graficamente as interac¸˜oes entre FTs e GAs e as interac¸˜oes f´ısicas dos FTs e das prote´ınas codificadas pelos GAs com outras prote´ınas, sendo poss´ıvel a visualizac¸˜ao dessas interac¸˜oes em v´arios n´ıveis de expans˜ao;

• Criac¸˜ao de um mecanismo de classificac¸˜ao para medir o grau de confiabilidade de cada interac¸˜ao entre FTs e GAs e incorporac¸˜ao desse grau de confiabilidade ao recurso de visualizac¸˜ao gr´afica das interac¸˜oes entre FTs e GAs.

• Desenvolvimento de um recurso de exportac¸˜ao de dados em arquivo delimitado por ta-bulac¸˜oes, em formato“xls”, e em formato“csv”para que a comunidade cient´ıfica possa analisar os dados doHTRIdbutilizando outros programas de interesse;

• Correc¸˜ao dos dados presentes no banco de dados e nova coleta de dados de interac¸˜oes de regulac¸˜ao transcricional na bibliografia para complementar o acervo de interac¸˜oes pre-sentes no banco de dados (coleta avaliada por especialistas das ´areas biol´ogicas).

(40)

4

Materiais e M´etodos

Nessa sec¸˜ao ser˜ao apresentadas as principais ferramentas e conceitos de desenvolvimento da estrutura do banco de dados, da interface “Web” e seus recursos, e da coleta dos dados e sua revis˜ao. O funcionamento l´ogico dos recursos tamb´em ser˜ao apresentados.

4.1

Banco de dados

Para possibilitar o acr´escimo de informac¸˜oes relacionados aos FTs e, deste modo, permitir o funcionamento de alguns recursos que foram desenvolvidos neste trabalho, houve a necessidade de ampliar a estrutura doHTRIdbpara possibilitar o armazenamento das seguintes informac¸˜oes: os dados sobre interac¸˜oes f´ısicas entre os FTs e as prote´ınas codificadas pelos GAs com outras prote´ınas e os nomes alternativos (“apelidos”) dos FTs e GAs. Esta ampliac¸˜ao ocorreu atrav´es de codificac¸˜oes SQL para o Sistema Gerenciador de Banco de Dados PostgreSQL vers˜ao 8.4 (http://www.postgresql.org/).

(41)

Figura 4.1:Diagrama Entidade Relacionamento doHTRIdb.

Ap´os a criac¸˜ao do modelo conceitual da nova estrutura do HTRIdb 2.0, este foi utilizado para a criac¸˜ao do modelo f´ısico da estrutura (Figura 4.2) que considera as caracter´ısticas do Sistema Gerenciador de Banco de Dados PostgreSQL, como exemplo: os tipos de dados que s˜ao suportados pelo SGBD.

Figura 4.2:Modelo f´ısico doHTRIdb.

(42)

codificac¸˜ao, o tamanho m´aximo de cada atributo (em alguns casos), a forma de implementac¸˜ao dos relacionamentos entre os elementos (entidades) do banco de dados seguindo as regras de associac¸˜ao entre os elementos (cardinalidade), e as chaves prim´arias e as chaves estrangeiras.

Depois da criac¸˜ao do modelo f´ısico, a pr´oxima etapa foi a codificac¸˜ao da estrutura do banco de dados em linguagem SQL utilizando os recursos daData Definition Language (DDL), parte da linguagem SQL respons´avel por determinar e criar a estrutura do banco de dados. Ap´os essa codificac¸˜ao, foi realizado o processo de finalizac¸˜ao da estrutura do HTRIdb, que foi a implantac¸˜ao dosscripts SQL1no Sistema Gerenciador de Banco de Dados PostgreSQL vers˜ao 8.4.

Essa implantac¸˜ao ocorreu utilizando o PSQL, um recurso do PostgreSQL para executar os

scripts SQL. O PSQL ´e uma ferramenta de manipulac¸˜ao e de manutenc¸˜ao do SGBD PostgreSQL utilizada em linha de comando, conhecido como modo texto (sem interface gr´afica), que pode ser utilizado diretamente de um terminal2do sistema operacional Linux (nesse caso, o sistema operacional utilizado ´e a distribuic¸˜ao “Ubuntu Server” e o terminal ´e o“bash”).

4.2

Interface gr´afica

Para disponibilizar o banco de dados para toda a comunidade cient´ıfica, foi desenvolvida uma interface Web para conectar os usu´arios com o HTRIdb. O desenvolvimento dessa nova vers˜ao da interface doHTRIdbcom suas novas funcionalidades ocorreu atrav´es de uma plata-forma de desenvolvimentoWebbaseada em Java3.

Esta plataforma foi previamente instalada e configurada. Os componentes presentes s˜ao:

1. Um ambiente integrado de desenvolvimento (Netbeans 6.8, http://netbeans.org/), ferramenta essencial para facilitar e agilizar o processo de codificac¸˜ao dos programas desenvolvidos;

2. O Java Development Kit (JDK), presente na Java Platform Standard Edition (JavaSE)

(http://www.oracle.com/technetwork/java/javase/overview/index.html), ne-cess´ario para possibilitar a compilac¸˜ao de programas baseados na linguagem de progra-mac¸˜ao Java;

1Arquivos contendo instruc¸˜oes em SQL para realizar determinadas tarefas bem definidas, descritas na

lingua-gem SQL.

2Terminal ´e um interpretador de comandos, e seu funcionamento ´e como uma esp´ecie de tradutor entre o sistema

operacional e o usu´ario; ele tamb´em pode ser chamado deshell. No terminal, ´e poss´ıvel executar sequˆencias de comandos direto nopromptdo sistema ou escritos em arquivos de texto, nomeados deshell scripts.

(43)

3. E o servidor de aplicac¸˜aoJBOSS Application Server (JBOSS AS)vers˜ao 4.2.3, respons´avel por permitir a utilizac¸˜ao de recursos da linguagem de programac¸˜ao Java, as JSP (Java Ser-ver Pages) e osServlets, e oferecer atrav´es dessas tecnologias e de umframeworkb´asico suporte para o funcionamento naWebda aplicac¸˜ao desenvolvida.

A interfaceWebfoi desenvolvida atrav´es do conceitoModel View Controller (MVC)(Figura 4.3), modelo de desenvolvimento de software atualmente considerado como uma “arquitetura padr˜ao” utilizada na Engenharia de Software. O MVC ´e utilizado com o intuito de tornar o desenvolvimento da aparˆencia (design) da interface e da l´ogica de programac¸˜ao (funcionamento da interface) mais independentes poss´ıveis, ou seja, o desenvolvimento dolayoutda p´agina fica separado do desenvolvimento do mecanismo de comunicac¸˜ao entre os usu´arios e o banco de dados.

A arquitetura b´asica do modelo MVC utilizaServlets,JavaBeanse p´aginas JSP. OsServlets

s˜ao os respons´aveis por controlar as requisic¸˜oes recebidas e enviadas para o banco de dados (Controller), osJavaBeansimplementam a l´ogica da aplicac¸˜ao, a modelagem das requisic¸˜oes dos usu´arios a ser enviados ao banco de dados e as respostas do banco de dados a ser enviados para o usu´ario (Model), e as p´aginas JSP se encarregam da apresentac¸˜ao do resultado e gerac¸˜ao do conte´udo dinˆamico das p´aginas da interfaceWebdoHTRIdb(View).

Figura 4.3:Diagrama do Modelo MVC.

Fonte:http://indiandotnet.files.wordpress.com/2009/04/mvc1.png

4.2.1

Recurso de visualizac¸˜ao gr´afica

(44)

transcrici-onal entre FTs e seus respectivos GAs e as interac¸˜oes f´ısicas entre FTs e as prote´ınas codificadas pelos GAs com outras prote´ınas diretamente nas p´aginas da interface gr´afica do HTRIdb 2.0.

Essa ferramenta funciona em duas etapas: na etapa inicial ´e realizado requisic¸˜oes de con-sulta ao banco de dados, realizadas na linguagem SQL atrav´es de um Servletdenominado de

“graphgenerator”. Na pr´oxima etapa, os resultados advindos dessas requisic¸˜oes s˜ao tratados no mesmo Servlet que, al´em de ser respons´avel pela comunicac¸˜ao com o banco de dados e a obtenc¸˜ao dos dados, tamb´em realiza a comunicac¸˜ao com a ferramentaCytoscape Web. O trata-mento dos dados ´e realizado para permitir que os dados obtidos sejam repassados doServlet, de forma compat´ıvel, para a ferramenta incorporada na interface “Web” que, por sua vez, atrav´es desses dados gera a imagem das interac¸˜oes e as demonstra na interface doHTRIdbatrav´es das JSPs.

Outro evento que ocorre na etapa de tratamento dos dados ´e a determinac¸˜ao do grau de confiabilidade das interac¸˜oes de regulac¸˜ao transcricional atrav´es da contagem da quantidade de referˆencias e de t´ecnicas experimentais relatadas para cada interac¸˜ao. Essa determinac¸˜ao ocorre atrav´es de uma requisic¸˜ao feita pelo Servlet “graphgenerator” para uma classe Java ( “colo-rido”) desenvolvida para essa tarefa de classificac¸˜ao que, atrav´es da quantidade de t´ecnicas e de referˆencias, classifica o grau de confiabilidade em 4 valores distintos como constam na Tabela 5.1 na sec¸˜ao “Resultados e Discuss˜ao”. Ap´os a obtenc¸˜ao desse valor, ele ´e repassado junto com os dados das interac¸˜oes `a ferramentaCytoscape Webque determina a cor da linha da determinada interac¸˜ao FT-GA.

4.2.2

Recurso de extrac¸˜ao dos dados

O mecanismo de exportac¸˜ao de dados em formato texto delimitado por tabulac¸˜oes, em formato“csv”e em formato“xls”funciona atrav´es de recursos Java que, com aux´ılio de um

Servlet (“arq temp”)realizam a transferˆencia dos dados doHTRIdbao usu´ario. EsseServlet ´e respons´avel por obter os dados do banco de dados atrav´es de requisic¸˜oes, model´a-los e repass´a-los ao usu´ario atrav´es de m´etodos da classe JavaOutputStream.

(45)

4.2.3

Estat´ıstica do

HTRIdb

Na aba “Estat´ıstica” doHTRIdb(ver Figura 5.9 na sec¸˜ao “Resultados e Discuss˜ao”), existe uma forma de avaliac¸˜ao da evoluc¸˜ao do banco de dados. Seu funcionamento ocorre da seguinte forma: oServlet(“count”), que realiza a consulta no banco de dados, manda uma requisic¸˜ao ao SGBD PostgreSQL para obter o n´umero total dos itens inseridos no banco de dados, inclusive o n´umero de fatores de transcric¸˜ao presentes.

Essa requisic¸˜ao ´e realizada atrav´es da linguagem SQL, com recursos da Data Definition Language (DDL), parte da linguagem SQL respons´avel por manipular os dados presentes na estrutura do banco de dados. Os resultados obtidos pelo Servlet s˜ao repassados `a JSP res-pons´avel por apresent´a-los ao usu´ario. Al´em da apresentac¸˜ao dos dados, esta p´agina da in-terface “Web” possui um gr´afico que utiliza o n´umero de fatores de transcric¸˜ao presentes no banco de dados e o n´umero total de fatores de transcric¸˜ao conhecidos (RAVASI et al., 2010) para apresentar a evoluc¸˜ao do banco de dados. Esse gr´afico ´e gerado atrav´es de uma classe Java desenvolvida para realizar a tarefa de criac¸˜ao e apresentac¸˜ao de gr´aficos, chamadaCewolf

(http://cewolf.sourceforge.net/new/index.html), que foi incorporado `a JSP da inter-face gr´afica para apresentar o gr´afico da evoluc¸˜ao ao usu´ario.

4.2.4

Recurso de inserc¸˜ao de novos dados e de comunicac¸˜ao com a equipe

do

HTRIdb

Esses novos recursos foram desenvolvidos para manter oHTRIdbsempre atualizado e sem ocorrˆencia de erros. O mecanismo de inserc¸˜ao de novos dados pelos usu´arios da comunidade cient´ıfica funciona atrav´es de Servlets e de um banco de dados auxiliar (Figura 4.4) desen-volvido para essa tarefa, que ocorre da seguinte forma: o usu´ario insere os novos dados nos campos necess´arios (descritos com mais detalhes na sec¸˜ao “Resultados e Discuss˜ao”) na aba

“UPLOAD DATA”, desenvolvida com recursos JSP, e ap´os o preenchimento dos campos, este usu´ario confirma o envio dos dados. Nesse momento o Servlet (“UP’’) respons´avel por fazer a comunicac¸˜ao entre a p´agina JSP e o banco de dados auxiliar manda um pedido ao usu´ario para confirmar se ele ´e humano ou n˜ao. Esse pedido ´e realizado atrav´es de uma ferramenta in-corporada aoServletdenominada deRecaptcha(http://www.google.com/recaptcha), que faz uso de recursos visuais para a confirmac¸˜ao da veracidade do processo e protec¸˜ao contra

spambots4.

(46)

Figura 4.4:Modelo f´ısico do banco de dados auxiliar.

Ap´os a confirmac¸˜ao, o Servlet (“UP”) envia ao banco de dados auxiliar uma requisic¸˜ao para a inserc¸˜ao dos novos dados que insere os dados para futuras verificac¸˜oes de especialistas da ´area biol´ogica. Ap´os essa confirmac¸˜ao, os especialistas inserem manualmente os dados ao banco de dados principal.

O recurso de comunicac¸˜ao entre o usu´ario e o HTRIdb tamb´em funciona de forma se-melhante ao processo de inserc¸˜ao dos novos dados mas, nesse caso, utiliza-se outro Servlet

(“EVA”) desenvolvido para realizar a comunicac¸˜ao entre a p´agina JSP e o banco de dados au-xiliar. EsseServlettamb´em utiliza a ferramentaRecaptcha para controlar o processo de envio de mensagens que ser˜ao armazenadas.

4.3

Coleta e revis˜ao dos dados

Os novos dados que preenchem a nova estrutura do banco de dados s˜ao as informac¸˜oes sobre interac¸˜oes prote´ına-prote´ına (interac¸˜oes f´ısicas entre prote´ınas) dos FTs e das prote´ınas codificadas pelos GAs, e os nomes alternativos que foram extra´ıdos do banco de dados Entrez Gene (MAGLOTT et al., 2011). As informac¸˜oes sobre interac¸˜oes prote´ına-prote´ına j´a estavam dispon´ıveis no laborat´orio em formato de texto separado por tabulac¸˜oes.

(47)

por v´arios especialistas das ´areas de biociˆencias.

(48)

5

Resultados e Discuss˜ao

OHuman Transcriptional Regulation Interaction Database(HTRIdb;http://www.lbbc. ibb.unesp.br/htri) (Figura 5.1) foi idealizado para ser um reposit´orio de interac¸˜oes de regulac¸˜ao transcricional experimentalmente verificadas de seres humanos, com diversas fun-cionalidades e disponibilizado gratuitamente `a comunidade cient´ıfica. O HTRIdb comec¸ou a ser desenvolvido no per´ıodo de iniciac¸˜ao cient´ıfica e foi aperfeic¸oado e conclu´ıdo no per´ıodo de mestrado do aluno respons´avel.

Referências

Documentos relacionados

A primeira lei do movimento, de Newton, diz que inércia é a incapacidade de qualquer corpo alterar a sua situação de repouso ou de movimento sem causa exterior. O nadador produz

A evolução técnico-tática de função do goleiro de Handebol, apresentado por Greco, Soares das Neves e Silva Matias, no capítulo seguinte (5), mostra aspectos da importância da

Para o ensino do basquete tendo como proposta pedagógica a Psicomotora os objetivos terão, portanto, que levar em consideração o ser em todos os aspectos já citados, e não apenas

Vantagens. Permitem avaliar melhor as atitudes para análise das questões estruturadas;. São muito úteis como primeira questão de um determinado tema porque deixam o

Se o tendão formar um ângulo aberto para fora, estamos diante de um calcâneo valgo, e o apoio sobre ele deve ser maior do lado interno (Figura 6). Se o tendão parecer oblíquo de

Analisando a prática dos professores de Educação Física de Piracicaba, Moreira (1991) constatou que eles apresentam atitudes formais e autoritárias na relação com os alunos; vêem

Samuel Tabosa de Castro.. Dedicamos esta proposta a todas as pessoas portadoras de deficiência atendidas pelas APAEs, por acreditarmos em seu potencial de aprendizagem e

É o movimento humano com determinado significado/sentido, que por sua vez, lhe é conferido pelo contexto histórico-cultural. O movimento que é tema da educação física é o que