ETAPAS PARA RECUPERAÇÃO DE DADOS DE BASES PÚBLICAS: MODELO USADO EM

1. INTRODUÇÃO

1.1. BIG DATA

1.1.5. ETAPAS PARA RECUPERAÇÃO DE DADOS DE BASES PÚBLICAS: MODELO USADO EM

Assim como na natureza dos dados, há grande heterogeneidade na forma como eles são depositados em bases públicas, e, por conseguinte, em como devem ser recuperados para análise. Na medida em que é pouco factível descrever o passo a passo para o processamento de todos os tipos de dados das “ômicas” atualmente disponíveis, optamos por descrever mais detalhadamente a forma como são processados dados de expressão gênica, com os quais temos mais familiaridade, como modelo da estrutura geral de trabalho com dados públicos. Para estes dados, os repositórios mais comumente utilizados são o GEO e o ArrayExpress que serão abordados aqui.

O repositório “Gene Expression Omnibus” (GEO) foi lançado em 2000 pelo NCBI, em resposta ao interesse da comunidade em uma base de dados público de dados gerados por microarray. Com a ampliação dos métodos para análise em larga escala de expressão gênica, o GEO se tornou um repositório de uso público que arquiva e distribui gratuitamente conjuntos de dados de: microarray, sequenciamento de próxima geração (RNAseq), arrays de metilação, e outras formas de dados genômicos funcionais de alto rendimento, submetidos pela comunidade científica (55).

Um dos desafios destas tecnologias de análise em larga escala é a variabilidade e veracidade de resultados realizados em diferentes laboratórios (reprodutibilidade inter-ensaio) (56,57). Esta variabilidade inclui não apenas os aspectos pré- e analíticos, mas também aspectos pós-analíticos, como a forma como os laudos ou resultados são reportados. Neste contexto, desde a criação do GEO há um esforço internacional para aderência por parte dos pesquisadores que geram os dados a um conjunto mínimo de informações necessárias, de forma que

os experimentos de microarray posam ser interpretados adequadamente, e comparáveis entre si. Os dados depositados no GEO são compatíveis com as diretrizes MIAME (Minimum Information About a Microarray Experiment), que compilam informações mínimas sobre um experimento de Microarray e MINSEQE (Minimum Information About a Next-generation Sequencing Experiment), que fazem o mesmo para experimentos de sequenciamento de próxima geração. Além do GEO muitos periódicos e agências de financiamento exigem que os dados de microarray estejam em conformidade com os padrões MIAME e MINSEQE (58).

Para acessar a base de dados GEO é necessário entrar no site do NCBI: https://www.ncbi.nlm.nih.gov/geo/. O acesso e download são públicos e não há necessidade de realizar um login para usar. Com exceção de bases de dados cujos autores impuseram restrições quanto ao uso ou distribuição, todos os documentos e arquivos podem ser baixados e reproduzidos gratuitamente (55). Os dados no GEO são organizados em três principais componentes que são fornecidos pelo autor: plataforma, amostra e série.

 A plataforma identifica o insumo tecnológico usado para geração dos dados, podendo representar um chip de microarray ou uma plataforma de RNAseq.  A amostra representa o material testado.

 A série organiza amostras em conjuntos de dados significativos que compõem um experimento, e são vinculados por um atributo comum. Os números de acesso da série têm um prefixo "GSE" (59). Em fevereiro de 2019 o GEO contava com 19.361 plataformas, 2.860.439 amostras e 108.335 séries.

Ao realizar uma busca no GEO o usuário irá perceber que o repositório fornece duas opções de resultados: o GEO DataSets e GEO Profiles. O GEO DataSets armazena as séries, amostras e plataformas, sendo possível acessar os dados de cada uma delas. O GEO Profiles mostra os resultados de expressão de um gene individual em todas as amostras de uma série (60). No caso do GEO DataSets, a busca é normalmente feita por condição de consulta/filtro, tipo de amostra, ou tipo de dado. Já no GEO Profiles a busca é geralmente feita através de um gene individual associado a uma condição. Dois exemplos de resultados são mostrados nas figuras 2 e 3.

Figura 2: Exemplo de busca feita no GEO DataSets por condição.

Fonte: https://www.ncbi.nlm.nih.gov/gds/?term=thrombosis. Acesso em 06/05/19.

Figura 3: Exemplo de busca feita no GEO profile por gene individual e condição.

Fonte: https://www.ncbi.nlm.nih.gov/geoprofiles/?term=factor+8+and+thrombosis. Acesso em 06/05/19.

Quanto ao tipo de dados, a categoria intitulada 'Perfil de expressão por array”, que consiste nos estudos realizados com chips de microarray continua sendo o tipo de dado mais prevalente na GEO, embora os estudos de sequenciamento de nova geração (RNAseq) vêm aumentando desde 2008, espelhando as tendências observadas na ciência (61).

Além do acesso aos dados das séries e amostras, a base GEO disponibiliza algumas ferramentas para auxiliar na análise dos resultados, entre as quais destaca- se o GEO2R, que permite a identificação rápida de genes diferencialmente expressos entre grupos de amostras do mesmo experimento (série). O GEO2R apresenta uma interface simples que permite aos usuários executar análises dos dados GEO. A expressão comparativa entre os grupos determinados pelo usuário é expressa em uma tabela de genes ordenados por significância e que podem ser visualizados graficamente. O GEO2R se baseia diretamente os dados fornecidos pelo trabalho original. Mais de 90% dos estudos GEO podem ser analisados desta forma, o que aumenta o potencial de uso do repositório para o público menos afeito à bioinformática (61).

O ArrayExpress é o outro principal banco de dados público para dados genômicos funcionais de alto rendimento, mantido pelo European Bioinformatics Institute (EMBL-EBI), muito semelhante ao GEO em termos do tipo de dados que disponibiliza. Para acessar a base de dados é necessário entrar no site do EBI: https://www.ebi.ac.uk/arrayexpress/. Estabelecido em 2003 tornou-se um dos principais repositórios internacionais para experimentos de genômica funcional baseada em microarray e RNAseq, sendo também citado por muitas revistas científicas como destino para depósitos obrigatórios de dados pré-publicação. Assim como no caso do GEO, os dados depositados devem ser compatíveis com as diretrizes MIAME e MINSEQE (62–64). Também, a consulta pode ser feita por atributos do experimento (ex. doença, tecido, tipo celular, condição de estímulo), por espécie, e tipo de dado (ex. microarray, RNAseq, outros) e também por plataforma usada para cada tecnologia (65).

O conteúdo do banco de dados há seis anos continha 30 mil experimentos e quase um milhão de ensaios. Em fevereiro de 2019 esse número cresceu para

71.725 experimentos e 2.338.611 ensaios. Em média 20% dos dados são enviados diretamente para o ArrayExpress; o restante é importado do GEO semanalmente. Um exemplo de busca é mostrado na figura 4.

Figura 4: Exemplo de busca feita no ArrayExpress.

Fonte: https://www.ebi.ac.uk/arrayexpress/search.html?query=thrombosis. Acesso em 06/05/19.

No documento Big data e dados púbicos de expressão gênica : aplicações na pesquisa biomédica e estudo de caso em doenças tromboembólicas = Big data and public gene expression data: applications in biomedical research and case study in thromboembolic diseases (páginas 30-34)