• Nenhum resultado encontrado

SUMÁRIO

4. CASUÍSTICA E MÉTODOS

5.1. Mineração de dados textuais (Text data mining) através do IBM-Watson

For Drug Discovery

Com o crescimento exponencial de dados gerados em publicações, principalmente aqueles relacionadas à geração de big data, extrair informações de maneira rápida e precisa pode ser extremamente desafiador. Por tal razão, a mineração de dados textuais, também conhecida como text data mining, tem sido cada vez mais utilizada. Sua execução através de mecanismos de inteligência artificial permite encontrar padrões e associações entre dados não estruturados presentes em textos de uma forma muito mais eficaz. Uma importante ferramenta capaz de gerar esse tipo de dados é o IBM - Watson (Chen et al., 2016). Em particular, a plataforma

Watson for Drug Discovery (WDD), analisa vários conjuntos de conhecimentos

disponíveis na literatura e em patentes, e revela conexões e relações entre genes, drogas, doença e outros inputs, incluindo evidências no nível das sentenças que apoiam essas conexões.

Em parceria com o Professor Helder Nakaya (FCF-USP), nós utilizamos esta plataforma para avaliar as combinações das palavras ““b cell”, “Dengue” e IRF4” ou “b cell”, “Dengue” e “PRDM1”. A partir das palavras contidas nessas redes, novas palavras-chave foram sendo acrescidas nas combinações futuras. No total, 109 combinações envolvendo as palavras-chave “Dengue”, “hemorrhagic Dengue fever”, “b cell”, “NFKB”, “ERK1”, “ERK2”, “GCN5”, “NFATC1”, “NFATC2”, “IRF4”, “PRDM1”, “XBP1”, “SYK”, “LYN”, “MTOR”, “PPP3CA”, “STAT3”, “P38”, “IL6”, “IL10”, “calcium”, “ORAI1”, “DOK3” e “plasma cell myeloma” foram geradas e avaliadas.

A Figura 10 exemplifica a rede de palavras geradas por essa plataforma através da combinação das palavras “b cell”, “classical Dengue” e IRF4”. É importante ressaltar, que a rede formada nessa análise não é composta por palavras que apareçam concomitantemente para as 3 palavras-chave juntas, e sim, associadas a cada uma delas individualmente. Ou seja, em literaturas ou patentes contendo em seu texto a palavra-chave IRF4, foi encontrada, por exemplo, a palavra MTOR; em uma outra literatura ou patente contendo a palavra-chave “classical Dengue” também foi encontrada a palavra MTOR; e em uma terceira literatura ou patente contendo a palavra-chave “b cell” também foi encontrada a palavra MTOR. Dessa forma, MTOR foi incluída na rede como uma palavra compartilhada pelas palavras-chave inseridas.

38

Figura 10 – Exemplo de uma rede de text-mining gerada através da plataforma IBM Watson for Drug Discovery. Rede de interação de palavras comuns às palavras-chave “IRF4”, “classical Dengue” e “b cell”. D: disease (doenças em inglês); T: tissue (tecido em inglês); G: Gene; Bolas brancas representam palavras-chaves inseridas. Bolas coloridas representam palavras encontradas pela plataforma (azuis: genes; verdes: fármacos; roxos: químicos).

Dessa forma, com o intuito de refinar ainda mais os dados levantados pelo WDD, fizemos um ranqueamento das 10 palavras mais frequentes em todas as nossas combinações, bem como das combinações que continham obrigatória e individualmente as palavras-chave “b cell”, “Dengue” ou “IRF4” (Tabela 4). É possível observar que das 109 combinações totais realizadas, 16361 entradas foram levantadas, das quais excluindo-se suas repetições, equivaleram à 2726 palavras diferentes.

39

Tabela 4 – Análise do número total de palavras encontradas, bem como das 10 palavrais mais frequentes em cada perfil de busca.

Perfil da busca Número de combinações avaliadas Contagem total de palavras levantadas (incluindo repetições) Total de palavras obtidas (excluindo repetições) 10 palavras mais frequentes Geral * 109 16361 2726 akt1, NF-kB, ifng, tp53, il4, ighm, tgfb1, il2, il6, ifnb1 Que continham

Dengue nas palavras-chave

32 2766 438

akt1, ifng, il4, tgfb1, nf-kb, tp53, tlr4,

il6, ighm, ifnb1 Que continham

B cell nas palavras-chave

28 1586 282

akt1, ifng, ighm, il2, il4, stat3, tp53, syk,

nf-kb, hla-e Que continham

IRF4 nas palavras-chave

30 2027 350

akt1, il2, il4, ighm, ifng, stat3, nf-

kb, il6, tp53, ifnb1

* combinações variadas das palavras-chave: “Dengue”, “hemorragic Dengue fever”, “b cell”, “NFKB”, “ERK1”, “ERK2”, “GCN5”, “NFATC1”, “NFATC2”, “IRF4”, “PRDM1”, “XBP1”, “SYK”, “LYN”, “MTOR”, “PPP3CA”, “STAT3”, “P38”, “IL6”, “IL10”, “calcium”, “ORAI1”, “DOK3” e “plasma cell myeloma”

Com isso, realizamos um diagrama de Venn, entre as 10 palavras mais frequentes para cada um dos perfis de busca contidos na Tabela 4 (Figura 11). É possível observar, que entre os 4 perfis de busca contidos na Tabela 4, seis das 10 palavras mais frequentes são compartilhadas: akt1, nf-kb, ifng, tp53, il4, ighm (Figura 11). As palavras syk e hla-e estão presentes somente nas buscas que continham obrigatoriamente a palavra-chave “b cell”, enquanto tlr4 estava presente apenas nas buscas que continham obrigatoriamente a palavra-chave “Dengue” (Figura 11).

40

Figura 11 – Diagrama de Venn detalhando as intersecções das 10 palavras mais frequentes nos perfis de busca listados na Tabela 4. Diagrama gerado através da ferramenta online Venny (https://bioinfogp.cnb.csic.es/tools/venny/) utilizando dados de mineração textual gerados através da plataforma IBM-Watson. Geral: 10 palavras mais frequentes usando combinações variadas das palavras-chave: “Dengue”, “hemorragic Dengue fever”, “b cell”, “NFKB”, “ERK1”, “ERK2”, “GCN5”, “NFATC1”, “NFATC2”, “IRF4”, “PRDM1”, “XBP1”, “SYK”, “LYN”, “MTOR”, “PPP3CA”, “STAT3”, “P38”, “IL6”, “IL10”, “calcium”, “ORAI1”, “DOK3” e “plasma cell myeloma”. Dengue: 10 palavras mais frequentes usando combinações que obrigatoriamente continham “Dengue” como palavra-chave. IRF4: 10 palavras mais frequentes usando combinações que obrigatoriamente continham “IRF4” como palavra-chave. Bcell: 10 palavras mais frequentes usando combinações que obrigatoriamente continham “b cell” como palavra-chave. Quanto mais cinza a intersecção, maior o número de palavras contida nela

A combinação dos dados gerados pelas análises de mineração textual, nos permitiram identificar moléculas de interesse e suas subsequentes vias, para as nossas análises futuras.