• Nenhum resultado encontrado

Para agregar mais informac¸˜oes e opc¸˜oes de busca ao sistema F´acil Bula, foram estuda- dos alguns bancos de dados da biomedicina. A Tabela 2 apresenta alguns dos muitos bancos de dados encontrados, em que as colunas se organizam por nome e referˆencia do banco de dados, tipo de informac¸˜ao que diz respeito (base de f´armacos, doenc¸as, genes ou reac¸˜oes adversas) e como foi utilizada ou estudada no projeto.

DrugBank (WISHART et al., 2008) F´armaco Termos relacionados a f´armacos encontrados no t´opico composic¸˜ao e interac¸˜oes das bulas m´edicas.

TTD (ZHU et al., 2010) F´armaco

Banco de dados que fornece informac¸˜oes sobre as prote´ınas terapˆeuticas, a doenc¸a associada, referˆencia de vias metab´olicas, a

efic´acia dos alvos e os f´armacos relacionados.

OMIM (HAMOSH et al., 2005) Genes Destaca uma base de genes humanos e fen´otipos gen´eticos, contˆem

informac¸˜oes sobre desordens mendelianas e mais de 15.000 genes.

KEGG (KANEHISA; GOTO, 2000) Genes

Compreende func¸˜oes de alto n´ıvel e utilidades do sistema biol´ogico, tal como a c´elula, o organismo e o ecossistema, a partir da informac¸˜ao a

n´ıvel molecular, em especial os conjuntos de dados moleculares em larga escala geradas por sequenciamento do genoma.

CTD (DAVIS et al., 2015) F´armaco, Doenc¸a e

Genes

Relac¸˜ao entre f´armacos e doenc¸as encontrados em v´arios t´opicos das bulas de medicamentos.

SNOMED-CT (C ˆOT ´E; PATHOLOGISTS;

ASSOCIATION, 1993) Doenc¸a

Termos m´edicos, procedimentos cir´urgicos, doenc¸as entre outros encontrados nos textos dos t´opicos do arquivo da bula. DO (SCHRIML et al., 2012) Doenc¸a Ontologia de doenc¸as, dispon´ıvel em L´ıngua Inglesa, referente `as

informac¸˜oes dos medicamentos.

DDS (BROWN, 2001) Doenc¸a Pesquisa informac¸˜oes sobre doenc¸as, sintomas, entre outros.

ORPHANET (RATH et al., 2012) Doenc¸a Doenc¸as raras, dispon´ıvel em L´ıngua Portuguesa, encontrada no t´opico indicac¸˜ao, contraindicac¸˜ao, precauc¸˜oes das bulas.

CID (WHO, 2015a) Doenc¸a Classificac¸˜ao de doenc¸as vinculadas ao conte´udo da bula de

medicamento. COSTART (HEALTH; SERVICES et al.,

1995) Reac¸˜oes adversas

Utilizado para codificac¸˜ao, arquivamento e recuperac¸˜ao para p´os-comercializac¸˜ao de reac¸˜oes adversas e relat´orio de experiˆencias

biol´ogicas.

SIDER (KUHN et al., 2010) Reac¸˜oes adversas Termos que dizem respeito a efeitos colaterais poss´ıveis ou esperados dos medicamentos.

MeSH (LIPSCOMB, 2000) Doenc¸as Apresenta amplo vocabul´ario de informac¸˜oes biom´edicas em L´ıngua

Inglesa.

Pela Tabela 2 visualizam-se as bases espec´ıficas de f´armacos DrugBank25(WISHART et al., 2008) e Therapeutic Target Database26(TTD) (ZHU et al., 2010), os termos destas bases s˜ao utilizados para pesquisa de vocabul´arios relacionados aos t´opicos das bulas profissionais, em especial aos t´opicos composic¸˜ao e interac¸˜oes de cada medicamento. H´a bases que organizam informac¸˜oes relacionadas a genes, como Online Mendelian Inheritance in Man27(OMIM) (HA- MOSH et al., 2005), Kyoto Encyclopedia of Genes and Genomes28 (KEGG) (KANEHISA; GOTO, 2000) e Comparative Toxicogenomics Database29 (CTD) (DAVIS et al., 2015). A base CTD se destaca das demais bases de genes pois tamb´em mant´em informac¸˜oes de f´armacos e doenc¸as, pois apresenta a relac¸˜ao entre eles, na qual estes termos s˜ao encontrados em v´arios t´opicos das bulas de medicamentos.

A Tabela 2 lista tamb´em bases de doenc¸as, como as bases Diseases Database Se- arch30 (DDS) (BROWN, 2001), Medical Subject Headings31 (MeSH) (LIPSCOMB, 2000) e Systematized Nomenclature of Medicine - Clinical Terms32 (SNOMED-CT) (C ˆOT ´E; PATHO- LOGISTS; ASSOCIATION, 1993) que organizam termos m´edicos, procedimentos cir´urgicos, doenc¸as entre outros que s˜ao vinculados aos textos dos t´opicos do arquivo da bula profissional. Outra ´e base Disease Ontology33 (DO) (SCHRIML et al., 2012) que diz respeito `a ontologia de doenc¸as, dispon´ıvel em L´ıngua Inglesa, referente `as informac¸˜oes dos rem´edios, enquanto que a base de Classificac¸˜ao Internacional de Doenc¸as34 (CID) (WHO, 2015a) representa a classificac¸˜ao de doenc¸as vinculadas ao conte´udo da bula de medicamento. Do mesmo modo que a base ORPHANET35 (RATH et al., 2012) apresenta a classificac¸˜ao de doenc¸as raras, dis- pon´ıvel em L´ıngua Portuguesa, encontrada no t´opico indicac¸˜ao, contraindicac¸˜ao, advertˆencias e precauc¸˜oes das bulas.

Por fim, pela Tabela 2 encontram-se a base Side Effect Resource36 (SIDER) (KUHN et al., 2010) e a base Coding Symbols for a Thesaurus of Adverse Reaction Terms37 (COS- TART) (HEALTH; SERVICES et al., 1995) que organizam termos que dizem respeito a efeitos colaterais poss´ıveis ou esperados dos medicamentos encontrados no t´opico reac¸˜oes adversas.

25htt p: //www.drugbank.ca/ 26htt p: //bidd.nus.edu.sg/group/ttd/T T D Download.asp 27htt p: //www.omim.org/api 28htt p: //www.kegg. j p/ 29htt p: //ctdbase.org/ 30htt p: //www.diseasesdatabase.com/begin.asp 31htt ps: //www.nlm.nih.gov/mesh/ 32htt p: //www.nlm.nih.gov/snomed/ 33htt p: //disease − ontology.org/ 34htt p: //www.datasus.gov.br/cid10/V 2008/cid10.htm 35htt p: //www.or pha.net/consor/cgi − bin/index.php 36htt p: //sidee f f ects.embl.de/

As bases COSTART, SIDER, DrugBank, TTD, CTD, OMIM, KEGG, SNOMED-CT, MeSH, DO, ORPHANET e CID oferecem uma quantidade de termos organizados e curados por especialistas, al´em de serem conhecidas internacionalmente tanto pelo meio acadˆemico quanto pelo comercial (software para ´area de sa´ude). Estas bases s˜ao publicadas em seus res- pectivos websites a fim de contribuir com estudo, pesquisa e tamb´em para desenvolvimento de ferramentas. Contudo, apenas em algumas bases estes termos s˜ao disponibilizados em L´ıngua Portuguesa, como ´e o caso das bases ORPHANET e CID. As demais bases est˜ao com todo seu conte´udo em L´ıngua Inglesa. Os termos dispon´ıveis em l´ıngua estrangeira dificultam as relac¸˜oes de estruturac¸˜ao das informac¸˜oes presentes nas bulas m´edicas encontradas no Bul´ario Eletrˆonico da ANVISA, visto que o conte´udo descrito na bula encontra-se em L´ıngua Portu- guesa tornando-se um problema para assimilar os termos de f´armacos e doenc¸as dispon´ıveis em outro idioma, ocasionada pela diferenc¸a de vocabul´arios existentes entre cada l´ıngua.

Figura 18 – Integrac¸˜ao ilustrada por flechas direcionais das bases de dados e o Bul´ario Eletrˆonico da ANVISA que n˜ao normaliza informac¸˜ao alguma com as bases relacio- nadas.

Fonte: Autoria pr´opria.

Na Figura 18 visualizam-se as integrac¸˜oes que as bases possuem elaboradas por meio das informac¸˜oes que cada uma disponibiliza, na qual listam-se algumas relac¸˜oes entre as bases ilustradas:

• SIDER: utiliza os f´armacos da base DrugBank e as reac¸˜oes adversas da base COSTART;

• CTD: relaciona os f´armacos da base DrugBank, juntamente com os genes das bases KEGG e OMIM com os termos de doenc¸as da base MeSH;

• DO: organiza as informac¸˜oes de doenc¸as das bases MeSH, SNOMED-CT e CID;

• ORPHANET: associa as doenc¸as da base CID e com os genes da base OMIM;

A Figura 18 mostra que o Bul´ario Eletrˆonico da ANVISA n˜ao possue informac¸˜oes estruturadas com relac¸˜ao as bases COSTART, SIDER, DrugBank, TTD, CTD, OMIM, KEGG, SNOMED-CT, MeSH, DO, ORPHANET e CID.

Para o projeto as bases TTD, OMIM, KEGG, DDS, COSTART e SIDER foram uti- lizadas como meio de estudo para visualizar as relac¸˜oes delas com outras bases e analisar a viabilidade destas para integrac¸˜ao de novos vocabul´arios para vinculac¸˜ao do conte´udo das bulas profissionais do Bul´ario Eletrˆonico da ANVISA. J´a as bases DrugBank, CTD, SNOMED-CT, DO, CID e ORPHANET foram utilizadas no desenvolvimento do trabalho de processamento das bulas e mapeamento de termos ontol´ogicos.

As bases DrugBank, CTD, SNOMED-CT, DO, CID, ORPHANET e SIDER ser˜ao detalhadas nas sec¸˜oes seguintes.

3.7.1 DrugBank

O DrugBank refere-se a um banco de dados de f´armacos, que apresenta informac¸˜oes sobre as mol´eculas das drogas, alvos de drogas e as consequˆencias biol´ogicas ou fisiol´ogicas das ac¸˜oes destas drogas. Neste banco existem muitas ferramentas embutidas para visualizac¸˜ao, classificac¸˜ao, pesquisa e extrac¸˜ao de dados de texto, imagem, sequˆencia ou estrutura (WISHART et al., 2008).

As associac¸˜oes apresentadas pela base do DrugBank s˜ao compostas por algumas li- teraturas m´edicas j´a consolidadas, como: PubMed38, e-Therapeutics39 e STAT!Ref40 (AHFS), por´em n˜ao h´a uma representac¸˜ao sistem´atica das indicac¸˜oes de medicamento que permita iden- tificar as relac¸˜oes de droga-doenc¸a (VALENTINI; RE, 2013).

3.7.2 Comparative Toxicogenomics Database(CTD)

A primeira vers˜ao da base CTD foi desenvolvida pelo Laborat´orio Biol´ogico Mount Desert Island41com a finalidade de ser um recurso para comunidade genˆomica dedicada a com- preender o significado de genes e prote´ınas no sistema humano (MATTINGLY et al., 2003). A

38htt p: //www.ncbi.nlm.nih.gov/pubmed 39htt p: //www.etherapeutics.co.uk/ 40htt p: //www.statre f .com/ 41htt ps: //mdibl.org/

CTD oferece uma combinac¸˜ao de caracter´ısticas para facilitar as comparac¸˜oes inter-esp´ecies do significado toxicol´ogico42 de genes e prote´ınas, dessa forma, promove a compreens˜ao da evoluc¸˜ao molecular, o significado das sequˆencias conservadas, a base gen´etica da sensibili- dade vari´avel aos agentes ambientas e as complexas interac¸˜oes entre o ambiente e a sa´ude humana (MATTINGLY et al., 2003).

A CTD entende que a etiologia de muitas doenc¸as crˆonicas envolve interac¸˜oes entre fatores ambientais e genes (DAVIS et al., 2008). Estes fatores modulam processos fisiol´ogicos, em que o estudo dessas entre as substˆancias qu´ımicas ambientais, e genes ou prote´ınas, forne- cem conhecimento sobre os mecanismos de ac¸˜ao de produtos qu´ımicos, sensibilidade `a doenc¸a, toxicidade e interac¸˜oes medicamentosas terapˆeuticas (DAVIS et al., 2008).

Por fim, a CTD representa uma rede referente `a relac¸˜ao qu´ımica-gene, qu´ımico-doenc¸a e interac¸˜oes gene-doenc¸a. Essa rede utiliza dados que est˜ao curados manualmente a partir da literatura cient´ıfica apresentada por co-autores profissionais que utilizam vocabul´arios contro- lados, ontologias e notac¸˜ao estruturada para sua organizac¸˜ao, que juntos facilitam a construc¸˜ao das redes de qu´ımica-gene-doenc¸a desta base (DAVIS et al., 2015).

3.7.3 Systematized Nomenclature of Medicine - Clinical Terms(SNOMED-CT)

O SNOMED-CT ´e uma biblioteca de terminologias cl´ınicas padronizadas, licenciada pela National Library of Medicine, a qual inclui uma cobertura abrangente de termos relaci- onados `as doenc¸as, achados cl´ınicos, terapias, procedimentos e resultados, al´em de fornecer terminologias fundamentais para codificar um registro de sa´ude eletrˆonico (ELEVITCH, 2005).

A base SNOMED-CT simplifica a pesquisa de doenc¸as e sintomas, no entanto para uti- liz´a-la ´e necess´ario identificar a representac¸˜ao dos dados disponibilizados por meio das relac¸˜oes fornecidas pelos c´odigos do SNOMED-CT. Estas hierarquias representam somente a organizac¸˜ao l´ogica dos dados, um exemplo desta apresentac¸˜ao dos dados est´a presente na Figura 19. N˜ao existe indicac¸˜ao sobre qual seria o melhor caminho para um paciente em uma determinada situac¸˜ao atual, ou correlac¸˜ao entre n´ıvel superior de c´odigos do SNOMED-CT (CIOLKO; LU; JOSHI, 2010).

42Toxicologia: estudo sobre o efeito nocivo proporcionado pela interac¸˜ao de um agente t´oxico em um sistema

Figura 19 – Representac¸˜ao gr´afica da relac¸˜ao “´e um” do SNOMED-CT. Fonte: Adaptado de (DONNELLY, 2006).

3.7.4 Disease Ontology(DO)

Ontologia ´e uma t´ecnica de classificac¸˜ao e organizac¸˜ao de informac¸˜oes, cujo objetivo principal diz respeito `a representac¸˜ao formal de conhecimento (GUARINO, 1998). Geralmente s˜ao criadas por especialistas do respectivo assunto em quest˜ao, tendo sua estrutura baseada na descric¸˜ao de conceitos e dos relacionamentos semˆanticos entre eles, as ontologias geram uma especificac¸˜ao formal e expl´ıcita de um conceito compartilhado (BERNERS-LEE et al., 2001).

Nesse contexto, a DO43 ´e uma base de conhecimento sobre doenc¸as humanas, que inte- gra o significado destas e vocabul´arios m´edicos por meio de mapeamento cruzado de termos de doenc¸as espec´ıficos e c´odigos identificadores relacionados na integrac¸˜ao entre as bases MeSH, CID, do NCI thesaurus, SNOMED-CT e OMIM (SCHRIML et al., 2012).

A DO ´e utilizada por bancos de dados biom´edicos para anotac¸˜ao sobre doenc¸as, na qual destaca-se como um padr˜ao de base para representac¸˜ao da doenc¸a humana em ontologias biom´edicas (SCHRIML et al., 2012).

A vers˜ao atual da DO possui uma comunidade de pesquisa ampliada e membros que fornecem orientac¸˜ao para curadoria especialista da base. Dessa forma, a DO expande sua uti- lidade em ontologias para ter seu uso vinculado a exames e comparac¸˜oes de variac¸˜ao gen´etica, fen´otipo, prote´ına, dados de f´armacos e de ep´ıtopos por meio das doenc¸as humanas (KIBBE et al., 2014).

3.7.5 Classificac¸˜ao Internacional de Doenc¸as (CID)

A CID ´e uma ferramenta que provˆe o diagn´ostico padr˜ao sobre epidemiologia, gest˜ao da sa´ude e fins cl´ınicos, atrelado `a an´alise da situac¸˜ao geral de sa´ude dos grupos populacionais. Dessa forma exibe a situac¸˜ao geral de sa´ude dos pa´ıses e populac¸˜oes, com a finalidade de monitorar a incidˆencia e prevalˆencia de doenc¸as e outros problemas de sa´ude (WHO, 2015a).

A CID ´e utilizada por diversos profissionais da ´area de sa´ude, e tamb´em por pesquisa- dores, gestores de informac¸˜ao e programadores, profissionais de tecnologia da informac¸˜ao, para a classificac¸˜ao de doenc¸as e outros problemas de sa´ude, incluindo certid˜oes de ´obito e registros de sa´ude, a fim de fornecer a base para a elaborac¸˜ao de estat´ısticas de mortalidade e morbilidade nacionais por Estados Membros da OMS (WHO, 2015a).

A classificac¸˜ao utilizada pela CID est´a dividida em 22 cap´ıtulos, nomeados pelo sis- tema de numerac¸˜ao romana. Alguns cap´ıtulos representam as seguintes relac¸˜oes, conforme definic¸˜ao da OMS (WHO, 2015b):

• Cap´ıtulos I at´e XVII: referem-se a doenc¸as e outras condic¸˜oes m´orbidas;

• Cap´ıtulo XIX: diz respeito a les˜oes, envenenamento e algumas outras consequˆencias de causas externas;

• Cap´ıtulo XVIII: abrange sintomas, sinais, achados cl´ınicos e laboratoriais anormais, n˜ao classificados em outra parte;

• Cap´ıtulo XX: usado para causas externas de morbidade e mortalidade;

• Cap´ıtulo XXI: ligado a fatores que influenciam o estado de sa´ude e o contato com servic¸os de sa´ude.

Cada cap´ıtulo mant´em um conjunto de doenc¸as espec´ıficas que s˜ao organizadas em grupos e possuem relac¸˜ao com o tema abordado pelo cap´ıtulo. Cada doenc¸a disp˜oe de um c´odigo CID ´unico, que ´e simbolizado por caracteres, sendo o primeiro caracter uma letra e o resto uma sequˆencia num´erica (WHO, 2015b). Dessa forma, os registros s˜ao organizados em termos amplos at´e nomes de doenc¸as mais espec´ıficas. Como por exemplo, os registros disponi- bilizados referente `a “demˆencia na doenc¸a de Alzheimer de in´ıcio precoce” que ´e exemplificada pelo DATASUS44 como sendo uma doenc¸a pertencente ao Cap´ıtulo V, que abrange os Transtor- nos mentais e comportamentais, dentro do Grupo F00 - F09, que diz respeito aos Transtornos

mentais orgˆanicos, inclusive os sintom´aticos, e por fim ´e um termo do C´odigo F00 que relaci- onada `a Demˆencia na doenc¸a de Alzheimer. A organizac¸˜ao destas informac¸˜oes ´e ilustrada pela Figura 20.

Figura 20 – Organizac¸˜ao da CID para demˆencia na doenc¸a de Alzheimer de in´ıcio precoce.

Fonte: Autoria pr´opria.

No Brasil, o Departamento de Inform´atica do Sistema ´Unico de Sa´ude (DATASUS), ´org˜ao que integra a Secretaria de Gest˜ao Estrat´egica e Participativa do Minist´erio da Sa´ude, que tem como responsabilidade disponibilizar sistemas de informac¸˜ao e suporte de inform´atica, necess´arios ao processo de planejamento, operac¸˜ao e controle aos ´org˜aos do SUS (DATASUS, 2015).

O DATASUS disponibiliza uma p´agina referente `a CID45com informac¸˜oes atualizadas em sua 10a Revis˜ao. Esta p´agina provˆe dados normalizados sobre doenc¸as que s˜ao organiza- dos por cap´ıtulos, grupos e doenc¸as, e tamb´em possibilita o download de uma ferramenta que permite a partir de um nome, parte do nome ou c´odigo, localizar as informac¸˜oes sobre a CID.

Nesse contexto, ´e estabelecido pela Resoluc¸˜ao-RDC No140, de 29 de maio de 2003 da ANVISA, a adoc¸˜ao da CID ao se referir a sinais, sintomas e doenc¸as para elaborac¸˜ao do texto das bulas (ANVISA, 2003).

3.7.6 ORPHANET

A ORPHANET ´e um portal46webmultil´ıngue, constitu´ıdo por um cons´orcio de cerca de 40 pa´ıses europeus, que fornece informac¸˜oes sobre doenc¸as raras e medicamentos. Possui uma base de representac¸˜ao de doenc¸as raras mapeadas por meio de dados da CID, SNOMED- CT, MeSH, MedDRA e UMLS, al´em de cruzar informac¸˜oes de genes publicados por meio das bases especialistas como HUGO que disponibiliza o HUGO Gene Nomenclature Committee, o UniProt, o OMIM e o GenAtlas (RATH et al., 2012).

A ORPHANET permite a extrac¸˜ao de volumosos conjuntos de dados que geram dife- rentes pontos de vista, e podem ser usados em bioinform´atica para responder quest˜oes comple-

45htt p: //www.datasus.gov.br/cid10/V 2008/cid10.htm 46htt p: //www.or pha.net

xas, com o objetivo de servir `as necessidades de pesquisadores e da ind´ustria farmacˆeutica no desenvolvimento de medicamentos para doenc¸as raras (RATH et al., 2012).

Doenc¸as raras s˜ao pouco representadas em classificac¸˜oes internacionais, por´em a base ORPHANET disponibiliza dados para uma das principais necessidades presentes nos sistemas de informac¸˜ao de sa´ude e de investigac¸˜ao, cujo interesse est´a voltado ao compartilhamento e integrac¸˜ao de dados provenientes de maneira heterogˆenea, com diversas terminologias de referˆencia (RATH et al., 2012).

3.7.7 Side Effect Resource(SIDER)

O entendimento das mol´eculas dos fen´otipos causados por f´armacos em humanos ´e essencial para elucidar os mecanismos de ac¸˜ao e o desenvolvimento de medicamentos persona- lizados, de modo que os efeitos colaterais s˜ao respostas fenot´ıpicas do organismo humano ao tratamento com f´armacos (KUHN et al., 2010).

Os efeitos colaterais dos medicamentos (tamb´em conhecidos como reac¸˜oes adversas a medicamentos) s˜ao uma importante fonte de informac¸˜ao fenot´ıpica do organismo humano, por´em o conhecimento de toda as informac¸˜oes necess´arias para pesquisa ´e dificultada pela aces- sibilidade insuficiente de dados (KUHN et al., 2010).

A base SIDER cont´em 62.269 efeitos adversos relacionados a f´armacos, conectados por meio de 888 f´armacos vinculados a 1.450 termos relacionados a efeitos colaterais, obti- dos da minerac¸˜ao de textos das bulas de medicamentos disponibilizadas pelo FDA e cruzados com termos de efeitos adversos disponibilizados pelo banco de dados Coding Symbols for a Thesaurus of Adverse Reaction Terms(COSTART) (KUHN et al., 2010).

4 MATERIAIS E M ´ETODOS

Este cap´ıtulo apresenta os m´etodos desenvolvidos para os problemas apresentados no Cap´ıtulo 2 utilizando t´ecnicas e modelos que foram descritos no Cap´ıtulo 3. Os seguintes assuntos ser˜ao abordados:

• vis˜ao geral do workflow de processamento das bulas profissionais;

• m´etodo para aquisic¸˜ao das bulas profissionais dispon´ıveis no Bul´ario Eletrˆonico da AN- VISA;

• processamento do arquivo PDF da bula profissional e tratamento do texto nele contido;

• identificac¸˜ao e segmentac¸˜ao dos t´opicos de cada bula;

• identificac¸˜ao de termos relevantes no texto de cada regi˜ao segmentada da bula;

• integrac¸˜ao da bula profissional com outras bases de dados;

• construc¸˜ao da base de dados baseada em grafo.