• Nenhum resultado encontrado

mais a informação do grupo é considerada como importante. A restrição de cada frase a apenas um cluster é uma desvantagem do agrupamento de frases, porém para sumarização de um domínio específico, esse método pode dar uma boa referência dos temas que frequentemente são discutidos e do tipo de informação que um resumo deveria transmitir.

2.4

Considerações Finais

O grande número de dados textuais disponíveis na Web faz crescer a necessidade por técnicas de mineração de texto potentes. A Mineração de Texto busca obter informações relevantes de um documento de texto e por ser um campo interdisciplinar, suas vantagens podem se fornecidas a qualquer domínio que a utilize.

Na Classificação de Texto, os documentos podem ser categorizados automaticamente em níveis categóricos de documentos a partir de textos livres. Nos últimos anos, com o progresso das tecnologias da Web e redes sociais aumentou-se o interesse pela classificação de documentos de texto contendo links ou outras meta-informações.

A Clusterização é muito estudada na área de texto, essa técnica agrupa automaticamente dados textuais com base na similaridade do texto, a fim de encontrar documentos com conteúdo semelhante. Nos últimos anos, a tendência dominante de pesquisa nesta área tem sido no contexto de dados de texto para aplicações dinâmicas (como redes sociais ou aplicações de chat on-line) e heterogêneas (texto disponível no contexto das ligações e de outros dados multimídias heterogêneos) (AGGARWAL; ZHAI,2012a).

Diferentemente da sumarização e categorização, o ponto central da mineração de opinião é voltado para inferências semânticas e referência afetiva relacionada com a linguagem natural, o que não exige excessiva compreensão do texto. O contexto social inclina-se a continuar obtendo importância e um sistema inteligente a ter ainda mais acesso a conhecimentos pessoais globais de um amplo número de pessoas, por isso a mineração de opinião poderá ser mais característica para cada usuário ou grupo de propensão de usuários.

A Sumarização tem sido muito pesquisada e visa produzir um resumo de um ou mais documentos de texto. Os métodos de compactação devem ser conciliados a diversos gêneros, como páginas Web, artigos de revistas, levando em consideração a informação baseada no contexto que direciona a seleção das sentenças.

No próximo capítulo mostraremos a aplicabilidade da mineração de texto no campo da Psiquiatria, apresentando as principais pesquisas na área.

34 34 34

3

Mineração de Texto para Psiquiatria

Neste capítulo, veremos mais detalhes sobre o processo de Mineração de Texto usado na Psiquiatria. Serão discutidas algumas das principais pesquisas sobre mineração de texto, descrevendo as técnicas utilizadas. Na seção 3.1, temos uma visão geral dessa etapa. Na seção 3.2 são abordados quatro campos de aplicação na área de psiquiatria que utilizam a técnica de mineração de texto e pesquisas relacionadas. Na seção 3.3, são discutidas as relações entre os trabalhos relacionados apresentados e feita uma consideração a respeito do capítulo.

3.1

Visão Geral

Com a expansão da literatura biomédica, a Mineração de Texto está se tornando essencial para facilitar a extração de texto automatizada com a finalidade de obter informações relevantes a partir de documentos não estruturados (ABBE et al.,2015). A combinação das técnicas de Inteligência Artificial, Processamento de Linguagem Natural e Recuperação de Informação, ajuda a Mineração de Dados na compreensão da complexa metodologia analítica da linguagem escrita (COHEN; BLATTER; PATEL,2008) (RZHETSKY; SERINGHAUS; GERSTEIN,2009).

O primeiro uso da MT foi em informações de segurança para agências governamentais, com a finalidade de detectar alertas terroristas e outras ameaças a segurança e só posteriormente foi adaptado a outros campos, como a medicina (MEYSTRE et al.,2008). As ferramentas de MT estão se tornando mais precisas e sofisticadas, ao ponto de poderem ser aplicadas a áreas generalizadas, como a psiquiatria por exemplo.

3.2

Campos de Aplicação

Esta seção apresenta trabalhos que utilizam a mineração de texto no campo da psiquiatria. Os trabalhos estão subdivididos em quatros áreas, de acordo com os principais temas identificados no estudo de (ABBE et al.,2015): (1) Psicopatologia (estudos com foco em doenças mentais); (2) Perspectiva do paciente (pensamentos e opiniões de pacientes); (3) Registros médicos (segurança, descrição de tratamentos, qualidade dos cuidados, etc.) e (4) Literatura médica (reconhecimento

3.2. CAMPOS DE APLICAÇÃO 35

de novas informações científicas na literatura).

3.2.1

Psicopatologia

A psicopatologia, que estuda o sofrimento mental, pode ter registros de documentos de pacientes com observações ou narrativas escritas.

A MT pode ser útil na identificação de características semânticas específicas para um determinado estado psicológico ou doença. Dentre os trabalhos que possuem esse foco, pode-se citar o de (BERNARDI; TUZZI,2011), que ilustra exemplos do uso de medidas quantitativas baseadas em textos léxicos dentro de um contexto particular de comunicação. O trabalho desenvolvido tem por base um corpus composto de doze ensaios produzidos, por seis indivíduos com autismo e seis participantes sem nenhuma deficiência, durante sessões de comunicação facilitada. O objetivo principal é comparar a comunicação escrita de pacientes com distúrbios do espectro do autismo com a escrita do grupo de controle. Outros trabalhos com base similar são mencionados a seguir.

Piolat (PIOLAT; BANNOUR,2009) propõe o estudo sobre o impacto da ansiedade dos alunos através da forma como eles descrevem seus sentimentos (em texto) depois de passar ou não em um exame. Esse desenvolvimento se deu através da análise e identificação de traços específicos de um estado psicológico, com o uso de MT.

Outra aplicação que utiliza mineração de texto voltada a psicopatologia é descrita no artigo de Yang (YANG et al.,2009). Esse trabalho analisa o impacto do encarceramento no estado psicológico de reclusos que cumprem penas longas. Em um inquérito epidemiológico, da saúde psicológica de prisioneiros na França, foram recolhidas respostas narrativas breves de cinquenta e nove presos. Esses dados textuais serviram de base para análise de conteúdo qualitativo e análise linguística.

Técnicas de Associação podem ser usadas no processo de mineração de texto, como por exemplo testes de correlação (ZHANG et al.,2009). No trabalho citado, Zhang investiga o papel dos diferentes aspectos da tensão psicológica de jovens que cometeram suicídio na zona rural Chinesa. O estudo teve como base cento e cinco suicídios e o contexto e motivo do ocorrido foram obtidos através de entrevistas com sobreviventes e amigos íntimos.

3.2.2

Perspectiva do Paciente

O campo de pesquisa Perspectiva do Paciente relaciona-se aos pensamentos, sentimentos e comportamentos dos pacientes. O número de pacientes ou familiares que interagem pela Internete compartilham sobre experiências relacionadas as suas doenças ou terapias realizadas para combatê-las tem crescido bastante (ABBE et al.,2015). A essas mensagens de experiências pessoais expostas em sites, grupos de discussão, redes sociais foi dado o nome de Perspectiva do Paciente.

3.2. CAMPOS DE APLICAÇÃO 36

Os meios de comunicação Web concedem formas para que as pessoas possam com- partilhar opiniões e experiências de vida e auxiliar, assim, com informações que vão além das fornecidas por profissionais do domínio. No trabalho de (CAMERON et al.,2013) é relatado o desenvolvimento de uma plataforma Web semântica chamada PREDOSE que busca simplificar o aprendizado epidemiológico de prescrição de atos de excesso de drogas utilizando a mídia social. O PREDOSE utiliza posts em um fórum Web de conhecimento de domínio que são mo- delados para uma ontologia de Abuso de Drogas elaborada de modo manual para descomplicar a extração de informação semântica do conteúdo geral do usuário. Essa extração é feita através da combinação de técnicas lexicais, apoiadas em semântica baseada em padrões. Avaliações realizadas das técnicas de extração aplicadas indicaram 85% de precision e 72% de recall para identificação de entidades, no conjunto de dados, com base em um padrão de ouro que foi criado manualmente.

É possível predizer a saúde física e mental das pessoas de acordo com as palavras que elas usam, porém o processo para lidar com essas palavras é complicado. No artigo (HE;

VELDKAMP; VRIES,2012) foi desenvolvida uma técnica de avaliação textual para encontrar

pacientes que possuam Transtorno de Estresse Pós-Traumático (TEPT) . Foram usados processos lexicais nas auto narrativas através de técnicas de mineração de texto. Foram utilizadas trezentos relatos recolhidos on-line, e então extraídas as palavras-chaves intensamente discriminativas para construção de um modelo de avaliação textual para classificar pessoas que possuem ou não TEPT.

Em (NEUMAN et al.,2012) é apresentado o sistema que implementa a metodologia pedesispara coleta das associações representativas relacionadas a depressão e para extração dos domínios conceituais relevantes para descrevê-las. Com esse sistema é possível avaliar automaticamente, em um texto, o nível de depressão de uma pessoa ou se a depressão é o tópico principal abordado no documento. Ou seja, a depressão pode ser percebida de forma automática em textos e o sistema de saúde mental poderá se favorecer desta habilidade de seleção.

Vários textos psiquiátricos, que expressam problemas depressivos, são publicados por usuários da Internet através de serviços Web, tais como fóruns e blogs. Esses textos são escritos em linguagem natural e podem fornecer informações sobre os problemas dos autores, como por exemplo no estudo (WU; YU; CHANG,2012) que demonstra a obtenção de padrões de linguagem entre sentenças para identificação de causalidade a partir de textos psiquiátricos disponibilizados on-line em uma clínica psiquiátrica virtual mantida por um grupo de profissio- nais voluntários da Associação de Taiwan Mental Health Informatics.

Diversos eventos negativos, como a perda do emprego ou a morte de um ente querido, podem provocar episódios depressivos, por isso reconhecer automaticamente tais eventos é interessante para serviços psiquiátricos. No estudo (YU et al.,2011) são representados padrões de linguagem de associação como processo para classificar frases que contenham eventos negativos da vida em categorias pré-definidas (como, família, amor e trabalho, por exemplo). No trabalho citado foi combinado um algoritmo supervisionado de mineração de dados com

3.2. CAMPOS DE APLICAÇÃO 37

um modelo semântico distribuído sem supervisão para descoberta de padrões de linguagem de associação. Resultados experimentais apresentados por Liang-Chih Yu mostraram que os padrões de linguagem de associação são características importantes para classificação de eventos de vida negativos.

3.2.3

Registros Médicos

Registros Médicos (RM) que armazenam informações de pacientes de forma eletrônica são cada vez mais usados. Nesses registros são inclusos, histórico médico, tratamentos, testes e resultados de laboratórios entre outros. No entanto, os dados armazenados nesses registros são desestruturados e difíceis de analisar para possivelmente detectar problemas de segurança, sintomas, coexistência de transtornos ou doenças, características e subgrupos de terapias de pacientes, dentre outros. (ABBE et al.,2015).

Em (ERIKSSON et al.,2013) é apresentado um método que visa identificar possíveis Eventos Adversos (EAs) e, especialmente, possíveis Eventos Adversos a Drogas (EADs) em narrativas clínicas dinamarquesas. Foi utilizado um resumo de características de medicamentos de 7446 drogas para construção do dicionário EAD dinamarquês. Os dados textuais foram estruturados para possibilitar o processo de análise computacional e partir do dicionário EAD foi possível desenvolver um método para identificar possíveis EADS na narração textual clínica desestruturada.

Os RMs oferecem grande oportunidade para exploração em grande proporção na psiquia- tria, porém esses estudos necessitam de ferramentas que auxiliem na definição do resultado do tratamento. Um exemplo de ferramenta com essa finalidade pode ser vista em (PERLIS et al., 2012). Perlis descreve o desenvolvimento de uma ferramenta que utiliza PLN para classificar o estado clínico transversal utilizando anotações textuais narrativas.

Outro fator ligado as pessoas com transtornos mentais é a alta prevalência do tabagismo, importante problema de saúde pública. Visando analisar a prevalência e correlatos do tabagismo em pessoas com doença mental grave (WU et al.,2013) foram investigados em RMs casos diagnosticados com esquizofrenia ou transtorno bipolar. A aplicação ’CRIS-IE-Fumante’ usou um software de PLN para extrair informações do status de fumantes, através de campos de texto aberto.

Demonstrações de como registros de hospitais psiquiátricos podem consentir o reco- nhecimento de correlações entre doenças podem ser vistas em (ROQUE et al.,2011). A abor- dagem apresentada utiliza um dicionário baseado na Classificação Internacional de Ontologia de Doenças1e essa identificação da correlação entre as doenças pode possibilitar que elas sejam mapeadas para estruturas de biologias de sistemas. Com a mineração de texto livre de registros de pacientes, é possível acrescer o conhecimento das doenças, para obter um perfil abundante de caracteres visíveis de cada paciente.

3.2. CAMPOS DE APLICAÇÃO 38

3.2.4

Literatura Médica

O número de artigos da literatura biomédica vem crescendo atualmente e a exploração dos mesmos se torna mais praticável com o uso de MT (ABBE et al.,2015). Os estudos atuais podem abordar sobre terminologias clínicas, identificação de genes de susceptibilidade em síndromes e reconhecimento de especialistas em um domínio científico.

Ferramentas de Mineração de Texto podem ser utilizadas para redução do trabalho de diversas áreas, como por exemplo para produzir e manter revisões sistemáticas (WALLACE et al., 2012). Nesse trabalho foram usados processos que resumem artigos indexados à MEDLINE2em campos inteiros exercendo técnicas de revisão sistemática e conclui-se que as metodologias de mineração podem reduzir o trabalho de atualização das revisões sistemáticas.

Na área biomédica, as técnicas de MT podem extrair automaticamente informações relevantes de grandes volumes de publicações que complementam métodos de bioinformática na análise de dados gerados experimentalmente, como em (GONG et al.,2012) que disponibiliza uma abordagem para prever genes de susceptibilidade do autismo da literatura biomédica. Os resultados prognosticados integram a base de dados típica dos genes de susceptibilidade de autismo.

A manifestação de doenças genéticas está ligada a uma rede de genes causativa e definir a associação entre essa rede de genes e as possíveis doenças conexas pode ser um processo complexo. O estudo (SARKAR,2012) pesquisa a relação entre essas doenças por meio da adequação de uma abordagem precursora no âmbito da recuperação de informação, o modelo espaço vetorial. Os resultados do trabalho citado sugeriram que o uso da abordagem do modelo espaço vetorial pode ser útil para identificação de novas potenciais relações entre doenças complexas, para assim permitir a coordenação dos resultados baseados nos genes de várias doenças complexas.

A área de Estimulação Magnética Transcraniana (EMT) possui papel importante na psiquiatria, neurologia e neurociência e há vários comentários de elevada qualidade sobre essa área que podem auxiliar no parecer de tendências pré-definidas, porém não permitem encontrar novas tendências dentro da literatura (DIAS et al.,2011). Nesse trabalho, a mineração de dados e mineração de texto é usada para descoberta de padrões dentro da literatura de EMT em sua totalidade, tal como as tendências inerentes da bibliografia atual sobre EMT para o tratamento da depressão.

Em biomedicina, parte relevante da literatura publicada está disponível de forma eletrônica, incitando o desenvolvimentos de aplicações de mineração de texto para extração automática de informações (AGARWAL; YU; KOHANE,2011). Porém, os trabalhos de mineração de texto inclinam-se a se concentrar apenas em eventos positivos. Nesse trabalho, Agarwal propõe que eventos biomédicos negados carregam significância científica que podem ajudar pesquisadores a formular hipóteses de investigação e desenvolve o BioNOT, um banco de dados de frases negadas

3.3. CONSIDERAÇÕES FINAIS 39

que podem ser usadas para extração dos eventos negados.

3.3

Considerações Finais

Como visto neste capítulo, a mineração de texto na área da psiquiatria já conta com várias pesquisas. Essas pesquisas podem ser divididas em quatro campos de aplicação: psicopatologia, perspectiva do paciente, registros médicos e literatura médica.

A tabela 3.1 mostra a comparação dos trabalhos relacionados citados neste capítulo, relatando algumas técnicas de pré-processamento e extração de conhecimento utilizadas pelos mesmos. Os campos de aplicação são apresentados através de números, da seguinte forma: (1) Psicopatologia; (2) Perspectiva do Paciente; (3) Registros Médicos e; (4) Literatura Médica.

Em psicopatologia, a maioria dos trabalhos citados utilizaram apenas a técnica de toque- nização no pré-processamento textual, o trabalho de (BERNARDI; TUZZI,2011) usou a técnica de stemming para realização da análise morfológica e o trabalho de (PIOLAT; BANNOUR, 2009) fez uso de ontologias para análise semântica. Com a toquenização, as informações dos documentos são alteradas para uma seguimento de caracteres delimitados por sinais primitivos como ponto, vírgula e espaço. Ainda nesse campo, o aprendizado não supervisionado foi usado em apenas um trabalho (BERNARDI; TUZZI,2011), os demais utilizaram aprendizado supervisionado, mas especificamente técnicas de classificação. A tarefa de classificação, uma das mais conhecidas e usadas, faz uso de aprendizagem de máquina para categorização de documentos.

Os trabalhos citados no campo de perspectiva do paciente apresentaram, além da to- quenização, a remoção de stopwords para análise léxica. Com a remoção de stopwords, as palavras comuns nos textos, como preposições, pronomes e artigos são eliminadas. Ainda no pré-processamento textual, um dos trabalhos apresentados (WU; YU; CHANG,2012), realizou análise sintática , enquanto que (CAMERON et al.,2013) e (YU et al.,2011) analisaram o texto com foco na semântica, através do reconhecimento de entidades mencionadas ou de etiquetagem . Todos os trabalhos desse campo de aplicação, usaram aprendizado supervisionado, um deles com a técnica de regressão logística (NEUMAN et al.,2012) e os demais com outras técnicas de classificação.

Na área de registros médicos, em relação a análise léxica, foi citado apenas o uso da toquenização, já quanto a análise semântica tiveram trabalhos que utilizaram etiquetagem (HAAS et al.,2014) (WU et al.,2013) e ontologia (ERIKSSON et al.,2013). No processo de mineração, os trabalhos relacionados empregaram, além da classificação, os métodos de regressão e de correlação.

No último campo de aplicação apresentado no capítulo, literatura médica, os trabalhos apresentados usaram a toquenização e etiquetagem no pré-processamento do texto e tiveram maior diversidade no processo de mineração, com as seguintes práticas: classificação, regras de associação, co-ocorrência, similaridade e clusterização.

3.3. CONSIDERAÇÕES FINAIS 40

A área da psiquiatria tem buscado na mineração de texto, formas de auxílio para extração do conhecimento de textos livres e científicos, a partir da extração de padrões e tendências dos textos escritos em linguagem natural.

Table 3.1: Mineração de Texto em Campos de Aplicação da Psiquiatria.

Campo Autor Tarefa Pré-processamento Extração de

Conhecimento

1 (BERNARDI;

TUZZI,2011)

Comparar comunicação escrita entre pacientes com autismo e grupo de con- trole. Toquenização, Re- moção de stopwords, Stemming Clusterização, Análise de correspondência 1 (PIOLAT; BANNOUR, 2009)

Avaliar impacto da ansiedade, a partir de conteúdo emocional. Toquenização, On- tologias Classificação 1 (YANG et al., 2009)

Analisar o impacto no estado psi- cológico de presos que cumprem pe- nas longas.

Toquenização Classificação

1 (ZHANG et al.,

2009)

Investigar aspectos psicológicos de jovens chineses que cometeram suicí- dio em zona rural.

Toquenização Classificação

2 (CAMERON

et al.,2013)

Adquirir conhecimento sobre atitudes e comportamentos do abuso de drogas.

Toquenização, Re- moção de stopwords, Reconhecimento de entidades nomeadas Co-ocorrência 2 (HE; VELD- KAMP; VRIES, 2012)

Encontrar pacientes com transtorno de estresse pós-traumático com o uso de recursos lexicais. Toquenização, Re- moção de stopwords Classificação 2 (NEUMAN et al.,2012)

Examinar associações relacionadas a depressão em textos.

Toquenização Regressão logís-

tica

2 (WU; YU;

CHANG,2012)

Obter padrões de linguagem inter- sentenciais para detectar a causalidade a partir de textos psiquiátricos.

Toquenização, Análise sintática Regras de associ- ação 2 (YU et al., 2011)

Descrever o uso de padrões de asso- ciação de linguagem para classificar frases sobre eventos negativos da vida.

Toquenização, Re- moção de stopwords, etiquetagem Classificação, Regras de associação 3 (ERIKSSON et al.,2013)

Identificar possíveis eventos adversos e possíveis eventos adversos a medica- mentos. Etiquetagem, On- tologia Classificação 3 (PERLIS et al., 2012)

Extrair dados clínicos, como resulta- dos de tratamentos com antidepres- sivos. Toquenização Classificação, Regressão Logística 3 (WU et al., 2013)

Investigar a prevalência de tabagismo e de fatores que influenciam o fumo em pessoas que recebem cuidados de saúde mental.

Toquenização, Eti-

quetagem

Regressão

3.3. CONSIDERAÇÕES FINAIS 41

Table 3.1 – Continuação da página anterior

Campo Autor Tarefa Pré-processamento Extração de

Conhecimento

3 (ROQUE et al.,

2011)

Investigar comorbidade e estratificar pacientes para descoberta de genes so- brepostos.

Toquenização Correlação

4 (WALLACE

et al.,2012)

Produzir e conservar revisões sis- temáticas.

Toquenização Classificação

4 (GONG et al.,

2012)

Predizer genes de susceptibilidade do autismo Toquenização, etiquetagem Regras de associação, Co-ocorrência 4 (SARKAR, 2012)

Identificar potenciais relações entre

Documentos relacionados