Disorderclassifier: classificação de texto para categorização de transtornos mentais

(1)

Francisca Pâmela Carvalho Nunes

DISORDERCLASSIFIER: CLASSIFICAÇÃO DE TEXTO PARA

CATEGORIZAÇÃO DE TRANSTORNOS MENTAIS

Dissertação de Mestrado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

RECIFE 2016

(2)

Francisca Pâmela Carvalho Nunes

DISORDERCLASSIFIER: CLASSIFICAÇÃO DE TEXTO PARA

CATEGORIZAÇÃO DE TRANSTORNOS MENTAIS

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Univer-sidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientador: Prof. Dr. Ricardo Bastos Cavalcante Prudêncio Co-Orientador: Profa. Dra. Flávia de Almeida Barros

RECIFE 2016

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

N972d Nunes, Francisca Pâmela Carvalho

Disorderclassifier: classificação de texto para categorização de transtornos mentais / Francisca Pâmela Carvalho Nunes. – 2016.

87 f.: il., fig., tab.

Orientador: Ricardo Bastos Cavalcante Prudêncio.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2016.

Inclui referências e anexos.

1. Inteligência artificial. 2. Mineração de texto. I. Prudêncio, Ricardo Bastos Cavalcante (orientador). II. Título.

006.3 CDD (23. ed.) UFPE- MEI 2016-141

(4)

Francisca Pâmela Carvalho Nunes

DisorderClassifier: classificação de texto para categorização de

transtornos mentais

Dissertação apresentada ao Programa

de

Pós-

Graduação em Ciência da

Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação.

Aprovado em: 23/08/2016

BANCA EXAMINADORA

__________________________________________________ Prof. Dr. Alex Sandro Gomes

Centro de Informática / UFPE

___________________________________________________ Prof. Dr. Renato Fernandes Corrêa

Centro de Artes e Comunicação/UFPE

___________________________________________________ Prof. Dr. Ricardo Bastos Cavalcante Prudêncio

Centro de Informática / UFPE (Orientador)

(5)

Aos meus pais, Carmo Leal dos Santos e Francisca Almeida de Carvalho dos Santos E ao meu marido, Celles Antônio Lacerda Nunes Carvalho

(6)

Agradecimentos

Agradecer quem nos ajuda a vencer os obstáculos e que permanece ao nosso lado em tempos de luta e de vitória é algo gratificante, porém complicado, pois faltam palavras para expressar tamanha gratidão.

Sou grata pela vida do meu marido, Celles Nunes, que me deu todo apoio para prosseguir rumo a essa conquista. Te amo e sei que posso contar sempre com você.

Agradeço aos meus pais, por terem fé que dias melhores viriam e pelas palavras de ânimo, e a minha irmã por ouvir meus desabafos. Enfim, a toda a minha família.

Agradeço ao orientador Ricardo Bastos e a co-orientadora Flávia de Almeida, pelas sugestões, correções e pela paciência que tiveram comigo.

Agradeço aos meus amigos, presentes preciosos que tenho a honra de ter, que sei que também se alegram com a minha alegria. Em especial, quero agradecer aos meus manos Danila e Kaio que vivenciaram parte da minha luta e sofreram juntos em suas lutas paralelas.

Um obrigada especial para o pessoal do CTI por me ceder o espaço para estudo e pelas amizades que tive a oportunidade de fazer, quero levá-las pra vida. Desse grupo, agradeço em destaque ao Guilherme, que muito me ajudou nesse processo e que mesmo em meio a tribulações não me negou seu apoio.

(7)

O mais importante de tudo é nunca deixar de se perguntar. A curiosidade tem sua própria razão de existir.

(8)

Resumo

Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível. Com o grande crescimento das redes sociais, blogs, sites em geral, foi possível estabelecer uma extensa base de conteúdo diversificado, onde os usuários apresentam suas opiniões e relatos pessoais. Esses informes podem ser relevantes para observações futuras ou até mesmo para o auxílio na tomada de decisão de outras pessoas. No entanto, essa massa de informação está esparsa na Web, em formato livre, dificultando a análise manual dos textos para categorização dos mesmos. Tornar esse trabalho automático é a melhor opção, porém a compreensão desses textos em formato livre não é um trabalho simples para o computador, devido as irregularidades e imprecisões da língua natural. Nessas circunstâncias, estão surgindo sistemas que classificam textos, de forma automática, por tema, gênero, características, entre outros, através dos conceitos da área de Mineração de Texto (MT). A MT objetiva extrair informações importantes de um texto, através da análise de um conjunto de documentos textuais. Diversos trabalhos de MT foram sugeridos em âmbitos variados como, por exemplo, no campo da psiquiatria. Vários dos trabalhos propostos, nessa área, buscam identificar características textuais para percepção de distúrbios psicológicos, para análise dos sentimentos de pacientes, para detecção de problemas de segurança de registros médicos ou até mesmo para exploração da literatura biomédica. O trabalho aqui proposto, busca analisar depoimentos pessoais de potenciais pacientes para categorização dos textos por tipo de transtorno mental, seguindo a taxonomia DSM-5. O procedimento oferecido classifica os relatos pessoais coletados, em quatro tipos de transtorno (Anorexia, TOC, Autismo e Esquizofrenia). Utilizamos técnicas de MT para o pré-processamento e classificação de texto, com o auxilio dos pacotes de software do Weka. Resultados experimentais mostraram que o método proposto apresenta alto índice de precisão e que a fase de pré-processamento do texto tem impacto nesses resultados. A técnica de classificação Support Vector Machine (SVM) apresentou melhor desempenho, para os fins apresentados, em comparação a outras técnicas usadas na literatura.

Palavras-Chave: Mineração de Texto. Classificação de texto. Depoimentos pessoais. Transtorno mental.

(9)

Abstract

In the last few years, through the internet, communication became broader and more accessible. With the growth of social media, blogs, and websites in general, it became possible to establish a broader, diverse content base, where users present their opinions and personal stories. These data can be relevant to future observations or even to help other people’s decision process. However, this mass information is dispersing on the web, in free format, hindering the manual analysis for text categorization. Automating is the best option. However, comprehension of these texts in free format is not a simple task for the computer, taking into account irregularities and imprecisions of natural language. Giving these circumstances, automated text classification systems, by theme, gender, features, among others, are arising, through Text Mining (MT) concepts. MT aims to extract information from a text, by analyzing a set of text documents. Several MT papers were suggested on various fields, as an example, psychiatric fields. A number of proposed papers, in this area, try to identify textual features to perceive psychological disorders, to analyze patient’s sentiments, to detect security problems in medical records or even biomedical literature exploration. The paper here proposed aim to analyze potential patient’s personal testimonies for text categorization by mental disorder type, according to DSM-5 taxonomy. The offered procedure classifies the collected personal testimonies in four disorder types (anorexia, OCD, autism, and schizophrenia). MT techniques were used for pre-processing and text classification, with the support of software packages of Weka. Experimental results showed that the proposed method presents high precision values and the text pre-processing phase has impact in these results. The Support Vector Machine (SVM) classification technique presented better performance, for the presented ends, in comparison to other techniques used in literature.

(10)

Lista de Figuras

2.1 Estrutura de Mineração de Texto (AKILAN,2015). . . 19

2.2 Etapas da Mineração de Texto (Autoria Própria). . . 20

2.3 Processo de Toquenização (Autoria Própria). . . 21

2.4 Processo de Remoção de Stopwords (Autoria Própria). . . 21

2.5 Processo Stemming (RAMASUBRAMANIAN; RAMYA,2013). . . 22

2.6 Processo de Classificação de Texto (IKONOMAKIS; KOTSIANTIS; TAM-PAKAS,2005). . . 25

2.7 Arquitetura de um sistema de Análise de Sentimentos (FELDMAN,2013). . . 29

4.1 Arquitetura Geral do Sistema (Autoria Própria). . . 44

4.2 Exemplo de uma lista gerada a partir do uso da técnica de toquenização (Autoria Própria). . . 46

4.3 Módulo de Classificação (Autoria Própria). . . 47

4.4 Diagrama de classes do sistema Entendendo Meu Transtorno (Autoria Própria). 48 4.5 Interface de entrada do sistema Entendendo Meu Transtorno. . . 49

4.6 Tela de Cadastro para o usuário (Autoria Própria). . . 50

4.7 Visualização dos depoimentos e opções de filtro (Autoria Própria). . . 51

4.8 Comentários vinculados aos depoimentos (Autoria Própria). . . 51

4.9 Adição de um novo depoimento (Autoria Própria). . . 52

4.10 Cadastro de pacientes (Autoria Própria). . . 52

4.11 Descrição do diagnóstico do paciente (Autoria Própria). . . 53

4.12 Lista de transtornos cadastrados pelo administrador (Autoria Própria). . . 53

4.13 Vídeos relativos a transtornos mentais (Autoria Própria). . . 54

5.1 Precisão dos Algoritmos de Classificação com o Uso de Três Classes (Autoria Própria). . . 59

5.2 Matrizes de Confusão do Algoritmo J48 (Autoria Própria). . . 59

5.3 Matrizes de Confusão do Algoritmo KNN (Autoria Própria). . . 59

5.4 Matrizes de Confusão do Algoritmo Naive Bayes (Autoria Própria). . . 60

5.5 Matrizes de Confusão do Algoritmo Random Forest (Autoria Própria). . . 61

5.6 Matrizes de Confusão do Algoritmo SVM (Autoria Própria). . . 61

5.7 Precisão dos Algoritmos de Classificação com o Uso de Quatro Classes (Autoria Própria). . . 62

5.8 Resultados da Área da Curva ROC com o Uso de Três Classes (Autoria Própria). 63 5.9 Resultados da Área da Curva ROC com o Uso de Quatro Classes (Autoria Própria). 63 5.10 Árvore de Decisão (J48) com o uso de 3 classes (Autoria Própria). . . 65

(11)

5.11 Árvore de Decisão (J48) com o uso de 4 classes (Autoria Própria). . . 65

A.1 Links dos relatos referentes a Anorexia Nervosa (Autoria Própria) . . . 80 A.2 Links dos relatos referentes ao Espectro Autista (Autoria Própria) . . . 81 A.3 Links dos relatos referentes ao Transtorno Obsessivo Compulsivo (Autoria Própria) 81 A.4 Links dos relatos referentes a Esquizofrenia (Autoria Própria) . . . 82

(12)

Lista de Tabelas

3.1 Mineração de Texto em Campos de Aplicação da Psiquiatria. . . 40

5.1 Transtornos Mentais que tiveram maior número de depoimentos coletados . . . 56 5.2 Parâmetros Usados no Pré-Processamento . . . 57 5.3 Pré-processamento com Melhor Desempenho para cada Algoritmo . . . 64 5.4 Resultados das Alterações de Parâmetros do Algoritmo J48 com PP4 e 3 Classes 66 5.5 Resultados das Alterações de Parâmetros do Algoritmo J48 com PP4 e 4 Classes 66 5.6 Resultados das Alterações de Parâmetros do Algoritmo KNN com PP3 e 3 Classes 67 5.7 Resultados das Alterações de Parâmetros do Algoritmo KNN com PP3 e 4 Classes 67 5.8 Resultados das Alterações de Parâmetros do Algoritmo Naive Bayes com PP4 e

3 Classes . . . 68 5.9 Resultados das Alterações de Parâmetros do Algoritmo Naive Bayes com PP2 e

4 Classes . . . 68 5.10 Resultados das Alterações de Parâmetros do Algoritmo Random Forest com PP1

e 3 Classes . . . 69 5.11 Resultados das Alterações de Parâmetros do Algoritmo Random Forest com PP4

e 4 Classes . . . 70 5.12 Resultados das Alterações de Parâmetros do Algoritmo SVM com PP1 e 3 Classes 70 5.13 Resultados das Alterações de Parâmetros do Algoritmo SVM com PP1 e 4 Classes 70

(13)

Sumário

1 Introdução 14 1.1 Motivação e Contexto . . . 15 1.2 Trabalho Realizado . . . 15 1.3 Organização do Trabalho . . . 16 2 Mineração de Texto 18 2.1 Conceitos Básicos . . . 18

2.2 Etapas da Mineração de Texto . . . 19

2.2.1 Pré-Processamento . . . 20

2.2.2 Extração de Conhecimento . . . 22

2.2.3 Pós-Processamento . . . 23

2.3 Tarefas de Mineração em Texto . . . 23

2.3.1 Classificação ou Categorização de Texto . . . 23

2.3.2 Clusterização ou Agrupamento de Texto . . . 27

2.3.3 Análise de Sentimentos e Mineração de Opinião . . . 28

2.3.4 Sumarização de Texto . . . 30

2.4 Considerações Finais . . . 33

3 Mineração de Texto para Psiquiatria 34 3.1 Visão Geral . . . 34 3.2 Campos de Aplicação . . . 34 3.2.1 Psicopatologia . . . 35 3.2.2 Perspectiva do Paciente . . . 35 3.2.3 Registros Médicos . . . 37 3.2.4 Literatura Médica . . . 38 3.3 Considerações Finais . . . 39

4 DisorderClassifier: classificação de texto para categorização de transtornos men-tais 42 4.1 Caracterização do Problema . . . 42

4.2 Arquitetura Geral . . . 43

4.3 Coleta de Documentos e Pré-Processamento dos Dados . . . 45

4.4 Classificação de Transtornos (DisorderClassifier) . . . 47

4.5 Interface com o Usuário . . . 48

(14)

13 5 Experimentos e Resultados 55 5.1 Coleta de dados . . . 55 5.2 Pré-Processamento . . . 56 5.3 Algoritmos de Classificação . . . 57 5.4 Metodologia de Experimentos . . . 57

5.4.1 Testes com Variações de Parâmetros no Pré-Processamento . . . 58

5.4.1.1 Precisão . . . 58

5.4.1.2 Curva ROC . . . 62

5.4.2 Testes com Variações de Parâmetros nos Algoritmos de Classificação . 64 5.4.2.1 Decision Tree (J48) . . . 64 5.4.2.2 KNN . . . 67 5.4.2.3 Naive Bayes . . . 68 5.4.2.4 Random Forest . . . 69 5.4.2.5 SVM (SMO) . . . 70 5.5 Considerações Finais . . . 71 6 Conclusão 72 6.1 Contribuições . . . 72 6.2 Trabalhos Futuros . . . 73 Referências 74 Anexos 79

A Fontes dos Depoimentos 80

B Taxonomia DSM-5 83

(15)

14 14 14

1

Introdução

Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível. O usuário comum, além de receber informações disponíveis na Web, pode também contribuir de forma simples com o conteúdo da mesma (por exemplo, através de fóruns, blogs, redes sociais, entre outros.).

Com isso, a Internet possui uma grande base de conteúdo diversificado. Esse fato deve-se à disponibilidade de diversas formas do internauta cooperar com experiências, opiniões, dúvidas e desabafos. Essas informações podem ajudar a área psiquiátrica a aprimorar seu conhecimento sobre transtornos mentais através de relatos disponibilizados por pessoas que vivem ou vivenciaram tal problema. Essas informações também são úteis ao usuário comum, pois contribui para um melhor entendimento do assunto com base em histórias reais.

Apesar de essa informação estar disponível, ela se encontra disseminada pela Web, em diversos formatos, o que dificulta a análise manual dos depoimentos a fim de saber a que contexto ele pertence. Uma avaliação manual poderá consumir muito tempo.

A automação dessa função é a melhor opção. Porém, o processo para que o computador identifique padrões da linguagem natural não é trivial, pois eles costumam lidar com regras e semânticas bem definidas. Quando se trata de uma linguagem com irregularidades, abreviações, gírias, como é a linguagem humana, então o processo se torna mais complexo.

Nesse contexto, surgiram sistemas de Mineração de Texto (MT) com o objetivo de extrair padrões não triviais ou conhecimento a partir de documentos de texto (TAN et al.,1999) (HE;

VELDKAMP; VRIES,2012) (XIE et al.,2013). Dentro da área de MT há diversas tarefas, uma

delas é a classificação/categorização de texto. A Classificação de Texto (CT) é um atual desafio de investigação devido a necessidade de organizar um grande e crescente número de documentos digitais no mundo todo (UYSAL; GUNAL,2014a).

Modelos de CT podem ser usados para diversos problemas, como na detecção de spams em e-mails (CHOPRA; GAIKWAD,2015), na análise de sentimentos (HADDI; LIU; SHI,2013), na área da saúde (KRALLINGER,2015) (HUH; YETISGEN-YILDIZ; PRATT,2013), entre outros.

(16)

1.1. MOTIVAÇÃO E CONTEXTO 15

linguagem natural, em categorias pré-definidas e alguns algoritmos como Árvore de Decisão, K-Vizinhos mais Próximos (KNN - K-Nearest Neighbor) e Máquinas de Suporte Vetorial (SVM - Support Vector Machine) podem ser usados para essa finalidade (WANG et al.,2013).

1.1 Motivação e Contexto

Mineração de Texto é uma área atrativa para pesquisas que tentam resolver o problema da sobrecarga de informação e a mesma faz uso de diversas técnicas, tais como, Mineração de Dados (MD) , Processamento de Linguagem Natural (PLN) e Recuperação de Informação (RI) (FELDMAN; SANGER,2007).

Segundo (SHEMILT et al.,2014), a MT tem por objetivo auxiliar no reconhecimento e estruturação de padrões em documentos diversos ou individuais, e é reconhecida por sua eficiência em classificar textos e permitir buscas mais precisas.

Tarefas surgem no contexto de Mineração de Texto ( (AGGARWAL; ZHAI,2012a)), as principais são: extração de informações, sumarização de texto, agrupamento com modelo probabilístico generativo, redução de dimensionalidade e técnicas probabilísticas. Das variadas tarefas que a MT engloba, podem ser citadas a Classificação de Texto, Análise de Sentimento, Clusterização, dentre outras. A Classificação de Texto, originalmente considerada uma forma de indexação, é uma das tarefas de MT que busca organizar dados textuais em um formato estruturado para classificação de documentos (SHOLOM M. WEISS NITIN INDURKHYA, 2015).

Pessoas que sofrem problemas semelhantes costumam compartilhar experiências pessoais através de depoimentos, ajudando assim na compreensão de que não estão sozinhas. Como exemplo, destacamos os depoimentos de pessoas com transtornos mentais que estão buscando cura ou até mesmo relatando experiências de superação. Essas histórias costumam estar espa-lhadas em diversas fontes, como blogs, sites de saúde, sistemas de clínicas particulares e redes sociais. O amplo número de documentos disponíveis na Web e a falta de estrutura relativa aos relatos pessoais dificulta encontrar histórias que se adequem ao contexto de um possível paciente.

Com o uso da Mineração de Texto é possível criar padrões e obter informações impor-tantes para categorizar documentos. A análise e extração de conhecimento de depoimentos pessoais possibilitará ao usuário obter relatos de acordo com seu interesse, a partir de uma busca por categorias, atentando-se assim ao seu contexto.

1.2 Trabalho Realizado

Neste trabalho de mestrado tivemos como objetivos estudar, desenvolver e testar um conjunto estruturado de práticas para mineração automática de texto, visando a categorização de depoimentos pessoais por tipo de transtorno mental. Foram investigadas técnicas e métodos

(17)

1.3. ORGANIZAÇÃO DO TRABALHO 16

para implementação de classificadores de texto, assim como as principais práticas para o pré-processamento dos dados textuais.

O desenvolvimento do sistema proposto foi precedido por um estudo detalhado das fases necessárias para implementação de um classificador de texto. Em especial, focamos nas etapas de pré-processamento e classificação do dados textuais.

Para escolha da técnica de classificação a ser usada no desenvolvimento do protótipo, foram estudados e comparados os algoritmos Naive Bayes, KNN, Random Forest, Decision Tree e SVM (AGGARWAL,2015). A partir das comparações realizadas, em termos de precisão e valor da Curva ROC, foi escolhido o algoritmo SVM, por ter apresentado melhor desempenho em relação aos demais.

Estudamos ainda nesse trabalho algumas taxonomias disponíveis para hierarquizar tipos de transtornos mentais, das quais foram analisadas as taxonomias CID-10 (SAÚDE, 1994), DSM-4(ASSOCIATION et al.,1994) e DSM-5 (ASSOCIATION et al.,2013a). A taxonomia DSM-5foi escolhida por ser bem estruturada e atual, com correções e atualizações a partir de outras versões.

Para proporcionar a interação do usuário com os resultados disponibilizados pelo classifi-cador, foi desenvolvida uma interface Web, onde o usuário poderá visualizar os depoimentos categorizados, além de postar um novo depoimento ou escrever comentários a partir de um deter-minado depoimento exibido. Além de pesquisar depoimentos a partir da hierarquia disponível, o usuário tem a opção de filtrar os relatos pessoais por tipo de transtorno, gênero e faixa etária do autor (quando tais informações estão disponíveis).

1.3 Organização do Trabalho

Esta dissertação está estruturada em seis capítulos. Após esta Introdução, mais cinco capítulos tratam da revisão bibliográfica e de pormenores do sistema proposto, assim como dos experimentos realizados.

Capítulo 2 - Contextualiza resumidamente o cenário da Mineração de Texto. São apresentados os principais Conceitos, as etapas da MT e como se dá a estruturação do texto.

Capítulo 3 - É apresentado o estado da arte da fase de Mineração de Texto na área da Psiquiatria, foco principal deste trabalho. São mostradas técnicas e pesquisas recentes.

Capítulo 4 - É mostrado o processo MT proposto neste trabalho. São descritos as técnicas e algoritmos usados no desenvolvimento do sistema.

Capítulo 5 - São apresentados, a metodologia e os experimentos realizados, bem como a análise dos resultados obtidos em comparação com o de outros algoritmos.

(18)

1.3. ORGANIZAÇÃO DO TRABALHO 17

Capítulo 6 - Por fim, no capítulo de conclusão é feita uma análise dos objetivos e resultados alcançados, além de propor melhorias para trabalhos futuros.

(19)

18 18 18

2

Mineração de Texto

O formato textual é um dos modos mais usadas para o armazenamento de informações. No entanto, obter conhecimento a partir desses dados ainda é um processo complexo, pois a maioria dos textos são desestruturados e muitas vezes imprecisos. A área da mineração de texto busca tornar a extração de conhecimento desses dados um processo automático.

Desenvolvimentos com mineração de texto tiveram inicio pela necessidade da catalogação de documentos de texto, porém esse foco mudou para a extração de dados de texto com uso de técnicas de Processamento de Linguagem Natural (MINER,2012).

A Mineração de Texto difere da Mineração de Dados por fazer uso de ferramentas digitais para identificar informações textuais com o objetivo de reconhecer relacionamentos e padrões em dados não estruturados (TOON; TIMMERMANN; WORBOYS,2016). Enquanto, na MD os dados a serem trabalhados já vem parcialmente estruturados para serem processados, na MT é necessário um tratamento especial na fase de pré-processamento dos dados textuais.

Neste capítulo será apresentado uma visão geral da área de Mineração de Texto. A Seção 2.1 traz os conceitos básicos de MT e aborda sobre os primeiros trabalhos nessa área. A Seção 2.2 mostra as etapas necessárias para Mineração de Texto, desde a etapa de coleta dos documentos até a fase avaliação. Na Seção 2.3 são exibidas tarefas onde a Mineração de Texto pode ser aplicada. Por fim, são feitas as considerações finais do capítulo.

2.1 Conceitos Básicos

Mineração de Texto, também conhecida como mineração de dados textuais é o processo de extração de conhecimento ou de padrões relevantes a partir de documentos de texto (TAN

et al.,1999) (AKILAN,2015). Como texto é uma das formas mais usadas para se armazenar

informação, acredita-se que a extração de conhecimento em bases textuais tem grande potencial comercial.

A Mineração de Texto é um campo que abrange diversas pesquisas como recuperação de informação, análise de texto, extração de informações, agrupamento, categorização, banco de dados, aprendizado de máquina e mineração de dados (AKILAN,2015).

(20)

2.2. ETAPAS DA MINERAÇÃO DE TEXTO 19

A MT pode ser subdivida em duas partes, o refinamento do texto que transforma do-cumentos textuais de forma livre em uma Forma Intermediária (FI) escolhida e a extração de conhecimento que deduz padrões ou conhecimento a partir da forma intermediária (AKILAN, 2015).

Figure 2.1: Estrutura de Mineração de Texto (AKILAN,2015).

Essa FI pode ser baseada no documento, onde cada entidade representa um documento ou baseada em conceito no qual cada entidade representa um objeto ou conceito de um domínio específico, como pode ser visto na Figura 2.1. A FI da mineração baseada em conceitos deriva de padrões e relações através de objetos ou conceitos, como por exemplo modelagem preditiva e descoberta associativa. Enquanto que, a FI da mineração baseada em documentos pode ser realinhada ou ter informações relevantes extraídas de acordo com objetos de interesse em um domínio específico. Por exemplo, dado um conjunto de artigos de notícias, primeiramente eles serão transformados em uma FI e em seguida será feita a extração de conhecimento com a finalidade de organizar os documentos de acordo com seu conteúdo, para fins de navegação e visualização.

2.2 Etapas da Mineração de Texto

Para realização do processo de MT é necessário primeiramente transformá-lo em uma forma estruturada de dados, para assim permitir a aplicação das técnicas necessárias (WEISS

et al., 2010). Algumas etapas são indispensáveis para a descoberta de conhecimento nos

textos, a primeira delas é a preparação dos textos, ou seja, a seleção das bases de texto. Nessa etapa, as informações presentes no texto que forem irrelevantes para sua categorização são descartadas. Após preparar os textos, os mesmos devem ser convertidos em uma representação de dados compreensível pelas técnicas de MT para assim possibilitar a extração do conhecimento. Então, o conhecimento deve ser avaliado através de métricas baseadas nos resultados ou pelo conhecimento de especialistas para que haja a validação dos resultados obtido.

Na Figura 2.2 pode ser vista as etapas básicas do processo de mineração do texto. A fase de pré-processamento dos dados é de suma importância, nela é feita a preparação dos

(21)

Figure 2.2: Etapas da Mineração de Texto (Autoria Própria).

dados para serem processados posteriormente (UYSAL; GUNAL, 2014a). Nessa etapa os documentos são selecionados e tratados. Na etapa de extração do conhecimento são aplicadas as técnicas necessárias para o objetivo da aplicação de mineração de texto. Na última etapa, pós-processamento, os resultados são analisados e validados.

2.2.1 Pré-Processamento

A fase de pré-processamento tem por finalidade preparar o conjunto de dados textuais para servir de entrada para fase de extração de conhecimento.

1. Coleta de Documentos:

O primeiro ponto a ser considerado é a pesquisa e coleta dos documentos que serão utilizados. Documentos relevantes para o processo de categorização são aqueles que possuem palavras com maior peso de relevância (WEISS et al., 2010). Os documentos podem ser coletados de redes sociais, páginas da Web, bancos de dados e de arquivos escaneados e convertidos em texto.

2. Padronização dos Documentos:

Os textos podem ser encontrados em formatos diversos, como por exemplo, .pdf, .xml, .txt, etc.. Para que o processamento de extração de características seja comum aos documentos selecionados, é necessário que os mesmos sejam convertidos para um formato padrão. Com a padronização dos documentos é possível utilizar as ferramentas de mineração de texto independente da sua origem.

3. Preparação dos Dados:

A principal finalidade do pré-processamento é transformar o texto de entrada em uma forma que possa ser processada de maneira automática por máquinas. Nessa fase acontece a limpeza dos dados e essa redução proporciona que os algoritmos sejam mais eficientes. Em uma estrutura de classificação de texto geralmente há quatro

(22)

etapas comuns, como toquenização, remoção de stopwords, conversão de letras em minúsculas e stemming (UYSAL; GUNAL,2014a).

- Toquenização: O processo em que determinada frase é divida em pequenas unidades, ou tokens, é conhecido como “Toquenização” (ASGHAR et al.,2013), Figura 2.3.

Figure 2.3: Processo de Toquenização (Autoria Própria).

- Remoção de Stopwords: diversas palavras existentes no decorrer de um texto geralmente são inúteis para extração de conhecimento, geralmente são palavras auxiliares ou conectivas, as mesmas são chamadas de stopwords (KATARIYA et al., 2015).

Figure 2.4: Processo de Remoção de Stopwords (Autoria Própria).

A remoção de stopwords poderá diminuir muito o tamanho da estrutura de indexação, Figura 2.4. Na construção de uma lista de stopwords normalmente são acrescentadas palavras como, preposições, conjunções, pronomes, artigos ou até mesmo palavras com incidência muita alta nos documentos e que não irão influir na categorização.

- Conversão em letras minúsculas: Consiste em converter todas as entradas de texto em letras minúsculas, pois a existência de letras maiúsculas e minúsculas pode dificultar o processo de toquenização.

(23)

- Stemming: Algorítmos Stemmings são usados para transformar as palavras de um texto em sua forma gramatical inicial, ou seja, em sua raiz (RAMASUBRAMANIAN;

RAMYA,2013). Cada palavra é considerada de forma isolada. Um exemplo do

processo pode ser visto na Figura 2.5.

Figure 2.5: Processo Stemming (RAMASUBRAMANIAN; RAMYA,2013).

4. Representação dos Dados:

É necessário que os dados textuais além de padronizados, sejam representados de forma estruturada e precisa, para que tenham um formato adequado para extração de conhecimento. A obtenção dessa estrutura é um dos desafios da mineração de texto.

Um dos modelos mais usados para representação dos dados é o modelo espaço-vetorial, no qual cada documento é um vetor em um espaço multidimensional e cada dimensão é um termo do conjunto (FELDMAN; SANGER,2006). Para isso, os textos podem ser estruturados em uma bag-of-words, ou seja, em uma matriz documento-termo, onde os termos são tidos independentes em um conjunto onde a ordem das palavras não é relevante.

5. Redução de Dimensionalidade:

As técnicas de redução de dimensionalidade podem ser usadas para métodos super-visionados (classificação) e não supersuper-visionados (agrupamento) e tem por objetivo minimizar o tamanho dos dados (MINER,2012). Na seleção ou transformação dos recursos são removidas características consideradas irrelevantes para classificação.

A seleção e redução dos dados é importante devido as restrições de tempo de proces-samento e espaço de memória, pois o número de exemplos e atributos disponíveis pode dificultar o uso de algoritmos de extração de padrões.

2.2.2 Extração de Conhecimento

Com a utilização da Mineração de Texto bem estruturada é possível extrair novos padrões do contexto de um problema específico. As principais classes de técnicas de extração de conhecimento estudadas em mineração de texto são (MINER,2012):

(24)

2.3. TAREFAS DE MINERAÇÃO EM TEXTO 23

Predição: por exemplo, classificação, regressão e análise de séries temporais.

Agrupamento: por exemplo, segmentação e análise de outlier.

Associação: por exemplo, análise de afinidade, análise de ligação e análise de frequência.

Análise de Tendências.

2.2.3 Pós-Processamento

Os modelos desenvolvidos devem ser avaliados quanto a sua qualidade e precisão, a partir de uma perspectiva de análise de dados, para garantir que irão realmente resolver o problema e satisfazer os objetivos para os quais foram construídos (MINER,2012).

2.3 Tarefas de Mineração em Texto

A MT pode ser dividida em diversas áreas práticas correlacionadas, com base nos aspectos únicos de cada área (MINER,2012). Algumas áreas de atuação são citadas a seguir:

Classificação ou Categorização de Texto: categorização de trechos, parágrafos ou documentos, usando métodos de classificação de mineração de dados, a partir de modelos treinados com documentos rotulados.

Clusterização ou Agrupamento de Texto: Agrupamento de termos, trechos, parágrafos ou documentos, empregando técnicas de agrupamento de mineração de dados.

Mineração Web: mineração de dados e textos na Internet, com metas inerentes a escala e interconexão da Web.

Processamento de Linguagem Natural: Processamento de linguagem de baixo nível para extração de informações.

Sumarização de Texto: produção automática de uma versão menor (resumo) de um ou mais documentos de texto.

Análise de Sentimentos ou Mineração de Opinião: considera a opinião das pessoas, seus sentimentos e emoções através da linguagem escrita.

2.3.1 Classificação ou Categorização de Texto

Com a grande disponibilidade de acesso a conteúdos Web, existe extensa quantidade de informação disponível relacionada a temas diversos. Esse fluxo de informações torna difícil

(25)

seguir o incremento de um mesmo tópico, ou seja, a classificação do conteúdo de acordo com determinado assunto.

Um domínio importante em aprendizagem de máquina é a classificação de documentos, em que cada instância representa um documento e a classe da instância é o tema do docu-mento (HALL; WITTEN; FRANK,2011). Os documentos são diferenciados de acordo com as palavras presentes neles.

Classificação de Texto é uma parte importante da Mineração de Texto. A MT busca permitir que usuários possam extrair informações a partir de recursos textuais, lidando com operações como, recuperação, classificação (supervisionada, não supervisionada e semi super-visionada) e sumarização através do uso de técnicas de Processamento de Linguagem Natural, Mineração de Dados e Aprendizagem de Máquina (KORDE; MAHENDER,2012).

A finalidade da classificação de texto, ou categorização, é classificar textos em categorias apropriadas de interesse e sua estrutura consiste na extração e seleção de características (UYSAL;

GUNAL,2014b).

Com o objetivo de atingir os objetivos mencionados na classificação de texto, geralmente são utilizadas as seguintes fases (WEISS et al.,2010):

1. Coleta de documentos: fase em que são obtidos os dados que serão usados no treinamento ou construção de classificadores.

2. Pré-processamento: fase em que a estruturação das informações é preparada para obter informações de texto, a partir de um conjunto de documentos desestruturados.

3. Fase de Treinamento: nesta fase utiliza-se aprendizagem de máquina em documentos previamente categorizados, com o objetivo de extrair conhecimento que possibilite categorizar novos documentos.

4. Classificação: novos documentos ainda não rotulados são organizados nas categorias pré-existentes a partir do aprendizado adquirido.

O problema da classificação tem sido vastamente observado nas áreas de aprendizado de máquina, banco de dados, mineração de dados e recuperação de informação e aplicado em domínios diversos, como: diagnóstico médico, organização de documentos, marketing e filtragem de grupo de notícias (AGGARWAL; ZHAI,2012a).

A classificação de texto relaciona-se com a classificação de documentos através da avali-ação de características, observando-se a ausência, presença e frequência de palavras utilizadas em um documento (AGGARWAL; ZHAI,2012a).

Existem diversas abordagens para classificação de textos em várias categorias e o uso de determinados algoritmos depende do tipo de entrada que será utilizada (GUPTE et al.,2014). A tarefa de classificar um documento em uma categoria já pré-definida, pode ser representada da seguinte forma: se di é um documento que faz parte de um conjunto de documentos D e c1, c2,...,

(26)

cné o conjunto de todas as categorias, então a classificação de texto atribuirá uma categoria cja um documento di (IKONOMAKIS; KOTSIANTIS; TAMPAKAS,2005). Na Figura 2.6, apresenta-se a representação gráfica do processo de classificação de texto:

Figure 2.6: Processo de Classificação de Texto (IKONOMAKIS; KOTSIANTIS; TAMPAKAS,2005).

Técnicas de aprendizado de máquina utilizam um conjunto de treinamento, para desen-volver um modelo de classificação que tentará distribuir um recurso de entrada em rótulos de classes correspondentes, e um de teste para validar o modelo desenvolvido (NEETHU;

RAJAS-REE,2013). Essas técnicas têm sido usadas para construção de modelos de previsão (SHIN

et al.,2011).

A escolha do algoritmo de classificação pode influenciar na precisão do resultado e, portanto, uma falha na classificação poderá acarretar em um monitoramento falho (PANG; LEE, 2004).

Faremos então, um breve estudo sobre as técnicas utilizadas na classificação de texto, mostrando a teoria de base por trás de cada uma, quando são geralmente utilizadas e seus prós e contras. Os algoritmos mostrados serão os seguintes: (1) Naive Bayes; (2) K-Nearest Neighbor; (3) Random Forest (RF) (4) Decision Trees e (5) Support Vector Machine

1. Naive Bayes Naïve Bayes é um classificador baseado no Teorema de Bayes que assume que os atributos usados na classificação são independentes entre si (GUPTE et al., 2014), o que pode ser considerado uma de suas maiores limitações. Essa técnica é popular na classificação de documentos por ser rápida e precisa (HALL;

WITTEN; FRANK,2011).

O classificador Naive Bayes pode ser usado em vários problemas do mundo real, tais como: análise de sentimentos, detecção de spam no mail, agrupamento de e-mails, categorização e detecção de conteúdos sexualmente explícitos em documentos, etc. (GUPTE et al.,2014).

O autor afirma ainda que o Naive Bayes é um algoritmo de linha de base para pesquisas na classificação do nível de decisão do problema, o mesmo é aconselhável

(27)

quando o tempo de treinamento é um fator crucial no sistema, pois requer baixo processamento de memória e menos tempo de execução.

2. K-Nearest Neighbor

O algoritmo KNN pode ser usado para categorização de texto e é relativamente simples para classificação dos documentos (MINER,2012). A classificação é baseada na distância dos "vizinhos" mais próximos dos documentos.

O processo de algoritmo KNN é a seguinte (JIANG et al.,2012): dado um documento xde teste, encontra-se os K vizinhos mais próximos de x entre todos os documentos de treinamento, e marcar os candidatos da categoria com base na categoria de vizinhos K. A semelhança de x com cada documento vizinho é a pontuação da categoria do documento vizinho. Ao classificar os scores das categorias candidatas, o sistema atribui a categoria candidata, a maior pontuação para o documento de teste x.

3. Random Forest

O algoritmo Random Forest faz uso de amostra aleatória simples de recursos para construção de suas árvores de decisão e como resultado, ele dá preferência para diver-sos subespaços que abrange poucos recurdiver-sos informativos para classe que pertence a minoria (WU et al.,2014).

A técnica RF produz uma árvore de classificação em cada iteração e a classifi-cação destas árvores individuais são combinadas para formar uma previsão final. Em cada nó da árvore um subconjunto aleatório de variáveis de previsão são sele-cionadas (APHINYANAPHONGS et al.,2014).

Devido aos aspectos complexos específicos dos conjuntos de dados de texto desequi-librados, a aprendizagem com Random Forest a partir desses dados requisita novas abordagens para ultrapassar os desafios pertinentes com a escolha da seleção de sub-espaço e corte-ponto durante a execução de divisão do nó (WU et al.,2014).

4. Decision Trees

Com a Árvore de Decisão, uma regra é gerada para cada folha da árvore e o an-tecedente da regra inclui uma condição para cada nó no caminho entre a raiz e aquela folha (HALL; WITTEN; FRANK,2011).

No contexto de dados textuais, os predicados são tipos de condições na presença ou ausência de uma ou mais palavras no documento e a divisão do espaço de dados é feita de maneira recursiva, de forma que a folha contenha um certo número de registros ou algumas condições de pureza da classe (AGGARWAL; ZHAI,2012a).

(28)

Support Vector Machineé uma técnica de aprendizagem supervisionada que examina os dados e reconhece os padrões que são empregados para a classificação (BASARI et al.,2013).

O SVM cria um classificador a partir da geração de uma superfície de decisão para partição de categorias de pontos de dados no espaço vetorial (LEE et al.,2012).

A implementação de diferentes funções do kernel é uma das característica que proporciona grande impacto sobre a precisão da classificação do SVM. Porém, essa necessidade de determinar a função do núcleo apropriado também é um dos problemas mais críticos da estrutura convencional de classificação para garantia do desempenho do classificador (LEE et al.,2012).

2.3.2 Clusterização ou Agrupamento de Texto

O problema de Clustering foi bastante estudado na literatura de banco de dados e es-tatística no contexto de trabalhos de mineração de dados (JAIN; DUBES,1988). Atualmente, o Clusteringé também muito estudado na área de texto e pode ser aplicado em segmentação de clientes, classificação, filtragem colaborativa, organização de documentos e indexação

(AGGAR-WAL; ZHAI,2012b).

As técnicas de agrupamento de documentos são baseadas na similaridade textual dos documentos (AGRAWAL; BATRA,2013). Os métodos utilizados para o agrupamento de dados textuais também podem ser usados para o agrupamento de atributos com base no conjunto. Esses dados textuais possuem um número de propriedades que devem ser consideradas (AGGARWAL;

REDDY,2013):

Os dados são excessivamente alto-dimensionais e dispersos, devido ao fato do texto léxico ser muito grande e de cada documento conter poucas palavras. Por isso, o maior número de atributos assume o valor zero.

Os valores dos atributos equivalem a frequência de palavra.

A estrutura de hyperlink de documentos presentes na Web, traduzidos no "gráfico links", onde os nós são páginas da Web e os links são hiperlinks entre eles, o que pode ser empregado como uma base distinta para clusterização (AGRAWAL; BATRA,2013). Essas representações de clustering baseados em links geralmente utilizam elementos que podem ser conciliados com uma medida de similaridade global entre documentos, como:

O número de hiperlinks que devem ser seguidos para navegar de um documento para outro pela Web.

O número de antecessores comuns entre dois documentos, moderados pela distância de ascendência e pelo número de descendentes partilhados dos documentos.

(29)

A Clusterização possui papel relevante na recuperação da informação e mineração de texto, podendo organizar dados e recuperar informações importantes a partir deles (KULKARNI;

KINARIWALA,2015). Técnicas de Agrupamento, voltadas ao domínio de texto, podem ser

aplicadas a diversas tarefas (AGGARWAL; ZHAI,2012b):

Organização de documentos e de navegação: a sistematização categórica de docu-mentos em hierarquias conexas por ser muito vantajoso para navegação, de forma organizada, de uma coleção de documentos.

Sumarização de Texto: técnicas de agrupamento podem prover um resumo coesivo da descoberta através de grupos de palavras que podem ser usadas com o propósito de fornecer dados de resumo para o conteúdo global do corpus implícito. Variações dessa técnica podem ser aplicadas para compactação de documentos e tópicos ou na redução de dimensionalidade e modelagem de tópico.

Classificação de documentos: técnicas de clusterização, com o uso de grupos de palavras e métodos de co-treinamento, podem ser empregadas a fim de melhorar a precisão da classificação de aplicações supervisionadas.

Vários algoritmos podem ser aplicados para tarefas de agrupamento e em especial os algoritmos de agrupamento particional conseguem adaptar-se bem para grandes grupos de conjuntos de dados de documentos, graças a sua baixa exigência computacional (ZHAO;

KARYPIS,2004).

2.3.3 Análise de Sentimentos e Mineração de Opinião

A opinião de outras pessoas pode ser muito importante na hora de decidir algo entre tantas opções. A "Web Social" proporciona variadas ferramentas para produzir e compartilhar ideias de forma eficiente, porém essas informações são desestruturadas, por serem produzidas para pessoas e não para máquinas (CAMBRIA et al.,2013).

Análise de Sentimentos (AS) e Mineração de Opinião (MO) é uma das áreas de inves-tigação mais impulsionadas em Processamento de Linguagem Natural, Mineração de Dados, Mineração Web e Mineração de Texto (LIU,2012). A AS estuda a opinião das pessoas, seus sentimentos, atitudes e emoções através da linguagem escrita.

Há duas abordagens principais para a análise de sentimento: aprendizagem supervision-ada e aprendizagem não supervisionsupervision-ada. A abordagem supervisionsupervision-ada lida com um conjunto determinado de classes em que o documento deve ser classificado e na abordagem sem super-visão a análise é feita pela determinação da orientação semântica de frases próprias dentro do documento (FELDMAN,2013). Na Figura 2.7 é mostrada a arquitetura geral de um sistema de análise de sentimentos genérico

(30)

Figure 2.7: Arquitetura de um sistema de Análise de Sentimentos (FELDMAN,2013).

Primeiramente uma coleção de documentos é selecionada para ser a entrada do sistema, esses documentos podem ter formatos variados, tais como, PDF, XM, HTML, etc.. Os documentos devem então ser alterados para texto para serem pré-processados. Na fase de pré-processamento, podem ser usadas diversas técnicas, tais como, stemming, toquenização, extração de entidade, uso de dicionários e etc. No módulo de análise de sentimentos são usados recursos linguísticos para escrever os documentos pré-processados e adicionar essas anotações aos documentos integrais (por sentimento baseado em documento), as sentenças individuais (por sentimento baseado na sentença) ou a aspectos próprios de entidade (por sentimento baseado em aspectos). Essas anotações são a saída do sistema.

A classificação de sentimentos, um dos principais temas de pesquisa em MO, classifica um documento de opinião enquanto define uma opinião ou sentimento como positivo ou nega-tivo (AGGARWAL; ZHAI,2012a). Essa classificação pode ser elaborada como um problema de aprendizagem supervisionada e possui três classes principais: positivas, negativas e neutras.

Assim como a maior parte das aplicações de aprendizado de máquina, a função que prevalece na classificação de sentimentos é a de arquitetar um conjunto efetivo de recursos e para isso existem algumas características que podem ser listadas (AGGARWAL; ZHAI,2012a):

Termos e sua frequência: esse método oferta palavras individuais ou palavras n-gramas e suas avaliações de frequência. As posições das palavras e a ponderação TF-IDF, de recuperação de informação, podem ser utilizadas.

Partes do discurso: os adjetivos podem ser informativos relevantes de opiniões e são considerados como características especiais.

Palavras e frases de opinião: palavras de opinião são as palavras habitualmente usadas para expressar sentimentos positivos e negativos. Diversas palavras de

(31)

opinião são adjetivos e advérbios, porém substantivos e verbos também podem indicar opiniões. Além dessas palavras peculiares, também existem frases que podem expressar opinião.

Negações: palavras de negação são significativas porque podem mudar o sentido de uma opinião e devem ser manejadas com cuidado porque nem sempre tais palavras significam negação.

Dependências sintáticas: aspectos de dependência baseados em palavras conce-bidas através de análises ou árvores de dependência são considerados por vários pesquisadores.

As palavras e frases de opinião são indicadores que prevalecem na classificação de sentimento e é natural o uso desse processo em aprendizagem não supervisionada, como por exemplo o método de (TABOADA et al.,2011) que faz uso de palavras de opinião conhecidas para realizar a classificação.

2.3.4 Sumarização de Texto

A Sumarização/Compactação tem constituído um domínio frequente de pesquisa por muitos anos e os vários enfoques vão desde métodos simples de posição e frequência de palavras a algoritmos de aprendizagem baseados em gráficos (SANKARASUBRAMANIAM;

RAMANATHAN; GHOSH,2014). O processo de sumarização visa produzir automaticamente

uma versão menor de um ou mais documentos de texto (FERREIRA et al.,2013).

As técnicas de compactação de texto podem ser circunstanciadas como extrativas e abstrativas (FERREIRA et al.,2013). Técnicas extrativas realizam a sumarização do texto pela distinção das frases presentes no documento com base em alguns critérios, ou seja, seleciona e extrai as frases mais relevantes dos documentos, enquanto que, os resumos abstrativos procuram melhorar a conexão entre as frases, pela exclusão de redundâncias e esclarecimento da disputa de frases (LLORET; ROMÁ-FERRI; PALOMAR,2013).

Uma das abordagens de sumarização que varia consideravelmente quanto ao aprimora-mento é a Abordagem de Representação de Tópico. Aqui são mostradas algumas das abordagens de tópico mais populares ou vastamente aplicadas (AGGARWAL; ZHAI,2012a):

1. Palavras tópico: a abordagem de palavras descritivas exclui as palavras mais repetidas em um documento, como por exemplo as preposições, e as palavras que ocorrem pouquíssimas vezes. Chamadas tipicamente de "Assinaturas de Tópicos" na literatura de sumarização (LIN; HOVY,2000), Assinatura de Tópicos são palavras que aconte-cem muitas vezes em alguns textos, mas são raras em outros, de forma que seu cálculo necessita de um grande conjunto de documentos e da entrada para sumarização.

(32)

É necessário conhecimento a respeito da frequência de palavras em um grande corpus tido como base de experiência (fundo), para calcular a estatística de acordo com as palavras tópico de assinatura demarcadas. A probabilidade da entrada e do corpus de fundo são calculadas em duas proposições: (H1) a probabilidade de uma palavra na entrada é a mesma que no fundo e (H2) a palavra tem probabilidade diferente, maior, na entrada do que no fundo.

A entrada e o corpus de fundo são acertados como uma ordem de palavras e a probabilidade do texto em referência a uma dada palavra de interesse é calculada com o uso de uma fórmula de distribuição binomial.

2. Abordagens baseadas na frequência:

As abordagens apresentadas nessa seção atribuem pesos não-binários pertinentes ao número de ocorrências de uma palavra ou conceito. A avaliação da probabilidade das palavras é uma das formas mais simples de usar a frequência na entrada como um indicador importante.

A viabilidade de uma palavra é medida a partir da entrada, que pode ser uma coleção de documentos associados ou um único documento. Esse cálculo é feito com o total de ocorrências de uma palavra fracionado pelo número de palavras de entrada.

O SumBasic é um sistema que utiliza a frequência como forma de selecionar sen-tenças. Ele tem por base a probabilidade da palavra para determinar sua importân-cia (VANDERWENDE et al., 2007). Para cada frase na entrada, é atribuído um peso equivalente ao da probabilidade média das palavras de conteúdo na sentença, considerados segundo a entrada para sumarização.

Dessa forma SumBasic elege a melhor frase de pontuação pelas palavras que possuem maior probabilidade. Esse método de seleção presume que em cada ponto, ao preferir uma sentença, uma única palavra (com maior probabilidade) retrata o tópico mais significativo no documento e que o propósito é escolher a melhor frase que contém essa palavra. Após a seleção da melhor frase, é acertado a probabilidade de cada palavra que sucede na frase destacada.

3. Análise semântica latente:

A Análise Semântica Latente (ASL) é um método não supervisionado potente para conceito subentendido da semântica de texto fundamentado na co-ocorrência obser-vada de palavras (DEERWESTER et al.,1990).

A ASL foi proposta para sumarização genérica única e para multi-documentos de notícia como uma forma de discernir temas relevantes em documentos sem o uso de recursos lexicais tais como WordNet (GONG; LIU,2001). A proposição inicial de Gong e Liu foi a seleção de uma frase para cada um dos tópicos principais. Eles

(33)

realizam a redução de dimensionalidade, mantendo apenas o número de sentenças que pretende dispor no sumário e a frase com maior peso para cada um dos assuntos propostos é selecionada para compor o resumo.

Sistemas que dependem de ASL exemplificam a definição dos modos de pontuação das frase. Em diversificações do algoritmo, a representação do tópico continua a mesma, enquanto o caminho das frases são apontadas e a escolha pode variar, intervindo no desempenho do sumarizador na escolha por conteúdo importante.

4. Modelos de tópicos Bayesianos:

Os modelos Bayesianos são populares e rebuscados para representação do tema proposto para sumarização (CELIKYILMAZ; HAKKANI-TUR,2010). Esse mo-delo original, para resumos de multi-documentos, procede de diversas distribuições probabilísticas diferentes para palavras que surgem na entrada (HAGHIGHI;

VAN-DERWENDE,2009).

Essas representações de modelo de tópico são interessantes porque podem reter informações que se perdem na maioria das outras abordagens, como por exemplo uma representação evidente dos documentos individuais que compõem o conjunto. A representação especificada concederá o desenvolvimento de sumarizadores melhores, que poderão disseminar as afinidades e diferenças entre os variados documentos que formam a entrada para resumos multi-documentos.

Os modelos de tópicos ressaltam a utilidade de um procedimento diferente de pon-tuação de frases: Divergência Kullback-Lieber (KL) . A divergência KL entre duas distribuições de probabilidade pode capturar a discordância na probabilidade referida aos mesmos eventos (ocorrência de palavras) pelas duas distribuições. A probabilida-de das palavras do resumo poprobabilida-de ser medida probabilida-de maneira direta, pelo número probabilida-de vezes que a palavra ocorre dividido pelo total do número de palavras.

A divergência KL oferece uma maneira de mensurar a importância das palavras, dada por suas probabilidades, e as alterações no resumo de acordo com a entrada.

5. Agrupamento de frases e tópicos dependentes do domínio:

Nos resumos multi-documentos de notícias, as entradas, equivalem a variados artigos de um mesmo tema, provavelmente de diversas fontes.

Em sumarização, a similaridade do co-seno é utilizada para determinar a similaridade entre as representações do vetor das sentenças (SALTON et al.,1997). Nesta abor-dagem, os grupos de frases similares são tratados como representantes para tópicos; grupos com várias frases retratam consideráveis temas de tópicos na entrada.

A abordagem apoiada em grupos de frases para sumarização de multi-documentos pesquisa a iteração no nível da frase. Quanto maior o número de frases em um cluster,

(34)

2.4. CONSIDERAÇÕES FINAIS 33

mais a informação do grupo é considerada como importante. A restrição de cada frase a apenas um cluster é uma desvantagem do agrupamento de frases, porém para sumarização de um domínio específico, esse método pode dar uma boa referência dos temas que frequentemente são discutidos e do tipo de informação que um resumo deveria transmitir.

2.4 Considerações Finais

O grande número de dados textuais disponíveis na Web faz crescer a necessidade por técnicas de mineração de texto potentes. A Mineração de Texto busca obter informações relevantes de um documento de texto e por ser um campo interdisciplinar, suas vantagens podem se fornecidas a qualquer domínio que a utilize.

Na Classificação de Texto, os documentos podem ser categorizados automaticamente em níveis categóricos de documentos a partir de textos livres. Nos últimos anos, com o progresso das tecnologias da Web e redes sociais aumentou-se o interesse pela classificação de documentos de texto contendo links ou outras meta-informações.

A Clusterização é muito estudada na área de texto, essa técnica agrupa automaticamente dados textuais com base na similaridade do texto, a fim de encontrar documentos com conteúdo semelhante. Nos últimos anos, a tendência dominante de pesquisa nesta área tem sido no contexto de dados de texto para aplicações dinâmicas (como redes sociais ou aplicações de chat on-line) e heterogêneas (texto disponível no contexto das ligações e de outros dados multimídias heterogêneos) (AGGARWAL; ZHAI,2012a).

Diferentemente da sumarização e categorização, o ponto central da mineração de opinião é voltado para inferências semânticas e referência afetiva relacionada com a linguagem natural, o que não exige excessiva compreensão do texto. O contexto social inclina-se a continuar obtendo importância e um sistema inteligente a ter ainda mais acesso a conhecimentos pessoais globais de um amplo número de pessoas, por isso a mineração de opinião poderá ser mais característica para cada usuário ou grupo de propensão de usuários.

A Sumarização tem sido muito pesquisada e visa produzir um resumo de um ou mais documentos de texto. Os métodos de compactação devem ser conciliados a diversos gêneros, como páginas Web, artigos de revistas, levando em consideração a informação baseada no contexto que direciona a seleção das sentenças.

No próximo capítulo mostraremos a aplicabilidade da mineração de texto no campo da Psiquiatria, apresentando as principais pesquisas na área.

(35)

34 34 34

3

Mineração de Texto para Psiquiatria

Neste capítulo, veremos mais detalhes sobre o processo de Mineração de Texto usado na Psiquiatria. Serão discutidas algumas das principais pesquisas sobre mineração de texto, descrevendo as técnicas utilizadas. Na seção 3.1, temos uma visão geral dessa etapa. Na seção 3.2 são abordados quatro campos de aplicação na área de psiquiatria que utilizam a técnica de mineração de texto e pesquisas relacionadas. Na seção 3.3, são discutidas as relações entre os trabalhos relacionados apresentados e feita uma consideração a respeito do capítulo.

3.1 Visão Geral

Com a expansão da literatura biomédica, a Mineração de Texto está se tornando essencial para facilitar a extração de texto automatizada com a finalidade de obter informações relevantes a partir de documentos não estruturados (ABBE et al.,2015). A combinação das técnicas de Inteligência Artificial, Processamento de Linguagem Natural e Recuperação de Informação, ajuda a Mineração de Dados na compreensão da complexa metodologia analítica da linguagem escrita (COHEN; BLATTER; PATEL,2008) (RZHETSKY; SERINGHAUS; GERSTEIN,2009).

O primeiro uso da MT foi em informações de segurança para agências governamentais, com a finalidade de detectar alertas terroristas e outras ameaças a segurança e só posteriormente foi adaptado a outros campos, como a medicina (MEYSTRE et al.,2008). As ferramentas de MT estão se tornando mais precisas e sofisticadas, ao ponto de poderem ser aplicadas a áreas generalizadas, como a psiquiatria por exemplo.

3.2 Campos de Aplicação

Esta seção apresenta trabalhos que utilizam a mineração de texto no campo da psiquiatria. Os trabalhos estão subdivididos em quatros áreas, de acordo com os principais temas identificados no estudo de (ABBE et al.,2015): (1) Psicopatologia (estudos com foco em doenças mentais); (2) Perspectiva do paciente (pensamentos e opiniões de pacientes); (3) Registros médicos (segurança, descrição de tratamentos, qualidade dos cuidados, etc.) e (4) Literatura médica (reconhecimento

(36)

3.2. CAMPOS DE APLICAÇÃO 35

de novas informações científicas na literatura).

3.2.1 Psicopatologia

A psicopatologia, que estuda o sofrimento mental, pode ter registros de documentos de pacientes com observações ou narrativas escritas.

A MT pode ser útil na identificação de características semânticas específicas para um determinado estado psicológico ou doença. Dentre os trabalhos que possuem esse foco, pode-se citar o de (BERNARDI; TUZZI,2011), que ilustra exemplos do uso de medidas quantitativas baseadas em textos léxicos dentro de um contexto particular de comunicação. O trabalho desenvolvido tem por base um corpus composto de doze ensaios produzidos, por seis indivíduos com autismo e seis participantes sem nenhuma deficiência, durante sessões de comunicação facilitada. O objetivo principal é comparar a comunicação escrita de pacientes com distúrbios do espectro do autismo com a escrita do grupo de controle. Outros trabalhos com base similar são mencionados a seguir.

Piolat (PIOLAT; BANNOUR,2009) propõe o estudo sobre o impacto da ansiedade dos alunos através da forma como eles descrevem seus sentimentos (em texto) depois de passar ou não em um exame. Esse desenvolvimento se deu através da análise e identificação de traços específicos de um estado psicológico, com o uso de MT.

Outra aplicação que utiliza mineração de texto voltada a psicopatologia é descrita no artigo de Yang (YANG et al.,2009). Esse trabalho analisa o impacto do encarceramento no estado psicológico de reclusos que cumprem penas longas. Em um inquérito epidemiológico, da saúde psicológica de prisioneiros na França, foram recolhidas respostas narrativas breves de cinquenta e nove presos. Esses dados textuais serviram de base para análise de conteúdo qualitativo e análise linguística.

Técnicas de Associação podem ser usadas no processo de mineração de texto, como por exemplo testes de correlação (ZHANG et al.,2009). No trabalho citado, Zhang investiga o papel dos diferentes aspectos da tensão psicológica de jovens que cometeram suicídio na zona rural Chinesa. O estudo teve como base cento e cinco suicídios e o contexto e motivo do ocorrido foram obtidos através de entrevistas com sobreviventes e amigos íntimos.

3.2.2 Perspectiva do Paciente

O campo de pesquisa Perspectiva do Paciente relaciona-se aos pensamentos, sentimentos e comportamentos dos pacientes. O número de pacientes ou familiares que interagem pela Internete compartilham sobre experiências relacionadas as suas doenças ou terapias realizadas para combatê-las tem crescido bastante (ABBE et al.,2015). A essas mensagens de experiências pessoais expostas em sites, grupos de discussão, redes sociais foi dado o nome de Perspectiva do Paciente.

(37)

Os meios de comunicação Web concedem formas para que as pessoas possam com-partilhar opiniões e experiências de vida e auxiliar, assim, com informações que vão além das fornecidas por profissionais do domínio. No trabalho de (CAMERON et al.,2013) é relatado o desenvolvimento de uma plataforma Web semântica chamada PREDOSE que busca simplificar o aprendizado epidemiológico de prescrição de atos de excesso de drogas utilizando a mídia social. O PREDOSE utiliza posts em um fórum Web de conhecimento de domínio que são mo-delados para uma ontologia de Abuso de Drogas elaborada de modo manual para descomplicar a extração de informação semântica do conteúdo geral do usuário. Essa extração é feita através da combinação de técnicas lexicais, apoiadas em semântica baseada em padrões. Avaliações realizadas das técnicas de extração aplicadas indicaram 85% de precision e 72% de recall para identificação de entidades, no conjunto de dados, com base em um padrão de ouro que foi criado manualmente.

É possível predizer a saúde física e mental das pessoas de acordo com as palavras que elas usam, porém o processo para lidar com essas palavras é complicado. No artigo (HE;

VELDKAMP; VRIES,2012) foi desenvolvida uma técnica de avaliação textual para encontrar

pacientes que possuam Transtorno de Estresse Pós-Traumático (TEPT) . Foram usados processos lexicais nas auto narrativas através de técnicas de mineração de texto. Foram utilizadas trezentos relatos recolhidos on-line, e então extraídas as palavras-chaves intensamente discriminativas para construção de um modelo de avaliação textual para classificar pessoas que possuem ou não TEPT.

Em (NEUMAN et al.,2012) é apresentado o sistema que implementa a metodologia pedesispara coleta das associações representativas relacionadas a depressão e para extração dos domínios conceituais relevantes para descrevê-las. Com esse sistema é possível avaliar automaticamente, em um texto, o nível de depressão de uma pessoa ou se a depressão é o tópico principal abordado no documento. Ou seja, a depressão pode ser percebida de forma automática em textos e o sistema de saúde mental poderá se favorecer desta habilidade de seleção.

Vários textos psiquiátricos, que expressam problemas depressivos, são publicados por usuários da Internet através de serviços Web, tais como fóruns e blogs. Esses textos são escritos em linguagem natural e podem fornecer informações sobre os problemas dos autores, como por exemplo no estudo (WU; YU; CHANG,2012) que demonstra a obtenção de padrões de linguagem entre sentenças para identificação de causalidade a partir de textos psiquiátricos disponibilizados on-line em uma clínica psiquiátrica virtual mantida por um grupo de profissio-nais voluntários da Associação de Taiwan Mental Health Informatics.

Diversos eventos negativos, como a perda do emprego ou a morte de um ente querido, podem provocar episódios depressivos, por isso reconhecer automaticamente tais eventos é interessante para serviços psiquiátricos. No estudo (YU et al.,2011) são representados padrões de linguagem de associação como processo para classificar frases que contenham eventos negativos da vida em categorias pré-definidas (como, família, amor e trabalho, por exemplo). No trabalho citado foi combinado um algoritmo supervisionado de mineração de dados com

(38)

um modelo semântico distribuído sem supervisão para descoberta de padrões de linguagem de associação. Resultados experimentais apresentados por Liang-Chih Yu mostraram que os padrões de linguagem de associação são características importantes para classificação de eventos de vida negativos.

3.2.3 Registros Médicos

Registros Médicos (RM) que armazenam informações de pacientes de forma eletrônica são cada vez mais usados. Nesses registros são inclusos, histórico médico, tratamentos, testes e resultados de laboratórios entre outros. No entanto, os dados armazenados nesses registros são desestruturados e difíceis de analisar para possivelmente detectar problemas de segurança, sintomas, coexistência de transtornos ou doenças, características e subgrupos de terapias de pacientes, dentre outros. (ABBE et al.,2015).

Em (ERIKSSON et al.,2013) é apresentado um método que visa identificar possíveis Eventos Adversos (EAs) e, especialmente, possíveis Eventos Adversos a Drogas (EADs) em narrativas clínicas dinamarquesas. Foi utilizado um resumo de características de medicamentos de 7446 drogas para construção do dicionário EAD dinamarquês. Os dados textuais foram estruturados para possibilitar o processo de análise computacional e partir do dicionário EAD foi possível desenvolver um método para identificar possíveis EADS na narração textual clínica desestruturada.

Os RMs oferecem grande oportunidade para exploração em grande proporção na psiquia-tria, porém esses estudos necessitam de ferramentas que auxiliem na definição do resultado do tratamento. Um exemplo de ferramenta com essa finalidade pode ser vista em (PERLIS et al., 2012). Perlis descreve o desenvolvimento de uma ferramenta que utiliza PLN para classificar o estado clínico transversal utilizando anotações textuais narrativas.

Outro fator ligado as pessoas com transtornos mentais é a alta prevalência do tabagismo, importante problema de saúde pública. Visando analisar a prevalência e correlatos do tabagismo em pessoas com doença mental grave (WU et al.,2013) foram investigados em RMs casos diagnosticados com esquizofrenia ou transtorno bipolar. A aplicação ’CRIS-IE-Fumante’ usou um software de PLN para extrair informações do status de fumantes, através de campos de texto aberto.

Demonstrações de como registros de hospitais psiquiátricos podem consentir o reco-nhecimento de correlações entre doenças podem ser vistas em (ROQUE et al.,2011). A abor-dagem apresentada utiliza um dicionário baseado na Classificação Internacional de Ontologia de Doenças1e essa identificação da correlação entre as doenças pode possibilitar que elas sejam mapeadas para estruturas de biologias de sistemas. Com a mineração de texto livre de registros de pacientes, é possível acrescer o conhecimento das doenças, para obter um perfil abundante de caracteres visíveis de cada paciente.