Uma Abordagem de Pré- Processamento Automático para Mineração de Textos em Português: Sob o Enfoque da Inteligência Computacional

(1)

Christian Nunes Aranha

Uma Abordagem de

Pré-Processamento Automático para Mineração

de Textos em Português: Sob o Enfoque da

Inteligência Computacional

Tese de Doutorado

Tese apresentada como requisito parcial para obtenção do grau de Doutor pelo Programa de Pós-graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica da PUC-Rio.

Orientadora: Profa. Marley Maria Bernardes Rebuzzi Vellasco

Rio de Janeiro Março de 2007

(2)

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

(3)

Christian Nunes Aranha

Uma Abordagem de

Pré-Processamento Automático para Mineração

de Textos em Português: Sob o Enfoque da

Inteligência Computacional

Tese apresentada como requisito parcial para obtenção do grau de Doutor pelo Programa de Pós-Graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica do Centro Técnico Científico da PUC-Rio. Aprovada pela Comissão Examinadora abaixo assinada.

Dra. Marley Maria Bernardes Rebuzzi Vellasco

Orientadora Departamento de Engenharia Elétrica - PUC-Rio

Dr. Emmanuel Piceses Lopes Passos

Co-Orientador Departamento de Engenharia Elétrica - PUC-Rio

Dr. Marco Aurélio Cavalcanti Pacheco

Departamento de Engenharia Elétrica - PUC-Rio

Dr. Antonio Luz Furtado

Departamento de Informática – PUC-Rio

Dra. Maria Carmelita Padua Dias

Departamento de Letras – PUC-Rio

Dr. Nelson Francisco Favilla Ebecken

UFRJ

Dr. Alexandre Linhares

FGV-RJ

Dra. Valeria Menezes Bastos

Departamento de Informática – PUC-Rio

Prof. José Eugenio Leal Coordenador Setorial do Centro Técnico Científico - PUC-Rio

(4)

Christian Nunes Aranha

Graduado em Engenharia Elétrica, com ênfase em sistemas de apoio à decisão. Trabalho de final de curso em otimização lagrangeana aplicada ao problema de ordenação linear (LOP) sob a orientação de Abílio Lucena. Mestrado em métodos estatísticos de apoio à decisão. Dissertação sobre regressão multivariada linear por partes, modelo TS-TARX, sob a orientação de Alvaro Veiga. Doutorado em Inteligência Computacional para mineração de textos.

Ficha Catalográfica

CDD: 621.3 Aranha, Christian Nunes

Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional / Christian Nunes Aranha; orientadora: Marley Maria Bernardes Rebuzzi Vellasco. – 2007.

144 f. ; 30 cm

Tese (Doutorado em Engenharia Elétrica) – Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007.

Inclui bibliografia

1. Engenharia elétrica – Teses. 2. Mineração de texto. 3. Pré-processamento. 4. Inteligência artificial. I. Vellasco, Marley Maria Bernardes Rebuzzi. II. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Elétrica. III. Título.

(5)

Agradecimentos

Ao professor Emmanuel Passos pelo seu apoio e orientação.

Aos meus pais, minha namorada e meus amigos, sem os quais são poderia ter completado este trabalho.

(6)

Resumo

Christian Nunes Aranha; Vellasco, Marley Maria Bernardes Rebuzzi (Orientadora). Uma Abordagem de Pré-Processamento Automático

para Mineração de Textos em Português: Sob o Enfoque da Inteligência Computacional. Rio de Janeiro, 2007. 144p. Tese de

Doutorado - Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro.

O presente trabalho apresenta uma pesquisa onde é proposto um novo modelo de pré-processamento para mineração de textos em português utilizando técnicas de inteligência computacional baseadas em conceitos existentes, como redes neurais, sistemas dinâmicos, e estatística multidimensional. O objetivo dessa tese de doutorado é, portanto, inovar na fase de pré-processamento da mineração de textos, propondo um modelo automático de enriquecimento de dados textuais. Essa abordagem se apresenta como uma extensão do tradicional modelo de conjunto de palavras (bag-of-words), de preocupação mais estatística, e propõe um modelo do tipo conjunto de lexemas (bag-of-lexems) com maior aproveitamento do conteúdo lingüístico do texto em uma abordagem mais computacional, proporcionando resultados mais eficientes. O trabalho é complementado com o desenvolvimento e implementação de um sistema de pré-processamento de textos, que torna automática essa fase do processo de mineração de textos ora proposto. Apesar do objeto principal desta tese ser a etapa de pré-processamento, passaremos, de forma não muito aprofundada, por todas as etapas do processo de mineração de textos com o intuito de fornecer a teoria base completa para o entendimento do processo como um todo. Além de apresentar a teoria de cada etapa, individualmente, é executado um processamento completo (com coleta de dados, indexação, pré-processamento, mineração e pós-processamento) utilizando nas outras etapas modelos já consagrados na literatura que tiveram sua implementação realizada durante esse trabalho. Ao final são mostradas funcionalidades e algumas aplicações como: classificação de documentos, extração de informações e interface de linguagem natural (ILN).

Palavras-chave

(7)

Abstract

Christian Nunes Aranha; Vellasco, Marley Maria Bernardes Rebuzzi (Advisor). An Automatic Preprocessing for Text Mining in

Portuguese: A Computer-Aided Approach. Rio de Janeiro, 2007. 144p.

D.Sc. Thesis - Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro.

This work presents a research that proposes a new model of pre-processing for text mining in portuguese using computational intelligence techniques based on existing concepts, such as neural networks, dinamic systems and multidimensional statistics. The object of this doctoral thesis is, therefore, innovation in the pre-processing phase of text-mining, proposing an automatic model for the enrichment of textual data. This approach is presented as an extension of the traditional bag-of-words model, that has a more statistical emphasis, and proposes a bag-of-lexemes model with greater usage of the texts' linguistic content in a more computational approach, providing more efficient results. The work is complemented by the development and implementation of a text pre-processing system that automates this phase of th text mining process as proposed. Despite the object of this thesis being the pre-processing stage, one feels apropriate to describe, in overview, every step of the text mining process in order to provide the basic theory necessary to understand the process as a whole. Beyond presenting the theory of every stage individually, one executes a complete process (with data collection, indexing, pre-processing, mining and post-processing) using tried-and-true models in all the other stages, which were implemented during the development of this work. At last some functionalities and aplications are shown, such as: document classification, information extraction and natural language interface (NLI).

Keywords

(8)

Sumário

1. Introdução 13 1.1. Motivação 15 1.2. Objetivo da Tese 18 1.3. Estrutura da Tese 20 2. O Estado da Arte 22

2.1. Modelos Puramente Estatísticos 22

2.1.1. Modelo de Espaço Vetorial 23

2.1.2. Análise de Correspondência 25 2.1.3. Análise de Discriminante 28 2.2. Redes Neurais 31 2.2.1. Hopfield 31 2.2.2. Backpropagation 32 2.2.3. Mapas Auto-Organizáveis 33 2.3. Aprendizado de Máquina 35

2.3.1. Cadeias de Markov Escondidas 35

2.3.2. Aprendizado Baseado em Transformações 39

3. Mineração de Texto 40

3.1. Coleta de Dados 41

3.2. Pré-processamento 42

3.2.1. Identificação de Palavras no Texto 43

3.2.2. Redução de Dimensionalidade 45

3.2.3. Remoção de Palavras Não-Discriminantes (Stop-words) 46

3.3. Indexação 47

3.3.1. Procura Caractere à Caractere 49

3.3.2. Lista Invertida 50

3.3.3. Similaridade 52

3.3.4. Processo de Indexação 53

3.3.5. Índice do tipo Full-text 54

3.3.6. Ordenação 57

3.4. Mineração de Dados 58

3.5. Análise da Informação 59

4. Processamento da Linguagem Natural 60

4.1. O Modelo de PLN 600

4.1.1. Aquisição Automática 61

4.1.2. O Léxico 61

4.1.3. Sobre a Delimitação da Unidade Lexical 62

4.1.4. Ontologia 63 4.1.5. Precisão e Recordação 633 4.2. Técnicas de PLN 644 4.2.1. Tokenização 644 4.2.2. Normalização 655 4.2.3. Expressões Multi-Vocabulares 677

(9)

4.2.5. Etiquetagem 69

4.2.6. Padrões Gramaticais 700

4.2.7. Reconhecimento de Entidades Mencionadas 700 4.2.8. Classificação de Entidades Mencionadas 73

4.2.9. Análise dos Constituintes 74

4.2.10. Correferencia 755

4.2.10.1. Acrônimos, Siglas e Abreviaturas 755

4.2.10.2. Nomes Truncados 766

4.2.10.3. Anáfora Pronominal 777

4.2.10.4. Sinônimos 78

4.2.10.5. Erros Ortograficos 788

4.2.11. Discriminação do Sentido da Palavra 79 4.2.11.1. Detecção Automática de Sinônimos 800

5. Desenvolvimento e Implementação 82 5.1. Aprendizado Automático 82 5.2. O Léxico Computacional 83 5.2.1. A Importância do Léxico 84 5.3. Percepção Lingüística 85 5.4. Tesaurus 87 5.5. O Modelo 88 5.5.1. Definições 89 5.5.2. Arquitetura 89 5.5.3. Compostos 99 5.5.4. Nomes Próprios 102 5.5.5. Sintaxe 1022 5.6. Representação do Documento 1033 5.6.1. Formato de Armazenamento 1044 5.6.1.1. Tags de Categoria 1044 5.6.1.2. Tags de Contexto 1055 5.6.1.3. Tags de Função 1066 5.6.1.4. Tags de Estrutura 1077 5.6.1.5. Tags Descritivas 108 5.6.2. Exemplos 109

6. Exemplos de Aplicações de Mineração de Textos 111

6.1.1. Classificação 111

6.1.2. Extração de Informações 112

6.1.3. Interface em Linguagem Natural 114

6.2. Web Semântica 116 7. Resultados 119 7.1. Pré-processamento 119 7.2. Classificação 1222 7.2.1. Amostra Pequena 123 7.2.2. Amostra Grande 1287

(10)

9. Referências bibliográficas 13131 10. Anexo I: Principais distribuições de frequência dos significados 13142 11. Anexo II: Exemplo de Mineração de Textos por Perguntas 1433

(11)

Lista de figuras

Figura 1 – Valor agregado pela Mineração de Textos (MT) no processo de

análise de informações textuais 17

Figura 2 – Diagrama de camadas abstratas de um sistema computacional 19 Figura 3 – Resultado em duas dimensões da análise de correspondência 27 Figura 4 – Análise de correspondência utilizando a etapa de pré com

segmentos de frase 28

Figura 5 – Arquitetura de Hopfield utilizada no software TextAnalyst 32 Figura 6 – Rede Neural Backpropagation. Modelo usado por Fukuda 33 Figura 7 – Distribuição do mapa dos documentos. Em cinza os lugares onde há a maior concentração de documentos 34 Figura 8 – Exemplo de automato para Cadeia de Markov Escondida 36

Figura 9 – Texto original 37

Figura 10 – Resultado da extração de informação de HMM. Os rótulos após cada palavra é o rótulo ótimo encontrado. <T> título; <D> data; <A>

autor e <C> corpo 37

Figura 11 – Processo de funcionamento de um TBL 38 Figura 12 – Indentificação de palavras válidas 44 Figura 13 – A curva de Zipf e os cortes de Luhn 46

Figura 14 – Indentificação de Stop-Words 47

Figura 15 – Estrutura de uma Lista Invertida associada aos documentos

indexados. 51

Figura 16 - Função Similaridade 52

Figura 17 – Sequência do processo de indexação automática. 54 Figura 18 – Arquitetura da Busca tipo Full-text 56 Figura 19 – Representação de uma estrutura de hiperlinks na Internet 57 Figura 20 – Os três gráficos (1), (2) e (3) mostram, de forma ilustrativa, a necessidade colaborativa de três tarefas de PLN T1, T2 e T3. T2 só consegue atingir 90% de acerto de melhorar T1 e T3. 60 Figura 21 – As figures (a), (b) e (c) ilustram três relações diferentes e

hipotéticas de sinonímia. 67

Figura 22 – Esquema de pré-requisitos entre as classes ontológicas. 73 Figura 23 – Esquema geral de um extrator de informações lingüísticas 83

Figura 24 – Modelo de banco de dados. 90

Figura 25 – Modelo de classes por orientação a objeto. 90 Figura 26 – (Pipeline) Sequência de procedimentos de reconhecimento de padrões e aprendizado de lexemas especializados em cada área do PLN. 91 Figura 27 – Modelo de aprendizado autonomo e retroalimentado. 92 Figura 28 – Seqüências de etapas que compõe o processamento do texto 93 Figura 29 – Ontologia pré-definida para o processamento. As setas indicam os pré-requisitos (AÆB = A é pré-requisito de B) 93 Figura 30 – Cada círculo representa um lexema percebido. A borda de cada um deles indica um traço semântico. O resultado das referências

(12)

Figura 31 – Exemplo de uma gramática escrita sobre a de especificação de

Backus-Norm-Form 97

Figura 32– Suporte da interface sintática forçando a reavaliação da

percepção e referência 98

Figura 33 – Diferentes módulos para resolver a sintaxe. Estão separados por fatores de performance e forma de execução 103 Figura 34 – Exemplos de tags de categoria 105

Figura 35 – Exemplo de Tags de Contexto 106

Figura 36 – Exemplos de Tags de Função 107

Figura 37 – Exemplos de Tags Descritivas 108 Figura 38 – Exemplo de reconhecimento de entidades. Instituições em vermelho, índice em verde e tempo em roxo 109 Figura 39 – Exemplo de reconhecimento de entidades. Nomes de pessoas

(13)

Lsta de tabelas

Tabela 1 – Ranking de quantidade de Hosts por país 17 Tabela 2 – Matriz com o número de ocorrência do termo (linhas) em cada uma das partições educação (L,M e H) e idade (-30, -55 e +55). 26 Tabela 3 – Especificação da tabela e exemplos de registros do léxico

utilizado 62

Tabela 4 – Resultado do Reconhecimento de Entidades Mencionadas para os textos da coleção escritos no Português Brasileiro 120 Tabela 5 – Resultado HAREM para a avaliação de bases de emails 121 Tabela 6 – Resultado HAREM para a avaliação de bases de textos de

jornais 122

Tabela 7 – Resultado HAREM para a avaliação de bases de páginas da

Internet 122

Tabela 8 – Resultados do modelo bag-of-words para a fase de treinamento com 5000 notícias. A tabela apresenta os dados do modelo e o quadro apresenta o formato de leitura dos parâmetros do modelo 124 Tabela 9 – Resultados do modelo bag-of-lexems para a fase de treinamento com 5000 notícias. A tabela apresenta os dados do modelo e o quadro apresenta o formato de leitura dos parâmetros do modelo 124 Tabela 10 – Resultados do modelo bag-of-lexems com ontologia para a fase de treinamento com 5000 notícias. A tabela apresenta os dados do modelo e o quadro apresenta o formato de leitura dos parâmetros do

modelo 125

Tabela 11 – Comparação entre as acurácias dos tres métodos: BOW (bag-of-words), BOL(bag-of-lexems) e BOLO(bag-of-lexems com ontologia), para as diferentes quantidades de informação processada 126 Tabela 12 – Comparativo do número de termos significantes usados no

modelo de classificação 126

Tabela 13 – Resultados de performance e generalização utilizando

bag-of-words 127

bag-of-lexems 128

(14)

1 Introdução

Métodos de recuperação de textos sempre foram utilizados para organizar documentos, porém, com o aumento do volume de textos que vem ocorrendo, principalmente, pela digitalização do conteúdo e pela Internet, técnicas de tratamento automático de textos começaram a se tornar cada vez mais importantes para se encontrar e trabalhar a informação. Para solucionar esses problemas surge uma nova linha de pesquisa, a mineração de textos.

Quando uma nova área surge, precisa-se de algum tempo e muita discussão acadêmica antes que seus termos e conceitos sejam padronizados (Kroeze, H. J. et al, 2003). No caso da mineração de textos não é diferente, abaixo encontram-se algumas definições encontradas nos textos estudados.

Text Mining realiza várias funções de busca, análise lingüística e categorização. Mecanismos de busca se restringem à Internet. (Chen, H., 2001):5,9

Text Mining é o estudo e a prática de extrair informação de textos usando os princípios da lingüística computacional. (Sullivan, D., 2000)

Text Mining é ideal para inspecionar mudanças no mercado, ou para identificar idéias. (Biggs, M., 2005)

Text Mining é uma forma de examinar uma coleção de documentos e descobrir informação não contida em nenhum dos documentos. (Lucas, M., 2000):1

Text Mining como sendo Data Mining em dados textuais. Text Mining tem como objetivo extrair padrões e associações desconhecidas de um grande banco de dados textual. (Thuraisingham, B., 1999):167

Text Mining, como análise de dados exploratória, é um método para apoiar pesquisadores a derivar novas e relevantes informações de uma grande coleção de textos. É um processo parcialmente automatizado onde o pesquisador ainda está envolvido, interagindo com o sistema. (Hearst, M. A., 1999):6-7

Pode-se então definir Descoberta de Conhecimento em Textos (KDT) ou Text Mining como sendo o processo de extrair padrões ou conhecimento, interessantes e não-triviais, a partir de documentos textuais. (Tan, A.-H., 1999)

(15)

A partir dessas definições/conceitos podemos ver que a área de mineração de textos tem uma origem forte na área de mineração de dados e KDD (Knowledge Discovery in Databases), sendo, por isso, chamada também de Text Data Mining (Hearst, M. A., 1999) e KDT (Knowledge Discovery in Texts)

(Dörre, J. et al, 1999). Existe, também, uma interseção com a área de busca de informação na Internet, assim como influências de áreas correlatas como Processamento da Linguagem Natural (PLN), de Recuperação da Informação (RI), Inteligência Artificial (IA) e Ciência Cognitiva. A conjunção do conhecimento dessas áreas fizeram dela uma área própria, chamada apenas de Mineração de Textos (Text Mining).

Um processo de mineração de textos que vem sendo bastante utilizado envolve três etapas principais: a seleção, a indexação e a análise de textos. A seleção de textos tem por objetivo montar a base a ser analisada; a indexação tem por objetivo viabilizar uma busca rápida por um documento específico (algumas vezes opcional); e, finalmente, a análise de textos tem por objetivo extração de informação por algoritmos inteligentes e interpretação do conhecimento contido no texto.

O modelo de mineração de textos, proposto pelo autor, propõe a inserção de um módulo de pré-processamento antes da fase de indexação do processo tradicional descrito. Segundo o modelo proposto, a fase de indexação de textos passa a ser realizada em duas etapas: uma de pré-processamento de textos e outra de indexação. Com a nova etapa, o processo passa a conter quatro etapas no total.

O presente trabalho apresenta, então, uma pesquisa onde é proposto um novo modelo, automático, de mineração de textos, de ênfase na língua portuguesa e inspirado em técnicas de inteligência computacional. O trabalho é complementado com o desenvolvimento e implementação do sistema de pré-processamento.

A hipótese do autor é de que o pré-processamento dos textos, tanto na codificação como no enriquecimento dos textos a serem minerados, é uma parte importante para uma análise eficaz. Sua importância é sugerida pelo maior aproveitamento dos aspectos linguísticos como morfologia, sintaxe e semântica. Os resultados mostram que um pré-processamento simplista pode deixar de lado parte da informação relevante. Essa tarefa, no entanto, apresenta dificuldades com relação a sua complexidade e à própria natureza dos dados, que via de regra, são

(16)

não-estruturados e dinâmicos. É necessário, por isso, saber conviver com exceções.

Apesar do objeto principal desta tese ser a etapa de pré-processamento, passaremos por todas as etapas do processo de mineração de textos com o intuito de fornecer a teoria básica completa para o entendimento do processo como um todo. Além de apresentar a teoria de cada etapa individualmente, será descrito um processamento completo (com seleção, indexação, pré-processamento, mineração e pós-processamento) utilizando nas outras etapas modelos já consagrados na literatura e implementados durante esse trabalho. A implementação visa mostrar funcionalidades e algumas aplicações como: classificação de documentos, extração de informações e interface de linguagem natural (ILN).

Outro produto dessa tese é a implementação do sistema de pré-processamento, que terá seus módulos, e funcionalidades, detalhados clareando toda sua complexidade. São especificados, também, o ambiente de desenvolvimento, plataformas utilizadas, formas de integração com outros sistemas de mineração de textos e descrição do funcionamento do sistema em termos de formato das entradas e saídas de cada sub-módulo.

1.1.

Motivação

O primeiro motivo é o fato de um processo clássico de mineração de dados, onde não envolve um pré-processamento tão complexo, esta fase consome 60% do tempo total (Goldschmidt, R. e Passos, E., 2005). Estimamos, então, que o pré-processamento automático dos textos para análise seja um procedimento importante e essencial, tanto para a economia de tempo como para o bom funcionamento das etapas seguintes.

O formato textual parece ser a forma mais natural de armazenar informações já que cresce a informação produzida e disponível para os sistemas computacionais armazenada em forma de textos como livros, revistas, artigos científicos, manuais, memorandos, e-mails, relatórios, projetos e outros tipos de formalização de conhecimento. Isso ocorre porque o meio mais intuitivo de externalização (transformação do conhecimento tácito em explícito) é registrar, em textos livres, pensamentos, idéias, sentimentos e opiniões de pessoas. Além de

(17)

dados empíricos, duas pesquisas podem comprovar esse pensamento. A primeira mostrou que 80% do conteúdo da Internet está em formato textual (Chen, H., 2001). A segunda mostrou que, além da Internet, nas organizações há também muito conhecimento deste tipo disponível. Verificou-se que 80% das informações armazenadas por uma empresa são também dados não-estruturados (Tan, A.-H., 1999).

Essas pesquisas mostram também que inúmeras novas páginas contendo textos são lançados diariamente na Internet, assim como outros tipos de documentos (como relatórios de acompanhamento, atas de reuniões, históricos pessoais, etc.) são periodicamente gerados, atualizados e armazenados nas empresas. Por esses motivos, a importância da análise automática de textos é reconhecida em todos os segmentos que lidam com informação e conhecimento.

Adicionalmente, grande parte das atividades de tomada de decisões, hoje, envolve a análise de grandes volumes de texto. O processo decisório, que era orientado a análise (automática ou não) de séries temporais e fluxo de dados (data-driven) desde os anos 70, está cada vez mais, principalmente das áreas estratégicas das empresas, orientado pelas informações (information-driven) (Koenig, M. E. D., 2000).

Entretanto, o grande volume dessas informações faz com que as organizações e as pessoas tenham dificuldade para gerenciar adequadamente estas informações, principalmente as não-estruturadas. Durante muito tempo as técnicas de mineração de dados (Goldschmidt, R. e Passos, E., 2005) cresceram para elaborar soluções para as informações estruturadas da empresa. Seguindo esse mesmo caminho, a área de mineração de textos surge para minimizar o problema de tratar dados não-estruturados, ajudando a explorar conhecimento armazenado em meios textuais e assim gerar algum tipo de vantagem competitiva.

A tarefa de gerar inteligência a partir da análise das informações capturadas e documentadas em textos livres já é realizada atualmente e demanda cada vez mais tempo dos participantes envolvidos devido ao volume cada vez maior a ser tratado. É exatamente nesse ponto que a mineração de textos pode contribuir. A Figura 40 ilustra a forma como o autor entende esse processo e como pretende contribuir na eficiência do processo de análise e decisão.

(18)

Figura 40 – Valor agregado pela Mineração de Textos (MT) no processo de análise de informações textuais.

Os processos de mineração de textos podem representar uma nova visão das informações disponíveis nas empresas. As aplicações são inúmeras, exemplos como o acompanhamento da gerência de projetos a partir de relatórios, documentação de projeto, comunicação com o cliente, o desenvolvimento do planejamento de marketing baseado em detalhes de planos passados, opções de anúncios e pesquisas de marketing. Aplicações não tão pretensiosas já se encontram implantadas atualmente, como a categorização automática de mensagens de correio eletrônico.

Quanto ao idioma desenvolvido (língua portuguesa), de acordo com projeto CLIC 2004 (CNPq pequenos grupos), o português é uma língua falada por uma parcela significativa da população mundial (aproximadamente 3%, em 1999, de acordo com The Ethnologue, em www.ethnologue.com), sendo o sexto idioma mais usado no mundo.

Na Internet, o Brasil ocupa a oitava posição em número de hosts, segundo os dados de 2004 do Comitê Gestor da Internet no Brasil1_da

Tabela 16

Tabela 16 – Ranking de quantidade de Hosts por país 1º Estados Unidos* 162.195.368

2º Japão (.jp) 12.962.065 3º Itália (.it) 5.469.578 4º Reino Unido (.uk) 3.715.752 5º Alemanha (.de) 3.421.455 6º Holanda (.nl) 3.419.182 7º Canadá (.ca) 3.210.081 8º Brasil (.br) 3.163.349 1_{www.cg.org.br/indicadores/index.htm}

(19)

Ainda de acordo com a tabela fornecida pelo comitê, o português brasileiro está entre as seis línguas mais publicadas na Internet. No entanto, observou-se que a disponibilidade de ferramentas automáticas de processamento de textos em português, em termos de recuperação de informação textual, não atende às necessidades decorrentes desta participação significativa. Os recursos computacionais desenvolvidos para outras línguas, particularmente para o inglês, vêm sendo adaptados para o português, sem que as peculiaridades de nossa língua sejam levadas em consideração.

Em (Inoki, S., 1992) é enfatizada a necessidade de uma especialização a língua. Mostra como a língua portuguesa do Brasil é rica em vocábulos e flexibilidade gramatical, ressaltando as dificuldades do idioma português. As dificuldades surgem desde a diversidade de verbos, formas verbais, problemas de concordância, regências verbais, sem contar ainda com as de flexões de verbos irregulares.

Além da Internet, um grande grupo de instituições nacionais lida prioritariamente com grandes massas de conhecimento documental tais como legislações, notícias e patentes, além de relatórios e outros tipos de documentos produzidos internamente. Este panorama justifica as pesquisas em processamento de conteúdos digitais em português.

1.2.

Objetivo da Tese

Apesar de similar ao processo de mineração de dados, que trabalha com dados estruturados, o processo de mineração de textos difere, principalmente, por trabalhar com dados não-estruturados em formato textual. Assim, para que esses dados textuais possam ser submetidos a algoritmos de mineração, é necessário um tratamento diferenciado na etapa de pré-processamento de dados.

O objetivo dessa tese de doutorado é, portanto, inovar na fase de pré-processamento da mineração de textos, propondo um modelo automático de enriquecimento dos dados para uma análise mais eficiente. O modelo é uma extensão da tradicional abordagem por conjunto de palavras (bag-of-words, em inglês), um dos procedimentos mais usados atualmente em mineração de textos (Bekkerman, R. et al, 2003). Foi desenvolvido e implementado um modelo computacional automático de pré-processamento valorizando o conteúdo do texto,

(20)

isto é, transformamos e o modelo baseado em palavras em um modelo baseado em lexemas, bag-of-words em bag-of-lexems. O conteúdo de um texto, no entanto, é dependente da língua em que está escrito, sendo assim, o modelo de pré-processamento ora proposto utiliza conhecimentos das áreas de PLN e Lingüística Computacional para formatar soluções com mais ênfase no conteúdo.

Apostou-se nesse caminho, embora alguns resultados experimentais mostrem que representações mais sofisticadas, às vezes, perdem em desempenho com relação à representação words usando palavras simples (Apté, C. et al, 1994); (Dumais, S. et al, 1998); (Lewis, D. D., 1992).

De acordo com (Lewis, D. D., 1992), a razão mais provável para explicar esses resultados é que, embora o uso de representações mais sofisticadas tenham qualidade semântica superior, a qualidade estatística é inferior em relação a representações baseadas em palavras simples. Assim, de acordo com (Joachims, T., 2002), a abordagem bag-of-words é uma boa relação entre expressividade e complexidade do modelo. Enquanto representações mais expressivas capturam melhor o significado do documento, sua complexidade é maior e degrada a qualidade de modelos estatísticos.

A Figura 41 apresenta um modelo do processo de mineração de textos tal como é proposto nessa tese. A figura apresenta o processo do início ao fim, passando por todas as etapas. A seqüência como é mostrado na figura é uma tendência encontrada nos recentes trabalhos da literatura como (Mathiak, B. e Eckstein, S., 2004)(Batista, G. E. A. P. A., 2003); (Ferneda, E. e Smit, J., 2003); (Kao, A. e Poteet, S., 2004). Essa figura será usada como modelo didático para a descrição tecnológica, passando as etapas uma a uma nessa tese.

Figura 41 – Diagrama de camadas abstratas de um sistema computacional

COLETA

PRÉ-PROCESSAMENTO

PRÉ-PROCESSAMENTO INDEXAÇÃOINDEXAÇÃO MINERAÇÃOMINERAÇÃO ANÁLISEANÁLISE

Formação da base de documentos ou Corpus. Robôs de Crawling atuando em qualquer ambiente. Preparação dos dados. Processamento de Linguagem Natural (PLN). Objetivo acesso rápido, busca. Recuperação de Informação (IR) Cálculos, inferências e extração de conhecimento. Mineração de Dados (DM). Análise humana. Navegação. Leitura e Interpretaçãodos dados. 1 1 2₂ 3₃ 4₄ 5₅ Base

(21)

Seguindo a Figura 41, o objetivo dessa tese é então concatenar um novo processador de textos na etapa de pré-processamento. O modelo do processador utiliza técnicas de inteligência computacional com base em conceitos existentes, como redes neurais, sistemas dinâmicos, e estatística multidimensional.

Serão analisados também os impactos dessa construção, apontando o que muda nas outras etapas para atender a uma boa solução de pré-processamento. Será mostrado nessa tese como a mineração de textos pode concatenar as diversas áreas do conhecimento em um processo multidisciplinar.

Apesar desse passeio multidisciplinar, o objetivo principal da mineração de textos é a resolução de problemas. Não pertence a esse trabalho explorar a fundo as áreas de Recuperação de Informação e Lingüística Computacional. Os conhecimentos dessas áreas são utilizados na medida em que oferecem idéias interessantes para a abordagem dos problemas. Esta perspectiva é compatível, por exemplo, com o pensamento de (Santos, D., 2001):

“(...) é ao tentar resolver um dado problema (isto é, ao tentar construir um programa que manipula a língua) que surge o momento de nos debruçarmos quer sobre algumas características do léxico ou da gramática, quer sobre as teorias que pretendam dar respostas a esse problema” (:229)

1.3.

Estrutura da Tese

Capítulo 2 - São apresentadas diversas abordagens de trabalhos recentes da área de Text Mining mostrando a origem das soluções e sua correlação com a área de Data Mining.

Capítulo 3 – É descrita a teoria de mineração de textos, assimcomo a teoria envolvida em cada uma das etapas do diagrama de mineração da figura 2.

Capítulo 4 – É exposto teoricamente o modelo de pré-processamento, núcleo dessa tese. Nesse mesmo capítulo é feita uma revisão de alguns pontos da área do Processamento da Linguagem Natural.

Capítulo 5 – Nesse capítulo é especificado o modelo do sistema desenvolvido apresentando e aprofundando um pouco mais cada um dos seus módulos que viabilizam os resultados.

(22)

Capítulo 6 – Os resultados do sistema de pré-processamento avaliado segundo medidas estatísticas de precisão (precision), abrangência (recall) e medida-F.

Capítulo 7 – Três exemplos de aplicação do trabalho dessa tese. Será mostrado como utilizar TM para classificar documentos automaticamente, extrair informação e responder perguntas, assim como a importância dessa tese para a área emergente de Web Semântica. Na apresentação da solução de classificação será mostrada a diferença dos resultados com e sem o pré-processamento proposto.

Capítulo 8 – Resumo dos pontos principais dessa tese, as contribuições à pesquisa acadêmica, aponta os desafios que ainda permanecem e sugestões de trabalhos futuros.

(23)

Este capítulo apresenta alguns dos recentes trabalhos relacionados à área de mineração de texto. Na literatura da área é possível definir uma taxonomia de modelos de mineração de texto que inclui o booleano (Wartik, S., 1992), o espaço-vetorial (Salton, G. et al, 1997), o probabilístico (van Rijsbergen, C. J., 1992), o difuso (Subasic, P. e Huettner, A., 2001), o da busca direta (Baeza-Yates, B. e Ribeiro Neto, B., 1999), e os lógicos indutivos (Hu, X. R. e Atwell, E., 2003).

A quantidade de trabalhos publicada nessa área cresce cada vez mais, sendo impossível falar sobre todos os tipos de trabalhos realizados. Alguns trabalhos relacionados à mineração de textos, referenciados na literatura, que utilizam diferentes algoritmos de aprendizado podem ser encontrados em (Aas, K. e Eikvil, L., 1999); (Apté, C. et al, 1994); (Cohen, W. W. e Hirsh, H., 1998); (Cohen, W. W. e Singer, Y., 1996); (Joachims, T., 1997); (Krista, L., 2000); (Li, H. e Yamanishi, K., 2002); (Li, Y. e Jain, A., 1998); (Moulinier, I. e Ganascia, J.-G., 1996); (Thomas, J. e Sycara, K., 1999); (Yang, Y. e Liu, X., 1999).

Dessa forma, escolheu-se apenas alguns importantes e distintos trabalhos para fazer uma descrição das abordagens existentes no estado da arte.

2.1.

Modelos Puramente Estatísticos

As abordagens estatísticas têm a característica fundamental de tentar estimar probabilidades para as decisões tomadas, e normalmente fazem uso de visualização espacial dos dados.

Dentro dessa classe de soluções será mostrado o modelo de Espaço-Vetorial através de (Salton, G. et al, 1997), o modelo de análise de correspondências através de (Lebart, L. et al, 1998) e o de análise de discriminantes através de (Aggarwal, C. C. et al, 1999).

(24)

2.1.1.

Modelo de Espaço Vetorial

O modelo Espaço Vetorial é uma das técnicas mais usadas em mineração de textos, sendo a aplicação mais comum a classificação automática de documentos. No contexto do tratamento de documentos, o objetivo principal de um modelo de representação é a obtenção de uma descrição adequada da semântica do texto, de uma forma que permita a execução correta da tarefa alvo, de acordo com as necessidades do usuário (Gean, C. C. e Kaestner, C. A. A., 2004).

De acordo com o modelo vetorial de (Salton, G. et al, 1997), cada documento é representado por um vetor no espaço m-dimensional, onde m é o número de diferentes termos presentes na coleção. Os valores das coordenadas do vetor que representa o documento estão associados aos termos, e usualmente são obtidos a partir de uma função relacionada à freqüência dos termos no documento e na coleção.

Formalmente, seja C = (d1, d2, ..., dn) uma coleção qualquer não-ordenada de documentos di, contendo m diferentes termos. Então a representação de um documentos será di = (fi1, fi2, …, fim) para i = 1 até N, onde fij é uma função de avaliação associada ao termo j no documento i.

Uma função de avaliação (ou “peso”) fij bastante utilizada é a frequência linear das palavras (TFIDF). Cada termo diferente adiciona uma nova dimensão ao problema. Problemas de mineração de textos costumam apresentar dimensões elevadas. Cada documento será então representado pelo mesmo número m de dimensões indicando a ocorrência do termo no texto.

A classificação de documentos pode ser definida sobre o modelo vetorial como um caso especial de um problema de classificação supervisionada no contexto do Reconhecimento de Padrões (Duda, R. O. et al, 2000).

Um classificador bem conhecido na área do Reconhecimento de Padrões é o k-vizinhos mais próximos (k-NN) (Duda, R. O. et al, 2000). Este algoritmo é amplamente utilizado devido à sua simplicidade conceitual e erro conceitualmente limitado. De maneira abreviada, um classificador k-NN associa um documento d à classe mais freqüente entre as classes dos k vizinhos mais próximos de d na coleção, de acordo com uma distância calculada no espaço vetorial de documentos.

(25)

Na área do tratamento de textos, a distância entre dois documentos di e dj mais comumente utilizada é a distância euclidiana.

e a denominada “métrica do co-seno”

Devido à dimensão elevada do espaço de documentos (M), nessa abordagem divide-se o espaço original em diversos subespaços, cada qual tratado por um classificador específico.

Considere-se o caso de P subespaços: inicialmente algumas colunas da matriz de (documentos x termos) C são selecionadas aleatoriamente. Se 1,2,…M são as colunas de C, seja X o subespaço projeção sobre estas colunas; proj X (C) representa a sub-matriz obtida de C pela projeção de suas linhas sobre X, com dimensão N x | X |, e proj X (d) é a matriz 1 x | X | que corresponde a um documento d.

Em cada subespaço gerado desta forma, um classificador pode atuar. Nos experimentos constantes deste trabalho foram utilizados subespaços de mesma dimensão (isto é | X | é constante para cada subespaço X). Em cada X empregou-se um classificador k-NN fundamentado na métrica do co-empregou-seno com o critério usual de classificação do algoritmo. Por exemplo, para k=1 segue-se o seguinte critério de classificação: Classe (d) = Classe(di) onde di é tal que cos(di,d) < cos(dj,q) para todo j <> i.

Quando se aplica a regra de classificação em cada subespaço, obtém-se P possíveis classificações. Então se deve decidir a classe de d usando um procedimento de decisão que leve em conta os resultados individuais dos diferentes classificadores de 1 até P. Usualmente para a combinação de classificadores se emprega o princípio do voto da maioria (majority vote principle), isto é, assinala-se ao documento d a classe mais freqüente entre as P assinaladas individualmente pelos classificadores a d.

Além destas regras, (Gean, C. C. e Kaestner, C. A. A., 2004) empregaram uma segunda regra de combinação: inicialmente um conjunto com todos os documentos que se constituem nos vizinhos mais próximos a d é formado; em

(26)

seguida determina-se a classe de cada um destes documentos e a mais freqüente é indicada. Este procedimento considera apenas documentos diferentes para calcular a classe final, visto que a formação do conjunto intermediário elimina aparecimentos múltiplos dos documentos, não importando o número de vezes em que os mesmos apareçam nas P classificações.

Em especial, um implementação dessa técnica que vem ganhando bastante visibilidade na literatura é a de Joachims (2002) - Support Vector Machines.

2.1.2.

Análise de Correspondência

Esta abordagem provém de uma técnica bastante conhecida em estatística para análise de associações entre palavras. O resultado da análise permite que um ser humano interprete visualmente as associações, enxergue conglomerados e assim extraia um conhecimento relevante. Em mineração de textos esta é uma boa combinação já que o tratamento analítico das palavras ainda é complexo para o computador e o humano, com conhecimento no assunto, pode apurar a análise.

Um dos representantes deste trabalho é o francês Ludovic Lebart. Em seus trabalhos, Lebart se preocupou muito com a aplicação de pesquisa de mercado. Esse tipo de problema envolve um trabalho de campo onde várias pessoas recebem questionários de perguntas abertas e preenchem com texto livre.

Para (Lebart, L. et al, 1998) a idéia é construir uma tabela de contingência lexical com as palavras em linhas e as categorias em coluna formando uma matriz C(i,j), onde o valor (i,j) é o número de ocorrências da palavra j no questionário i.

Como a quantidade de palavras é muito grande, é feito um pré-processamento selecionando as palavras que têm freqüência maior que fc. Isto ajuda a reduzir a dimensionalidade do problema e filtrar as associações mais significantes.

Em um exemplo, um questionário com a pergunta “O que é importante para sua vida?” foi entregue a uma população que era caracterizada por educação e idade. Para formar a tabela de contingência lexical, executou-se um corte de freqüência de 16 ou mais vezes e consolidaram-se as variáveis educação e idade em 9 categorias diferentes.

(27)

Tabela 17 – Matriz com o número de ocorrência do termo (linhas) em cada uma das partições educação (L,M e H) e idade (-30, -55 e +55).

Como um procedimento de análise de correspondência normal, são calculadas distâncias por meio da estatística de Qui-quadrado:

Aplicada a análise de correspondência, a distância entre dois pontos i e i’ é dada por

d

ii '2

=

∑

j

(1/c

j

(p

ij

/r

i

- p

2i ' j

/r

i '

))

onde cj é o total da coluna j, ri é o total da linha i e pij o valor da célula.

Os valores das distâncias são organizados em uma matriz de distâncias. É então feita uma visualização dos dados a partir da projeção (de duas dimensões) que maximiza a variância dos dados segundo o procedimento estatístico de análise das componentes

principais. O resultado pode ser visto na

(28)

Figura 42 – Resultado em duas dimensões da análise de correspondência

Interpretando este gráfico pode-se notar uma associação interessante entre a palavra “friends” e a categoria “-30/high” indicando que os jovens com alto nível educacional dão bastante importância aos amigos. Já os jovens de baixo e médio nível educacional dão mais importância ao dinheiro (“money”). Os mais velhos e de bom nível educacional (“medium e high”) dão mais importância à paz (“peace”), enquanto os de pouca educação se preocupam com sua saúde (“health”).

Na conclusão, o próprio autor já aponta para a importância de um bom pré-processamento por ter enfrentado dificuldades lexicais no tratamento de elementos redundantes e na delimitação da unidade lexical que corromperam a análise. Para mostrar a importância da etapa de pré-processamento, ele executou esta manualmente através da escolha de alguns segmentos que foram bastante freqüentes e calculou o novo resultado, ilustrado na Figura 43.

(29)

Figura 43 – Análise de correspondência utilizando a etapa de pré com segmentos de frase

Como no experimento da

Figura 42, friends and family estão próximos a categoria -30/high, peace of mind está correlacionado com +55/high, porém money não tem mais a ver com -30/medium como antes. Isso mostra como um bom pré-processamento dos dados interfere no resultado final e por isso é fundamental em mineração de textos.

2.1.3.

Análise de Discriminante

O método estatístico conhecida por análise de discriminante procura achar as palavras que mais discriminam o conjunto de documentos baseado nos conceitos Bayesianos. A diferença para outras abordagens estatísticas é que essa explicita o conhecimento extraído e determinando as palavras e os pesos relativos. Dessa forma, o usuário pode alterar o resultado, adicionando ou excluindo alguma palavra.

No trabalho de (Aggarwal, C. C. et al, 1999), são utilizados índices baseados na freqüência relativa para fazer categorização automática de documentos. Apesar de o processo de categorização também ser feito por

(30)

estatísticas em espaço vetorial, o que autor propõe de diferente está no pré-processamento dos dados textuais. O objetivo é reduzir a dimensionalidade do problema e poder executar cálculos em espaço vetorial sem perder performance. Para isso utilizou-se de conhecimentos da teoria de informação para selecionar apenas uma parte das palavras, como descrito a seguir.

Seja K o número de classes distintas, f(K) a freqüência de ocorrência da palavra em cada classe e n(K) o número total de palavras em cada classe. Assim, a freqüência relativa em uma classe particular é definida por f(i)/n(i). Finalmente e proveniente da teoria da informação, foi usado o índice Gini (Breiman, L. et al, 1984), que nesse caso édado por:

∑

= − = K i i p G 1 2 1 onde

∑

= = _K i i i i i i n f n f p 1 2

Se a palavra não for discriminante ela será distribuída igualmente em todas as classes e o índice Gini atinge seu valor máximo 1−1 K . Por outro lado se a palavra for altamente discriminante então o índice é muito menor.

Outro índice discriminante bastante usado é o TFIDF. A medida term frequency – TF – é uma medida que utiliza o número de ocorrências do termo tj no documento di. A idéia é que os termos que mais ocorrem no documento são mais relevantes que os termos menos freqüentes. Nesse caso, é atribuído a aij o valor TF(tj,di), o qual representa o número de vezes que o termo tj ocorre no documento di – Equação 3.2.

a_ij =TF

(

t_j,d_i

)

(3.2)

No entanto, um termo muito freqüente também pode ocorrer em quase todo o conjunto de documentos. Quando isso ocorre, esses termos não são úteis para uma boa discriminação das categorias. O componente da coleção é usado para dar

(31)

um peso menor para tais termos usando a medida Inverse Document Frequency – IDF – definida pela Equação 3.3.

c N

IDF =log (3.3)

IDF varia inversamente ao número de documentos c que contêm o termo tj em um conjunto de documentos N. A medida IDF favorece termos que aparecem em poucos documentos do conjunto. Assim, as medidas TF e IDF podem ser combinadas em uma nova medida denominada TFIDF. O valor de aij pode então ser calculado pela Equação 3.4.

(

)

(

)

c N d t TF d t TFIDF aij = j, i = j, i ×log (3.4)

O componente de normalização é utilizado principalmente para ajustar os pesos dos atributos para que tanto documentos pequenos quanto documentos maiores possam ser comparados na mesma escala. Em muitas situações, documentos pequenos são representados por poucos termos, enquanto que os documentos maiores, geralmente, por muitos termos. quando uma grande quantidade de termos é usada na representação de documentos, a probabilidade do termo pertencer a um documento é alta e, assim, documentos maiores têm melhores chances de serem relevantes do que documentos menores. Normalmente, todos os documentos relevantes à tarefa deveriam ser tratados com a mesma importância independente do seu tamanho. Um fator de normalização, nesse caso, deve ser incorporado. Os valores aij podem então ser formalizados de diversas formas, tais como a definida pela Equação 3.5, aqui denominada de TFIDFN para a medida TFIDF.

(

)

(

)

(

)

(

)

2 1 , , ,

∑

= = = N s s i i j i j ij d t TFIDF d t TFIDF d t TFIDFN a (3.5)

(32)

2.2.

Redes Neurais

Os modelos de Redes Neurais foram largamente utilizados durante a década de 90 para diversos fins, inclusive na área de mineração de textos. As Redes Neurais costumam ser modelos complexos, porém fechados, que fornecem bons resultados para determinadas aplicações onde se têm grandes volumes de dados, como é o caso de mineração de textos.

Dentro desta classe de soluções descreveremos três trabalhos: o modelo de Hopfield desenvolvido por (Sergei Ananyan), o modelo de Backpropagation no trabalho de (Fukuda, F., 1999) e redes auto-organizáveis (Kohonen, T. et al, 2000).

2.2.1. Hopfield

As redes de Hopfield possuem uma das primeiras arquiteturas para redes neurais, e sua importância para a área de mineração de textos se deve à sua retroalimentação.

Sergei Ananyan é da empresa americana Megaputer e ganhou prêmio pelo software de análise de textos TextAnalyst (Ananyan, S., 2006). Este software é baseado em um modelo de redes neurais Hopfield-like construído por Ananyan. A seguir descreveremos um pouco do seu funcionamento.

O programa TextAnalyst2_{realiza três processos principais. Primeiro o texto} é escaneado para uma variável caracter a caracter. Determina-se então uma janela de 2 a 20 caracteres que é passada pelo texto tirando fotos que serão a representação de palavras. O próximo passo é identificar o quão freqüente as palavras são encontradas juntas em um mesmo trecho semântico. Os parágrafos são contabilizados primeiramente e depois as frases.

Numa segunda etapa o sistema monta uma rede preliminar onde cada palavra e cada relação tem um peso de acordo com a análise de freqüência. Finalmente, essa rede é usada como condição inicial para uma rede neural de Hopfield (Figura 44) com uma dimensão e neurônios totalmente interconectados.

2_{http://www.megaputer.com/ta_algo.html}

(33)

Figura 44 – Arquitetura de Hopfield utilizada no software TextAnalyst

O resultado é uma rede refinada com pesos redefinidos e normalizados, produzindo o que é nomeado de semantic network. Essa rede semântica é a base para todas as aplicações como classificação, sumarização e busca.

2.2.2.

Backpropagation

A rede neural do tipo Backpropagation se tornou a mais utilizada dentre as redes do tipo supervisionado. Uma aplicação deste modelo foi dada por (Fukuda, F., 1999) em sua tese de mestrado na PUC-Rio.

Nesta abordagem supervisionada, o usuário do sistema rotula os textos como positivo e negativo. A partir daí é feito um cálculo de índices que servem de insumo para a entrada da rede neural com uma camada escondida. A saída de treinamento é justamente o rótulo dado ao texto. A arquitetura e o modo de treinamento da rede neural são mostrados na Figura 45.

Os índices são calculados da seguinte forma:

TP: avaliação dos Termos Positivos

RP: avaliação dos Relacionamentos Positivos DP: avaliação dos Proximidades Positivas TN: avaliação dos Termos Negativos

RN: avaliação dos Relacionamentos Negativos DN: avaliação dos Proximidades Negativos

(34)

Figura 45 – Rede Neural Backpropagation. Modelo usado por Fukuda.

O cálculo dos índices nada mais é do que um pré-processamento dos dados e é feito com base na freqüência de ocorrência do termo, na freqüência relativa e na proximidade dos termos.

Depois do treinamento, um novo texto pode ser apresentado à rede e ela irá responder 0 ou 1, classificando-o segundo os pesos ajustados durante o treinamento. Os pesos aprendidos guardam o conhecimento da base de treinamento marcada pelo usuário de acordo com seus interesses. Uma quantidade pequena de neurônios é indicada para a captura da essência dos interesses do usuário produzindo uma melhor generalização do conhecimento.

Ainda em (Fukuda, F., 1999), foram apresentadas dificuldades em seu trabalho quanto ao Processamento da Linguagem Natural, não disponível na época para o português. Na bibliografia, observa-se também que a maioria dos trabalhos da literatura de mineração de textos já utilizavam técnicas de PLN, corroborando a importância dessa junção.

2.2.3.

Mapas Auto-Organizáveis

Os mapas auto-organizáveis (SOM, na sigla em inglês) são métodos de redes neurais de aprendizado não supervisionado que organizam os dados segundo uma função objetiva. Os neurônios são interligados, dispostos sobre uma condição inicial proveniente dos dados de entrada e, sob treinamento, procuram um equilíbrio de balanceamento da função objetiva.

Em especial, o Kohonen, é um SOM que permite a visualização da similaridade dos dados analisados. Funciona com base na reorganização espacial

(35)

dos dados, mantendo a mesma topologia, isto é, documentos semelhantes ficam próximos e documentos diferentes ficam distantes entre si (Kohonen, T. et al, 2000).

Uma forma de utilizar a arquitetura de Kohonen para classificar textos é descrever cada texto segundo um modelo estatístico de histograma. Podemos ainda dar pesos às palavras e utilizar a IDF (inverse document frequency) como peso de informação (Spark-Jones, K. e Willet, P., 1997).

Inicialmente, os neurônios têm pesos aleatórios, mas a cada documento que é apresentado os neurônios da rede competem entre si para saber quem é o vencedor em termos de similaridade, e o vencedor é reajustado, assim como os vizinhos, segundo a seguinte expressão.

Ao final os resultados são visualizados em um mapa. A

Figura 46 mostra um exemplo de SOM em equilíbrio. No primeiro mapa foram grifados com pontos escuros os documentos que abordam o textos sobre química, no segundo foram grifados os textos sobre construção. As nuvens pretas mostram os lugares no mapa onde há a maior concentração de documentos das

classificações.

Figura 46 – Distribuição do mapa dos documentos. Em cinza os lugares onde há a maior concentração de documentos.

(36)

Neste experimento, foram visualizados 6840568 documentos mostrando a capacidade de processamento de uma rede neural. Mesmo assim, podemos notar que o pré-processamento dos dados ainda é crítico para o resultado final.

2.3.

Aprendizado de Máquina

Dentro da área de aprendizado automático, recentemente tem-se investido muito em Aprendizado de Máquina (ML, do inglês Machine Learning) para a resolução de problemas de pré-processamento de textos como: etiquetagem morfossintática (Brill, E., 1995) e (Ratnaparkkhi, A., 1998), identificação de sintagmas nominais básicos (base noun phrase) (Cardie, C. e Pierce, D., 1998), (Ramshaw, L. A. e Marcus, M. P., 1995), (Tjong, E. F., 2000); (Tjong, E. F., 2002) e análise sintática parcial (Koeling, R., 2000), (Ramshaw, L. A. e Marcus, M. P., 1995); (Tjong, E. F., 2002). Dentre as técnicas de aprendizado de máquina mais utilizadas podemos citar Cadeias de Markov Escondidas (Seymore, K. et al, 1999), Bayesian Model Merging, Entropia Máxima, Aprendizado Baseado em Casos (Memory Based Learning) e Aprendizado Baseado em Transformações (Brill, E., 1993).

Os modelos que serão mencionados nas seções seguintes são baseados em lógica indutiva e regras. Apesar de apresentarem cálculos probabilísticos em sua estrutura, estes não compõem a parte crítica do modelo. São eles: o modelo de Cadeia de Markov através de (Seymore, K. et al, 1999) e o modelo de Aprendizado Baseado em Transformações (TBL, sigla em inglês) através de (Brill, E., 1993).

2.3.1.

Cadeias de Markov Escondidas

Este modelo, em inglês Hidden Markov Models (HMM), é extremamente eficiente em seus resultados, porém seu treinamento é bastante custoso.

“A HMM is a finite state automaton with stochastic transitions and symbol emissions” (Rabiner, L., 1989)

Como já foi dito anteriormente, tem um forte embasamento estatístico, mas as regras envolvidas têm um peso muito maior no resultado.

(37)

Um modelo de HMM é composto por:

Um conjunto de estados escondidos: 1,2,3,...,N

Um seqüência observada q0 (início), q1, q2, ..., qT, ...., qN (fim) Vocabulário de saída: Σ = (σ₀, σ₁, ..., σm)

Probabilidade de Transição P( q → q’ ) Verossimilhança da saída B( q ↑ σ )

Seguindo de perto o trabalho de (Seymore, K. et al, 1999), foi utilizado HMM para extração de informação. A informação a ser extraída neste modelo é estrutural, isto é, o objetivo é classificar o trecho de texto quanto a pertinência ao título, ao autor ou ao corpo do documento.

Primeiramente é inserida no sistema o automato de transição dos estados, um exemplo pode ser visto na Figura 47.

Figura 47 – Exemplo de automato para Cadeia de Markov Escondida.

Uma vez carregado o autômato, é ativado o procedimento de otimização que é calculado a partir da combinação de rótulos que maximiza a verossimilhança. O algoritmo de (Viterbi, A. J., 1967) resolve este problema através da seguinte equação:

O resultado desse procedimento é um conjunto de rótulos para cada palavra do documento. A

Figura 48 mostra um texto original a ser pré-processado segundo o automato da Figura 47, as palavras passam por um dicionário indicando a sua classe e o algoritmo de HMM rotula cada uma delas com os rótulos <T> para título, <D>

) ( ) ( max arg ) | ( 1 1 1 1 k k l k k k Q q q x q P q q P M x V l l ↑ → =

∏

+ = − ∈ K

(38)

para datas, <A> para autor e <C> para conetúdo, de forma a maximizar a probabilidade de transição. A Figura 49 mostra o texto original rotulado.

(39)

Como era esperado, Brasil goleia Hong Kong em amistoso

09:02 09/02

Redação e agências

Apesar do adversário não ser lá muito perigoso, a seleção brasileira fez nesta quarta-feira um bom amistoso contra a seleção de Hong Kong. Para quem queria ver Ronaldinho Gaúcho, Robinho, Roberto Carlos e cia. tocarem fácil na bola até o gol foi uma ótima oportinidade. O placar do 7 a 1 no final nem foi o mais importante.

Figura 48 – Texto original

Como<T> era<T> esperado<T> , <T> Brasil<T> goleia<T> Hong<T> Kong<T> em<T> amistoso<T>

09:02<D> 09/02<D>

Redação<A> e<A> agências<A>

Apesar<C> do<C> adversário<C> não<C> ser<C> lá<C> muito<C> perigoso<C>,<C> a<C> seleção<C> brasileira<C> fez<C> nesta<C> quarta<C>-<C>feira<C> um<C> bom<C> amistoso<C> contra<C> a<C> seleção<C> de<C> Hong<C> Kong<C>.<C> Para<C> quem<C> queria<C> ver<C> Ronaldinho<C> Gaúcho<C>,<C> Robinho<C>,<C> Roberto<C> Carlos<C> e<C> cia<C>.<C> tocarem<C> fácil<C> na<C> bola<C> até<C> o<C> gol<C> foi<C> uma<C> ótima<C> oportinidade<C>.<C> O<C> placar<C> do<C> 7<C> a<C> 1<C> no<C> final<C> nem<C> foi<C> o<C> mais<C> importante<C>.<C>

Figura 49 – Resultado da extração de informação de HMM. Os rótulos após cada palavra é o rótulo ótimo encontrado. <T> título; <D> data; <A> autor e <C> corpo.

(40)

2.3.2.

Aprendizado Baseado em Transformações

O aprendizado baseado em transformações é comumente referenciado pela sigla em inglês TBL (Transformation Based Learning) e pertence à classe de técnicas automáticas de machine learning. Essa técnica está ganhando cada vez mais espaço na literatura devido a seus bons e eficientes resultados.

A saída do TBL é uma lista ordenada de regras, as quais, aplicadas nos dados, fazem reduzir o erro de rotulação. TBL tem sido aplicada em diversas tarefas em mineração de textos como resolução de ambiguidade sintática (Brill, E. e Resnik, P., 1994), parsing sintático (Brill, E., 1993) e desambiguização de palavras (Dini et al, 1998). Mas os melhores resultados dessa técnica têm sido na etiquetagem de classe gramatical. Uma abordagem desta aplicação será descrita nos parágrafos seguintes.

Seguindo o trabalho de (Brill, E., 1995) podemos dizer que um processo genérico de TBL procede como na Figura 50.

Figura 50 – Processo de funcionamento de um TBL

Primeiro, um texto não anotado é passado por um anotador inicial, que pode ser tanto manual como aleatório. Uma vez rotulado ele é comparado com a verdadeira classificação, que é um corpus de treinamento. Assim, uma lista de

(41)

regras de transformação vão sendo aprendidas. Estas regras podem ser de duas formas: as regras de reescrever e a de disparo.

As regras de reescrever agem da seguinte forma: “mude o rótulo de substantivo para adjetivo” e as de disparo das regras de reescrever como “se a palavra anterior é um determinante”.

Os problemas desta abordagem se resumem em precisar de um grande corpus anotado, gerar muitas regras (o que vai de encontro ao princípio da parsimônia) e não contemplar um léxico. O fato de não ter de trabalhar com um léxico impacta na rotulação de uma palavra de um texto novo que não estava contida no corpus anotado.

(42)

3 Mineração de Texto

A existência de ferramentas que realmente suportam todo o processo de KDD ainda é bastante restrita. Ferramentas comerciais, tais como MineSet e IntelligentMiner, geralmente têm um caráter mais exploratório e fazem uso de algoritmos e ferramentas proprietárias, o que dificulta o seu uso por pesquisadores.

De forma geral um processo de mineração de textos contém quatro macro etapas: coleta, pré-processamento, indexação e análise da informação. Nos próximos parágrafos é descrito o processo como um todo e em seguida cada uma das etapas de forma mais detalhada.

A etapa inicial tem por objetivo a coleta de das informações que vão compor a base textual de trabalho, isto é, determinar e selecionar o universo de atuação das técnicas de mineração de texto. Por outro lado, nenhuma informação que não esteja contida na base textual poderá ser extraída, encontrada ou utilizada de alguma forma.

Após a coleta de documentos é necessário transformar os documentos em um formato propício para serem submetidos aos algoritmos de extração automática de conhecimento. Essa segunda etapa, denominada de pré-processamento, é responsável por obter uma representação estruturada dos documentos, geralmente no formato de uma tabela atributo-valor.

Essa tabela atributo-valor que representa os documentos tem como característica valores esparsos dos dados e uma alta dimensionalidade. Essas características são inerentes à problemas relacionados ao processo de MT, pois cada palavra presente nos documentos pode ser um possível elemento do conjunto de atributos dessa tabela atributo-valor. É, portanto, uma etapa bastante custosa e um cuidadoso pré-processamento dos documentos é imprescindível ao sucesso de todo o processo de MT.

Após os documentos serem representados em um formato adequado, é possível aplicar técnicas de extração de conhecimento utilizando sistemas de mineração de dados. Caso os documentos estejam representados no formato de

(43)

uma tabela atributo-valor, geralmente, na terceira etapa, são empregados métodos de RI como indexação para aumentar a performance do processo.

Finalmente, na última etapa, o objetivo é descobrir padrões úteis e desconhecidos presentes nos documentos. Para a extração de padrões, são utilizadas técnicas de forma semelhante ao processo tradicional de MD.

A seguir, então, explicaremos de forma mais detalhada cada uma das etapas envolvidas no processo de mineração de texto, dando mais ênfase à etapa de pré-processamento. Vale ressaltar que o processo descrito a seguir é o processo clássico, que servirá de comparação com o modelo proposto nessa tese a ser apresentado no próximo capítulo.

3.1.

Coleta de Dados

A coleta de dados tem como função formar a base textual de trabalho. Essa base pode ser estática, nos casos mais simples, ou dinâmica, isto é, atualizadas a todo momento através de robôs autônomos coletando novas informações. A atualização é feita pela simples adição de um novo conteúdo, remoção de conteúdos antigos, ou, substituição da base por uma inteiramente nova.

Coletar dados é uma atividade trabalhosa. Um do motivos é que os dados podem não estar disponíveis em um formato apropriado para serem utilizados no processo de mineração de textos. Essa dificuldade não é nova, em (Pyle, D., 1999) é apresentada uma lista de alguns desafios para essa fase.

Para mineração de textos, um dos principais problemas em coletar dados é descobrir onde os dados estão armazenados. Depois disso recuperar documentos relevantes ao domínio de conhecimento. De forma geral, esse procedimento se estabelece basicamente em três ambientes distintos: no diretório de pastas do disco rígido; em tabelas de diferentes bancos de dados e na Internet.

Para o disco rígido temos os sistemas de GED (gerenciamento eletrônico de documentos) para grandes empresas e recentes lançamentos de busca local como Google Desktop, Yahoo! Desktop e Ask Jeeves Desktop.

Nos bancos de dados, a iniciativa de Data Warehouses (Kimball, R., 1996) surgiu com o intuito de unificar e centralizar diferentes bancos de dados de forma disponibilizar mais facilmente as informações. Embora os Data Warehouses

(44)

facilitem bastante a coleta de dados, o problema ainda está longe de ser bem resolvido, principalmente quando se trata de textos. Além disso, esse modelo se mostrou bastante custoso e árduo, o que fez com que se estabelecesse apenas em pouco lugares de forma definitiva. (Batista, 2003)

Na Internet temos uma infinidade de páginas pessoais, institucionais, páginas de revistas e diversas fontes disponíveis para coletar os documentos tais como livros e artigos. Para facilitar o acesso a esses documentos na Internet, muitas ferramentas de apoio têm sido construídas usando as seguintes abordagens: Motores de Busca Baseados em Robô (Robotic Internet Search Engines), Diretórios de Assunto (Subject Directories) (Peterson, R. E., 1997).

Trabalhos relacionados à coleta de documentos provenientes da Internet podem ser encontrados na literatura (Baeza-Yates, B. e Ribeiro Neto, B., 1999); (Joachims, T. et al, 1997). Muitos deles combinam técnicas de AM e Recuperação de Informação (RI) (van Rijsbergen, C. J., 1979) para determinar o perfil do usuário visando melhorar a coleta de documentos.

Em qualquer desses ambientes, um crawler é o robô responsável por navegar de forma autônoma e exploratória pela rede para fazer a coleta. Esses robôs se tornaram mais conhecidos na Internet com o nome de webcrawler. Versões livres de webcrawlers podem ser encontradas na Internet, a exemplo do wGet. Uma das importantes funções de um webcrawler é saber decodificar os HTMLs, tanto para recortar apenas o que é conteúdo texto como para seguir para o hiperlinks que se encontram na página. Outra função importante é saber gerenciar bem seu caminho de percurso que tem a forma de um grafo de modo a impedir que o robô visite várias vezes a mesma página ou entre em ciclos eternos.

3.2.

Pré-processamento

O pré-processamento de textos consiste em um conjunto de transformações realizadas sobre alguma coleção de textos com o objetivo de fazer com que esses passem a ser estruturados em um representação atributo-valor. De modo geral, a etapa de pré-processamento tem por finalidade melhorar a qualidade dos dados já disponíveis e organizá-los. As ações realizadas na etapa de pré-processamento de