Recuperação de informação e classificação de entidades organizacionais em textos não estruturados

(1)

RECUPERAÇÃO DE INFORMAÇÃO E CLASSIFICAÇÃO DE ENTIDADES ORGANIZACIONAIS EM TEXTOS

NÃO ESTRUTURADOS Por

DANIELLE GUEDES FRUTUOSO Dissertação de Mestrado Profissional

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

(2)

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

DANIELLE GUEDES FRUTUOSO

RECUPERAÇÃO DE INFORMAÇÃO E CLASSIFICAÇÃO DE ENTIDADES ORGANIZACIONAIS EM TEXTOS NÃO ESTRUTURADOS

Este trabalho foi apresentado à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientador: Ricardo Bastos Cavalcante Prudêncio

(3)

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

F945r Frutuoso, Danielle Guedes

Recuperação de informação e classificação de entidades organizacionais em textos não estruturados / Danielle Guedes Frutuoso. – Recife: O Autor, 2014.

86 f.: il., fig., tab., gráf.

Orientador: Ricardo Bastos Cavalcante Prudêncio.

Dissertação (mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da computação, 2014.

Inclui referências.

1. Ciência da computação. 2. Inteligência artificial. 3. Recuperação da informação. I. Prudêncio, Ricardo Bastos Cavalcante (orientador). II. Título.

004 CDD (23. ed.) UFPE- MEI 2015-65

(4)

Dissertação de Mestrado Profissional apresentada por Danielle Guedes Frutuoso à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título, “Recuperação de Informação e

Classificação de Entidades Organizacionais em Textos Não Estruturados”,

orientada pelo Professor Ricardo Bastos Cavalcante Prudêncio e aprovada pela Banca Examinadora formada pelos professores:

_______________________________________________ Prof. Leandro Maciel Almeida

Centro de Informática / UFPE

______________________________________________ Prof. Renato Fernandes Corrêa

Universidade de Pernambuco

_______________________________________________ Prof. Ricardo Bastos Cavalcante Prudêncio

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 28 de abril de 2014.

___________________________________________________

Profª. EDNA NATIVIDADE DA SILVA BARROS

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

Dedico este trabalho aos meus pais pelo amor incondicional e apoio de sempre. E aos meus avôs e avós que mesmo não estando fisicamente presente, estão orgulhosos por essa conquista.

(6)

Agradecimentos

Deixo meus sinceros agradecimentos àqueles que contribuíram de alguma forma para a realização deste trabalho:

A Deus, aquele a quem devo tudo que tenho e sou, pela minha saúde, fé e esperança em todos os momentos da minha vida.

Aos meus pais, José Câmara e Ademilde, pelo amor, compreensão e apoio sempre prestado, especialmente no período de dedicação a este trabalho onde não pude proporcionar-lhes a atenção merecida. Agradeço também a minha irmã Léa Karine, pelo amor, incentivo e paciência. A coragem e determinação de vocês me dão forças para chegar mais longe.

Ao meu noivo, Felipe Burégio, por sempre me incentivar e acreditar em mim, até quando eu mesma duvidei, pois além de incentivar o meu crescimento, sempre tinha palavras otimistas e me estimulava a seguir em frente. Pelo seu amor, carinho, auxílio e sugestões na realização deste trabalho. Obrigada pela compreensão e paciência em meus momentos de estresse, e pelo tempo pausado na organização do nosso casamento.

A Kurier, em especial a Leandro Rodriguez, como representante da Diretoria, pela oportunidade oferecida em realizar este mestrado, pelo apoio e compreensão.

A meu orientador, Prof. Ricardo Prudêncio, pela confiança, dedicação e paciência durante todo esse tempo de pesquisa, transmitindo seus ensinamentos e sugestões de melhorias para o aperfeiçoamento desse trabalho.

Aos professores Leandro Maciel Almeida e Renato Fernandes Corrêa por terem aceitado participar de minha banca e compartilhar seus conhecimentos.

Aos meus colegas de turma, especialmente Clayton Aguiar, Késia Marques e Sarah Mesel, pelos momentos vividos, troca de conhecimentos e esforço compartilhado.

Ao meu amigo Hilário Tomaz pelos conhecimentos concedidos, suporte e apoio nesta pesquisa.

A toda minha família pelo apoio e presença, aos que me incentivaram nesta conquista, meu agradecimento pela compreensão nesses meses de ausência.

Enfim, agradeço a todos os meus amigos que me ajudaram com opiniões, ideias e incentivos, contribuindo para realização deste trabalho.

(7)

Resumo

A explosão de dados na internet deixou de ter foco apenas em grandes empresas para ser amplamente utilizada por usuários comuns. Esse crescimento elevado traz consigo grandes desafios em relação à disponibilização da informação. A natureza descentralizada e desestruturada na qual esses dados estão disponíveis, tornam a tarefa de encontrar, analisar e sintetizar comentários sobre uma dada empresa, produto ou serviço extremamente complicada, ocasionando resultados de baixa qualidade. Esta pesquisa tem como foco a extração de informação de textos livres gerados pela rede social Twitter, onde na maioria das vezes apresentam uma estrutura linguística irregular. Dentre os diversos trabalhos relacionados à extração de informação podemos destacar o Reconhecimento de Entidades Mencionadas (REM), cujo objetivo consiste em localizar e classificar elementos do texto em categorias pré-definidas como Organizações, Pessoas, Local, etc. Neste trabalho será considerada apenas a categoria Organização, com ênfase em palavras homônimas. O experimento deste trabalho foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que no primeiro exige o conhecimento do especialista para determinar todos os atributos considerados relevantes para o aprendizado supervisionado. No segundo cenário, um processo automatizado define parte desses atributos. Os experimentos foram realizados usando a ferramenta Weka onde foram avaliados os classificadores: Naive Bayes, Máquinas de Vetores de Suporte (SVM), K-Vizinhos mais Próximos e Árvores de Decisão. Como medidas de desempenho foram analisadas taxas de acerto, precisão, cobertura e medida-F. Apesar dos resultados apresentados pelos classificadores se mostrarem bastante aproximados, o algoritmo K-Vizinhos mais Próximos obteve em boa parte dos testes melhores resultados. Nos dois cenários os resultados chegaram próximos um do outro, porém o primeiro cenário obteve como resultado médio de acerto, um percentual de 91,7% se destacando em relação à média alcançada de 88,9% para a segunda etapa.

Palavras-chave: Classificação de textos. Reconhecimento de Entidades

(8)

Abstract

The the explosion of data on the internet left to have the focus only on large companies but it is an issue of interest common users. This high growth brings challenges regarding the availability of data. The decentralized and unstructured nature of the available data makes the task of finding, analyzing and synthesizing comments regarding a specific company, product or service extremely hard and may cause low quality results. This research is focused on extracting information from free texts generated by the social networking Twitter, which most of the time, shows an irregular linguistic structure. Among the variety of works related to data extraction we can highlight the Named Entity Recognition (NER), The main objective is to locate and classify text elements in pre-defined categories like Organizations, People, Places, etc. In this work only the Organization category will be considered emphasizing homonymous words. This experiment was divided in two different scenarios. Both scenarios use similar characteristics. The difference between them is that the first one requires the knowledge of a specialist to determine all the relevant attributes that will be considered for the supervised learning. In the second scenario, an automated process defines part of the attributes. The experiments were performed using the tool WEKA to evaluate classifiers such as: Naive Bayes, Support Vector Machines, Nearest Neighbors and Decision Trees. As performance measures success rate, precision, coverage and F-measure were analyzed. Although the algorithms obtained similar results, the K-Nearest Neighbor algorithm achieved better results in most part of the experiments. In both scenarios, the results were also similar, but the first scenario obtained as average result hit, a percentage of 91.7% standing out from the average reached 88.9% for the second scenarios.

(9)

Lista de Gráficos

Gráfico 1: Melhores Resultados HAREM (Precisão e Cobertura) ... 28 Gráfico 2: Percentual da classificação da Entidade ... 43 Gráfico 3: Percentual de documentos e sua relação com os atributos... 47 Gráfico 4: Percentual de documentos para cada atributo, considerando as duas classes: Organizacional e Não Organizacional ... 48 Gráfico 5: Percentual de documentos e sua relação com os atributos, utilizando Top 10 Termos de Inclusão e Exclusão ... 49 Gráfico 6: Percentual de documentos para cada atributo, utilizando Top 10 Termos de Inclusão e Exclusão, considerando as duas classes: Organizacional e Não Organizacional. ... 50 Gráfico 7: Frequência por atributo na coleção de documentos - Primeira etapa ... 60 Gráfico 8: Frequência por atributos wordInc e wordExc na coleção de documentos – Primeira Etapa ... 61 Gráfico 9: Frequência por atributo na coleção de documentos - Segunda etapa ... 62 Gráfico 10: Frequência dos atributos wordInc e wordExc na coleção de documentos – Segunda Etapa ... 62

(10)

Lista de Figuras

Figura 1: Arquitetura Simplificada do Aprendizado Supervisionado. ... 31

Figura 2: Atividades realizadas na execução dos experimentos ... 39

Figura 3: Exemplo de arquivo de entrada do Weka ... 52

Figura 4: Exemplo de validação cruzada utilizando 3-folds ... 56

Figura 5: Medidas de avaliação ... 57

Figura 6: Matriz de confusão de cada classificador para a Entidade Claro nas duas etapas do experimento ... 70

Figura 7: Matriz de confusão de cada classificador para a Entidade Extra nas duas etapas do experimento ... 71

Figura 8: Matriz de confusão de cada classificador para a Entidade Ferreira Costa nas duas etapas do experimento ... 71

Figura 9: Matriz de confusão de cada classificador para a Entidade Ford nas duas etapas do experimento ... 72

Figura 10: Matriz de confusão de cada classificador para a Entidade Garoto nas duas etapas do experimento ... 72

Figura 11: Matriz de confusão de cada classificador para a Entidade Oi nas duas etapas do experimento ... 73

Figura 12: Matriz de confusão de cada classificador para a Entidade Renner nas duas etapas do experimento ... 74

Figura 13: Matriz de confusão de cada classificador para a Entidade Sadia nas duas etapas do experimento ... 74

Figura 14: Árvore de decisão de forma textual gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na primeira etapa do experimento. ... 75

Figura 15: Árvore de decisão gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na primeira etapa do experimento. ... 76

Figura 16: Árvore de decisão de forma textual gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na segunda etapa do experimento. ... 77

Figura 17: Árvore de decisão gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na segunda etapa do experimento. ... 77

(11)

Lista de Tabelas

Tabela 1: Resultado da classificação semântica do HAREM I ... 27

Tabela 2: Resultado da classificação semântica do HAREM II ... 27

Tabela 3: Lista dos atributos utilizados no experimento ... 45

Tabela 4: Lista de Palavras antecedentes ... 45

Tabela 5: Lista de Termos de Inclusão e Exclusão para a Entidade Garoto ... 46

Tabela 6: Taxa de acerto obtida pelo Weka para as oito entidades avaliadas na primeira etapa ... 64

Tabela 7: Taxa de acerto obtida pelo Weka para oito entidades avaliadas na segunda etapa ... 65

Tabela 8: Resultado das medidas de avaliação: precisão, cobertura e medida-F para a entidade Claro ... 66

Tabela 9: Resultado das medidas de avaliação: precisão, cobertura e medida-F para a entidade Extra ... 66

Tabela 10: Resultado das medidas de avaliação: precisão, cobertura e medida-F para a entidade Ferreira Costa ... 67

Tabela 11: Resultado das medidas de avaliação: precisão, cobertura e medida-F para a entidade Ford ... 67

Tabela 12: Resultado das medidas de avaliação: precisão, cobertura e medida-F para a entidade Garoto ... 68

Tabela 13: Resultado das medidas de avaliação: precisão, cobertura e medida-F para a entidade Oi ... 68

Tabela 14: Resultado das medidas de avaliação: precisão, cobertura e medida-F para a entidade Renner ... 68

Tabela 15: Resultado das medidas de avaliação: precisão, cobertura e medida-F para a entidade Sadia ... 69

(12)

Principais Siglas

ACE Automatic Content Extraction AM Aprendizado de Máquina

API Application Programming Interface ARFF Attribute-Relation File Format CD Coleção Dourada

CH Coleção HAREM

CoNLL Conference on Computational Natural Language Learning EM Entidade Mencionada

EN Entidade Nomeada

HAREM Avaliação de Sistemas de Reconhecimento de Entidades Mencionadas HTML HyperText Markup Language

IBK Instance-Bases learning with parameter k K-NN K-Nearest Neighbor

ML Machine Learning MET Multilingual Entity Task

MUC Message Understanding Conferences

NB Naive Bayes

NER Named Entity Recognition ORG Organizacional

REM Reconhecimento de Entidades Mencionadas

ReRelEM Reconhecimento de Relações entre Entidades Mencionadas RI Recuperação da Informação

SAHARA Serviço de Avaliação HAREM Automático SVM Support Vector Machine

SMO Sequential Minimal Optimization XML eXtensible Markup Language

(13)

Sumário

1. Introdução ... 14 1.1 Contexto Geral ... 15 1.2 Contexto Específico ... 15 1.3 Trabalho Realizado ... 17 1.4 Estrutura da dissertação ... 17 2. Revisão da Literatura ... 19

2.1 Reconhecimento de Entidades Mencionadas (REM) ... 20

Conferências de Avaliação em REM... 21

Recursos auxiliares na tarefa de REM ... 25

2.2 Classificação de Textos ... 28

Aprendizado de Máquina... 30

Conjunto de Treinamento e Testes ... 32

2.3 Considerações Finais ... 33 3. Método de Pesquisa ... 35 3.1 Objetivos ... 36 3.2 Experimentos ... 37 Base de Experimentos ... 38 Características ... 43 Algoritmos utilizados ... 50

Estratégia de Treinamento e Teste... 54

Medidas de Avaliação ... 56

3.3 Considerações Finais ... 57

4. Resultados ... 59

4.1 Análise Exploratória ... 60

(14)

Avaliação das Medidas de Precisão, Cobertura e Medida-F ... 66

Matriz de Confusão ... 69

Árvore de Decisão ... 75

4.3 Considerações Finais ... 78

5. Conclusões ... 79

5.1 Resumo das Contribuições ... 80

5.2 Limitações da Pesquisa ... 81

5.3 Considerações para Trabalhos Futuros ... 82

(15)

Capítulo 1

1. Introdução

Este capítulo descreve o contexto desta pesquisa, os objetivos almejados, além de relatar as principais motivações para realização deste trabalho, e por fim, descreve a estrutura da presente dissertação.

(16)

1.1 Contexto Geral

O volume de informação publicada na internet cresce a cada dia, e à medida que novos documentos digitais vão surgindo, grandes desafios são enfrentados pelas organizações na tentativa de conseguir classificar e organizar esses documentos de forma eficiente.

A extração, recuperação de dados, classificação de texto e reconhecimento de entidades mencionadas têm sido objeto de estudo de muitas pesquisas recentes, visto que, as publicações de usuários têm ganhado grande espaço na internet.

A rede social Twitter, assim como algumas outras redes sociais, tem se mostrado uma importante ferramenta para comunicação e troca de informação, uma fonte quase inesgotável de dados, onde milhares de usuários expressam livremente suas opiniões, comentários e sentimentos. Essas informações são bastante úteis para obtermos as visões dos usuários referentes a alguma entidade (um produto específico, uma empresa, um lugar, uma pessoa).

Entretanto, esses dados nem sempre estão facilmente acessíveis, não possuem padrão e o usuário pode escrever da sua forma, com gírias, abreviações, erros gramaticais. As informações publicadas são disponibilizadas de forma não estruturada, fator que torna a tarefa de localizar, avaliar e classificar uma determinada entidade de pesquisa bastante complicada. Diante desta realidade, realizar esse processo de forma manual termina sendo muito extensa, custosa e vagarosa, e na maioria dos casos é inviável fazer a análise, fazendo-se necessária uma busca automática.

A partir da motivação em identificar Entidades Mencionadas nas postagens do Twitter, será utilizado nesta dissertação o Reconhecimento de Entidades Mencionadas (REM), que segundo Carvalho (2012), é uma subtarefa da extração de informações que tem como finalidade localizar e classificar elementos do texto em categorias pré-definidas, como nomes de pessoas, organizações, lugares, tempo entre outras classes.

1.2 Contexto Específico

Partindo desta crescente disponibilização de dados textuais na internet, onde organizações/portais de notícias e muitos usuários passaram a compartilhar seus conhecimentos, críticas e opiniões nas redes sociais, esses dados podem ser

(17)

importantes e de grande valia para empresas que pretendem melhorar e divulgar seus produtos: as opiniões de seus clientes em relação a seus produtos e aos produtos da concorrência. As opiniões e experiências de outros usuários sobre algum produto, marca ou serviço tornam-se de extrema importância na hora de tomar uma decisão de compra.

A rede social Twitter foi escolhida nessa pesquisa por se tratar de uma fonte com ricas informações populares e bastante variadas. Segundo dados estatísticos levantados pelo Socialnomics (2013), podemos destacar:

 53% das pessoas no Twitter recomendam produtos em seus tweets.

 90% dos consumidores acreditam em recomendações de amigos. Apenas 14% acreditam em anúncios.

Diante da importância de uma Organização em obter as informações que os usuários falam à seu respeito, será dado foco nesta pesquisa à REM cuja categoria se enquadra em Organização. Entretanto essa extração e reconhecimento tornam-se um pouco mais complexos quando o nome da Organização é um caso de homonímia, que são palavras com a mesma grafia e possuem mais de um significado. Um exemplo disso é possível verificar na postagem: “mês passado decidi abrir uma franquia da sadia no congelador de casa. Congelada é minha especialidade”. O termo Sadia, de forma isolada pode significar um adjetivo ou uma entidade organizacional. Em contrapartida, ao analisar o termo Sadia no contexto da postagem refere-se a uma Organização.

O REM para entidades Organizacionais será utilizado nesta pesquisa, considerando a necessidade de uma Organização receber as informações sobre sua marca/produto/empresa, de forma que sejam enviadas apenas as postagens relevantes, eliminando as informações onde a entidade não diz respeito à Organização.

Um estudo de palavras com mais de um significado para entidades Organizacionais será realizado nesta pesquisa utilizando o contexto para ajudar no processo de desambiguação.

(18)

1.3 Trabalho Realizado

O objetivo desta pesquisa de mestrado é criar uma metodologia que possibilite, a partir de posts recuperados da rede social Twitter, identificar as entidades pesquisadas nessas postagens e classificar em uma das duas classes: Organizacional ou Não Organizacional. A dificuldade desta classificação deve-se ao fato de que foi considerada para as entidades pesquisadas, casos de homonímia.

Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM, e é utilizado o aprendizado supervisionado, desta forma é necessário ter um conjunto de exemplos para treinar o sistema. Cada exemplo está associado a uma postagem contendo o termo de interesse e armazena: (1) características extraídas do post após uma etapa de pré-processamento; e (2) um rótulo indicando a classe da postagem em Organizacional ou Não Organizacional.

Como base para a pesquisa, 4.000 postagens foram capturadas do Twitter, sendo 500 para cada uma das oito entidades pesquisadas: Claro, Extra, Ferreira Costa, Ford, Garoto, Oi, Renner e Sadia, onde são consideradas casos homônimos, onde um dos significados é nome de Organização.

1.4 Estrutura da dissertação

Esta dissertação está dividida em cinco capítulos. Este capítulo apresentou o contexto desta pesquisa, os objetivos almejados, as principais motivações, e a estrutura da dissertação, conforme a seguir:

Capítulo 2 – Revisão da Literatura: É apresentado o referencial teórico

utilizado como base para esta dissertação, são especificados conceitos, terminologias, algumas conferencias e abordagens para a resolução do problema de Reconhecimento de Entidades Mencionadas, é introduzida a importância da classificação de textos baseada em técnicas de aprendizagem de máquina.

Capítulo 3 – Método de Pesquisa: Descreve as técnicas empregadas neste

trabalho e a base utilizada para realização dos experimentos. Assim como os atributos relevantes, os algoritmos e as medidas de avaliação da classificação.

(19)

Capítulo 4 – Resultados: Este capítulo apresenta os resultados alcançados,

onde os experimentos são comparados nas duas etapas realizadas nesta pesquisa. Os resultados obtidos para cada entidade e classificadores também são confrontados de forma a exibir uma análise dos melhores desempenhos.

Capítulo 5 – Conclusões: Descreve as considerações finais da dissertação,

discutindo as contribuições desta pesquisa, limitações encontradas e propostas para trabalhos futuros.

(20)

Capítulo

2 2. Revisão da Literatura

Este capítulo apresenta o referencial teórico para a dissertação, a importância, conceitos, terminologias, algumas conferencias e abordagens para a resolução do problema de REM.

Também é apresentada a importância da classificação de textos diante da crescente disponibilização de textos na internet, baseando-se em técnicas de aprendizagem de máquina.

(21)

2.1 Reconhecimento de Entidades Mencionadas (REM)

“Entidades mencionadas” (EM) foi a tradução (ou melhor, adaptação) do conceito usado em inglês, named entities, e que literalmente poderá ser traduzido para entidades com nome próprio (SANTOS; CARDOSO, 2007)

Segundo Amancio (2009), EM têm a mesma definição de Entidades Nomeadas (EN), porém Entidades Mencionadas dependem do contexto em que se encontram para que sejam resolvidas. Por exemplo, o termo “Brasil”, quando sozinho, representa o país mais populoso da América Latina. Porém, se o considerarmos na frase: “Brasil e Portugal jogam amanhã”, “Brasil” representa a seleção brasileira de futebol. “Brasil”, sem contexto, é considerado uma EN, já, com contexto, uma EM.

Diferentes técnicas são aplicadas para a resolução do problema de REM, tais como sistemas baseados em regras e técnicas de aprendizado de máquina. Alguns desses sistemas fazem uso de regras específicas da linguagem adicionados ao uso de técnicas de aprendizado de máquina, fazendo assim o seu sistema mais especializado para uma língua ou outra.

Entidades Mencionadas são palavras da classe de substantivos próprios. Definem nomes para lugares, pessoas, organizações, etc. REM é a tarefa de localizar e explicitar as Entidades Mencionadas em um texto. Essa explicitação significa o enquadramento dessa entidade em uma ontologia específica, previamente estabelecida. (AMANCIO, 2008).

O foco deste trabalho é o Reconhecimento de entidades que caracterizam uma organização.

Segundo Sardinha (2004), Corpus é um conjunto de textos que são compilados para um fim específico. É um recurso linguístico na atividade de REM.

Metapalavras, nomenclatura herdada de Aranha (2007b), representam as palavras das vizinhanças das entidades. Estas palavras muitas vezes dão indicações das classes destas entidades. Por isso, Metapalavras são geralmente usadas na etapa de desambiguação.

Por exemplo, na sentença “A avenida de Santa Teresinha não está presente no mapa.” A presença da metapalavra “a avenida” ajuda a identificar a EM “Teresinha” como sendo o nome de uma avenida, que poderia ser confundido por

(22)

um nome de pessoa (dica falsa: “Teresinha”) ou o nome de uma santa do catolicismo (dica falsa: “Santa”).

Adivinhação, nomenclatura herdada de Aranha (2007b), são similares às Metapalavras. Adivinhações são palavras que fazem parte das entidades e também dão dicas de sua classificação. São usados na etapa de classificação. Exemplo: Dr., Sr., Sra., Exmo.

Gazetteers/Almanaques são dicionários de Entidades Mencionadas. Podem ser compilados de forma semiautomática, automática ou manual (NADEAU, 2007).

Alguns procedimentos naturais para humanos, como é o caso de ambiguidades, tornam-se difíceis quando realizados por um sistema especialista. Baseados em Aranha (2007a) podemos exemplificar:

1. Danielle G. Frutuoso

2. Lutador Júnior dos Santos Almeida 3. Diretor da Kurier Leandro Rodriguez 4. Renner

O exemplo 1 refere-se a um nome próprio não comum porque há uma abreviação no meio onde poderia ser considerado como final de uma frase, podendo o sistema interpretar como final de sentença, considerando neste caso, duas frases. No exemplo 2, a presença do termo “dos” pode fazer com que um sistema de REM separe em dois nomes distintos: “Lutador Júnior” e “Santos Almeida”. No exemplo 3 realmente existem duas entidades, porém não há alguma indicação de onde fracionar. Finalmente, no exemplo 4, ocorre um problema de ambiguidade, onde a entidade “Renner” pode significar uma Organização (loja) ou o nome de uma pessoa.

Esta dissertação terá como foco, situação como o exemplo 4, onde uma palavra possui mais de um significado, e será utilizado o contexto para ajudar no processo de desambiguação.

Conferências de Avaliação em REM

Existem várias conferências de avaliação internacionais dedicados ao domínio de EM, entre os quais se destacam o MUC (Message Understanding Conferences), MET (Multilingual Entity Task), CoNLL (Conference on Computational

(23)

Natural Language Learning), ACE (Automatic Content Extraction) e o HAREM (Avaliação de Reconhecimento de Entidades Mencionadas), para a língua portuguesa.

As conferências apresentadas abaixo descrevem categorias avaliadas para a classificação de REM, e destacamos que o foco deste trabalho está na subcategoria de organização.

MUC

Conforme descrito por Carvalho (2012), o MUC, foi uma série de eventos ocorridos entre 1987 e 1998, e tinha como propósito avaliar e promover o progresso nas pesquisas em relação à extração de informações e padronizar a avaliação das tarefas dessa área. O MUC-6 foi o sexto evento desta série, ocorrido em novembro de 1995. O REM para a língua inglesa foi uma das tarefas que estavam envolvidas nessa conferência. No MUC-7, realizado em 1998, também foi dado ênfase na avaliação de sistemas de REM.

O MUC apresenta uma divisão em três categorias: i) entidades de nomes próprios (ENAMEX), subcategorizados como organização (ORGANIZATION), pessoa (PERSON) e lugar (LOCATION); ii) expressões temporais (TIMEX), com as subcategorias, data (DATE) ou medidas de tempo (TIME); iii) expressões numéricas (NUMEX), subcategorizados em valores monetários (MONEY) ou percentuais (PERCENT).

MET

Em paralelo com o MUC, entre os anos 1996 e 1998 aconteceu o MET, primeira conferencia multilíngue de avaliação em REM (MERCHANT; OKUROWSKI; CHINCHOR, 1996). Nos dois eventos realizados, o MET adotou a mesma metodologia de avaliação do MUC. As línguas inglesa e espanhola foram utilizadas nas coleções de texto do primeiro evento do MET, enquanto que o segundo evento se baseou no inglês, japonês e chinês (SANTOS; CARDOSO, 2006).

CoNLL

A CoNLL é uma série de conferências que tem como objetivo promover a pesquisa e avaliação em diversas áreas de PLN. Sua primeira edição data de 1997. A conferência de 2002, CoNLL-2002, tinha como tarefa compartilhada promover a

(24)

investigação em sistemas de REM independentes da língua. Nesta conferência quatro categorias foram consideradas para classificação: Local, Organização, Pessoa e Diversos, nesta última categoria são consideradas entidades diversas que não se encaixam em nenhuma das categorias anteriores. Neste evento de 2002 usou-se o espanhol e o flamengo nas coleções de texto. Na conferência de 2003, CoNLL-2003, novamente o REM independente de linguagem foi o foco da tarefa compartilhada, porém as línguas alvos desse evento foram as línguas inglesa e alemã (CARVALHO, 2012).

ACE

O ACE promove eventos de avaliação desde o ano 2000 e estes eventos incluem uma tarefa de REM chamada EDT - Entity Detection and Tracking, com o propósito de detectar, classificar as EM e também suas respectivas referências anafóricas (nomes, descrições ou pronomes). A coleção de texto do ACE incluiu Inglês, Chinês e Árabe, e foi disponibilizada em texto, som e imagem. As categorias desta conferência foram mais abrangentes estendendo-se ao domínio militar, contendo categorias semânticas como entidades geopolíticas, veículos, armas ou instalações (facilities) (CARDOSO, 2006).

HAREM

O HAREM representa a primeira avaliação conjunta de sistemas de REM em português, iniciado em 2005 e organizado pelo Linguateca1_{. Avaliação conjunta é um}

meio de comparar vários sistemas que concordam na execução de alguma tarefa. A avaliação do HAREM obedece um conjunto de diretivas estabelecidas junto com os participantes do próprio HAREM, denominada Diretivas de Avaliação do HAREM. Estas diretivas representam as medidas, regras e conjunto de pontuações usadas para conferir as saídas dos sistemas em relação à Coleção Dourada (CD), que é o texto de comparação utilizado pelo evento, criado em conjunto com a comunidade (CARVALHO, 2012).

O HAREM já organizou três eventos de avaliação conjunta:

 Primeiro HAREM com 2 eventos:

o Primeiro evento: Fevereiro de 2005

(25)

o Segundo evento, “MINI-HAREM”: Abril de 2006

 Segundo HAREM: Abril de 2008.

O HAREM apresenta as seguintes características, segundo Santos e Cardoso (2009):

 10 categorias (PESSOA, ORGANIZACAO, LOCAL, TEMPO, ABSTRAÇÃO, COISA, OBRA, ACONTECIMENTO, VALOR E VARIADO), contendo 41 tipos;

 Utilização de uma coleção, chamada Coleção HAREM (CH) contendo uma média de 1200 documentos, de origens distintas, gêneros diferentes de português (textos jornalísticos);

 Coleção Dourada, em média 1/8 da CH, extenuantemente anotada e revisada por diversos anotadores;

 Nenhuma decisão arbitrária.

Entre os principais sistemas participantes do HAREM I, destacam-se o sistema PALAVRAS de Bick (2000) e o SIEMES, primeiros e segundo colocados, respectivamente.

O sistema PALAVRAS – NER é baseado em Restrições de Gramática, tratando o Reconhecimento de Entidades Nomeadas como uma tarefa integrada da marcação gramatical. Considerando sua versão inicial, o seu conjunto de entidades mencionadas está dividido em seis categorias e uma média de vinte subcategorias. Sua participação no Primeiro HAREM conseguiu 80,61% na medida-F na tarefa de identificação, o que o colocou como vencedor na avaliação desta medida (BICK, 2007).

O sistema SIEMES explicado por Sarmento (2006) é um sistema realizado em três estágios: Identificação, Classificação e Desambiguação. Utiliza cinco regras de associação dos termos das EM no seu extenso almanaque – considerado o maior almanaque reproduzido na língua portuguesa por um sistema de REM. Possui 102 tipos em 11 categorias.

Na segunda edição do HAREM, foram incluídas algumas tarefas relevantes, como a introdução da tarefa ReRelEM (Reconhecimento de Relações entre Entidades Mencionadas), que objetiva encontrar relações entre entidades

(26)

mencionadas. Os sistemas vencedores foram o PRIBERAM e o REMBRANDT, primeiro e segundo colocados, respectivamente (MOTA; SANTOS, 2008).

Com ontologia multilíngue própria, o PRIBERAM baseia-se em relações semânticas e conceituais entre palavras e expressões. É um sistema de regras gramáticas manuais que utiliza anotações morfossintáticas.

REMBRANDT aborda duas técnicas principais. A primeira, mais atual, é a utilização da enciclopédia Wikipédia, recurso abrangente em temas, criado manualmente. A segunda estratégia refere-se à utilização de regras gramaticais durante a fase de identificação e classificação das EMs.

Ferramenta de Avaliação do Segundo HAREM

Segundo Cardoso (2008), O SAHARA (Serviço de Avaliação HAREM Automático) é um serviço na rede que possibilita a avaliação imediata de saídas de sistemas de REM conforme o ambiente de avaliação usado no Segundo HAREM. O SAHARA auxilia consideravelmente a avaliação de sistemas de REM, uma vez que acaba com a necessidade de executar uma série de comandos específicos de cada programa de avaliação para obter um conjunto de valores de desempenho. O SAHARA permite ainda a conferência imediata com os resultados oficiais do Segundo HAREM, assim como o acesso aos resultados de cada programa de avaliação, para depuração mais detalhada.

Uma avaliação no SAHARA decorre em três passos:

1. Confirmação da corrida remetida pelo utilizador, conforme formato do Segundo HAREM;

2. Configuração da avaliação desejada, o que significa a definição dos cenários, coleções a serem utilizadas e modos de avaliação;

3. Exposição dos resultados, contendo um conjunto de gráficos e tabelas que sintetizam o desempenho do sistema.

Recursos auxiliares na tarefa de REM

Nesta seção, apresentam-se dois recursos utilizados na tarefa de REM: a Coleção Dourada e o gazetteer REPENTINO.

A COLEÇÃO DOURADA como descrito anteriormente, é um corpus criado para o uso da avaliação dos sistemas no HAREM. No segundo HAREM, foi criado

(27)

um corpus com 129 textos de diversos gêneros e, neste corpus, vários anotadores humanos se encarregaram de anotar manualmente os textos conforme as diretivas disponibilizadas de Reconhecimento de Entidades Mencionadas do HAREM clássico. (AMANCIO, 2009)

O REPENTINO é um dicionário de EN compilado no polo de pesquisas Linguateca (SARMENTO; PINTO; CABRAL, 2006). Este grupo de pesquisadores, na construção do sistema SIEMES, identificou a escassez deste recurso linguístico (gazetteer) para a língua Portuguesa e iniciou a tarefa de construir o seu próprio gazetteer. Atualmente, o REPENTINO2_{está disponível publicamente. Este gazetteer}

é composto por mais de 450 mil entradas divididas em 11 categorias e 102 subcategorias3_{. Foi dada preferência à generalidade de tópicos em relação a}

aprofundar-se em poucos deles. Assim, diz-se que o REPENTINO é um gazetteer de escopo amplo.

Apesar de ser compilado de forma semiautomática, teve uma validação totalmente manual. O fato da precisão humana neste processo torna este recurso valioso.

O conteúdo da base REPENTINO é constituído de etiquetas XML (eXtensible Markup Language)4_{. O REPENTINO representa a tarefa de REM através do uso de}

codificação de regras.

Estas regras buscam relação interna entre as palavras no texto e no gazetteer.

Por exemplo, se encontramos no gazetteer a entidade “Digital Ltda” como sendo o nome de uma empresa, logo se pode deduzir que a entidade “Dicom Ltda” também se encontra mesma categoria, devido à terminação “Ltda”.

Na Tabela 1, é exibido o resultado da classificação semântica dos sistemas vencedores do HAREM I, na Tabela 2 o resultado dos sistemas vencedores do HAREM II. As estatísticas apresentadas nas Tabelas 1 e 2 não estão separadas por categorias, o que dificulta uma comparação mais precisa em relação à pesquisa deste trabalho.

As diferenças de resultado dessas avaliações conjuntas refletem as dificuldades impostas naquele cenário.

2_{http://poloclup.linguateca.pt/repentino/repentino.xml.gz, acessado em 02 de dezembro de 2013.} 3_{http://poloclup.linguateca.pt/cgi-bin/repentino/estatistica.pl, acessado em 02 de dezembro de 2013.} 4_{http://www.w3.org/TR/REC-xml, acessado em 22 de março de 2014.}

(28)

Tabela 1: Resultado da classificação semântica do HAREM I Precisão (%) Abrangência (%) Medida-F

Palavras 56,30% 60,42% 63,00%

Siemês 57,28% 49,85% 56,30%

Fonte: Amancio, 2009

Tabela 2: Resultado da classificação semântica do HAREM II Precisão (%) Abrangência (%) Medida-F

Priberam 64,17% 51,46% 57,11%

Rembrandt 64,97% 50,30% 56,74%

Siemês 57,28% 49,85% 56,30%

Fonte: Amancio, 2009

Através dos dados apresentados na tabela 1, é possível verificar que o sistema Palavras obteve melhor resultado com a medida Medida-F chegando a 63% contra 56,30% do sistema Siemês.

Na tabela 2, a medida da precisão obteve melhores resultados, se destacando o sistema Rembrandt, com 64,97%.

O Gráfico 1, a seguir, apresenta as categorias utilizadas na anotação da Coleção Dourada e os melhores resultados de precisão e cobertura obtidos para cada uma das categorias.

(29)

Gráfico 1: Melhores Resultados HAREM (Precisão e Cobertura) Fonte: Adaptado de SANTOS e CARDOSO (2006) apud SILVA (2012).

Conforme o gráfico 1, as categorias Valor e Tempo conseguiram melhores resultados de precisão e cobertura. A categoria Organização, a qual é o foco desta pesquisa, conseguiu resultados próximos de 50% para precisão e um pouco mais de 60% para cobertura.

As medidas de avaliação utilizadas no experimento desta pesquisa foram baseadas na precisão, abrangência, medida-F, também foi considerada a taxa de acerto. Estas medidas serão discutidas no capítulo 3, seção 3.2.5 – Medidas de Avaliação.

2.2 Classificação de Textos

A constante disponibilização de documentos textuais na internet vem fazendo com que a tarefa de classificação de texto ou categorização de texto ganhe cada vez mais utilidade.

Com essa sobrecarga de documentos disponíveis para consulta, o acesso aos dados desejados vem se tornando cada vez mais difícil, ocasionando resultados de baixa qualidade devido às dificuldades de compreensão do texto, os quais são

(30)

formados muitas vezes, por palavras que geram problemas de entendimento como ambiguidades, polissemias, sinonímias, conforme semântica5_{do texto.}

A classificação de textos deu início com a necessidade de guardar um grande volume de documentos para leitura e realizar pesquisa posteriormente. Em uma coleção pequena de documentos, até é possível realizar a busca sequencialmente, porém, à medida que a quantidade de documentos aumenta, cresce a dificuldade de encontrar a informação desejada.

Esse problema vem desde 1960, porém só no início dos anos 90, a classificação de textos começou a ser largamente utilizada, tornando-se um importante subcampo da disciplina de Sistema de Informação, graças à disponibilidade de máquinas mais potentes e da facilidade de publicação de textos em forma eletrônica (SEBASTIANI 1999).

De forma breve, a classificação de textos consiste no processo de classificar automaticamente um conjunto de documentos em uma ou mais categorias pré-existentes facilitando a busca seletiva de informações.

Duas principais abordagens são utilizadas para realizar a classificação de textos. A primeira abordagem é a engenharia de conhecimento (knowledge engineering) na qual o conhecimento específico sobre as categorias é codificado diretamente no sistema de forma declarativa ou sob a forma de regras de classificação processuais. Um especialista do domínio define um conjunto adequado de condições para que um documento seja classificado em uma determinada categoria. O desenvolvimento das regras de classificação pode ser bastante custoso e lento. A outra abordagem é o aprendizado de máquina (ML – Machine Learning) na qual um processo indutivo genérico constrói um classificador por aprendizagem através de um conjunto de exemplos pré-classificados (FELDMAN; SANGER, 2007).

Os sistemas de engenharia de conhecimento geralmente superam os sistemas de aprendizado de máquina, no entanto o desempenho é afetado pois é minimizado de forma constante, pelo fato da enorme quantidade de conhecimento do trabalho e pelo fato da necessidade do especialista altamente qualificado para criar e manter as regras de codificação de conhecimento.

Portanto, a maior parte dos trabalhos recentes sobre categorização está concentrada na abordagem de aprendizado de máquina, que requer apenas um

(31)

conjunto de instâncias de treinamento classificados manualmente, considerando assim, uma prática menos custosa do que a engenharia do conhecimento “Feldman e Sanger (2007)”.

Neste trabalho foi utilizada a abordagem do aprendizado de máquina baseadas em conjuntos de dados de treinamento. Maiores explicações do Aprendizado de máquina estão descritas na sessão seguinte.

Aprendizado de Máquina

Existem diversos problemas que não podem ser resolvidos através de procedimentos de programação convencional. Como por exemplo, desenvolver um programa convencional de computador que realize a classificação de um texto na categoria a qual ele pertence, ou o reconhecimento de um caractere que foi escrito à mão. A construção do aprendizado humano nos casos exemplificados é realizada através da apresentação prévia de elementos individuais para posteriormente obter o reconhecimento.

Aprendizado de Máquina é uma área de pesquisa que está concentrada no desenvolvimento de algoritmos que melhoram automaticamente algum aspecto de seu desempenho por meio da experiência (ALPAYDIN, 2010).

Uma das tarefas de Aprendizado de máquina é a classificação de Textos. A classificação pode ser definida pela tarefa de atribuir um valor booleano {T, F} para cada par de {dj, ci} ∈ D x C, onde D é o domínio de documentos, e C é o conjunto de

categorias pré-definidas. Dessa forma, um valor T atribuído a {dj, ci} indica a decisão de classificar dj em ci, enquanto F indica a decisão de não classificar dj em ci. O classificador é definido por uma função

ɸ

: D x C → {T, F}, que aproxima uma função desconhecida

ɸ

’

: D x C → {T, F}, que descreve como os documentos realmente devem ser classificados (SEBASTIANI, 2002).

Segundo Baeza-Yates e Ribeiro-Neto (2011), há três tipos de aprendizado que empregam os algoritmos de aprendizagem de máquina: 1) o Aprendizado Supervisionado, que necessita de treinamento a partir de dados de entrada fornecidos por um especialista; 2) Aprendizado Não supervisionado, no qual não há treinamento, essa categoria aprende relacionamentos em dados não rotulados; e 3) Aprendizado Semi Supervisionado, que une um pequeno conjunto já classificado e um grande conjunto não classificado, para melhorar as predições.

(32)

Neste trabalho será dado foco no Aprendizado Supervisionado, a fim de obter melhores resultados. Através da comparação entre as saídas desejadas e as fornecidas pelo algoritmo de treinamento é possível avaliar o desempenho do modelo de classificação.

Para realizar o aprendizado supervisionado é necessário que o algoritmo treinado, além do conjunto de entrada, tenha também o resultado esperado para cada entrada. Assim, o algoritmo irá analisar as características dos dados de entrada avaliando quais são mais relevantes para obter o resultado esperado.

A Figura 1 apresenta uma arquitetura simplificada do aprendizado supervisionado.

Figura 1: Arquitetura Simplificada do Aprendizado Supervisionado. Fonte: SILVA (2012).

Feldman e Sanger (2007) citam quatro pontos fundamentais que devem ser levados em consideração quando se utiliza técnicas de aprendizado de máquina para desenvolver uma aplicação baseada na categorização de texto. Primeiro, é preciso decidir quais as categorias que serão utilizadas para classificar as instâncias. Segundo, é necessário fornecer um conjunto de treinamento para cada uma das categorias. Em terceiro lugar, deve-se decidir sobre as características que representam cada uma das instâncias. Finalmente, é preciso decidir sobre o algoritmo a ser utilizado para a classificação.

Podemos citar como exemplo algumas abordagens utilizadas por determinados algoritmos para classificação de texto com aprendizado supervisionado: decision tree (MARTINS; COSTA; MARQUES, 2009), nearest neighbors (YANG; XIU, 1999), naive Bayes (OGURI; MILIDIÚ; RENTERÍA, 2006) e support vector machines (FELDMAN; SANGER, 2007).

(33)

Dentre todas as possibilidades disponíveis serão apresentados quatro importantes algoritmos de classificação, bastante utilizados por serem mais simples e eficazes, os quais serão descritos em maiores detalhes no capítulo 3 deste trabalho.

Apesar do método de aprendizado supervisionado proporcionar grandes vantagens, algumas dificuldades são deparadas em sua criação. É importante que a base de exemplos esteja correta e que possa compreender grande parte dos contextos existentes, a fim de exibir o menor número de erros possíveis. Quando um contexto não é inserido nos exemplos o sistema não será capaz de aprender toda uma classe de sentenças, e caso ocorra algum erro nos exemplos, esse erro poderá ser generalizado pelo sistema. Por este motivo, a criação de uma base de exemplos é cansativa e custosa, visto que requer mão de obra especializada e um grande esforço de tempo.

Conjunto de Treinamento e Testes

Conforme descrito em Feldman e Sanger (2007), qualquer experimento de Classificação de Textos exige uma coleção de documentos rotulados com um conjunto de categorias. Esta coleção é dividida em duas partes: os conjuntos de treinamento e de documentos de teste. O conjunto de treinamento, como o nome sugere, é usado para treinar o classificador, e o conjunto de teste é aquele no qual são calculadas as medidas de desempenho. Normalmente, o conjunto de teste é menor que o conjunto de treinamento.

Um ponto importante na escolha do conjunto de treinamento é diversificá-lo, para que a função de classificação não se ajuste muito às amostras de treinamento. O ideal é que o algoritmo construído tenha a capacidade de generalizar o conhecimento adquirido para novas situações que não foram apresentadas durante o treinamento. No entanto, um dos principais problemas nos algoritmos de aprendizagem de máquina é a especialização ou sobreajuste (do inglês overfitting) de suas regras, onde as regras do algoritmo não generalizam bem e passam a decorar situações dadas como entradas (MITCHEL, 1997).

A redução da dimensionalidade pode consequentemente reduzir o problema do overfitting, o qual ocorre quando um classificador se adapta aos documentos de treino, podendo reduzir a sua taxa de acerto na classificação de novos documentos.

(34)

Quando ocorre esse problema, o classificador tende a ser muito bom na classificação de documentos de treino, mas muito ruim na classificação de novos documentos (MITCHEL, 1997).

De acordo com Duda et. al. (2000), uma técnica bastante aplicada pelos algoritmos de aprendizagem na tentativa de se evitar overfitting e de averiguar a robustez dos resultados gerados, é a validação cruzada. Esta validação consiste na divisão do conjunto total de padrões em N grupos com tamanhos aproximadamente iguais, assim realizando o treinamento N vezes, sendo a cada treinamento um dos grupos deixado para teste e os outros N-1 para treinamento. Esta técnica será melhor apresentada na seção 3.2.4 - Estratégia de Treinamento e Teste.

Além da redução das dimensões do documento, também é necessário realizar algum tipo de limpeza nos documentos adquiridos. Algumas tarefas de Pré-Processamento devem ser realizadas para se obter o conjunto de termos que representa a estrutura do documento processado nos níveis desejados, como parágrafos, períodos, sentenças ou palavras (FELDMAN; SANGER, 2007).

Uma das tarefas é a Tokenização, a qual é utilizada para decompor o documento em cada termo que o compõe. Alguns delimitadores geralmente utilizados são: o espaço em branco entre os termos, quebras de linhas, tabulações, e alguns caracteres especiais.

Outra tarefa de Pré-Processamento é a remoção de Stopwords que são palavras funcionais que na maioria das vezes não agregam conhecimento útil para a análise do texto. Stopwords é uma lista geralmente composta por: preposições, artigos, advérbios, números, pronomes e pontuação.

A tarefa de Stemming é o método para redução de um termo ao seu radical, removendo as desinências, afixos, e vogais temáticas. Esta tarefa geralmente utilizada em pré-processamentos não será utilizada neste projeto de pesquisa, pelo fato de que, ao reduzir uma palavra ao seu radical, poderá alterar o sentido da mesma e influenciar na classificação da postagem.

2.3 Considerações Finais

Neste capítulo foi fornecido um referencial teórico sobre o estudo desta dissertação, onde foram apresentados conceitos de EM e EN, salientando que EM depende do contexto em que se encontra para que seja resolvida.

(35)

Foi possível destacar algumas situações em que são consideradas naturais para humanos, como é o caso de ambiguidades, no entanto, tornam-se difíceis quando realizados por um sistema especialista.

Foram apresentadas algumas conferências internacionais de avaliação, dedicados ao domínio de EM, entre os quais se destacam o MUC, MET, CoNLL, ACE e o HAREM, este último voltado para a língua portuguesa.

Diante da necessidade da classificação de textos foi destacada a aprendizagem de máquina baseada no Aprendizado Supervisionado, e algumas abordagens que são utilizadas por determinados algoritmos para classificação de texto com aprendizado supervisionado. Podemos destacar aquelas que serão utilizadas nesta pesquisa: decision trees, nearest neighbors, naive Bayes e support vector machines.

Na classificação de textos é necessário ter uma coleção de documentos rotulados com um conjunto de categorias. Esta coleção é repartida em duas: conjunto de treinamento, para treinar o classificador, e o conjunto de teste para calcular as medidas de desempenho. Uma observação importante na seleção do conjunto de treinamento é diversificá-lo, para que a função de classificação não se ajuste muito às amostras de treinamento.

A criação de uma base de exemplos é tediosa e custosa, pelo fato de demandar serviço especializado e grande esforço de tempo.

(36)

Capítulo

3 3. Método de Pesquisa

Este capítulo descreve a metodologia empregada neste trabalho e a realização dos experimentos. Apresenta a base de informações utilizada, as características destacadas, os algoritmos e medidas que constituíram a avaliação da classificação.

(37)

3.1 Objetivos

A ideia por trás desta proposta é que as organizações possam ficar cientes do que as pessoas que utilizam os meios sociais para se expressar, falam a respeito do seu produto/marca. Um exemplo da necessidade a ser atendida nessa proposta de trabalho, pode ser melhor entendida com o exemplo do post extraído: “vou pra oi mesmo!” Como identificar automaticamente que a palavra Oi nesta postagem se refere à Organização de telecomunicações ou é uma interjeição? Partindo desta dificuldade em obter a classificação da postagem, foram realizados experimentos a fim de conseguir facilitar a classificação da entidade.

O REM é uma área muito explorada, especialmente na língua inglesa. Os desempenhos alcançados pelos sistemas de reconhecimento de entidades para a língua inglesa apresentam bons resultados, conforme definida pelo MUC e descrita em Santos e Cardoso (2007), mais de metade dos participantes alcançaram medidas F superiores a 90%.

Nesta pesquisa foram estudados alguns sistemas de REM já existentes para a língua portuguesa, porém apresentam resultados significativamente inferiores aos obtidos em sistemas desenvolvidos para a língua inglesa. Como exemplo, é possível destacar os melhores resultados alcançados pelos sistemas de REM que participaram do HAREM, segundo Santos e Cardoso (2006), obtiveram os F-Scores 65,99% para a categoria Pessoa, 70,85% para a categoria Local e 56,26% para a categoria Organização.

Os sistemas estudados foram avaliados em categorias distintas, o que diferencia da limitação proposta neste trabalho, cujo foco é para categoria Organização, com casos de homonímia.

Na metodologia proposta, inicialmente as postagens são recuperadas do Twitter, contendo a entidade pesquisada. Posteriormente é realizada uma tarefa automática de pré-processamento para remover itens desnecessários e posts repetidos para que a base de experimento seja a mais diversificada possível, resultando em um conjunto mais adequado para a fase de treinamento e testes. Em seguida, o especialista classifica os posts manualmente e especifica os dados dos atributos, de forma linguística, onde estes valores servirão para o treinamento da classificação automática das postagens. Nesta pesquisa o papel do especialista foi representado pela própria autora da dissertação.

(38)

Na sequência, os atributos e valores já definidos na atividade anterior, são recebidos pelo Weka (Waikato Environment for Knowledge Analysis)6_{, sistema}

utilizado para executar os experimentos, e como estratégia de Treinamento e Teste empregada neste trabalho, foi utilizada a técnica de K-Fold Cross Validation (validação cruzada), considerando K igual a dez, onde os documentos são divididos em dez partições. O Weka recebe o conjunto de treinamento e realiza a construção (aprendizado) de um classificador. O conjunto de treinamento é usado para avaliar os resultados do processo de aprendizado.

As duas etapas do experimento utilizam os mesmos atributos, no entanto, na primeira é exigido um maior esforço por parte do especialista. Na segunda etapa é utilizado um processo automatizado, baseado no cálculo de palavras mais frequentes da coleção de documentos, responsável por definir os valores para dois destes atributos.

Diante das teorias descritas no capítulo anterior, é possível classificar esta pesquisa como uma abordagem de aprendizado de máquina, empregando o algoritmo de aprendizado supervisionado, o qual necessita de treinamento a partir de dados de entrada fornecidos por um especialista. Neste trabalho, o classificador recebe como entrada uma postagem contendo o termo de interesse e classifica se essa postagem se refere ou não a uma entidade Organizacional.

No processo de avaliação supervisionada, quatro algoritmos de classificação foram utilizados para comparação de desempenho: NB, K-NN, SVM e J48. Conforme ambiente Weka, o algoritmo K-NN é representado pelo IBk (instance-bases learning with parameter k) e o SVM é representado pelo SMO (Sequential Minimal Optimization).

Ao final dos resultados, os experimentos são comparados nas duas etapas realizadas nesta pesquisa, são confrontados também os resultados obtidos para cada entidade e classificadores, onde é feita uma análise dos melhores desempenhos.

3.2 Experimentos

Os dados utilizados nos experimentos deste trabalho foram obtidos da base de dados da rede social Twitter. Foram capturadas 4.000 postagens, sendo 500

(39)

postagens para cada entidade pesquisada, utilizando casos homônimos, sendo um dos significados, nome de Organização. Para os estudos foram pesquisados e avaliados oito termos, são eles: Claro, Extra, Ferreira Costa, Ford, Garoto, Oi, Renner e Sadia.

A realização da classificação onde a fonte de dados é uma rede social se torna um desafio maior pelo fato de não possuir um padrão, por ser um lugar público que o usuário pode escrever de qualquer forma, com abreviações, com erros de grafia, entre outras situações. Nesta pesquisa tentamos diversificar os tipos de Entidades pesquisadas, onde analisamos entidades Organizacionais de ramos diferentes, como telecomunicação, rede de supermercado, rede de construção, alimentícia, automobilística, vestuário. Outro fator interessante é que algumas entidades possuem descrições que podem ser categorizadas tanto como Organização, como Pessoa, é o caso dos termos Ferreira Costa, Ford e Renner.

Neste trabalho o experimento foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que um exige mais conhecimento do especialista para determinadas características, no outro um processo automatizado define os valores para estas mesmas características.

Base de Experimentos

O método utilizado neste trabalho para o REM emprega o aprendizado supervisionado, assim sendo é necessário ter um conjunto de exemplos para que o sistema possa ser treinado. Cada exemplo está relacionado a uma postagem contendo o termo de interesse e armazena: (1) características extraídas do post após uma etapa de pré-processamento; e (2) um rótulo indicando a classe do post em Organizacional ou Não Organizacional.

A Figura 2 apresenta as etapas utilizadas para a realização dos experimentos, desde o início da coleta dos dados ao resultado final.

(40)

Figura 2: Atividades realizadas na execução dos experimentos Fonte: Autoria Própria

A metodologia adotada nos experimentos possui oito atividades e pode ser dividida em duas etapas distintas dos experimentos. As caixas com a borda pontilhada são mutuamente exclusivas, e as setas pontilhadas indicam um fluxo alternativo. As demais atividades são obrigatórias.

Será considerada para a primeira etapa a subatividade classificação dos termos de inclusão e exclusão contida na atividade Classificação da base de treinamento por especialista. E para a segunda etapa, a atividade do Lucene7_.

Considerando a primeira etapa, temos a atividade inicial da Coleta dos dados, que consiste na pesquisa de quais dados são relevantes para a pesquisa. Para esta etapa utilizamos como fonte, a rede social Twitter, pelo fato de ser uma fonte com alto índice de usuários, onde muitos exprimem opiniões dos mais variados assuntos. Neste experimento utilizamos a ferramenta de banco de dados SQL Server, para armazenar as postagens dos usuários recuperadas através da API8_(Application

Programming Interface) disponibilizada pela própria rede social.

(41)

Na segunda atividade, temos uma fase inicial de pré-processamento, na qual é realizada de forma automática uma tarefa de limpeza nos posts, removendo endereços de urls e códigos HTML (HyperText Markup Language) contidos nas postagens recuperadas. Também é tratada a questão de posts repetidos, que acontece quando um usuário do Twitter compartilha a informação de outro usuário, repetindo assim a postagem publicada na rede social. Esses posts repetidos são removidos para que a base de experimento seja a mais diversificada possível, resultando em um conjunto mais adequado para a fase de treinamento e testes.

Na terceira atividade, a base de treinamento é classificada por um especialista, no entanto, uma parte dessa classificação pode ser realizada automaticamente, através da tarefa do Lucene, a qual será discutida na segunda etapa. Considerando a primeira etapa com a classificação de toda a base por um especialista, são especificados termos de inclusão, onde esses termos são palavras que geralmente aparecem nas postagens quando esta se refere a uma entidade Organizacional, como exemplo no post recuperado do Twitter: “case-se comigo e viveremos de muito amor, pizza, miojo, brigadeiro, lasanha da sadia e coca cola”, as palavras pizza e lasanha nos faz uma associação quando se fala na entidade Sadia, ou seja, são palavras que quando aparecem dão indícios de que a postagem deverá ser classificada como Organizacional.

Também são especificados pelo especialista os termos de exclusão, os quais caracterizam termos que provavelmente aparecem quando a postagem não faz referência a uma Entidade Organizacional, como no seguinte post recuperado: “se quiser manter uma mente sadia, tire dela a ansiedade”, a expressão “mente sadia” retrata uma informação que indica que essa postagem deve ser classificada como Não Organizacional. A lista de características/atributos será discutida melhor na seção 3.3.2 - Características.

Para a quarta atividade, temos a preparação dos documentos com seus atributos e valores, essa atividade consiste em preparar os dados classificados na etapa anterior para as etapas seguintes. Para realizar o processo de mineração de dados e executar os experimentos, foi utilizado o sistema Weka (Waikato Environment for Knowledge Analysis). Os documentos foram preparados de forma que ficassem no padrão requerido pelo Weka, com as extensões dos arquivos nos

(42)

formatos ARFF (Attribute-Relation File Format). Explicaremos melhor sobre o Weka na seção 3.2.3 – Algoritmos Utilizados, onde citaremos os algoritmos utilizados no experimento.

A quinta atividade recebe os documentos oriundos da atividade anterior e, de acordo com o método de validação cruzada com 10 partições, os documentos são divididos em 10 conjuntos de teste distintos escolhidos aleatoriamente com aproximadamente D/10 documentos em cada conjunto, onde D é uma coleção de documentos.

Na sexta atividade, o Weka recebe o conjunto de treinamento e realiza a construção (aprendizado) de um classificador. O conjunto de treinamento definido via cross validation é usado para avaliar os resultados do processo de aprendizado. Será avaliado o algoritmo Naive Bayes (NB), o algoritmo Sequential Minimal Optimization (SMO), através da técnica de Support Vector Machine (SVM), o algoritmo K-Nearest Neighbor (K-NN), e o algoritmo J48.

A última atividade, referente aos resultados obtidos com o experimento será apresentada no Capítulo 4.

A segunda etapa difere da primeira apenas na tarefa da classificação de toda base de treinamento por especialista, pois a segunda etapa utiliza o software Lucene como método auxiliar para classificar os atributos de inclusão e exclusão de forma automática. Essa automatização será explicada a seguir, onde serão detalhados os passos realizados pelo Lucene.

Antes de realizar a atividade do Lucene, as postagens previamente classificadas em sua categoria (Organizacional e Não Organizacional) pelo especialista são inseridas no banco de dados, mantendo o relacionamento da postagem com a entidade pesquisada. Na atividade do Lucene, é realizado outro pré-processamento do fluxo, onde é executada a tarefa de tokenização, a qual consiste em percorrer todo o texto identificando cada palavra entre as sequências de caracteres. Os delimitadores utilizados para tokenização geralmente são: o espaço em branco entre os termos, quebras de linhas, tabulações, e alguns caracteres especiais.

Uma segunda tarefa do pré-processamento realizado pelo Lucene é a remoção de stopwords, que são palavras consideradas não relevantes para a análise de textos ou para a busca. Em geral, podemos considerar como stopwords

(43)

os artigos, preposições, conjunções, pronomes, verbos auxiliares, abreviaturas mais comuns, entre outras. A lista de stopwords é conhecida como stoplist.

A remoção das stopwords da representação dos documentos melhora o desempenho e a precisão dos algoritmos de classificação, também reduz o número de palavras a serem analisadas no documento, mantendo apenas palavras consideradas mais relevantes para o aprendizado. Porém, pelo fato de nossa fonte de busca ser em um ambiente onde a linguagem não segue um padrão, alguns itens da stoplist podem não ser removidos dependendo da grafia da palavra existente na postagem.

Após a tokenização e remoção de stopwords, o Lucene faz a indexação para então, através do método DocFreq do próprio Lucene, para calcular a frequência dos termos em todos os documentos, com exceção da(s) palavra(s) do termo pesquisado, considerando separadamente cada uma das duas classes: Organizacional e Não Organizacional. Sendo assim, esta atividade não utiliza o conhecimento do especialista na especificação dos termos de inclusão e exclusão, pois é realizada de forma automática a atribuição desses atributos. Este cálculo da frequência é realizado de forma separada para cada entidade de busca, onde as dez palavras mais frequentes citadas nas postagens classificadas como Organizacionais, são consideradas como Top 10 termos de inclusão, e as dez palavras mais frequentes citadas nas postagens classificadas como Não Organizacionais, são consideradas como Top 10 termos de exclusão.

Com a base de experimentos, considerando as entidades pesquisadas Claro, Extra, Ferreira Costa, Ford, Garoto, Oi, Renner e Sadia, após a classificação manual das 500 postagens recuperadas para cada entidade, obtivemos os seguintes dados: