• Nenhum resultado encontrado

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO"

Copied!
83
0
0

Texto

(1)

UNIVERSIDADE DO VALE DO ITAJAÍ

CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO

SISTEMA DE MONITORAÇÃO E ANÁLISE DE COMENTÁRIOS

NO TWITTER

Jader Fabiano Batista Marques

São José, novembro, 2014

Orientadora: Fernanda dos Santos Cunha, Mestre em Engenharia de Produção e Sistemas Área de Concentração: Inteligência Artificial

Linha de Pesquisa: Mineração de Dados em Redes Sociais

Palavras-chave: Processamento de Linguagem Natural, Análise de Sentimentos, Redes Sociais, Twitter, Facebook, Mineração de Texto.

(2)

RESUMO

O crescimento do número de pessoas utilizando redes sociais e o uso dessas redes como uma ferramenta para expor os seus sentimentos, trouxe para muitas empresas a preocupação de identificar o que seus potenciais consumidores estão expressando. Diante disso, surge a necessidade de monitorar diariamente o fluxo de informações gerado com domínio público nas redes sociais, trabalho este realizado muitas vezes pela figura do analista de mídias sociais. O grande volume de dados produzidos acaba tornando impraticável para o analista mensurar e entender o sentimento dos consumidores e não tem uma noção do real impacto que determinado comentário pode causar à imagem da empresa. Sendo assim, os analistas precisam utilizar ferramentas que monitorem as redes sociais e extraiam o sentimento das informações nelas expostas, podendo identificar o grau de impacto que cada comentário pode causar à empresa. No entanto, a construção de uma ferramenta de análises de sentimentos não é trivial. Para isso, faz-se necessário o uso de técnicas de processamento de linguagem natural para tornar uma máquina capaz de entender um texto e uma gramática livre de contexto escrito por diversas pessoas de forma completamente diferente expressando a mesma ideia. O processamento de linguagem natural é capaz de tratar a estrutura de uma sentença identificando os sintagmas nela compostos, descartando e/ou corrigindo os erros de sintaxe, minimizando as ambiguidades e analisando a estrutura semântica. O presente trabalho apresenta o desenvolvimento de uma ferramenta para monitoração e análise de comentários no Twitter que auxiliará o analista de mídias sócias gerando subsídios para a tomada de decisões mais rapidamente. A ferramenta utiliza técnicas de processamento de linguagem natural, bem como ferramentas que auxiliem nesse processo. O sistema faz uso da API do Twitter para efetuar as consultas aos perfis monitorados. A ferramenta obteve uma precisão de 85,1% de acerto na análise dos comentários.

(3)

ABSTRACT

The growth in the number of people using social networks and the use of such networks as a tool to expose their feelings brought worries to many companies about the need to identify what their potential customers are expressing. At that, arises the need of daily monitoring the flow of informations generated with public domain on social networks, this work is performed often by the figure of the analyst of social medias. The large data volume produced just making it impractical for the analyst to measure and understand consumer sentiment and he has no notion of the real impact that a comment many cause to the company’s image. Thus, analysts need to use tools that monitor social networks and extract the informations’ feeling from them exposed and then identify the degree of impact each comment may cause to the company. However, the building of a tool of sentiment analysis is not trivial. For this, it is necessary the use of natural language processing techniques to become a machine able to understand a text and a context-free grammar written by several people in a completely different way to express the same idea. The natural language processing is able to treat the structure of a sentence identifying their labels, discarding and/or correcting the sintax errors, minimizing ambiguities and analizing semantic structure. This paper presents the development of a tool to monitoring and analysis of comments on Twitter that it will assist the analyst of social networks generating subsidies to faster decision making. The tool uses natural language processing techniques, as well as tools that assist in this process. The system does use of Twitter API to make the queries to the monitored profiles. The tool got 85,1% of precision in the analysis of comment.

(4)

LISTA DE QUADROS

Quadro 1. Descrição caso de uso CSU01. ... 40

Quadro 2. Descrição caso de uso CSU02. ... 40

Quadro 3. Descrição caso de uso CSU03. ... 41

Quadro 4. Descrição caso de uso CSU04. ... 41

Quadro 5. Descrição caso de uso CSU05. ... 42

Quadro 6. Descrição caso de uso CSU06. ... 42

Quadro 7. Descrição caso de uso CSU07. ... 43

Quadro 8. Descrição caso de uso CSU08. ... 43

Quadro 9. Descrição caso de uso CSU09. ... 44

Quadro 10. Descrição caso de uso CSU10. ... 44

Quadro 11. Descrição caso de uso CSU11. ... 46

Quadro 12. Descrição caso de uso CSU12. ... 46

Quadro 13. Descrição caso de uso CSU13. ... 47

Quadro 14. Descrição caso de uso CSU14. ... 47

Quadro 15. Descrição caso de uso CSU15. ... 48

Quadro 16. Descrição caso de uso CSU16. ... 48

Quadro 17. Descrição caso de uso CSU17. ... 49

Quadro 18. Descrição caso de uso CSU18. ... 49

Quadro 19. Mapeamento abreviações. ... 55

(5)

LISTA DE ABREVIATURAS E SIGLAS

API Application Programming Interface

ARS Análise de Redes Sociais

AS Análise de Sentimento

DCT Descoberta de Conhecimento em Textos

FQL Facebook Query Language

MIT Massachusetts Institute of Technology PNE Pessoas com Necessidades Especiais

PLN Processamento de Linguagem Natural

POS Part of Speech

REST Representational State Transfer

SMS Short Message Service

SVM Support Vector Machine

TCC Trabalho de Conclusão de Curso

TfW Twitter for WebSites

UNIVALI Universidade do Vale do Itajaí

(6)

LISTA DE FIGURAS

Figura 1: Comparativo de usuários nas redes sociais. ... 6

Figura 2: Arquitetura genérica de um sistema de PLN. ... 15

Figura 3: Exemplo Tokenização. ... 16

Figura 4: Ordem dos passos do algoritmo RSLP ... 18

Figura 5: Exemplo léxico ... 19

Figura 6: Exemplo etiquetador ... 20

Figura 7: Arquitetura da ferramenta. ... 26

Figura 8: Tela de Monitoramento parte 1 ... 31

Figura 9: Tela de Monitoramento parte 2 ... 32

Figura 10: Visão Geral do Sistema ... 35

Figura 11: Fluxo análise comentário. ... 36

Figura 12: Diagrama casos de uso do Usuário Administrador ... 39

Figura 13: Diagrama casos de uso do Usuário Analista. ... 45

Figura 14: Modelo banco de dados NoSql. ... 50

Figura 15: Código para a conexão com o Twitter. ... 53

Figura 16: Fluxo Pré-processamento. ... 54

Figura 17: Fluxo Análise de Sentimentos. ... 57

Figura 18: Código para a análise de sentimentos. ... 58

Figura 19: Código para análise de criticidade. ... 59

Figura 20: Tela de login. ... 60

Figura 21: Cadastro de perfil. ... 61

Figura 22: Cadastro de nível de criticidade. ... 62

Figura 23: Lista de nível de criticidade. ... 63

Figura 24: Tela de autorização do Twitter. ... 64

Figura 25: Tela de monitoramento. ... 65

Figura 26: Frases coletadas. ... 66

Figura 27: Frases de natureza negativa. ... 67

Figura 28: Frases de natureza positiva. ... 68

Figura 29: Frases neutras. ... 69

(7)

SUMÁRIO

1

INTRODUÇÃO ... 2

1.1

PROBLEMA DE PESQUISA... 4

1.2

OBJETIVOS ... 7

1.3

METODOLOGIA ... 8

2

FUNDAMENTAÇÃO TEÓRICA ... 9

2.1

MÍDIAS SOCIAIS ... 9

2.2

ANÁLISE DE SENTIMENTO ... 11

2.3

MINERAÇÃO DE TEXTO E RECUPERAÇÃO DE INFORMAÇÃO ... 13

2.4

PROCESSAMENTO DE LINGUAGEM NATURAL ... 14

3

TRABALHOS RELACIONADOS ... 25

3.1

ANÁLISE DE SENTIMENTOS EM REDES SOCIAIS UTILIZANDO O

SENTICNET ... 25

3.2

ANÁLISE DE REDES SOCIAIS EM BLOGS DE PESSOAS COM

NECESSIDADES ESPECIAIS ... 26

3.3

ANÁLISE DE SENTIMENTOS NO FACEBOOK ... 28

3.4

MINERAÇÃO DE OPINIÃO EM REDES SOCIAIS ... 29

3.5

BRANDVIEWER ... 30

3.6

ANÁLISE COMPARATIVA... 32

3.7

CONSIDERAÇÕES ... 33

4

DESENVOLVIMENTO ... 34

4.1

VISÃO GERAL DO SISTEMA ... 34

4.2

ANÁLISE DE REQUISITOS ... 36

4.3

MODELAGEM DO SISTEMA ... 38

4.4

DETALHAMENTO DO DESENVOLVIMENTO... 51

4.5

DESCRIÇÃO DOS EXPERIMENTOS ... 66

4.6

RESULTADOS ... 67

5

CONCLUSÕES ... 71

5.1

TRABALHOS FUTUROS ... 72

(8)

1 INTRODUÇÃO

Nos últimos anos, o boom das mídias sociais influenciou diretamente inúmeras empresas a se renderem ao mundo digital. O fato é que, diariamente, novos perfis corporativos são criados em diversas redes sociais, porém poucas são as empresas que realmente entendem a importância e a dinâmica das redes sociais (OLIVEIRA, 2013).

Hoje, poder acompanhar todo e qualquer comentário gerado nas mídias sociais é bom para qualquer empresa. Afinal, assim como a marca pode ser promovida, também pode ser vulnerável por meio do conteúdo dessas páginas. Mesmo que uma empresa não queira estar presente nas mídias sociais, os usuários irão falar sobre ela, então fechar os olhos para o que está sendo dito é uma decisão perigosa (FRANCISCO, 2011).

Segundo Cristine (2010), no Brasil, 80% da população que está conectada à Internet usa algum tipo de rede social. Diante disso, Benevenuto e Almeida (2011) colocam que os usuários de redes sociais geram diariamente uma quantidade enorme de informações, influenciando e sendo influenciados uns pelos outros.

As redes sociais sintetizam a Internet colaborativa e trazem para o ambiente corporativo a oportunidade de em tempo real ter um feedback de como está a satisfação do seu cliente perante o seu produto ou serviço (OLIVEIRA, 2011).

A velocidade de propagação das informações geradas se dá nos dois casos, tanto nos negativos, quanto nos positivos. Com isso, outra oportunidade que surgiu foi a possibilidade de monitorar as conversas dos internautas, a fim de antecipar tendências e avaliar como está seu nicho de mercado. Medir o que o consumidor fala sobre a concorrência, fundamentando a sobrevivência a um mercado com clientes cada vez menos fiéis e cada vez mais ávidos por empresas transparentes e socialmente responsáveis (GRIGOLETTI, 2011).

Monitorar as redes sociais, pensando em estratégias e executando ações para divulgar produtos e serviços, pesquisar público-alvo e novas vertentes para o negócio e, claro, responder a questões específicas de internautas, especialmente quando são críticas à empresa. Essas são as funções básicas de um analista de mídias sociais, profissional cada vez mais requisitado por companhias de todas as áreas de atuação, que apostam na velocidade da web e na expansão das redes sociais para alavancar seus ganhos (KOPSCHITZ, 2011).

Ainda referenciando o autor anteriormente citado, ele diz que os consumidores antes de fazer contato com a área de suporte da empresa preferem reclamar no Twitter e/ou no Facebook. Advindo dessa premissa atual, se tem um número elevado de reclamações feitas através dessas mídias,

(9)

sobrecarregando o analista de mídias sociais e, com isso, não atendendo aos consumidores em tempo hábil.

Contudo, existem algumas técnicas que podem ser aplicadas em cima do conteúdo gerado dentro das mídias sociais e a aplicação dessas técnicas podem agregar valor e proporcionar ao profissional uma melhor visão do todo.

Análise de Sentimentos é uma das técnicas que podem ser empregadas nas informações produzidas nas mídias sociais. Segundo Rodrigues et al. (2010), a Análise de Sentimentos visa identificar o sentimento que os usuários apresentam a respeito de alguma entidade de interesse (um produto específico, uma empresa, um lugar, uma pessoa, dentre outros). Já para Gomes (2012), a Análise de Sentimentos é o estudo computacional de opiniões, sentimentos e emoções expressadas no texto.

Conforme Liu (2010), a informação textual pode ser classificada em dois tipos principais: fatos e opiniões. Os fatos são expressões objetivas sobre entidades, eventos e suas propriedades, já opiniões são geralmente expressões subjetivas que descrevem os sentimentos e avaliações das pessoas sobre determinada entidade.

Palavras de opinião são palavras comumente usadas para expressar sentimentos negativos e positivos. Por exemplo, “belo, bom, maravilhoso e incrível” são palavras de opiniões positivas, e “ruim, pobre e terrível” são palavras de opiniões negativas. Frases e palavras de opiniões são fundamentais para análise de sentimentos por razões óbvias (LIU, 2010). Com isso, pode-se conceituar que o processamento de linguagem natural é a compreensão de uma informação falada ou escrita por meio de regras equivalentes àqueles existentes na comunicação linguística humana. A fim de melhor compreender como ocorre o processamento de uma informação textual, deve-se analisar as fases do processamento de linguagem natural, que são: Análise Morfológica, Análise Sintática, Análise Léxica, Análise Semântica e Análise Pragmática (CESÁRIO JÚNIOR, 2010).

A área de mineração de texto é fortemente baseada na área de mineração de dados e KDD (Knowledge Discovery in Databases), sendo, por isso, conhecida também como Text Data Mining (HEARST, M. A., 1999 apud SOUZA; LINDGREN, 2011) e KDT (Knowledge Discovery in Texts). A mineração de texto, assim como a Mineração de Dados, é também interdisciplinar com influências de áreas como Processamento de Linguagem Natural, Recuperação de Informação (Information Retrieval), Inteligência Artificial e Ciência Cognitiva. A conjunção do conhecimento dessas áreas fez da mineração de texto uma área própria, chamada apenas de Mineração de Texto (Text Mining) (ARANHA, 2007).

(10)

Este projeto propõs o desenvolvimento de uma ferramenta para monitoração e análises de comentários nas mídias sociais, a fim de auxiliar as empresas a melhor administrarem o relacionamento com seu público-alvo, e facilitar a tomada de decisões do analista de mídias sociais.

1.1 PROBLEMA DE PESQUISA

Devido a grande quantidade de dados gerados diariamente em um perfil de uma empresa de médio/grande porte em uma mídia social, na maioria das vezes torna-se impraticável que um grupo de funcionários consiga dar suporte e/ou atendimento a uma grande massa de usuários que estão ligados à empresa. Por exemplo, o perfil de uma grande empresa do ramo de bebidas no Twitter possui mais de 200 (duzentos) mil de seguidores. Isso significa que essa enorme quantidade de usuários irão visualizar todas as atualizações dessa empresa, possibilitando assim que os mesmos possam comentar/compartilhar/curtir essas publicações. Em algumas dessas publicações inseridas no perfil da empresa possuem mais de mil comentários e esse grande volume torna impraticável para a empresa conseguir identificar como está sua imagem e/ou a qualidade de seu produto/serviço perante o consumidor de modo imediato.

O impacto de uma mensagem negativa pode alcançar milhares de pessoas em pouquíssimo tempo, podendo, assim, levar a empresa a perder consumidores e espaço no mercado junto às concorrentes. Diante disso, pergunta-se como uma empresa conseguirá monitorar sua mídia social e identificar dentre as inúmeras mensagens postadas no perfil da empresa, e qual destas mensagens têm um grau de impacto altíssimo e deve ser respondida o quanto antes?

1.1.1 Solução Proposta

Para auxiliar as empresas e principalmente o analista de mídia social a identificar comentários críticos referentes a um ou mais perfis no Twitter, onde esses comentários possam comprometer à reputação da empresa diante de seus consumidores, a solução apresentada neste trabalho é o desenvolvimento de uma ferramenta que monitore um perfil na rede social Twitter, minere os dados consumidos dessa rede e busque discernir se o comentário é de natureza positiva e/ou negativa, após isso irá inferir, de maneira pré-definida, qual o grau de criticidade desse comentário.

Desta forma, o analista de mídia social terá mais subsídios para sua tomada de decisão, podendo, assim verificar rapidamente os comentários em uma ordem de criticidade. Esta ordem que definirá a criticidade de um comentário do gênero negativo será pré-definida pela empresa.

(11)

A ferramenta proposta permitirá à empresa configurar até 5 níveis de criticidade para os comentários coletados da mídia, onde cada comentário será enquadrado no nível mais adequado para ser mostrado ao analista da mídia. Por exemplo, a empresa pode determinar que o comentário com maior nível de criticidade atenda os seguintes requisitos: o comentário deve ter no mínimo um número x de likes, um número y de retweets e o usuário que efetuou o comentário deve ter no seu laço de amizade um número z de amigos. Também será possível definir dentre os comentários algumas palavras chaves, por exemplo, se o comentário contiver a palavra “lixo”, “ruim” ou uma junção de palavras, como “não gostei”, esse comentário deve ter prioridade sobre os demais.

1.1.2 Delimitação de Escopo

O Twitter foi a mídia monitorada pela ferramenta. Essa mídia foi escolhida pelos seguintes critérios: possui uma grande quantidade de informações geradas diariamente, limita a publicação de cada comentário a 140 caracteres, tornando com que o usuário seja mais objetivo em seu sentimento e também possui uma API de fácil integração. Conforme a Figura 1 é uma das redes sociais que possui mais usuários ativos até o momento (CORREIO DO ESTADO, 2013) e, com isso, tem-se uma maior propagação e repercussão das informações geradas; tem limitação no tamanho das informações postadas de no máximo 140 (cento e quarenta) caracteres, proporcionando que o comentário inserido seja objetivo; entre seus usuários estão todas as classes sociais e abrange desde crianças até idosos; fornece a API (Application Programming Interface) que é de fácil integração.

A ferramenta foi integrada ao Twitter utilizando a REST API para efetuar a coleta dos dados dos perfis supervisionados.

A ferramenta restringiu sua análise de domínio para companhias aéreas, tendo em vista o amplo vocabulário da língua portuguesa, e também diversas situações onde uma mesma palavra possa ser de natureza positiva para um determinado domínio como de natureza negativa para outro domínio.

Esta solução tem um módulo específico para processamento de linguagem natural e análise de sentimentos dos comentários coletados da mídia, onde esse módulo identifica o sentimento do comentário referente à empresa.

É parte da ferramenta uma interface com tela de cadastro de perfis, onde a empresa poderá cadastrar um ou mais perfis, juntamente com seus dados de acesso e critérios a serem adotados para definir prioridades e grau de criticidade. Também na interface há uma tela para visualização dos

(12)

comentários referente à empresa, separados por suas classificações (positivo, negativo ou neutro) e em ordem de prioridade e/ou criticidade.

Figura 1: Comparativo de usuários nas redes sociais. Fonte: Go-Gulf (2012)

1.1.3 Justificativa

Este trabalho visa contribuir com o mundo corporativo, proporcionando às empresas uma melhor forma de atender aos seus consumidores de maneira rápida e eficiente. Esta ferramenta será aplicável a todas as empresas que tenham um ou mais perfis no Twitter.

Administradores (2013) cita vários problemas que as empresas deixam a desejar com seus consumidores, dentre eles, estão a falta de transparência, insensatez, esquecer se que percepção é realidade, falta de interação, esquecer seus erros e continuar quando é hora de pausar. Com isso, também é salientado que através do monitoramento da mídia social a empresa poderá identificar falhas, certificar-se da real situação perante o consumidor referente seus produtos e/ou serviços.

Para isso é recomendado o uso de ferramentas que possam auxiliar a obter esse conteúdo de forma mais organizada e com um maior número de subsídios que a ajudem a empresa se posicionar de forma mais eficiente diante de seu consumidor.

(13)

Um comentário negativo para uma empresa em uma rede social pode gerar um prejuízo alto, pois a velocidade com que as informações são repassadas é enorme. As pessoas cada vez mais utilizam as redes sociais para fazer pesquisas sobre as empresas e os seus produtos antes de efetuarem uma compra. Diante disso, a visualização um comentário que denigra a imagem do produto e /ou da empresa pode deixar a pessoa sem entusiasmo em efetuar determinada compra e a empresa começara a perder clientes.

O Twitter é uma das redes sociais com maior número de usuários, possuindo uma abrangência em todas as faixas etárias, o que gera um enorme fluxo de dados e informações a cada minuto, hora e dia. Como uma empresa consegue monitorar tudo o que está sendo postado sobre ela? Tendo como base que existem empresas que em apenas um dia recebem mais de mil comentários positivos e negativos, quantas pessoas seriam necessárias para atender uma demanda dessas?

Portanto, este trabalho propôs uma ferramenta viável, para coleta, mineração, processamento e análise dos comentários no Twitter e com o objetivo de proporcionar às empresas subsídios para agir com agilidade e tomar decisões de forma mais assertiva.

1.2 OBJETIVOS

1.2.1 Objetivo Geral

Desenvolver uma ferramenta de monitoramento e análise de comentários no Twitter.

1.2.2 Objetivos Específicos

De forma a desenvolver tal ferramenta, têm-se os seguintes objetivos específicos a serem alcançados:

 pesquisar e analisar frameworks de monitoramento para coleta de dados no Twitter;

 pesquisar algoritmos que auxiliem no Processamento de Linguagem Natural;

 verificar dentre os algoritmos pesquisados formas de otimização e adaptação ao problema em questão;

 modelar a arquitetura da ferramenta;

 implementar a modelagem da ferramenta; e  testar a ferramenta.

(14)

1.3 METODOLOGIA

Nesta seção é apresentada uma síntese da metodologia utilizada na pesquisa e os procedimentos metodológicos utilizados durante a realização deste projeto.

1.3.1 Metodologia da Pesquisa

A pesquisa pode ser classificada quanto à natureza, à forma de abordagem, aos objetivos e aos procedimentos técnicos. A seguir são apresentadas as classificações adotadas para o presente trabalho.

Quanto à natureza, a pesquisa pode ser classificada como aplicada, já que de acordo com Silva (2004), a pesquisa aplicada “objetiva gerar conhecimentos para aplicação prática dirigida à solução de problemas específicos”.

A forma de abordagem da pesquisa pode ser classificada como qualitativa. Segundo Silva e Menezes (2005, p.20), a pesquisa qualitativa “faz uma relação ativa entre o mundo real e o sujeito, isto é, uma conexão entre o mundo objetivo e a subjetividade do sujeito que não consegue ser traduzida em números. Não necessita o uso de métodos e técnicas estatísticas, o espaço natural é a fonte direta para a coleta dos dados e o pesquisador é a ferramenta chave”.

Quanto aos objetivos, a pesquisa pode ser classificada como exploratória, que “visa proporcionar maior familiaridade com o problema com vistas a torná-lo explícito ou a construir hipóteses. [...] Assume, em geral, as formas de Pesquisas Bibliográficas e Estudos de caso.” (SILVA, 2004).

Relacionado aos procedimentos técnicos, trata-se de um estudo de caso. De acordo com Silva (2004), estudo de caso é “quando envolve o estudo profundo e exaustivo de um ou poucos objetos de maneira que se permita o seu amplo e detalhado conhecimento”.

1.3.2 Procedimentos Metodológicos

Este trabalho apresenta a implementação de uma ferramenta para análise de comentários nas mídias sociais. A mídia escolhida foi o Twitter para estudo de caso e aplicação da ferramenta. Para tanto, realizou-se um estudo bibliográfico sobre mídias sociais, mineração de texto, análise de sentimentos e Processamento de Linguagem Natural.

(15)

2 FUNDAMENTAÇÃO TEÓRICA

Este capítulo apresenta conceitos de mídias sociais e técnicas necessárias para trabalhar com análise de sentimento em textos, tais como: mineração de textos e processamento de linguagem natural.

2.1 MÍDIAS SOCIAIS

Diferente dos meios de comunicação tradicionais, as mídias sociais são canais de relacionamento na internet, possibilitam a criação e o intercâmbio de conteúdo entre pessoas que compartilham os mesmos interesses. Mídias sociais são consideradas via de mão dupla, pois permitem que o usuário também produza o conteúdo, representa um espaço para compartilhar opiniões, experiências e informações (OLIVEIRA, 2013).

Dentre as diversas mídias sociais existentes, foi realizada uma análise em duas mídias, Twitter e Facebook, por se tratar das mídias com mais usuários atualmente e com maior apelo empresarial (G1, 2013).

2.1.1 Twitter

Twitter é uma rede de informação em tempo real, onde as pessoas publicam suas ideias, opiniões e noticias sobre diversos assuntos. O Twitter foi fundado em São Francisco, Califórnia nos Estados Unidos em 21 de março de 2006, criado por Jack Dorsey, Evan Williams e Biz Stone. A palavra twitter do inglês possui dois significados: “uma explosão de informações inconsequentes” e “pios de pássaros”. Ambos combinavam perfeitamente com o conceito e o slogan da mídia (SMAAL, 2010).

Dorsey originalmente imaginou o Twitter como uma plataforma de comunicação baseada no SMS (Short Message Service). Por isso, a razão de um twitter possuir apenas 140 caracteres. O primeiro twitter foi enviado em 21 de março de 2006 às 21:50hs, com o seguinte conteúdo “just setting up my twitter” (SMAAL, 2010).

(16)

Trending Topics, em português tópicos da moda, mostra os assuntos mais discutidos no Twitter naquele momento. O serviço está disponível em mais de 20 idiomas, com mais de 500 milhões de usuários, produzindo mais de 200 milhões de tweets por dia. O Brasil é o terceiro país que mais utiliza essa plataforma. Atualmente o Brasil possui aproximadamente 41,2 milhões de usuários (MACARTHUR, 2013)

O Twitter fornece algumas APIs para acesso aos dados publicados. Isso, permite que os desenvolvedores possam construir novas aplicações para integrar e criar novas formas de utilização da plataforma.

Twitter for WebSites (TfW): é um conjunto de produtos que habilita websites integrarem facilmente com o Twitter, é ideal para desenvolvedores de sites que procuram integrar de forma rápida e facilmente as funções mais básicas o Twitter. Isso inclui o botão Tweet, que permite que tweet algo do site para seus amigos. Já o botão Seguir permite ao usuário acompanhar as atualizações do perfil seguido (TWITTER, 2013).

A Search API, foi projetada para permitir que um usuário consulte o conteúdo do Twitter. Isso pode incluir encontrar um conjunto de tweets com/ palavras chaves especificas, encontrar tweets que referenciam um determinado usuário e encontrar as tendências do momento (TWITTER, 2013).

A API REST permite aos desenvolvedores acessar alguns núcleos primitivos do Twitter, incluindo as timelines, atualizações de status e informações do usuário. Através dessa API o usuário pode criar e publicar os tweets diretamente no perfil, responder um tweet, retweet outros tweets (TWITTER, 2013).

2.1.2 Facebook

O Facebook foi criado no dia 04 fevereiro de 2004 por Mark Zuckerberg, Dustin Moskovitz, Eduardo Saverin e Chris Hughes, ambos universitários de Havard. A plataforma, inicialmente, era apenas disponível aos estudantes da própria universidade. Assim que começou a funcionar o “The Facebook”, como era chamado no início, teve 22 mil acessos em apenas 2 horas. A ideia dos jovens era criar um site de relacionamento onde a experiência social dos universitários acontecesse online, compartilhando fotos, ideias, pensamentos e notícias. O site de Havard foi se tornando popular nas demais universidades dos Estados Unidos, tais como Stanford, Columbia, MIT, entre outras (TEIXEIRA, 2012).

(17)

Essa rede social possui números que impressionam. Em 04 de outubro de 2012 atingiu a marca de 1 bilhão de usuários no mundo inteiro, esse número é o dobro do que a empresa tinha em meados de julho de 2010. Nesse período a rede divulgou que acumulou 1,13 trilhão de cliques no botão “curtir”, desde que lançou o recurso em 2009. Assim, o Facebook é a maior rede social na atualidade (G1, 2013). Já em meados de maio de 2013 a companhia afirma que também superou a marca de 1,1 bilhão de usuários ativos (OLHAR DIGITAL, 2013). Segundo Sbarai (2013), o Facebook alcançou a marca de 76 milhões de usuários de cadastrados no Brasil, número que mantém o país no posto de segundo maior mercado em número de usuários da rede social no mundo.

Houve em 2013 um alto crescimento do Facebook nas plataformas móveis. A empresa anunciou que pelo menos 751 milhões de seus usuários ativos utilizam dispositivos móveis. Este número representa um aumento de 54% em relação ao ano de 2012. A empresa ainda afirma que diariamente 665 milhões de pessoas acessam sua página pelo menos uma vez ao dia (OLHAR DIGITAL, 2013).

A mídia possui uma API chamada Graph API, que proporciona aos desenvolvedores integrarem suas aplicações para consumir dados de uma determinada timeline ou fan page.

O Facebook também disponibiliza uma API que fornece acesso ao social graph. Facebook Query Language (FQL) tem funcionalidade equivalente a Graph API, utilizando como interface consultas como SQL. Estas consultas permitem obter todos os dados disponíveis em uma timeline ou fan page. Esta API é rica, consistente e permite interações com diversas plataformas (FACEBOOK, 2013).

2.2 ANÁLISE DE SENTIMENTO

Informação textual no mundo pode ser amplamente categorizada em dois principais tipos: fatos e opiniões. Fatos são expressões objetivas sobre entidades, eventos e suas propriedades. Opiniões são geralmente expressões subjetivas que descrevem sentimentos, avaliações ou sensações de pessoas sobre entidades, eventos e suas propriedades (LIU, 2010).

Diante disso, Abbasi (2007) explica que análise de sentimento tenta identificar e analisar essas opiniões. Liu (2012) considera que análise de sentimento é o campo de estudo que analisa opiniões, sentimentos, avaliações, atitudes e emoções das pessoas relativas a entidades, tais como, produtos, organizações, serviços, indivíduos, eventos e seus atributos.

(18)

Existem diversos nomes para análise de sentimento e Liu (2012) cita os seguintes: mineração de opinião, extração de opinião, mineração de sentimento, análise de subjetividade, análise de afeto, análise de emoção, etc.

Saber o que as outras pessoas pensam e falam sempre foi uma importante peça de informação. Conforme Pang e Lee (2008), muitas pessoas buscam opiniões e/ou recomendações sobre produtos e serviços antes de efetuar uma compra. Antigamente essas opiniões eram retiradas de amigos e familiares, mas ultimamente, com o avanço da internet, cada vez mais e mais as pessoas buscam essas informações em blogs, sites de recomendações e nas redes sociais. Pang e Lee (2008) salientam que 81% dos usuários de internet já fizeram uma pesquisa online de um produto pelo menos uma vez. Diante disso [Liu 2012] complementa que opiniões são fundamentais para quase toda atividade humana porque elas são influenciadoras de comportamentos das pessoas, e se existe a necessidade de tomar uma decisão, as pessoas saberão as opiniões uma das outras pessoas.

Conforme [Liu 2012] a análise de sentimento é investigada principalmente em três níveis, nível de documento, nível de sentença e nível de aspecto e entidade. O nível de documento visa encontrar o sentimento geral do autor, determinar se a opinião é positiva ou negativa (LIU, 2010). Já o nível de sentença visa identificar se a sentença possui ou não uma opinião, classificando-a em positiva, negativa ou neutra. Este nível de análise é relacionado à classificação de subjetividade (WIEBE, BRUCE & O'HARA, 1999), o qual distingue sentenças objetivas, que expressam informações concretas de sentenças subjetivas, que expressam opiniões e visões subjetivas. E, por fim, o nível de aspecto e entidade, o qual primeiro descobre o alvo da opinião, e depois determina se é positiva, negativa ou neutra. Os alvos são objetos e seus componentes, atributos e características. Um objeto pode ser um produto, serviço, indivíduo, organização, etc. (LIU, 2010). Uma opinião sem seu alvo identificado é de uso limitado, os alvos da opinião também ajuda a entender melhor o problema da análise do sentimento, por exemplo, “embora o serviço não seja bom, eu adoro este restaurante”, claramente possui um tom positivo, de fato a sentença é positiva sobre o restaurante, porém negativa sobre seu serviço. Em muitas aplicações alvos de opiniões são descritos por suas entidades e seus diferentes aspectos. Assim o objetivo deste nível de análise é descobrir sentimentos nas entidades e/ou seus aspectos (LIU, 2012).

Uma opinião pode ser direta ou indireta. Uma opinião direta é uma opinião expressa diretamente a uma entidade ou aspecto da entidade, por exemplo, “a qualidade da foto é muito boa”.

(19)

Opinião indireta é uma opinião que expressa indiretamente a uma entidade ou aspecto de uma entidade baseada em seus efeitos em algumas outras entidades (LIU, 2010; LIU, 2012).

Uma comparação de opinião expressa uma relação de similaridade entre duas ou mais entidades e/ou uma preferência de opinião baseada em alguns aspectos compartilhados das entidades, por exemplo, “Coca cola é melhor que Pepsi”, expressa uma opinião de comparação, comparando duas entidades e dizendo que uma se sobrepõe a outra. Uma opinião comparativa é geralmente expressada usando o comparativo ou o superlativo a partir de um adjetivo ou advérbio (LIU, 2012).

Opiniões também podem ser categorizadas como explícita e implícita. Uma opinião explícita é uma declaração subjetiva que da uma opinião regular ou comparativa. Já uma opinião implícita é uma declaração objetiva, geralmente expressa um fato indesejável ou desejável (LIU, 2012).

2.3 MINERAÇÃO DE TEXTO E RECUPERAÇÃO DE INFORMAÇÃO

Recuperação de Informação (Information Retrieval – IR) (BAEZA-YATES, RIBEIRO-NETO, 1999) é uma área que estuda como representar, armazenar, organizar e acessar informações. Neste sentido, Recuperação de Informação se assemelha muito com a área de Banco de Dados, a diferença está nos mecanismos de busca por informação.

A Mineração de texto (text mining) trata-se do processo de extração de padrões não triviais em um texto não estruturado, englobam recuperação da informação até a classificação. Aplica as mesmas funções analíticas da mineração de dados, mas, neste caso, para o domínio de informação textual, baseando em técnicas sofisticadas de análise textual (GOMES, 2012).

Aranha (2007) apresenta uma metodologia para Descoberta de Conhecimento em Textos (DCT), a qual é a seguinte: Extração, onde se extrai os dados requeridos; Pré-processamento, trata da preparação dos dados, quando se aplicam técnicas de processamento de linguagem natural; Indexação, criação de índices para acesso rápido, conhecido como recuperação da informação; Mineração de Texto, cálculos, inferências e extração de conhecimento e; Análise, interpretação do resultado.

Conforme Chen (1994), a Mineração de Textos realiza várias funções de busca, análise linguística e categorização. Segundo Sullivan (2000), text mining é o estudo e a prática de extrair informação de textos usando os princípios da linguística computacional. Diante disso, Biggs (2005) ressalta que mineração de texto é ideal para inspecionar mudanças no mercado, ou para identificar

(20)

ideias. Já Tan (1999) diz que text mining é o processo de extrair padrões ou conhecimento, interessantes e não triviais, a partir de documentos textuais.

Mineração de texto é um método interdisciplinar que envolve as áreas de recuperação de informação, aprendizagem de máquina, estatística, linguística computacional e mineração de dados (HOTHO, NURNBERGER; PAASS, 2005). Dentro da Mineração de Texto tem-se a mineração de opinião ou análise de sentimento, que visa classificar os textos não por tópicos, mas sim, pelo sentimento ou opinião contido no texto. Geralmente associado à classificação binária entre sentimentos positivos ou negativos, o termo é usado de uma forma mais abrangente para significar o tratamento computacional de opinião, subjetividade e sentimento em textos (PANG ; LEE, 2008).

2.4 PROCESSAMENTO DE LINGUAGEM NATURAL

Processamento de Linguagem Natural (PLN) é um subcampo da Inteligência Artificial que estuda os problemas de geração automatizada e compreensão de linguagens naturais humanas. (JIELIN, 2007 apud CORREIA, 2011). Segundo Chowdhury (2003), PLN é uma área de pesquisa e aplicação que explora como computadores podem ser usados para entender e manipular texto ou discurso para fazer coisas úteis. Já para Garcia (2010) o processamento de linguagem natural engloba um vasto conjunto de tarefas que vão desde tratamentos superficiais do texto (tokenização, segmentação de oração, etc) até análises profundas do ponto de vista sintático e semântico.

Em geral o processamento de linguagem natural é composto por tokenização, análise léxica, análise semântica, análise sintática e análise contextual. Dependendo do autor, algumas etapas são subdivididas, omitidas ou agrupadas em uma única fase. Dale, Moisi e Somers, (2000 apud CORREIA, 2011) definem cinco estágios do PLN: tokenização, análise léxica, análise sintática, análise semântica e análise pragmática. Já para Cimiano (2006 apud CORREIA, 2011), O processamento de linguagem natural consiste nas fases de: pré-processamento, análise sintática, análise semântica e interpretação contextual.

A Figura 2 mostra a estrutura da arquitetura de um sistema PLN, onde a sentença passa pelos processos de tokenização, análise léxica, análise sintática, análise semântica e análise pragmática, podendo, assim, ser realizada a análise do sentimento do texto.

(21)

Figura 2: Arquitetura genérica de um sistema de PLN. Fonte: Siqueira (2011)

2.4.1 Tokenização

O processo de tokenização possibilita a separação dos elementos constituintes do texto, identificando a posição de início e término de cada palavra. No entanto, essa etapa pode vir a ser mais abrangente, caso seja necessário realizar tratamentos no texto que visem definir melhor o texto, as sentenças e as palavras. Nesse caso, o nome da etapa é text preprocessing, que inclui, inclusive, a etapa de tokenização (PALMER, 2010; LIU, HU & CHENG, 2005).

O estágio de pré processamento é dividido em duas etapas: Document triage e text segmentation. O primeiro passo, a triagem de documentos, envolve identificar a codificação de caracteres, identificar a linguagem e realizar o corte do texto. O segundo passo, a segmentação do texto, envolve a segmentação de palavras, conhecida também como tokenização, a normalização do texto e a segmentação das sentenças (AGUIAR, 2012).

Para gerar uma lista de tokens delimitadores deve se analisar as características do texto, como espaços, pontuações, símbolos especiais, entre outros. Tem-se como exemplo a Figura 3.

(22)

Figura 3: Exemplo Tokenização. Fonte: Aguiar (2012)

Ainda, conforme o autor supracitado, dentro da tokenização se utiliza a técnica de stopwords e normalização para efetuar uma limpeza do texto que está em fase de pré-processamento.

Remoção de Stopwords

Existem certas palavras que não são consideradas relevantes para a informação geral de um texto. Tais palavras são conhecidas como stopwords na literatura de mineração de textos e quando agrupadas formando uma lista de palavras sem importância para a análise, esse grupo recebe o nome de stoplist. Em geral, essas palavras são as que aparecem com mais frequência no texto, preposição, artigos, conjunções, pronomes e pontuação. A definição automática de stopwords ocorre através de um algoritmo que identifique as palavras que aparecem em grande quantidade nos textos (SANTOS, 2010).

Normalização

Também conhecido como stemming ou lematização, consiste na remoção de variações de palavras do tipo (plural, gerúndio, prefixos, sufixos, gênero e número) de modo que a palavra fique só com a stem (raiz) (MONTEIRO; GOMES et al. 2006 apud SILVA, 2010).

Stemming é o pré-processamento utilizado para a redução de um termo ao seu radical, removendo seus afixos. Nesta fase todos os tokens são processados por um stemmer que é um algoritmo cujo objetivo é reduzir as palavras a uma forma comum de apresentação, conhecida como

(23)

stem (radical), fundindo ou combinando as formas morfologicamente variantes de um termo (FRAKES; BAEZA-YATES, 1992 apud SANTOS; ALVES, 2010). Com a utilização desse tipo de processamento deseja-se que os termos derivados ao mesmo radical sejam considerados um único termo, tendo assim uma junção do número de termos que tem significados semelhantes.

Em geral, a aplicação de técnicas de normalização introduz uma melhora significativa nos sistemas de Mineração de Texto. Esta melhora varia de acordo com o escopo, o tamanho da massa textual e o que se pretende obter como saída do sistema (CARRILHO JUNIOR; PASSOS, 2007. apud SANTOS, 2010).

Segundo Flores (2009) os passos de redução são executados na seguinte ordem:

 Redução do Plural: remove o sufixo de plural das palavras com (“ns”, “ães”, “óis”, e “s” );

 Redução do Feminino: essa fase modifica o gênero da palavra de feminino para masculino. Para entrar nesse passo a palavra deve terminar com “a”. A palavra “receosa” ficará “receoso”;

 Redução Adverbial: apenas retira o sufixo “mente” dos advérbios. A palavra “felizmente” ficará “feliz”;

 Redução do Aumentativo: modifica o grau da palavra de aumentativo, diminutivo e superlativo, para o grau normal, retira os sufixos “inho”, “íssimo” e “ão”;

 Redução Nominal: retira sufixos de substantivos e adjetivos, como “izado”, “ência”, “ico” e “ável”;

 Redução Verbal: remove os sufixos dos verbos regulares do português. A palavra “engordassem” fica “engord”;

 Redução de vogais: retira a última vogal “a”, “e” ou “o”, caso a palavra não tenha sido reduzida nos dois últimos passos. A palavra “bela” fica “bel”; e

 Remoção de Acentos: passo final, simplesmente remove os acentos das palavras. A Figura 4 mostra a sequência dos passos das etapas mostrada ateriormente.

(24)

Figura 4: Ordem dos passos do algoritmo RSLP Fonte: Flores (2009)

2.4.2 Análise Léxica (Scanner)

A análise léxica, ou morfológica, ocupa-se do estudo das palavras. Na fase anterior elas já foram devidamente tokenizadas e reconhecidas, permitindo-se aprofundar a análise sobre elas. (CAMARA JUNIOR, 2013)

Um analisador léxico transforma um texto em elementos sintáticos (verbos, adjetivos, preposições, substantivos, etc.). Segundo Siqueira (2011), o analisador reconhece tokens de uma sentença de entrada e recupera seus principais traços. Na Figura 5 é apresentado um exemplo dos traços ou sintagmas que uma palavra pode possuir, utiliza-se a palavra “comida” como referência.

(25)

Comida t Token = comer; Categoria Verbo/Substantivo Gênero Masculino/Feminino Número Singular/Plural

Figura 5: Exemplo léxico Fonte: Siqueira (2011)

Siqueira (2011) ainda coloca que o scanner identifica a separação dos componentes significativos da sentença, tais como: as palavras, símbolos de pontuação, assim como os atributos gramaticais. Cabe também ao léxico decompor eventualmente em seus componentes mais primitivos, isolando os radicais das palavras, identificando seu sufixo e seu prefixo. Também é da alçada do léxico efetuar consultas ao dicionário, determinando para a palavra extraída, informações adicionais necessárias para uma eventual eliminação de ambiguidade.

Nessa etapa juntamente com a análise sintática, faz-se uso da técnica de etiquetagem. Conforme Siqueira (2011), um etiquetador gramatical identifica, através da colocação de etiqueta (tag), a categoria gramatical de cada item lexical do texto. Na análise léxica informações são inclusas sobre categorias morfológicas, como substantivo e adjetivo.

Etiquetagem (Part-of-speech taggers - POS tagging)

A Etiquetagem também é conhecida como classificador gramatical. Segundo Vinhaes (2005), etiquetagem é o módulo responsável pela identificação de cada um dos itens léxicos encontrados no texto, responsável por decidir qual categoria gramatical a palavra deverá pertencer, conforme a posição ocupada por ela na frase.

Diante disso, o autor citado anteriormente ressalta que podem ser incluídas às etiquetas: substantivo, verbo, pronome, preposição, advérbio, conjunção, particípio ou artigo. Essas etiquetas variam de acordo com o texto. O objetivo do processo de etiquetagem é ser um marcador de classe gramatical de cada palavra em um texto.

A Figura 6 mostra como as etiquetas são atribuídas a uma palavra dento de uma sentença. A palavra “este” recebe a etiqueta de pronome, a palavra “produto” recebe a etiqueta substantivo, a

(26)

palavra “é” recebe a etiqueta verbo, a palavra “muito” recebe a etiqueta advérbio e a palavra “bom” recebe a etiqueta de adjetivo.

Figura 6: Exemplo etiquetador Fonte: Vinhaes (2005).

2.4.3 Análise Sintática

Análise sintática ou parser é a etapa responsável pela construção de uma estrutura sintática válida para a sentença de entrada, também chamada de estrutura profunda (LONDERO, 2008). Segundo Silva et al. (2007), trata-se de reconhecer as regras pelas quais a distribuição das formas é determinada e esse exercício é o objeto de estudo da sintaxe. Quando as palavras são combinadas entre si para formar um enunciado dotado de um sentido completo, sua distribuição na sentença não ocorre de maneira aleatória, mas, ao contrário, essa disposição segue regras estruturais bastante definidas. Essas regras determinam, por exemplo, o emprego dos pronomes, a aplicação da crase, a realização da concordância. Na manipulação dessas regras, faz-se uso de um conjunto de categorias definido em termos da sua função sintática, das quais são exemplos às categorias sujeito, objeto direto, complemento nominal, adjunto adverbial e assim por diante. Conforme Jurafsky e Martin (2000), a análise sintática diz respeito ao estudo das relações entre as palavras.

(27)

Costuma-se reunir na terminologia das categorias gramaticais as entidades sintáticas das classes gramaticais (substantivo, verbo, adjetivo, pronome, numeral). É uma maneira de identificar as palavras segundo o conjunto gramatical ao qual elas pertencem e, ao mesmo tempo, reconhecê-las na sua distribuição sentencial. A atribuição desses traços sintáticos aos itens lexicais constitui uma primeira etapa do tratamento linguístico no âmbito da sintaxe. Em seguida, são articuladas as regras sintáticas do tipo que levantamos anteriormente a fim de determinar as sentenças bem formadas de uma língua (SILVA et al. 2007).

Em síntese, o processamento sintático não faz uso apenas das informações sintáticas que postula. A sua autonomia é bastante clara em relação ao módulo morfológico, de um lado e semântico, de outro. Esse fato determina o papel central que a análise sintática desempenha no processamento automático de uma língua (SILVA et al. 2007).

Segundo Oliveira (2013), no português a análise sintática de uma oração deve levar em conta os seguintes sintagmas: termos essenciais (sujeito e predicado), termos integrantes (complemento verbal e nominal) e termos acessórios (adjunto adverbial e aposto). A análise do período deve considerar o tipo do período (simples ou composto), composição (por subordinação, por coordenação) e a classificação das orações (absoluta, principal, coordenada ou subordinada).

Camara Junior (2013) ressalta que um parser é um decompositor que tem por objetivo analisar uma determinada sentença da linguagem e gerar uma árvore de derivação com as unidades lexicais tokenizadas da linguagem.

Vieira e Lima (2011) mostram que através do reconhecimento da estrutura de uma sentença é possível identificar quais expressões fazem parte do sujeito da frase, qual relação ou ação está sendo afirmada (o predicado da frase) e, para o predicado, identificar os objetos e outros complementos indicando, por exemplo, modo ou tempo da ação/relação. Também relacionado a estrutura de uma sentença está a interpretação: diferentes possibilidades de combinações entre os constituintes de uma mesma frase podem ter interpretações diferentes (ambiguidade). Como nos exemplos abaixo:

“O homem viu o menino com o telescópio.” “Ele entrou na sala de muletas.”

As frases anteriores mostram interpretações ambíguas, a primeira frase apresenta a ambiguidade de que o homem viu o menino através do telescópio ou o menino estava com o objeto, a segunda frase, ele entrou na sala usando as muletas ou a sala continha as muletas. O tratamento da

(28)

ambiguidade em questão não é de palavras que tem a mesma escrita e significados diferentes, mas sim trata a ambiguidade da estrutura da sentença.

Vieira e Lima (2011) mostram que o resultado da analise sintática é uma hierarquia sintaticamente estruturada preparada para interpretação semântica.

2.4.4 Análise Semântica

Análise semântica analisa os significados das palavras, expressões fixas, frases inteiras e expressões no contexto. Muitas expressões humanas estão abertas à múltiplas interpretações, porque as palavras podem ter mais de um sentido (ambiguidade léxica) (JURAFSKY; MARTIN, 2000; GODDARD; SCHALLEY, 2010), ou porque certas palavras tais como quantificadores, modais ou operadores negativos, podem ser aplicados a diferentes trechos do texto (ambiguidade de escopo) (GODDARS; SCHALLEY, 2010) ou porque a referência pretendida de pronomes ou outras expressões podem não ser claras (ambiguidade referencial).

Ressalta-se que a ambiguidade léxica refere-se geralmente a homônimos, que são palavras que têm a mesma pronúncia e mesma grafia, mas significados diferentes, a exemplo de laranja (fruta) versus laranja (cor), raiz (planta, árvore) versus raiz (matemática). Refere-se também à polissemia, diferentes sentidos para a mesma palavra (AGUIAR, 2012).

Segundo Camara Junior (2011), na análise semântica o problema mais importante é a resolução de ambiguidade, pois uma sentença está aberta a inúmeras interpretações porque algumas palavras possuem mais de um significado. Em relação a essa ambiguidade é usual a distinção entre homonímia e polissemia. A homonímia é o fenômeno de palavras diferentes, com sentidos obviamente dessemelhantes, se apresentarem na mesma forma, podendo essa forma ser sonora ou escrita. Por exemplo, o verbo ‘parar’ conjugado no presente do indicativo, na terceira pessoa do singular, e a preposição ‘para’ possui a mesma escrita, porém estão em categorias diferentes. Já a polissemia trata da mesma unidade lexical carregar significados distintos em contextos díspares. O exemplo clássico é a fruta ‘manga’ e a ‘manga’ da camisa. Ambos os fenômenos são problemas para PLN, no entanto a polissemia é maior uma vez que a sintaxe é normalmente a mesma, com diferenças mais sutis, tornando a análise bastante suscetível ao erro.

(29)

2.4.5 Análise Pragmática

Apesar de vários níveis de análise de uma estrutura superficial de um texto permitirem a obtenção de uma representação do significado (representação semântica), a obtenção da mensagem original, como resultado da interpretação, propriamente dita, pode ainda estar sujeita a aspectos pragmáticos da comunicação. Por exemplo, nem sempre o caráter interrogativo de uma sentença expressa exatamente o caráter de solicitação de uma resposta. Como exemplo a seguinte sentença "Você sabe que horas são?" pode ser interpretada como uma solicitação para que as horas sejam informadas ou como uma repreensão por um atraso ocorrido. No primeiro caso, a pergunta informa ao ouvinte que o falante deseja obter uma informação e, portanto, expressa exatamente o caráter interrogativo. Entretanto, no segundo caso, o falante utiliza o artifício interrogativo como forma de impor sua autoridade. Diferenças de interpretação desse tipo claramente implicam interpretações distintas (SIQUEIRA, 2011).

Segundo Nunes (2005), os limites entre as cinco etapas de PLN são normalmente obscuras. Essas etapas nem sempre são executados sequencialmente, posto que as informações sejam interdependentes e, logo, podem ser executadas concomitantemente.

Conforme Vieira e Lima (2011), a análise pragmática se refere à obtenção do significado não literal de uma sentença. Ou seja, o significado completo, tal como o ser humano o percebe ao ler ou ouvir uma sentença, contém elementos que não estão representados unicamente nas unidades e nas relações semânticas. Além do conteúdo dito literal, há a necessidade de ligar as frases entre si, de modo a construir um todo coerente, e de interpretar a mensagem transmitida, de acordo com a situação e com as condições do enunciado. Por exemplo, examinando a sentença: o professor disse que duas semanas são o tempo necessário para resolver este problema. Para uma compreensão literal, pode se recorrer aos mecanismos de representação expostos até aqui, e não se tem dificuldades. Mesmo uma tradução poderia ser feita a partir dessa sentença, para outro idioma. Entretanto, uma compreensão aprofundada exigiria saber a que problema se refere o professor, já que o problema deve ter sido a própria razão da formulação dessa sentença.

Os autores supracitados ainda descrevem que existem dois pontos focais da pragmática são: as relações entre frases (para construir uma representação do texto, a representação de cada nova frase se apoia na precedente) e o contexto (a situação e condições em que ocorre o enunciado). À medida que vão sendo enunciadas, as sentenças criam um universo de referência, que se une ao já existente. A própria vizinhança das sentenças ou dos itens lexicais também constitui um elemento importante na

(30)

sua interpretação: o co-texto. Diante disso, alguns novos fenômenos passam a ser estudados, como fenômenos pragmáticos textuais. Inserem-se nessa categoria as relações anafóricas, co-referência, determinação, foco ou tema, dêiticos e elipse.

(31)

3 TRABALHOS RELACIONADOS

Este capítulo tem por objetivo descrever e analisar alguns trabalhos publicados relacionados à análise de sentimentos de mídias sociais.

3.1 ANÁLISE DE SENTIMENTOS EM REDES SOCIAIS UTILIZANDO O

SENTICNET

Motivados pelo grande número de usuários conectados nas redes sociais e pela riqueza de informações acessíveis publicamente nestas, Malheiros e Lima (2013) apresentaram em seu trabalho uma ferramenta de análise de sentimentos em mensagens compartilhadas em redes sociais utilizando o SenticNet1 como base de conhecimento.

O SenticNet consiste numa base de dados para análise de sentimentos e mineração de opinião construída por meio da sentic computing, possibilitando, assim, entender o que muitos usuários estão sentindo sobre determinados assuntos em tempo real nas mídias sociais.

Sentic computing é uma abordagem multidisciplinar para análise de sentimentos que está na encruzilhada da computação afetiva e computação de senso comum. O termo deriva do latim sentire (sentimento e sensibilidade) e sensus (senso comum). Em geral envolve o uso de inteligência artificial e técnicas de web semântica para representação de conhecimento e inferência (SENTICNET, 2013).

A ferramenta desenvolvida por Malheiros e Lima (2013) é dividida em três componentes principais: o componente de aquisição, o componente de classificação e a aplicação, conforme mostra a Figura 7.

(32)

Figura 7: Arquitetura da ferramenta. Fonte: Malheiros e Lima (2013)

Na ferramenta desenvolvida, o componente de aquisição se conecta ao Facebook e coleta mensagens compartilhadas pelos usuários de acordo com palavras-chave fornecidas.

O próximo passo é classificar as mensagens obtidas (componente de classificação) utilizando o SenticNet como base de conhecimento. É calculada a polaridade de cada mensagem, obtendo valores no intervalo de -1 a 1, onde valores abaixo de zero representam sentimentos negativos e valores acima de zero representam sentimentos positivos. A ferramenta procura por cada palavra ou conjunto de palavras da mensagem no SenticNet, soma os valores das polaridades de todas as ocorrências encontradas e divide pela quantidade de ocorrências encontradas (MALHEIROS; LIMA, 2013).

O componente de aplicação como apresentado na Figura 7 encontra-se em fase de planejamento, porém já possui suas principais funcionalidades conhecidas. Será possível ao usuário realizar buscas por palavras-chave, recuperando assim as mensagens desejadas e por fim a ferramenta exibirá a classificação de cada mensagem e uma polaridade global de todas as frases. Desta forma, o usuário será capaz de medir o que as pessoas conectadas às redes sociais estão sentindo, apenas realizando uma busca pelo assunto desejado na ferramenta.

3.2 ANÁLISE DE REDES SOCIAIS EM BLOGS DE PESSOAS COM

NECESSIDADES ESPECIAIS

Segundo Passerino, Montardo e Benkenstein (2007), diante da evidência de que blogs de familiares de Pessoas com Necessidades Especiais (PNE) se restringem a um tema específico

(33)

(postagens e comentários), e da limitação que a falta de acessibilidade digital em blogs e em sistemas de publicação de blogs representa para PNE, foi publicado um estudo com o objetivo de apontar para especificidades deste tipo de redes sociais na web e, consequentemente, para os limites e as possibilidades dos softwares desenvolvidos até então para as mesmas.

O estudo apresentado no trabalho dos autores supracitados, consiste numa análise comparativa entre os softwares CMapTools2 e UCINET3. Esta análise tem por objetivo identificar as características ideais de um software a ser desenvolvido que combine resultados de análise quantitativa e qualitativa nas redes voltadas a PNE, que são temáticas e que, por vezes, se debatem com a questão da acessibilidade digital.

O CMapTools é um software destinado à elaboração de mapas conceituais. Estes mapas são diagramas bidimensionais com a finalidade de representar conceitos e suas respectivas proposições. O usuário tem à disposição uma interface WYSIWYG bastante intuitiva que adiciona e renomeia elementos através de poucos movimentos do mouse o que torna acessível o aprendizado da ferramenta. Possui muitos recursos de formatação gráfica, como opção de traço e cores, e formatação textual, como definição de estilos de fontes e correção ortográfica (PASSERINO; MONTARDO; BENKENSTEIN, 2007).

O UCINET é um software que, embora tenha por função principal a elaboração e manipulação de matrizes reticulares, pode ser descrito como um pacote de aplicações para Análise de Redes Sociais (ARS), pois quando instalado traz consigo outros três programas que podem ser utilizados de forma independente. São eles dois visualizadores: Netdraw, que visualiza grafos em duas dimensões, e Mage, que mostra grafos em três dimensões. O terceiro programa é um manipulador de matrizes alternativo e freeware denominado Pajek (PASSERINO; MONTARDO; BENKENSTEIN, 2007).

Em seu trabalho, Passerino, Montardo e Benkenstein (2007) chegam à conclusão de que as ferramentas analisadas são importantes, porém não suficientes para atender as PNE nas mídias sociais. Dessa maneira, os autores sugerem a investigação de outros softwares de ARS, para que o tratamento linguístico das postagens e comentários dessas redes temáticas via Processamento de Linguagem

2

http://cmap.ihmc.us/

(34)

Natural (PLN), é imprescindível em um software a ser desenvolvido (PASSERINO; MONTARDO; BENKENSTEIN, 2007).

No trabalho apresentado nesta subseção, é proposto investigar o desenvolvimento de mecanismos inteligentes para descoberta de conhecimento em blogs que estejam relacionados a temas ligados às diferentes Necessidades Especiais. Por meio de técnicas de PLN, ontologias e um Robô Virtual, esse conhecimento pode ser reunido, organizado e utilizado de forma automática e semi-automática na busca de informações dispersas nos blogs (PASSERINO; MONTARDO; BENKENSTEIN, 2007).

3.3 ANÁLISE DE SENTIMENTOS NO FACEBOOK

Em seu trabalho, Ahkter e Soria (2010) realizaram uma análise da adequação de várias abordagens para mensagens de status do Facebook, comparando o desempenho de classificadores de Entropia Máxima (“MaxEnt”), um classificador MaxEnt aumentado com dados Rotulados-LDA ("LDA"), um classificador MaxEnt aumentado com marcadores parte-do-discurso ("POS"), e um classificador MaxEnt aumentado com ambos POS e LDA.

De acordo com Ahkter e Soria (2010), é possível classificar com mais precisão a emoção em mensagens de status no Facebook do que no Twitter devido a sua natureza. No Facebook, é possível digitar um maior número de caracteres, podendo representar melhor o sentimento passado pela mensagem.

Para coletar dados, os autores criaram uma aplicação Facebook Connect, chamada iFeel, que utiliza a API disponibilizada pelo Facebook (Facebook Graph API) para conexão e coleta de dados. Após, o próximo passo envolveu o pré-processamento dos dados do Facebook, convertendo-os em dados rotulados e dividindo-os em conjuntos de treinamento e teste.

A seguir, é realizada a etapa de classificação, possuindo as classes de sentimento positivo e negativo, onde são analisadas e classificadas todas as mensagens coletadas na etapa anterior. Em alto nível, a sequência do trabalho realizado é representada nos passos demonstrados a seguir (AHKTER; SORIA, 2010):

1) Coleta de dados via aplicativo iFeel; 2) Rotulagem de sentimento;

(35)

3) Transformar em conjuntos de treino/teste para testes de somente classificadores; 4) Transformar em conjuntos de treino/teste para LDA;

5) Transformar em conjuntos de treino/teste para POS;

6) Transformar em conjuntos de treino/teste para classificação final pelo classificador; e 7) Ajustar os recursos classificador, LDA, e/ou POS e repetir até atingir o melhor modelo. Os autores atingiram o objetivo de análise de sentimento das mensagens de status do Facebook analisando os dados obtidos e divulgando o resultado dos testes envolvidos.

3.4 MINERAÇÃO DE OPINIÃO EM REDES SOCIAIS

Este trabalho teve como objetivo principal o desenvolvimento de um protótipo capaz de realizar mineração de opinião em textos na mídia social Twitter. Foi utilizado conceitos de mineração na web e mineração de texto.

O autor escolheu o método de aprendizagem de máquina, conhecido como SVM (Support Vector Machine) para realizar a classificação binária entre sentimentos positivos e negativos, ou qual representa uma ação da análise de sentimento.

Santos (2010) define que o método de aprendizagem de máquina possui duas formas, que são: aprendizado supervisionado e aprendizado não-supervisionado. O aprendizado supervisionado requer, que por meio dos dados fornecidos como entrada seja depreendida uma função de classificação de textos que é responsável por determinar a qual classe pertence determinado documento. O aprendizado não-supervisionado não necessita de dados de treinamento previamente classificados, pois analisa os dados e induz algo sobre eles. Santos (2010) define que o Algoritmo de aprendizado de máquina supervisionado SVM é considerado um dos melhores e mais utilizados em classificação de textos.

O protótipo desenvolvido demonstrou-se funcional. De acordo com o autor do trabalho afirma que a o protótipo foi capaz de realizar o processo de análise de sentimento requisitado pelo usuário. Santos (2010) menciona também que foram implementadas todas as etapas da metodologia para mineração de textos.

(36)

Para testar o protótipo, foi utilizada uma coleta realizada no Twitter, tendo como assuntos relacionados à Apple4, Windows5, entre outras empresas e/ou produtos associados à tecnologia. Obteve-se 168257 tweets, os quais foram submetidos à opção de remoção de mensagens indesejadas ou fora do contexto pretendido, com isso, chegou-se ao número de 138054. Após isso, foi realizado identificação de línguas, separando os tweets apenas em inglês. Assim o processo foi sendo repetido diversas vezes para treinar o algoritmo de aprendizado (SANTOS, 2010).

Nesse trabalho, Santos (2010) afirma que a não realização de uma ótima separação entre mensagens positivas e negativas não invalidam o protótipo, pois além das funções implementadas, tem-se a possibilidade de adição de novos métodos na tentativa de realizar um processo melhor. E tal implementação permite que um analista estude as distribuições encontradas em cada período e discuta os resultados.

3.5 BRANDVIEWER

BrandViewer6 é uma ferramenta para monitoramento de mídias sociais desenvolvida por uma empresa de Florianópolis/SC, chamada AdeptSys 7 que está no mercado desde 1993.

Segundo a divulgação da empresa sobre a ferramenta, o BrandViewer localiza, organiza e avalia toda e qualquer informação sobre uma determinada marca, um cliente ou até mesmo uma pessoa comum.

A ferramenta desenvolvida pela AdeptSys analisa o sentimento das citações em português automaticamente, possuindo exploração e navegação através de gráficos. O monitoramento está ligado a diversas redes sociais, tais como: Facebook8, Twitter9, YahooAnswers10, Blogs, YouTube11, Instagran12, FlickR13, Orkut14.

4 http://www.apple.com/ 5 http://windows.microsoft.com/pt-br/windows/home 6 http://www.brandviewer.com.br 7 Fttp://adeptsystems.com.br 8 http://www.facebook.com 9 http://www.twitter.com 10 http://www.answers.yahoo.com 11 http://www.youtube.com 12 http://www.instagram.com 13 http://www.flickr.com

Referências

Documentos relacionados

- O responsável pelo grupo poderá efetuar a retirada de todos os participantes do grupo mediante: Comprovante de pedido (Celular ou impresso) / Comprovante de pagamento (Celular

E HABILIDADES DESAFIO DO DIA FORTALECENDO SABERES DINÂMICA LOCAL INTERATIVA LINGUAGENS MAT.,

Entre estes pacientes, 52 intervenções (50%) foram realizadas em decorrência de edema de laringe após broncoscopia, 11 casos para assistência ventilatória, 12 para introdução

Desse modo, podemos dizer que a significação é dotada tanto de uma sintaxe (relação entre elementos) quanto de uma semântica (carga de sentidos dos elementos e de suas relações).

O facto de ter um campo de vento homogéneo (Figura 5), não influi notoriamente nos resultados simulados, pois a grelha de 0.025 o da região dos Açores foi aninhada com as duas

Acompanhar o desenvolvimento do Curso de Formação de Formadores, Nível 2, Oficina: Orientação para produção de material didático na prática, a ser promovido

Verificou-se que mais de 80% dos casos se referiam a conviventes de doentes com exame bacteriol6gico da expectoray3o positivo por exame directo com colorayao de Ziehl-Neelsen

Observando-se a Figura 6.5.1, nota-se que as amostras de 10B(Sr)+5Al tratadas por 24h e 100h apresentam um resultado melhor que as outras duas.. composições, porém para 800h sua