• Nenhum resultado encontrado

APLICAÇÃO DE UM SISTEMA FUZZY PARA CLASSIFICAÇÃO DE OPINIÃO EM DIFERENTES DOMÍNIOS

N/A
N/A
Protected

Academic year: 2021

Share "APLICAÇÃO DE UM SISTEMA FUZZY PARA CLASSIFICAÇÃO DE OPINIÃO EM DIFERENTES DOMÍNIOS"

Copied!
71
0
0

Texto

(1)

Programa de P´

os-Gradua¸c˜

ao em Ciˆ

encia da Computa¸c˜

ao

Mestrado em Ciˆ

encia da Computa¸c˜

ao

APLICAC

¸ ˜

AO DE UM SISTEMA FUZZY

PARA CLASSIFICAC

¸ ˜

AO DE OPINI ˜

AO EM

DIFERENTES DOM´INIOS

Matheus Cardoso de Andrade Silva

DISSERTAC

¸ ˜

AO DE MESTRADO

Feira de Santana

19/05/2015

(2)

Universidade Estadual de Feira de Santana

Programa de P´

os-Gradua¸c˜

ao em Ciˆ

encia da Computa¸c˜

ao

Matheus Cardoso de Andrade Silva

APLICAC

¸ ˜

AO DE UM SISTEMA FUZZY PARA CLASSIFICAC

¸ ˜

AO

DE OPINI ˜

AO EM DIFERENTES DOM´INIOS

Trabalho apresentado ao Mestrado em Ciˆencia da Com-puta¸c˜ao da Universidade Estadual de Feira de Santana como requisito parcial para obten¸c˜ao do grau de Mestre em Ciˆencia da Computa¸c˜ao.

Orientador: Angelo Loula

Co-orientador: Matheus Giovanni Pires

Feira de Santana

19/05/2015

(3)

Ficha Catalogr´afica - Biblioteca Central Julieta Carteado

S581a

Silva, Matheus Cardoso de Andrade

Aplica¸c˜ao de um sistema fuzzy para classifica¸c˜ao de opini˜ao em dife-rentes dom´ınios/ Matheus Cardoso de Andrade Silva– Feira de Santana, 19/05/2015.

60 f. : il.

Orientador: Angelo Loula.

Co-orientador: Matheus Giovanni Pires.

Disserta¸c˜ao (mestrado)– Universidade Estadual de Feira de Santana, Pro-grama de P´os-Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao, 19/05/2015.

1. Minera¸c˜ao de dados (computa¸c˜ao). 2. Classifica¸c˜ao de opini˜ao - Sis-tema Fuzzy.

I. Loula, Angelo, orient. II. Pires, Matheus Giovanni, coorient.

III. Universidade Estadual de Feira de Santana. Programa de P´ os-Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao. IV. T´ıtulo.

(4)

iii

TERMO DE APROVAC

¸ ˜

AO

MATHEUS CARDOSO DE ANDRADE SILVA

APLICAC

¸ ˜

AO DE UM SISTEMA FUZZY PARA

CLASSIFICAC

¸ ˜

AO DE OPINI ˜

AO EM

DIFERENTES DOM´INIOS

Esta disserta¸c˜ao foi julgada adequada `a ob-ten¸c˜ao do t´ıtulo de Mestre em Ciˆencia da Computa¸c˜ao e aprovada em sua forma final pelo Mestrado em Ciˆencia da Computa¸c˜ao da UFBA-UEFS.

Feira de Santana, 19 de Outubro de 2015

Prof. Dr. Angelo Conrado Loula Universidade Estadual de Feira de Santana

Profa. Dra. Heloisa de Arruda Camargo Universidade Federal de S˜ao Carlos

Prof. Dr. Jo˜ao B. Rocha Junior Universidade Estadual de Feira de Santana

(5)

`

Aqueles que foram sine qua non a realiza¸c˜ao desde trabalho.

Meus genu´ınos agradecimentos a meus orientadores, Angelo Loula e Matheus Pires, pela paciˆencia, diligˆencia e competˆencia prestadas a mim. Decididamente, sem a ori-enta¸c˜ao de vocˆes, este trabalho n˜ao teria sido realizado. Muito obrigado, meus caros.

`

A meu tio, Marcelo Cordeiro, que me acolheu sem nenhuma obriga¸c˜ao ou necessidade e me deu suporte para recome¸car a vida e terminar o mestrado. Certamente eu n˜ao estaria aqui hoje sem a ajuda que vocˆe me deu. Valeu, titio!

`

A m˜ae do meu filho, Luana Lira, que neste ´ultimo ano, mesmo sem saber, ajudou-me, ao mesmo tempo, a cuidar do meu Ben e do meu mestrado. Obrigado, Luana.

E `a todos os demais que potencialmente jamais ler˜ao essa breve nota e que se sentirem, de maneira surpreendente, ressentidos por n˜ao os terem mencionado, minhas desculpas, mas minha mem´oria se foi. Mas as lembran¸cas sempre ficar˜ao.

(6)

RESUMO

Opini˜oes s˜ao centrais em quase todas as atividades humanas, porque exercem relevante influˆencia sobre o comportamento das pessoas. A internet e a web criaram mecanismos que tornaram poss´ıvel que as pessoas pudessem compartilhar suas opini˜oes e para que eias, e tamb´em organiza¸c˜oes, pudessem encontrar facilmente mais informa¸c˜oes sobre as opini˜oes e experiˆencias de outros indiv´ıduos para ajudar em tomadas de decis˜ao. Ainda assim, opini˜oes envolvem sentimentos que s˜ao descri¸c˜oes textuais vagas e imprecisas. De-vido `a natureza destes dados, a L´ogica Fuzzy pode ser uma abordagem promissora para lidar com esses tipos de informa¸c˜oes. Assim, este trabalho prop˜oe a desenvolver e avaliar uma metodologia de classifica¸c˜ao do sentimento de geral de opini˜oes em documentos, aplicando um sistema fuzzy automatizado de minera¸c˜ao de opini˜ao associado `a extra¸c˜ao e sele¸c˜ao de caracter´ısticas destes documentos. Diversas caracter´ısticas foram extra´ıdas dos documentos e algoritmos de sele¸c˜ao de caracter´ısticas foram aplicados para selecionar as mais aptas para representar e classificar os documentos. Com base nas caracter´ısticas selecionadas, o m´etodo de Wang-Mendel (WM) foi utilizado para gerar as regras fuzzy e variados m´etodos de racioc´ınio fuzzy para aplicar as regras e classificar documentos. Os resultados obtidos foram promissores, alcan¸cado mais de 70% de acur´acia numa va-lida¸c˜ao cruzada de 10 folds, compar´aveis a de outros trabalhos que utilizam t´ecnicas n˜ao fuzzy. Por outro lado, o classificador gerado nessa pesquisa classifica documentos uti-lizando regras leg´ıveis para seres humanos. Ainda, os resultados mostraram que duas caracter´ısticas definidas nesse trabalho se destacaram na classifica¸c˜ao dos documentos, evidenciando que uma quantidade limitada de caracter´ısticas s˜ao suficientes para efetuar a classifica¸c˜ao de opini˜oes.

Palavras-chave: minera¸c˜ao de dados; classifica¸c˜ao de opini˜ao; l´ogica fuzzy; sistemas baseados em regras fuzzy; extra¸c˜ao de caracter´ısticas; sele¸c˜ao de caracter´ısticas

(7)

Opinions are central in almost all human activities, because they are a relevant influence on people’s behavior. The internet and the web have created mechanisms that made possible for people to share their opinions and for other people and organizations to find out more about opinions and experiences from individuals and help in decision making. Still, opinions involve sentiments that are vague and inaccurate textual descriptions. Hence, due to data’s nature, Fuzzy Logic can be a promising approach. This paper proposes a fuzzy system to perform opinion classification across different domains. Many features has been extracted from documents and algorithms of feature selection was applied to select the most fitted ones to represent and classify documents. Over the selected features, the Wang-Mendel (WM) method and several fuzzy inference methods were used to generate fuzzy rules and classify documents. The results were promising, reached up to 72.4 % accuracy in 10-fold cross-validation, comparable to other papers that don’t use fuzzy techniques. The classifier generated by the rules of this research classifies documents using rules readable for humans. Further, the results showed that two features that were defined in this work were highlighted in the documents classification, showing that a limited amount of characteristics are sufficient to perform opinions classification. Keywords: data mining; opinion classification; fuzzy logic; fuzzy rule-based systems; feature extraction; feature selection

(8)

SUM ´

ARIO

Cap´ıtulo 1—Introdu¸c˜ao 1

Cap´ıtulo 2—Fundamenta¸c˜ao Te´orica e revis˜ao da literatura 4

2.1 Minera¸c˜ao de Opin˜ao . . . 4

2.2 N´ıveis de minera¸c˜ao de opini˜ao . . . 4

2.3 Etapas na minera¸c˜ao de opini˜ao . . . 5

Defini¸c˜ao do dom´ınio . . . 6

Pr´e-processamento . . . 6

Transforma¸c˜ao . . . 7

Extra¸c˜ao e sele¸c˜ao de caracter´ısticas . . . 8

Classifica¸c˜ao . . . 9

An´alise dos resultados . . . 10

2.4 Sistemas Fuzzy . . . 10

2.5 Trabalhos relacionados . . . 14

Cap´ıtulo 3—Metodologia 17 3.1 Defini¸c˜ao do dom´ınio e o pr´e-processamento dos dados . . . 18

3.2 Transforma¸c˜ao . . . 21

3.2.1 SentiWordNet 3.0 . . . 21

3.2.2 Defini¸c˜ao da polaridade . . . 23

3.3 Extra¸c˜ao e sele¸c˜ao de caracter´ısticas . . . 26

3.3.1 Extra¸c˜ao de caracter´ısticas . . . 27

3.3.2 A sele¸c˜ao de caracter´ısticas . . . 30

3.4 Constru¸c˜ao do Sistema Baseado em Regras Fuzzy . . . 30

3.4.1 Modelagem Fuzzy das Vari´aveis do Sistema Fuzzy . . . 30

3.4.2 O m´etodo de Wang-Mendel . . . 32

3.4.3 Racioc´ınio Fuzzy . . . 33

3.5 M´etodo e Medidas de Avalia¸c˜ao . . . 34

Cap´ıtulo 4—Resultados obtidos 36 4.1 Avalia¸c˜ao dos cen´arios com 3 conjuntos fuzzy . . . 39

4.1.1 Avalia¸c˜ao dos algoritmos de sele¸c˜ao de caracter´ısticas . . . 39

4.1.2 Avalia¸c˜ao dos sistemas de inferˆencia fuzzy . . . 42

4.2 Avalia¸c˜ao dos cen´arios com 2 conjuntos fuzzy . . . 45 vii

(9)

4.2.1 Avalia¸c˜ao dos algoritmos de sele¸c˜ao de caracter´ısticas . . . 45

4.2.2 Avalia¸c˜ao dos sistemas de inferˆencia fuzzy . . . 48

4.3 Avalia¸c˜ao do uso de regras entre dom´ınios . . . 48

4.4 Compara¸c˜ao com classificador SVM e outros trabalhos . . . 49

4.5 Considera¸c˜oes finais . . . 51

(10)

LISTA DE FIGURAS

2.1 Modelo de sistema fuzzy (Herrera, 2008). . . 12

2.2 M´etodo de Racioc´ınio Fuzzy Cl´assico (MRFC) . . . 13

2.3 M´etodo de Racioc´ınio Fuzzy Geral (MRFG) . . . 14

3.1 Etapas do processo de minera¸c˜ao de opini˜ao. . . 18

3.2 Exemplo dos synsets do unigram happy no SWN . . . 22

3.3 Regra dos 3 sigmas. . . 31

3.4 Modelagem com 3 conjuntos fuzzy . . . 31

3.5 Modelagem com 2 conjuntos fuzzy . . . 32

4.1 Distribui¸c˜ao dos valores da caracter´ıstica “A diferen¸ca entre as somas posi-tiva e negaposi-tiva de adjetivos e bigrams compostos estritamente por adv´erbio e adjetivo” na base de filmes . . . 40

4.2 Distribui¸c˜ao dos valores da caracter´ıstica “A diferen¸ca entre as somas po-sitiva e negativa de unigrams e bigrams” na base de filmes . . . 41

4.3 Distribui¸c˜ao dos valores da caracter´ıstica “A diferen¸ca entre as somas posi-tiva e negaposi-tiva de adjetivos e bigrams compostos estritamente por adv´erbio e adjetivo” na base da Amazon . . . 41

4.4 Distribui¸c˜ao dos valores da caracter´ıstica “A diferen¸ca entre as somas po-sitiva e negativa de unigrams e bigrams” na base da Amazon . . . 42

(11)

3.1 Lista inicial de adv´erbios retirada de Taboada et al. (2011) . . . 25 4.1 Resultados da base de filmes, utilizando 3 conjuntos fuzzy nas vari´aveis de

entrada . . . 37 4.2 Quantidade m´edia de caracter´ısticas selecionadas e regras geradas para 3

conjuntos fuzzy na base de filmes entre folds. . . 37 4.3 Resultados da base da Amazon, utilizando 3 conjuntos fuzzy nas vari´aveis

de entrada . . . 38 4.4 Quantidade m´edia de caracter´ısticas selecionadas e regras geradas para 3

conjuntos fuzzy na base da Amazon entre folds. . . 38 4.5 Grande varia¸c˜ao dos valores de TPR e TNR - base de filmes, com c4.5,

MRFC sem pesos e 3 conjuntos fuzzy . . . 40 4.6 Resultados com c4.5 com altura 1, MRFG sem pesos e 3 conjuntos fuzzy

na base de filmes . . . 44 4.7 Resultados com c4.5 com altura 1 e MRFG com pesos na base de filmes . 45 4.8 Resultados da base de filmes, utilizando 2 conjuntos fuzzy nas vari´aveis de

entrada . . . 46 4.9 Quantidade m´edia de caracter´ısticas selecionadas e regras geradas para 2

conjuntos fuzzy na base de filmes entre folds. . . 46 4.10 Resultados da base da Amazon, utilizando 2 conjuntos fuzzy nas vari´aveis

de entrada . . . 47 4.11 Quantidade m´edia de caracter´ısticas selecionadas e regras geradas para 2

conjuntos fuzzy na base da Amazon entre folds. . . 47 4.12 Resultados da aplica¸c˜ao de regras da base de filmes e Amazon na base

Epinions . . . 49 4.13 Compara¸c˜ao entre os resultados do m´etodo de Wang-Mendel e SVM na

base de filmes . . . 49 4.14 Compara¸c˜ao entre os resultados do m´etodo de Wang-Mendel e SVM na

base da Amazon . . . 50

(12)

Cap´ıtulo

1

INTRODUC

¸ ˜

AO

As opini˜oes s˜ao as principais influenciadoras do comportamento humano e permeiam quase todas as atividades executadas no dia-a-dia pelas pessoas (Liu, 2012). ´E comum as pessoas pedirem opini˜oes a familiares ou amigos, por exemplo, sobre qual marca de carro escolher numa compra, se determinado filme ´e bom para ser assistido, explicar suas inten¸c˜oes de voto nas pr´oximas elei¸c˜oes, ou sobre hot´eis em que querem se hospedar. E saber a opini˜ao dos outros n˜ao ´e v´alido somente para indiv´ıduos, mas tamb´em para empresas (Liu, 2012;Pang; Lee, 2008). Quando uma organiza¸c˜ao precisa saber da opini˜ao p´ublica ou de seus consumidores, ela conduz, por exemplo, pesquisas de opini˜ao sobre o seu p´ublico alvo (Liu, 2012).

O surgimento da internet e o advento da web criaram um novo espa¸co para que pessoas e organiza¸c˜oes pudessem descobrir mais sobre as opini˜oes e experiˆencias de outras pessoas, sejam elas do pr´oprio c´ırculo social, cr´ıticos de renome ou indiv´ıduos completamente desconhecidos. Al´em disso, surgiram diferentes fontes de informa¸c˜oes pela internet, como avalia¸c˜oes de produtos e servi¸cos, f´oruns, blogs, micro-blogs, Twitter 1, coment´arios e

postagens em sites sociais. Segundo Kim, Anderson e Joseph (2006), na ´epoca de seu trabalho, 75.000 novos blogs s˜ao criados diariamente, enquanto 1,2 milh˜oes de postagens s˜ao colocadas na rede por dia. A web criou mecanismos para que as pessoas pudessem disponibilizar suas opini˜oes para outras atrav´es da internet, e essas fontes de opini˜oes est˜ao sendo cada vez mais utilizadas por pessoas e empresas para tomar decis˜oes (Liu, 2012;Pang; Lee, 2008). Agora, indiv´ıduos n˜ao est˜ao mais limitados a perguntarem opini˜oes para familiares ou amigos, e empresas apenas conduzirem pesquisas de opini˜ao, pois h´a bastante informa¸c˜ao dispon´ıvel na web (Liu, 2012). De acordo com as pesquisas realizadas nos Estados Unidos pela comScore and The Kelsey Group 2 e por Horrigan (2008):

• 81% dos usu´arios de internet (ou 60% dos estadunidenses) fizeram pesquisas sobre algum produto, ao menos uma vez;

1

www.twitter.com

2Online consumer-generated reviews have significant impact on offline purchase behavior, Press

Re-lease, http://www. comscore.com/press/release.asp?press=1928, November 2007.

(13)

• Entre 73% e 87% dos entrevistados disseram que opini˜oes encontradas na internet influenciaram significativamente em suas compras;

• 32% disponibilizaram suas opini˜oes sobre algum produto ou servi¸co que adquiri-ram atrav´es da internet e 30% tamb´em disponibilizaram suas opini˜oes, todavia, a despeito de quaisquer aquisi¸c˜oes.

Estes dados demonstram a grande procura por opini˜oes na internet e o quanto elas influenciam as decis˜oes das pessoas, neste caso, para a compra de produtos e servi¸cos. Contudo, a importˆancia de opini˜oes na internet n˜ao se resume somente a comercializa¸c˜ao de produtos e servi¸cos. O estudo realizado por Rainie e Horrigan (2007), por exemplo, revela grande procura por opini˜oes na rede sobre candidatos em elei¸c˜oes. Este estudo foi realizado com uma amostra de 60 milh˜oes de estadunidenses nas elei¸c˜oes presidenci-ais de 2006 e mostrou, dentre outros resultados, que 28% deles acessaram a web para buscar opini˜oes dentro da sua comunidade sobre os candidatos, outros 34% para buscar opini˜oes de fora de suas comunidades e 8% disponibilizaram suas opini˜oes pol´ıticas sobre os candidatos.

Minerar opini˜oes na web, contudo, n˜ao ´e uma tarefa simples. A quantidade e a di-versidade de fontes ´e muito grande (Kim; Anderson; Joseph, 2006) e cada uma delas possui muitas informa¸c˜oes opinativas, com formatos diferentes e problemas de sintaxe (e.g. erros de grafia, concordˆancia verbal, nominal). Com isso, o leitor comum da internet tem difi-culdades de extrair e resumir as opini˜oes existentes nessas fontes. O trabalho realizado por Horrigan (2008) corrobora essas dificuldades, relatando que 58% das pessoas que acessaram a web para procurar opini˜oes acharam que as informa¸c˜oes estavam perdidas, algumas imposs´ıveis de serem encontradas, confusas e/ou numerosas. Al´em desses proble-mas, o interesse dos usu´arios por opini˜oes existentes na internet por produtos e servi¸cos e a potencial influˆencia dessas informa¸c˜oes sobre esses usu´arios, vem despertando mais aten¸c˜ao e recursos financeiros das empresas que comercializam produtos e servi¸cos na web (Horrigan, 2008).

Al´em desses problemas, a tarefa de minerar opini˜oes se torna mais dif´ıcil quando as opini˜oes s˜ao acompanhadas de sentimentos que s˜ao, por sua vez, subjetivos e imprecisos. No mundo real, as pessoas utilizam palavras como ”´otimo”, ”bom”, ”ruim”, ”p´essimo”, ”muito bom”, ”pouco ruim”, para exprimir opini˜oes e sentimentos sobre algum assunto ou objeto. Tais sentimentos podem ser classificados em positivos e negativos (Liu, 2012; Pang; Lee, 2008; Pang; Lee; Vaithyanathan, 2002; Turney, 2002; Hu; Liu, 2004), mas entre si (e.g. ”bom”e ”´otimo”) n˜ao s˜ao nitidamente definidos, ou seja, quanto um ´e mais positivo que o outro. O mesmo pode ser dito para opini˜oes com sentimentos negativos, como ”p´essimo”e ”ruim”. Outro aspecto importante na minera¸c˜ao de opini˜oes ´e a dificuldade em definir o sentimento geral de uma senten¸ca ou de um documento, quando opini˜oes de graus diferentes se combinam. Por exemplo: ”´E um ´otimo celular e tem um acabamento muito bom, mas a bateria ´e p´essima ”; ”O livro ´e excelente, mas o filme ´e um pouco ruim”. Nestes exemplos, h´a opini˜oes positivas e negativas na mesma senten¸ca, al´em de modificadores (e.g. adv´erbios) associados aos adjetivos.

Para identificar sentimentos em frases e documentos frequentemente ´e necess´ario lidar com termos imprecisos e vagos, como mostrado acima. Uma metodologia da Inteligˆencia

(14)

INTRODUC¸ ˜AO 3

Computacional proposta para tratar computacionalmente dados imprecisos e vagos ´e a L´ogica Fuzzy (Zadeh, 1988). Enquanto a l´ogica cl´assica n˜ao consegue prover uma forma de representar o significado de proposi¸c˜oes expressas em linguagem natural, quando o significado ´e impreciso, como os termos ”usualmente”, ”pouco tempo”, ”mais alto”, a L´ogica Fuzzy pode tratar tais express˜oes. Enquanto na l´ogica cl´assica, um elemento pode ser classificado somente como relacionado ou n˜ao relacionado a uma categoria, na L´ogica Fuzzy, um elemento pode ser classificado como parte de um ou mais conjuntos ao mesmo tempo, com diferentes graus de pertinˆencia (Zadeh, 1988).

Por outro lado, poucos trabalhos foram encontrados utilizando conceitos da l´ogica fuzzy em minera¸c˜ao de opini˜ao e, dos encontrados, quase nenhum apresentou resultados ou alguma discuss˜ao do trabalho desenvolvido. E, at´e o presente momento da escrita, nenhum trabalho foi encontrado utilizando um m´etodo automatizado para gera¸c˜ao das regras fuzzy, baseando-se em extra¸c˜ao de caracter´ısticas dos documentos.

Essa pesquisa tem como objetivo principal desenvolver e avaliar uma metodolo-gia de classifica¸c˜ao do sentimento geral das opini˜oes em documentos, aplicando um sistema fuzzy automatizado de minera¸c˜ao de opini˜ao associado `a extra¸c˜ao e sele¸c˜ao de caracter´ısticas destes documentos. Al´em disso, essa pesquisa tamb´em tem por objetivos espec´ıficos: selecionar dom´ınios para avalia¸c˜ao da proposta; levantar e definir caracter´ısticas a serem extra´ıdas; definir e avaliar m´etodos de sele¸c˜ao de carac-ter´ısticas; definir metodologia para constru¸c˜ao do sistema fuzzy e definir os m´etodos de racioc´ınio fuzzy para realizar a classifica¸c˜ao dos documentos.

O Cap´ıtulo 2 apresenta a fundamenta¸c˜ao te´orica dessa pesquisa e os trabalhos rela-cionados envolvidos na minera¸c˜ao de opini˜ao e L´ogica Fuzzy. O Cap´ıtulo 3 descreve a metodologia utilizada nessa pesquisa. O Cap´ıtulo 4 discute os resultados e o Cap´ıtulo 5 conclui esse trabalho, apontando nossas contribui¸c˜oes e trabalhos futuros.

(15)

2

FUNDAMENTAC

¸ ˜

AO TE ´

ORICA E REVIS ˜

AO DA

LITERATURA

2.1 MINERAC¸ ˜AO DE OPIN ˜AO

Minera¸c˜ao de opini˜ao ´e o campo de estudo que analisa as opini˜oes, sentimentos, ava-lia¸c˜oes, atitudes e emo¸c˜oes de pessoas direcionadas a entidades ou alvos, como produ-tos, servi¸cos, organiza¸c˜oes, indiv´ıduos, problemas, eventos, t´opicos e seus atributos (Liu, 2012). A pesquisa em minera¸c˜ao de opini˜ao come¸cou com detec¸c˜ao de subjetividade, com os trabalhos de Carbonell (1979), Wilks e Bien (1983) e Wilson, Wiebe e Hwa (2004). Essa tarefa envolvia a detec¸c˜ao e separa¸c˜ao das senten¸cas objetivas das subjetivas, que carregam as opini˜oes e sentimentos atrelados. Com o passar dos anos, come¸cando nos anos 2000, foi que a linha de pesquisa de minera¸c˜ao de opini˜ao alavancou, focando em classificar as opini˜oes em trˆes categorias: negativo, positivo e neutro. A partir da´ı muitos trabalhos foram publicados nessa ´area, mas com diferentes denomina¸c˜oes, como an´alise de sentimentos, minera¸c˜ao de sentimentos, classifica¸c˜ao de opini˜oes, dentre outros.

Somente em 2003, no trabalho de Dave, Lawrence e Pennock (2003), ´e que o termo minera¸c˜ao de opini˜ao foi usado e, juntamente com an´alise de sentimento, cunhado por Nasukawa e Yi (2003), ´e que o termo passou a ser largamente adotado. No entanto, atualmente, ambos os termos denotam o mesmo campo de pesquisa (Liu, 2012;Pang; Lee, 2008). Sendo assim, neste trabalho, ambos os termos ser˜ao utilizados alternadamente, mas, com o objetivo de simplificar a leitura e compreens˜ao deste texto, o termo de minera¸c˜ao de opini˜ao ser´a majoritariamente utilizado.

2.2 N´IVEIS DE MINERAC¸ ˜AO DE OPINI ˜AO

Minera¸c˜ao de opini˜oes ´e uma ´area de pesquisa que vem sendo investigada em trˆes prin-cipais n´ıveis de an´alise: i) n´ıvel de an´alise de documento, ii) senten¸cas e iii) entidades e seus aspectos. O primeiro n´ıvel foca em classificar uma opini˜ao de um documento expressando-a como positiva ou negativa. O segundo n´ıvel, o de senten¸cas, em vez de considerar o sentimento geral de um documento como todo, classifica as opini˜oes de cada

(16)

2.3 ETAPAS NA MINERAC¸ ˜AO DE OPINI ˜AO 5

senten¸ca separadamente. E o ´ultimo n´ıvel foca em descobrir todos os alvos existentes em senten¸cas e documentos e classificar as opini˜oes direcionadas a eles (Liu, 2012).

O n´ıvel de an´alise de documento ´e tamb´em denominado na literatura como uma tarefa de classifica¸c˜ao de sentimentos em n´ıvel documento, pois considera todo o documento como uma unidade de informa¸c˜ao (Liu, 2012;Pang; Lee, 2008). ´E importante salientar que, nesse n´ıvel de detalhamento, ´e assumido que o documento expressa opini˜oes direcionadas para somente um ´unico assunto e somente possui um ´unico autor das opini˜oes. Essa an´alise ´e feita normalmente sobre opini˜oes sobre produtos e servi¸cos, pois cada avalia¸c˜ao, normalmente, foca somente em um ´unico produto ou servi¸co e ´e escrito por somente uma pessoa (Liu, 2012). Por exemplo, opini˜oes sobre filmes retiradas do IMDB ou Rotten Tomatoes1 ou de produtos da Amazon, s˜ao utilizadas nesse n´ıvel, pois as opini˜oes s˜ao

normalmente direcionadas somente a um alvo.

A minera¸c˜ao de opini˜ao em n´ıvel de senten¸cas ´e uma abordagem que aumenta a gra-nularidade da an´alise e determina se cada senten¸ca de um ou mais documentos expressam opini˜oes positivas, negativas ou neutras. As defini¸c˜oes do problema e da suposi¸c˜ao princi-pal deste n´ıvel s˜ao definidas a seguir (Liu, 2012): dada uma senten¸ca, deve ser determinado quando ela expressa uma opini˜ao positiva, negativa, neutra ou nenhuma opini˜ao, consi-derando que a senten¸ca deve conter somente uma ´unica opini˜ao de um ´unico autor. Esse n´ıvel de an´alise ´e bastante utilizado como passo intermedi´ario para o terceiro n´ıvel, o n´ıvel de entidade e aspectos. Analisando cada senten¸ca individualmente ´e poss´ıvel identificar as entidades e quais as opini˜oes est˜ao sendo direcionadas `a elas. Uma aplica¸c˜ao para o n´ıvel de senten¸cas ´e na extra¸c˜ao de opini˜oes onde o tema ´e livre e v´arias opini˜oes sobre diferentes assuntos emergem, como em f´oruns de discuss˜ao e redes sociais.

Tamb´em denominado n´ıvel de entidade e caracter´ısticas, o n´ıvel de entidade e aspectos ´e o ´ultimo n´ıvel de an´alise em minera¸c˜ao de opini˜ao (Liu, 2012). Este n´ıvel possui duas tarefas principais (Liu, 2012): extra¸c˜ao dos alvos das opini˜oes e a classifica¸c˜ao das opini˜oes referentes a esses alvos. A primeira tarefa consiste em extrair os alvos das senten¸cas. Por exemplo, na senten¸ca “A qualidade de voz desse telefone ´e muito boa”, o alvo ´e a qualidade da voz e a entidade ´e o telefone (mais precisamente “este telefone”). A segunda tarefa consiste em classificar - como positivas, negativas ou neutras - as opini˜oes referentes aos aspectos e das entidades extra´ıdas. No exemplo anterior, a opini˜ao referente ao aspecto “qualidade de voz” da entidade “este telefone” ´e positiva (Liu, 2012).

2.3 ETAPAS NA MINERAC¸ ˜AO DE OPINI ˜AO

O processo de minera¸c˜ao de opini˜ao tipicamente envolve algumas etapas, as quais con-sistem desde a prepara¸c˜ao dos dados dos documentos at´e a classifica¸c˜ao destes. ´E co-mum encontrar nos trabalhos relacionados as seguintes etapas para minerar e classificar opini˜oes: i) defini¸c˜ao do dom´ınio, ii) pr´e-processamento, iii) transforma¸c˜ao, iv) sele¸c˜ao de caracter´ısticas, v) classifica¸c˜ao e vi) an´alise dos resultados (Moraes; Valiati; Neto, 2012). A defini¸c˜ao do dom´ınio ´e a fase em que s˜ao selecionadas os tipos de dados que ser˜ao utilizados para o estudo, como filmes, hot´eis, produtos, etc. O pr´e-processamento ´e a etapa em que as bases escolhidas s˜ao estruturadas para serem utilizadas nas pr´oximas

1

(17)

etapas, como a elimina¸c˜ao de termos indesejados, erros de grafia, dentre outros. A trans-forma¸c˜ao ´e o momento em que os termos estruturados do pr´e-processamento s˜ao trans-formados em dados num´ericos. A extra¸c˜ao e sele¸c˜ao de caracter´ısticas envolve a obten¸c˜ao de caracter´ısticas descritivas dos documentos a partir dos dados anteriores, assim como, a sele¸c˜ao das caracter´ısticas mais relevantes. ´E importante destacar que a extra¸c˜ao de ca-racter´ısticas n˜ao ´e t˜ao comum de ser encontrada. De fato, ´e t´ıpico encontrar trabalhos que n˜ao ´e feita qualquer extra¸c˜ao e a sele¸c˜ao ´e realizada diretamente sobre os dados oriundos do pr´e-processamento, como pode ser encontrado em Subasic e Huettner (2001), Turney (2002) e Chaovalit e Zhou (2005). A etapa de classifica¸c˜ao consiste na classifica¸c˜ao dos documentos, utilizando as caracter´ısticas selecionadas na etapa anterior. E, por fim, na etapa de avalia¸c˜ao ´e realizada a an´alise dos resultados obtidos pelo classificador.

As pr´oximas se¸c˜oes detalham os principais conceitos envolvidos em cada etapa do processo de minera¸c˜ao de opini˜ao.

Defini¸c˜ao do dom´ınio

A defini¸c˜ao de dom´ınio envolve, essencialmente, duas tarefas: a escolha do idioma e os tipos dos dados do dom´ınio. Dentre os trabalhos relacionados, o idioma mais encontrado foi o inglˆes e filmes como o tipo de dado mais utilizado (Pang; Lee; Vaithyanathan, 2002; Turney, 2002; Dave; Lawrence; Pennock, 2003; Wilson; Wiebe; Hoffmann, 2005; Chaovalit; Zhou, 2005). A escolha do tipo filmes se deve `a a maior dificuldade em minerar e classificar as opini˜oes dos documentos, conforme citado por trabalhos como Pang, Lee e Vaithyanathan (2002), Chaovalit e Zhou (2005), Whitelaw, Garg e Argamon (2005).

Pr´e-processamento

Em minera¸c˜ao de opini˜ao, a prepara¸c˜ao dos dados ´e essencial. Antes de os dados serem transformados, analisados, selecionados e, ent˜ao, classificados, eles precisam ser prepara-dos para serem usaprepara-dos corretamente no processo de minera¸c˜ao de opini˜ao. Textos s˜ao dados n˜ao estruturados e as opini˜oes se misturam `as por¸c˜oes n˜ao opinativas do documento. As principais tarefas envolvidas no pr´e-processamento s˜ao: a marca¸c˜ao gramatical das palavras do texto (do inglˆes, Part of Speech Tagging), defini¸c˜ao dos n-grams a serem utilizados e a tokeniza¸c˜ao das palavras. N-gram ´e uma seq¨uˆencia de n itens dada uma seq¨uˆencia de um texto (Dave; Lawrence; Pennock, 2003).

A marca¸c˜ao gramatical das palavras do texto ´e o processo de identifica¸c˜ao das classes gramaticais de todos os elementos textuais do documento (Brill, 1995). Todos os artigos encontrados executaram essa tarefa, especificando ou n˜ao o tipo do marcador gramatical, como pode ser visto em Pang, Lee e Vaithyanathan (2002), Turney (2002), Wilson, Wiebe e Hoffmann (2005), Chaovalit e Zhou (2005). O marcador utilizado nessa pesquisa, devido a ser o mais usado nos trabalhos relacionados, foi o proposto em Brill (1995).

Depois do texto identificado e marcado ´e preciso definir quais n-grams ser˜ao selecio-nados para a pr´oxima etapa. Adjetivos s˜ao centrais para identificar subjetividade e, por conseguinte, opini˜oes em textos. Em Hatzivassiloglou e Wiebe (2000) foi desenvolvido um algoritmo para determinar o sentimento final somente de adjetivos. Neste trabalho foi notado que h´a rela¸c˜ao entre adjetivos e conjun¸c˜oes, como “but”, “and”, dentre

(18)

ou-2.3 ETAPAS NA MINERAC¸ ˜AO DE OPINI ˜AO 7

tros. A conjun¸c˜ao “And”, por exemplo, mantem a mesma polaridade da opini˜ao expressa pelo adjetivo, enquanto que “but”, essa polaridade ´e invertida, em geral. Utilizando um algoritmo de aprendizado de m´aquina, esse artigo conseguiu classificar os adjetivos com acur´acias entre 78% e 92%, dependendo da quantidade de dados de treino dispon´ıveis. Outros trabalhos como os de Wiebe (2000) tamb´em utilizaram somente adjetivos como indicadores de subjetividade e presen¸ca de opini˜oes.

Turney (2002), por sua vez, apontou que adjetivos isolados podem indicar opini˜oes, mas podem n˜ao ser suficientes para determinar o sentimento geral de documentos. Ele ainda considera o contexto como fator determinante, exemplificando que “unpredictable” pode ser uma opini˜ao negativa para autom´oveis, quando associado a “unpredictable ste-ering” ou positivo quando for direcionado a filmes, quando associado a “unpredictable plot”. Assim, Turney (2002) expande os adjetivos e acrescenta adv´erbios, verbos e subs-tantivos associados aos adjetivos, extraindo dos textos os chamados bigrams, n-grams compostos por dois elementos textuais. Turney (2002) alcan¸cou uma m´edia de acur´acia de 74% entre opini˜oes sobre autom´oveis e filmes.

Transforma¸c˜ao

Uma vez definidos os n-grams a serem utilizados no processo de minera¸c˜ao de opini˜ao, ´e na etapa de transforma¸c˜ao que uma representa¸c˜ao num´erica ´e computada a partir dos n-grams obtidos da etapa de pr´e-processamento. Diferentes t´ecnicas s˜ao utilizadas na literatura para calcular essa representa¸c˜ao num´erica dos n-grams. Turney (2002), por exemplo, utilizou uma t´ecnica proposta em Turney (2001) chamada PMI-IR, que utiliza Pointwise Mutual Information (PMI) e Information Retrieval (IR) para medir a similaridade de pares de palavras ou frases.

J´a Taboada, Voll e Brooke (2008), utilizou de dicion´arios de opini˜ao, que cont´em os termos e os respectivos graus opinativos. Contudo, esses dicion´arios foram criados pelos autores do artigo. Ohana e Tierney (2009), por outro lado, utilizaram um dicion´ario cri-ado automaticamente, o Sentiwordnet (Esuli; Sebastiani, 2006). ´E um dicion´ario de opini˜oes criado pela anota¸c˜ao autom´atica dos sentimentos de cada synset (conjuntos de sinˆonimos) do Wordnet, outro dicion´ario na l´ıngua inglesa (Fellbaum, 2005). Segundo Ohana e Tier-ney (2009), dicion´arios manuais est˜ao sujeitos ao enviesamento do autor, possuem alto tempo gasto para constru´ı-los e, em geral, tem menor cobertura que dicion´arios criados automaticamente. Ohana e Tierney (2009) tamb´em citou outros dicion´arios de opini˜oes criados automaticamente, como General Inquirer (Stone; Dunphy; Smith, 1966)2, Subjec-tivity Clues (Wilson; Wiebe; Hoffmann, 2005) e Grefenstette (Grefenstette et al., 2004), mas mostrou que o Sentiwordnet tem cobertura maior frente a estes, com mais de 28000 ter-mos cobertos, contra 4216, 7650 e 2258 dos dicion´arios citados, respectivamente. Esta pesquisa decidiu pelo uso do Sentiwordnet (Esuli; Sebastiani, 2006).

Dicion´arios opinativos, contudo, somente conseguem definir a polaridade de unigrams, ngrams compostos somente por um termo. Para tratar a defini¸c˜ao da polaridade de bigrams e trigrams, por exemplo, ´e preciso analisar a influˆencia entre os termos que comp˜oem o ngram. Tratando sobre adv´erbios e adjetivos, os adv´erbios s˜ao termos que

2

(19)

alteram o grau de polaridade de uma adjetivo, seja intensificando (e.g. very good ) ou amenizando (e.g. somewhat sleazy) (Quirk; Crystal; Education, 1985). H´a tamb´em inumeras maneiras de tratar a influˆencia entre os termos num bigram, uma delas, e foi a escolhida para essa pesquisa, foi a de Taboada, Voll e Brooke (2008). Taboada, Voll e Brooke (2008) dividiu os adv´erbios em amplificadores e amenizadores. Os amplificadores aumentam a polaridade do adjetivo e os amenizadores diminuem. De maneira similar ao que fizeram com os dicion´arios anteriores, os adv´erbios tiveram associados, manualmente, percentu-ais de modifica¸c˜ao, onde os amplificadores tem percentuais positivos e os amenizadores, negativos. Por exemplo, sleazy tem escore ou polaridade -3 e somewhat, um ameniza-dor, tem percentual igual a -30%. O bigram somewhat sleazy ter´a polaridade final de −3 + (3 · 30%) ' −2.

Outro fenˆomeno referente ao relacionamento entre termos num ngram ´e a nega¸c˜ao. A nega¸c˜ao ocorre quando n-grams de nega¸c˜ao (e.g. adv´erbios) se associam a um ou mais n-grams, como nothing special ou not very good. H´a, mais uma vez, diferentes maneiras de se tratar uma nega¸c˜ao, como a invers˜ao e o deslocamento de polaridade. A invers˜ao inverte o sinal da polaridade do n-gram (e.g. not sleazy resultar´a na polaridade +3). O deslocamento da polaridade desloca o valor da polaridade do n-gram em dire¸c˜ao a polaridade oposta por um valor fixo (na implementa¸c˜ao desse artigo, foi defino por 4). Assim, por exemplo, em vez de not sleazy resultar em +3, a polaridade resultante ser´a de −3 + 4 = +1 (Taboada; Voll; Brooke, 2008).

H´a outras abordagens de transforma¸c˜ao das polaridades dos termos relativas ao texto, como a freq¨uˆencia e ao enviesamento das opini˜oes (Taboada et al., 2011). O tratamento da frequˆencia de termos ´e a diminui¸c˜ao da polaridade dos termos opinativos pela quanti-dade de vezes que eles aparecem no texto, resultando numa polariquanti-dade pol = pol · 1/n. A repeti¸c˜ao de termos opinativos sugere que o autor das opini˜oes carece de coment´arios adi-cionais e se utiliza de uma palavra opiniativa gen´erica. Al´em disso, existe uma tendencia natural de seres humanos em favor de uma linguagem positiva (Boucher; Osgood, 1969), resultando conseq¨uentemente, no enviesamento na classifica¸c˜ao de opini˜oes baseadas em dicion´arios (Kennedy; Inkpen, 2006).

Extra¸c˜ao e sele¸c˜ao de caracter´ısticas

Usualmente, os n-grams associados `as suas respectivas classes gramaticais que saem da etapa de pr´e-processamento s˜ao utilizados diretamente na sele¸c˜ao de caracter´ısticas. Por´em, uma etapa adicional poderia ser a extra¸c˜ao de caracter´ısticas dos documentos, que consiste em obter as caracter´ısticas que caracterizam os documentos, independente-mente do conte´udo espec´ıfico destes. Essa ´e uma etapa encontrada em poucos trabalhos relacionados nessa linha de pesquisa. Os trabalhos de Wilson, Wiebe e Hoffmann (2005) e de Ohana e Tierney (2009) foram um dos poucos encontrados na literatura que defini-ram e extra´ıdefini-ram as caracter´ısticas dos documentos, e posteriormente, as utilizadefini-ram para a classifica¸c˜ao dos mesmos.

A sele¸c˜ao de caracter´ısticas ´e a etapa onde as caracter´ısticas mais relevantes s˜ao selecionadas, e que ser˜ao usadas na classifica¸c˜ao dos documentos. Com a redu¸c˜ao da quantidade de caracter´ısticas, espera-se que o classificador seja mais eficiente e efetivo

(20)

2.3 ETAPAS NA MINERAC¸ ˜AO DE OPINI ˜AO 9

(Moraes; Valiati; Neto, 2012). Medidas de sele¸c˜ao de caracter´ısticas comuns nos trabalhos relacionados s˜ao document frequency (Pang; Lee; Vaithyanathan, 2002), mutual information (Turney, 2002) e information gain (Wiebe; Mihalcea, 2006). Contudo, nenhuma delas tem sido largamente aceita como a melhor medida de sele¸c˜ao de caracter´ısticas para minera¸c˜ao de opini˜oes, embora information gain tenha mostrado resultados competitivos (Moraes; Valiati; Neto, 2012).

O objetivo do nosso trabalho em realizar a sele¸c˜ao de caracter´ısticas ´e gerar regras simples de classifica¸c˜ao de sentimento, ou seja, com o menor n´umero de antecedentes poss´ıvel, para facilitar o entendimento delas por parte do usu´ario. Uma caracter´ıstica do algoritmo usado nesse trabalho para a constru¸c˜ao das regras ´e que a quantidade de an-tecedentes ´e igual ao n´umero de caracter´ısticas selecionadas. Este algoritmo foi proposto por Wang e Mendel (1992) (este algoritmo ´e detalhado na Se¸c˜ao 3.4.2). Portanto, quanto menor o n´umero de caracter´ısticas, menor ser´a a quantidade de antecedentes das regras. Um dos trabalhos encontrados na literatura que realizam a sele¸c˜ao de caracter´ısticas, e posteriormente, constroem as regras para um sistema fuzzy usando o algoritmo de Wang-Mendel, ´e o trabalho de Cintra, Arruda e Monard (2008). Os autores compararam o desempenho de sua proposta com algoritmos cl´assicos de sele¸c˜ao de caracter´ısticas, como CFS (Hall, 1999) e o c4.5 (Quinlan, 2014).

Os m´etodos de sele¸c˜ao caracter´ısticas s˜ao tipicamente apresentados em duas classes: filters e wrappers(Guyon; Elisseeff, 2003). Os m´etodos do tipo wrappers analisam os sub-conjuntos de caracter´ısticas construindo e avaliando o modelo do classificador gerado a partir de cada subconjunto de caracter´ısticas, por isso tais m´etodos tendem a ser com-putacionalmente intensivos. Filters, como o CFS e c4.5, s˜ao m´etodos que selecionam caracter´ısticas independentes do modelo do classificador, utilizando para isso medidas de avalia¸c˜ao direta das caracter´ısticas.

A hip´otese central do CFS ´e que um bom conjunto de caracter´ısticas cont´em carac-ter´ısticas que s˜ao altamente correlacionadas com a classe, mas sem qualquer correla¸c˜ao umas com as outras. O CFS ´e um algoritmo que junta essa hip´otese com uma medida de correla¸c˜ao apropriada e uma heur´ıstica de estrat´egia de busca (Hall, 1999). Dessa etapa de sele¸c˜ao, o CFS produz uma lista das caracter´ısticas mais aptas a classificar os documentos da base.

O algoritmo C4.5, por outro lado, gera uma ´arvore de decis˜ao que ´e normalmente usada para a tarefa de classifica¸c˜ao (Quinlan, 1993). Todavia, para construir essa ´arvore de decis˜ao, esse algoritmo seleciona as melhores caracter´ısticas entre as existentes a cada n´o gerado. Portanto, uma ´arvore de decis˜ao ´e constru´ıda, e o resultado ´e uma lista das caracter´ısticas mais aptas ordenadas por relevˆancia. Sendo assim, quando se usa o C4.5 para sele¸c˜ao de caracter´ısticas, a quantidade de caracter´ısticas selecionadas depende da altura da ´arvore, determinada por um parˆametro.

Classifica¸c˜ao ´

E nessa etapa que o sentimento geral das opini˜oes dos documentos s˜ao classificadas em positivo ou negativo. Diferentes t´ecnicas de classifica¸c˜ao podem ser encontradas na li-teratura, mas o Support Vector Machine (SVM) (Pang; Lee; Vaithyanathan, 2002; Pang;

(21)

Lee, 2004; Tsutsumi; Shimada; Endo, 2007; Prabowo; Thelwall, 2009), Naive Bayes (Pang; Lee; Vaithyanathan, 2002; Pang; Lee, 2004), soma (Ohana; Tierney; Delany, 2011; Avan¸co; Nunes, 2014) e a m´edia (Turney, 2002; Voll; Taboada, 2007; Taboada; Voll; Brooke, 2008;Taboada et al., 2011) das polaridades foram as abordagens mais encontradas nos trabalhos relacionados. O SVM ´e uma popular t´ecnica de aprendizado supervisionado, largamente utilizada na ´

area de minera¸c˜ao de opini˜ao e, possivelmente, ´e o m´etodo que produz os resultados com maior acur´acia dentre os m´etodos existentes na literatura (Moraes; Valiati; Neto, 2012). O SVM ´e um m´etodo de aprendizado linear que procura um hiperplano ´otimo para separar duas classes, al´em de buscar maximizar a distˆancia para o ponto de treino mais pr´oximo de cada classe, com o fim de alcan¸car melhor performance de generaliza¸c˜ao/classifica¸c˜ao nos dados de teste (Friedman; Hastie; Tibshirani, 2001).

A t´ecnica de soma ´e a simples compara¸c˜ao entre a soma das polaridade positivas e negativa dos n-grams. Se a soma positiva for maior que a negativa, o documento ´e classificado com positivo, de outra forma, negativo. O trabalho realizado em Ohana, Tierney e Delany (2011) utiliza a t´ecnica da soma, comparando com o SVM. A t´ecnica da m´edia consiste em calcular a m´edia resultante das polaridades. Se essa m´edia for menor que zero, o documento ´e classificado como negativo e, de outra maneira, positivo Turney (2002), Taboada, Voll e Brooke (2008), Pang e Lee (2004). Essas t´ecnicas foram incorporadas

N˜ao obstante, em rela¸c˜ao a aplica¸c˜ao de l´ogica fuzzy na classifica¸c˜ao no processo de minera¸c˜ao de opini˜ao, poucos trabalhos relacionados foram encontrados na literatura. Isso pode indicar que ainda ´e limitada a pesquisa sobre o uso dessa metodologia, embora a l´ogica fuzzy seja reconhecida como uma abordagem apropriada para lidar com dados imprecisos e vagos, como opini˜oes e sentimentos.

An´alise dos resultados

A etapa de an´alise dos resultados ´e a etapa final do processo de minera¸c˜ao e classifica¸c˜ao de opini˜ao. ´E nessa fase em que os resultados s˜ao comparados entre si ou frente aos trabalhos relacionados. A medida mais utiliza dentre os trabalhos relacionados foi a acur´acia (Equa¸c˜ao.), com valida¸c˜ao cruzada de 10-folds (Pang; Lee, 2004; Wilson; Wiebe; Hwa, 2004;Wilson; Wiebe; Hoffmann, 2005; Whitelaw; Garg; Argamon, 2005;Voll; Taboada, 2007).

´

E poss´ıvel encontrar outras medidas nos trabalhos relacionados, como sensividade, recall e F-1 (Fawcett, 2006), mas estas n˜ao foram utilizadas como medidas principais de avalia¸c˜ao dos resultados.

2.4 SISTEMAS FUZZY

Sistema Fuzzy (SF) ´e uma das mais importantes ´areas de aplica¸c˜ao da Teoria de Con-juntos Fuzzy. Geralmente, estes sistemas s˜ao estruturados por meio de regras fuzzy, os quais s˜ao conhecidos por Sistemas Baseados em Regras Fuzzy (SBRF). Os SBRF cons-tituem uma extens˜ao dos sistemas cl´assicos baseados em regras, pois os antecedentes e os consequentes das regras s˜ao compostos por senten¸cas l´ogicas fuzzy, ao inv´es das sen-ten¸cas cl´assicas (Herrera, 2008). Este tipo de sistema tem sido amplamente usado para

(22)

2.4 SISTEMAS FUZZY 11

a resolu¸c˜ao de diversos tipos de problema, tais como, problemas de controle (Mamdani, 1974; Mamdani; Assilian, 1975), modelagem (Pedrycz, 1996), classifica¸c˜ao (Ishibuchi et al., 1994, 1995), diagn´ostico m´edico (Sivasankar; Rajesh, 2010) e minera¸c˜ao de dados (Ishibuchi; Nakashima; Nii, 2005).

Uma das principais raz˜oes para o uso de SBRF ´e a habilidade na modelagem do conhecimento vago e incerto, e a facilidade de expressar o comportamento do sistema em uma linguagem de f´acil compreens˜ao para os seres humanos. As regras possuem o seguinte formato:

SE antecedente ENT ˜AO consequente

Os antecedentes descrevem uma condi¸c˜ao (premissa), enquanto a parte consequente descreve uma conclus˜ao ou uma a¸c˜ao que pode ser esbo¸cada quando as premissas se verificam. Os antecedentes definem uma regi˜ao fuzzy no espa¸co das vari´aveis de entrada do sistema e os consequentes descrevem uma regi˜ao no espa¸co das vari´aveis de sa´ıda do sistema.

Em uma descri¸c˜ao mais extensa, um sistema fuzzy ´e composto pelos seguintes com-ponentes b´asicos: a interface de entrada (fuzifica¸c˜ao), a base de conhecimento, o sistema de inferˆencia e a interface de sa´ıda (desfuzifica¸c˜ao) (Gomide; Gudwin; Tanscheit, 1995). A interface de entrada toma os valores das vari´aveis de entrada, transformando-os em con-juntos fuzzy, de modo que possam se tornar instˆancias de vari´aveis lingu´ısticas. A base de conhecimento consiste de uma base de regras, caracterizando a estrat´egia de controle e suas metas. A base de dados armazena as defini¸c˜oes necess´arias sobre discretiza¸c˜oes e normaliza¸c˜oes dos universos de discurso, as parti¸c˜oes fuzzy dos espa¸cos de entrada e sa´ıda e as defini¸c˜oes das fun¸c˜oes de pertinˆencia. O sistema de inferˆencia processa os dados fuzzy de entrada, juntamente com as regras, de modo a inferir as a¸c˜oes de controle fuzzy. A interface de sa´ıda transforma as a¸c˜oes de controle fuzzy inferidas em a¸c˜oes de controle n˜ao fuzzy. A Figura 2.1 ilustra os componentes de um sistema fuzzy.

H´a duas formas b´asicas de se definir a base de regras de um SBRF: manual e au-tom´atica. A defini¸c˜ao manual depende inteiramente do conhecimento dos especialistas sobre o problema em quest˜ao, e por outro lado, na defini¸c˜ao autom´atica, s˜ao utiliza-dos algoritmos para a constru¸c˜ao das regras. Neste trabalho optamos por usar a forma autom´atica, atrav´es do algoritmo proposto por Wang e Mendel (1992).

Existem v´arios modelos de sistemas fuzzy, sendo que a distin¸c˜ao entre eles se d´a no consequente das regras. Entre os modelos mais conhecidos est˜ao o Mamdani (Mamdani; Assilian, 1975), que utiliza conjuntos fuzzy nos consequentes das regras, Takagi-Sugeno ( Ta-kagi; Sugeno, 1985), no qual o consequente ´e representado por uma fun¸c˜ao das vari´aveis de entrada, e o Tsukamot (Tsukamoto, 1979), que utiliza fun¸c˜oes de pertinˆencia monotˆonicas no consequente. Dentre os poucos trabalhos encontrados que aplicam conceitos fuzzy em minera¸c˜ao de opini˜ao, todos seguiram o modelo de Mamdani.

Para se determinar a sa´ıda de um SBRF ´e necess´ario definir um mecanismo de in-ferˆencia fuzzy, que tamb´em ´e conhecido por M´etodo de Racioc´ınio Fuzzy. H´a dois m´etodos muito utilizados em sistemas de classifica¸c˜ao fuzzy (Cintra, 2012), propostos por Cord´on, Jesus e Herrera (1999), o M´etodo de Racioc´ınio Fuzzy Geral (MRFG) e o M´etodo de Racioc´ınio Fuzzy Cl´assico (MRFC).

(23)

Figura 2.1 Modelo de sistema fuzzy (Herrera, 2008).

O MRFC classifica um exemplo usando a regra que tem o maior grau de compati-bilidade com o exemplo. Seja ep = (ap1, ap2, · · · , apm) um exemplo para ser classificado,

e R1, R2, · · · , Rs o conjunto de regras do sistema de classifica¸c˜ao, cada uma com m

an-tecedentes e Aili(api), i = 1, · · · , m, ser o grau de pertinˆencia de uma caracter´ıstica api

para o conjunto fuzzy i da regra Rk, o MRFC aplica os seguintes passos para classificar

o exemplo ep (Cintra, 2012):

1. Calcula o grau de compatibilidade entre o exemplo ep e cada regra Rk, para k =

1, · · · , s e a norma t, atrav´es da Equa¸c˜ao .:

Compat(Rk, ep) = t(A1l1(ap1), A2l2(ap2), · · · , Amlm(apm)) (.)

2. Encontra a regra Rkmax que tem o maior grau de compatibilidade com o exemplo:

Compat(Rkmax, ep) = maxCompat(Rk, ep), k = 1, 2, · · · , s (.)

3. Associa a classe cj ao exemplo ep, onde cj ´e a classe definida pela regra m´axima

Rkmax

(24)

2.4 SISTEMAS FUZZY 13

Figura 2.2 M´etodo de Racioc´ınio Fuzzy Cl´assico (MRFC)

O MRFG, por outro lado, classifica um exemplo considerando todos os demais exem-plos em rela¸c˜ao as classes finais. Os seguintes passos mostram como MRFG funciona (Cintra, 2012):

1. De maneira similar ao MRFC, o MRFG calcula os graus de compatibilidade entre o exemplo ep e cada regra Rk, para k = 1, · · · , s.

2. Calcula o valor de classifica¸c˜ao Classc, para cada classe. Classc´e definida como a

agrega¸c˜ao dos graus de compatibilidade de todas as regras da classe ci, e representa

a compatibilidade do exemplo com todas as regras da classe ci. Ele pode ser definido

como:

Classc = f (Compat(Rk, ep)|cie a classe da regra R´ k) (.)

onde f ´e o operador de agrega¸c˜ao.

3. A classe com o maior grau ´e assinalada para o exemplo ep.

(25)

Figura 2.3 M´etodo de Racioc´ınio Fuzzy Geral (MRFG)

2.5 TRABALHOS RELACIONADOS

Nesta se¸c˜ao ser˜ao discutidos trabalhos representativos e relacionados sobre minera¸c˜ao de opini˜ao. ´E importante ressaltar novamente que poucos trabalhos foram encontrados na literatura sobre a aplica¸c˜ao de L´ogica Fuzzy e extra¸c˜ao de caracter´ısticas de documentos para classifica¸c˜ao de opini˜ao.

Um dos primeiros trabalhos a se destacar na ´area de minera¸c˜ao de opini˜ao foi o de Turney (2002), apresentando uma abordagem de classifica¸c˜ao n˜ao supervisionada. Similar `

a tarefa de classificar documentos como positivos ou negativos, Turney (2002) propˆos classificar opini˜oes como “recomendadas” (thumbs up ou “n˜ao recomendadas” (thumbs down). A classifica¸c˜ao de um documento contendo as opini˜oes ´e feita atrav´es da m´edia da polaridade do sentimento geral das opini˜oes das palavras num documento que continha adjetivos e adv´erbios. Turney (2002) conseguiu resultados de at´e 74% em m´edia entre opini˜oes sobre filmes, autom´oveis, bancos e destinos para vi´aveis. N˜ao foi encontrada a fonte da base utilizada por Turney (2002), mas o conte´udo desta foi retirado do site Epinions3, conforme pode ser visto no pr´oprio artigo.

Paralelamente, Pang, Lee e Vaithyanathan (2002) foi um dos primeiros a apresentar uma abordagem que utiliza t´ecnicas cl´assicas de aprendizado de m´aquina para minera¸c˜ao de opini˜ao. Eles compararam o desempenho entre os m´etodos Naive Bayes, Maximum Entropy e Support Vector Machine (SVM). Esse trabalho mostrou que tais m´etodos produzem altas taxas de acur´acia, alcan¸cando 82,9% de acur´acia usando palavras isoladas (unigrams) com o SVM. Ainda mostraram que t´ecnicas de aprendizado supervisionado produzem resultados melhores que t´ecnicas de aprendizado n˜ao supervisionado. Contudo, a proposta apresentada por Pang, Lee e Vaithyanathan (2002) ´e dependente do dom´ınio utilizado, produzindo resultados muito ruins em outros tipos de dados, demandando outras rodadas de treinamento do classificador, aumentando custo e tempo para classificar

3

(26)

2.5 TRABALHOS RELACIONADOS 15

os documentos. O dom´ınio definido por Pang, Lee e Vaithyanathan (2002) foi o de filmes e os autores criaram a base de dados Cornell Movie Reviews 1.04

Um pouco mais relacionados a esta pesquisa, os trabalhos de Wilson, Wiebe e Hoff-mann (2005), Taboada, Voll e Brooke (2008), e Ohana e Tierney (2009) usaram um grande n´umero de caracter´ısticas dos documentos. Essas caracter´ısticas envolveram desde a con-tagem de adjetivos e adv´erbios em frases e no documento inteiro, tuplas de palavras (bigrams e trigrams), como adv´erbios e adjetivos combinados, at´e a soma das polari-dades dos n-grams, dentre outros. Taboada, Voll e Brooke (2008) e Ohana e Tierney (2009) foram um dos poucos a apresentar o uso de dicion´arios de opini˜oes, nesse caso, o Sentiwordnet (Esuli; Sebastiani, 2006) que associa `as palavras valores num´ericos referentes as polaridades opiniativas. Na classifica¸c˜ao de documentos como positivos ou negativos, estes trabalhos apresentaram 65,7% de acur´acia em Wilson, Wiebe e Hoffmann (2005), 80,6% em Taboada, Voll e Brooke (2008) e 69,35% em Ohana e Tierney (2009). Wil-son, Wiebe e Hoffmann (2005) utilizou o dom´ınio de not´ıcias da base MPQA5; Taboada,

Voll e Brooke (2008) utilizou diferentes dom´ınios, dentre eles filmes6, autom´oveis, hot´eis

e m´usicas - n˜ao foram encontradas fontes para estas ´ultimas bases; e Ohana e Tierney (2009) utilizou a base de filmes Cornell Movie Reviews 2.0 para an´alise dos resultados.

Em rela¸c˜ao a aplica¸c˜ao da l´ogica fuzzy, n´os encontramos o trabalho de Nadali, Murad e Kadir (2010). Ele prop˜oe um modelo de l´ogica fuzzy para executar classifica¸c˜ao de opini˜ao de clientes em cinco classes: muito fraca, fraca, moderada, muito forte e forte. Al´em disso, ele apresentou uma metodologia que indica o uso de sistemas de inferˆencia, conjuntos fuzzy que modelam as cinco classes mencionadas e a cria¸c˜ao manual de regras fuzzy. Contudo, o artigo de Nadali, Murad e Kadir (2010) n˜ao apresentou resultados, qualquer discuss˜ao a respeito e nem o dom´ınio e base relacionada.

Outro trabalho encontrado foi o de Ballhysa e Asilkan (2012) que prop˜oe uma aborda-gem fuzzy para descobrir opini˜oes em postagens de blogs, determinando a polaridade do sentimento geral da postagem. Os autores apresentam conceitos fuzzy, como conjuntos fuzzy, opera¸c˜oes entre conjuntos fuzzy, prop˜oem um conjunto de medidas fuzzy e uma agrega¸c˜ao fuzzy dessas medidas, embora um sistema fuzzy de inferˆencia n˜ao seja utili-zado. Contudo, as medidas fuzzy propostas parecem corresponder a medidas n˜ao fuzzy (crip), mostrando que h´a, de fato, aplica¸c˜ao pr´opria da l´ogica fuzzy no trabalho. Al´em disso, existe uma superficial descri¸c˜ao dos resultados obtidos de um conjunto de dados criados por eles mesmos e sem compara¸c˜ao com nenhum outro. Ballhysa e Asilkan (2012) foi um dos poucos trabalhos que n˜ao utilizou o inglˆes como idioma de estudo (utilizou o albanˆes), utilizou postagens de f´oruns de discuss˜ao sobre t´opicos pr´e-determinados no trabalho, mas n˜ao disponibilizou essa base de dados produzida.

Liu (2012) foi um dos poucos a apresentar um proposta fuzzy com resultados claros. Ele utiliza a l´ogica fuzzy juntamente com ontologias de dom´ınio para minerar opini˜oes de avalia¸c˜oes de produtos. Este trabalho aborda o problema da sobrecarga de informa¸c˜oes que a web possui e a impossibilidade de catalogar as informa¸c˜oes manualmente. Frente a

4Dispon´ıvel em http://www.cs.cornell.edu/people/pabo/movie-review-data/ 5

Dispon´ıvel em: http://mpqa.cs.pitt.edu/corpora/mpqa_corpus/

6

Cornell Movie Reviews 1.0 e 2.0 dispon´ıveis em: http://www.cs.cornell.edu/people/pabo/ movie-review-data/

(27)

essa motiva¸c˜ao, o trabalho de Liu (2012) apresenta um nova proposta oriunda da jun¸c˜ao de conjuntos fuzzy e ontologias de dom´ınio que os autores chamam de ´arvore de sentimen-tos de ontologias de dom´ınios fuzzy (tradu¸c˜ao livre de fuzzy domain ontology sentiment tree - FDOST). Essa proposta extrai atributos de produtos das opini˜oes, constr´oi uma arvore de relacionamentos entre eles e, utilizando conjuntos fuzzy, classifica e associa os sentimentos. Dois s˜ao os conjuntos fuzzy utilizados neste trabalho: um conjunto de pala-vras de sentimentos e outro de palapala-vras especificas do dom´ınio (neste caso, laptops). Eles s˜ao utilizados para construir o modelo da ontologia do dom´ınio que, por sua vez, ser´a utilizado para construir as ´arvores de relacionamento entre os atributos dos produtos e os sentimentos associados. Os resultados obtidos mostram que a utiliza¸c˜ao dos conjuntos fuzzy teve melhor desempenho que a mesma proposta sem o uso deles.

E em Mouthami, Devi e Bhaskaran (2013) um novo algoritmo, chamado de Classi-fica¸c˜ao de Sentimentos Fuzzy (da tradu¸c˜ao livre de Sentiment Fuzzy Classification), ´e proposto para melhorar a precis˜ao da classifica¸c˜ao de sentimentos de opini˜oes, utilizando l´ogica fuzzy, POS-Tags (Part of Speech Tags) e uma base de dados de filmes como base de avalia¸c˜ao. Al´em do uso de l´ogica fuzzy, este trabalho contribui em mapear as etapas b´asicas do processo de minera¸c˜ao de opini˜oes, baseando-se nas tarefas executadas nos trabalhos relacionados descritos na pequisa dos autores. Conjuntos fuzzy s˜ao utilizados na etapa de classifica¸c˜ao, onde s˜ao definidos trˆes deles: conjunto fuzzy positivo, negativo e neutro. O trabalho,contudo, n˜ao apresentou resultados.

Foi recorrente encontrar artigos com propostas de conceitos fuzzy pra minera¸c˜ao de opini˜ao que n˜ao apresentavam resultados os discutiam apropriadamente - em alguns casos a metodologia nem era bem definida. Essa pesquisa difere destes e de outros trabalhos relacionados por apresentar e aplicar apropriadamente conceitos e t´ecnicas fuzzy em mi-nera¸c˜ao de opini˜ao. N´os modelamos as vari´aveis fuzzy e constru´ımos um sistema de inferˆencia fuzzy baseado em caracter´ısticas dos documentos. N´os executamos ainda nos-sos testes em conjuntos de dados j´a utilizados nos trabalhos relacionados, permitindo compara¸c˜oes diretas. Al´em disso, n´os propomos uma fase de extra¸c˜ao e sele¸c˜ao de ca-racter´ısticas pouco encontradas em outros trabalhos, onde definimos, extra´ımos e seleci-onamos um grande n´umero de caracter´ısticas dos documentos, baseando-se nos poucos trabalhos que j´a fizeram esse tipo de extra¸c˜ao.

O pr´oximo cap´ıtulo apresenta a metodologia utilizada nessa pesquisa, descrevendo cada etapa realizada e as t´ecnicas relevantes usadas nessas etapas.

(28)

Cap´ıtulo

3

METODOLOGIA

Dada nossa proposta de projetar e avaliar um sistema fuzzy de minera¸c˜ao de opini˜ao para classificar o sentimento geral de opini˜oes encontradas em textos de documentos, inicia-mos definindo com mais propriedade nosso problema e a tarefa a ser desempenhada. A partir de documentos de bases selecionadas, a an´alise dos documentos a ser realizada pelo sistema fuzzy deve ser capaz de classifica-los em positivos, que exprimem um sentimento geral positivo sobre um determinado assunto, ou em negativos, que exprimem um sen-timento geral negativo, definindo, portanto, um problema de classifica¸c˜ao bin´aria. Com o objetivo de construir um sistema independente do dom´ınio em que as opini˜oes s˜ao ex-pressas, como por exemplo, opin˜oes sobre cinema, livros ou autom´oveis, nossa abordagem utiliza caracter´ısticas extra´ıdas dos pr´oprios documentos, que s˜ao comuns `a documentos de outros dom´ınios, ao inv´es de usar diretamente, por exemplo, os termos existentes nos textos de um determinadodo dom´ınio, como realizado em Pang, Lee e Vaithyanathan (2002), Pang e Lee (2004, 2008).

Para executarmos nossa tarefa de classifica¸c˜ao da polaridade dos documentos, ´e pre-ciso seguir seis etapas comumente utilizadas em processos de minera¸c˜ao de opini˜ao: i) defini¸c˜ao do dom´ınio, ii) pr´e-processamento, iii) transforma¸c˜ao, iv) extra¸c˜ao e sele¸c˜ao de caracter´ısticas, v) classifica¸c˜ao e vi) an´alise dos resultados (Moraes; Valiati; Neto, 2012).

Primeiramente, na defini¸c˜ao do dom´ınio s˜ao selecionadas as bases de dados dispon´ıveis nos trabalhos relacionados ou em outras origens, estabelecendo a quantidade e os tipos de dom´ınios que ser˜ao utilizados. O pr´e-processamento ´e a etapa em que as bases es-colhidas s˜ao preparadas para serem utilizadas nas pr´oximas, estruturando e filtrando os termos originais dos textos. A transforma¸c˜ao ´e o momento em que os termos estruturados do pr´e-processamento s˜ao transformados em dados num´ericos. A extra¸c˜ao e sele¸c˜ao de caracter´ısticas envolve a obten¸c˜ao de caracter´ısticas descritivas dos documentos a partir dos dados anteriores, assim como, a sele¸c˜ao das caracter´ısticas mais relevantes. Na etapa de classifica¸c˜ao, a base de regras fuzzy ´e gerada a partir das caracter´ısticas selecionadas e aplicada para classificar os documentos. E, por fim, a etapa de avalia¸c˜ao realiza uma an´alise do desempenho da classifica¸c˜ao em conjunto com as demais etapas. A Figura 3.1 ilustra todo o processo de minera¸c˜ao de opini˜ao que, em geral, ´e composto pela defini¸c˜ao

(29)

do dom´ınio de pesquisa; pr´e-processamento dos dados dos documentos sob an´alise; trans-forma¸c˜ao dos dados textuais em representa¸c˜oes num´ericas; extra¸c˜ao de caracter´ısticas dos documentos e sele¸c˜ao das melhores caracter´ısticas extra´ıdas; classifica¸c˜ao dos documentos e, por fim, an´alise dos resultados.

Figura 3.1 Etapas do processo de minera¸c˜ao de opini˜ao.

3.1 DEFINIC¸ ˜AO DO DOM´INIO E O PR´E-PROCESSAMENTO DOS DADOS Dom´ınios diversos foram escolhidos para serem analisados por essa pesquisa, dentre eles filmes, livros, carros, computadores, panelas, hot´eis, m´usicas, celulares, mp3, pen-drives, dispositivos gps, wifi e cˆameras fotogr´aficas. Essa diversidade de dom´ınios ´e importante para avaliar nossa proposta em contextos variados, assim como para buscar um classi-ficador menos dependente de dom´ınio. As bases escolhidas s˜ao da l´ıngua inglesa e bem conhecidas pela comunidade cient´ıfica da ´area.

Para filmes, n´os selecionamos a largamente utilizada base de dados Movie Review Sentiment Polarity Dataset v2.01, desenvolvida e utilizada inicialmente por Pang e Lee

(2004). Ela ´e uma base de dados balanceada, pois tem a mesma quantidade de docu-mentos positivos e negativos. Ela possui 2000 docudocu-mentos com opini˜oes sobre filmes, 1000 positivos e 1000 negativos, retirados do site IMDB2. Os documentos foram

previ-amente classificados pelos autores e todos os demais dados originais foram removidos, como data, autor, gˆenero, assunto, t´ıtulo, dentre outros, restando somente o texto origi-nal das opini˜oes. Os textos ainda foram divididos em senten¸cas, onde cada linha ´e uma frase do documento.

As opini˜oes sobre livros, carros, computadores, panelas, hot´eis, m´usicas, celulares est˜ao reunidos numa base de dados balanceada com 400 documentos, produzida por Taboada et al. (2011), chamada “Epinions 1”3. Os documentos com as opini˜oes foram

extra´ıdas do site Epinions4, das categorias j´a citadas. Cada categoria possui 50 documen-tos, 25 positivos e 25 negativos, os quais foram classificados como positivos ou negativos pelos autores atrav´es de uma marca¸c˜ao, “recomendado” ou “n˜ao recomendado”, nos tex-tos opiniativos inseridos pelos pr´oprios usu´arios. Todos os demais dados originais foram

1Dispon´ıvel em: https://www.cs.cornell.edu/people/pabo/movie-review-data/. Veja

uma lista de trabalhos utilizando esta base em https://www.cs.cornell.edu/people/pabo/ movie-review-data/otherexperiments.html

2

http://www.imdb.com

3

Dispon´ıvel em: http://www.sfu.ca/~mtaboada/research/SFU_Review_Corpus.html

4

(30)

3.1 DEFINIC¸ ˜AO DO DOM´INIO E O PR ´E-PROCESSAMENTO DOS DADOS 19

removidos, como data, autor, gˆenero, assunto, t´ıtulo, dentre outros, restando somente o texto original das opini˜oes.

Em rela¸c˜ao `as opini˜oes de dom´ınios de mp3, pen-drives, dispositivos gps, wifi e cˆameras fotogr´aficas, n´os utilizamos um recorte balanceado de 2000 documentos de uma base de dados chamada “Amazon-83713”5, que cont´em opini˜oes sobre os produtos do site da Ama-zon.com. Parte dessa base j´a foi utilizada em outros trabalhos, como o de Baccianella, Esuli e Sebastiani (2010a) e Baccianella, Esuli e Sebastiani (2014). Cada documento cont´em trˆes informa¸c˜oes: um identificador ´unico, o texto original e escore, dentro de uma escala de 1 a 5. Este trabalho utilizou o escore para classificar os documentos da seguinte forma. Todos os documentos com escore igual ou menor que 2 foram considerados nega-tivos, e documentos com escore igual a 4 ou 5 foram considerados positivos. Documentos com escore igual a 3 foram descartados, conforme realizado em (Khan, 2011) e (Pang; Lee, 2004), al´em de nossa tarefa de classifica¸c˜ao ser bin´aria (positivo e negativo). ´E impor-tante frisar tamb´em que n´os fizemos o recorte balanceado de 2000 documentos, pois essa base ´e originalmente altamente desbalanceada, com muito mais documentos positivos que negativos.

Ap´os a defini¸c˜ao dos dom´ınios ´e preciso, antes de iniciar a etapa de pr´e-processamento, definir o n´ıvel da an´alise que ser´a feita sobre os documentos. O n´ıvel de an´alise de documento foi escolhido por ser o n´ıvel mais encontrado entre os trabalhos relacionados, como os trabalhos de Joachims (1998), Pang, Lee e Vaithyanathan (2002), Gamon (2004), Mullen e Collier (2004), Pang e Lee (2004), Cui, Mittal e Datar (2006).

As bases selecionadas devem passar pela etapa de pr´e-processamento para se ade-quarem `as etapas seguintes. Isto envolveu as seguintes tarefas: a tokeniza¸c˜ao dos docu-mentos, marca¸c˜ao gramatical das palavras (do inglˆes, Part of Speech Tagging ou POST) e defini¸c˜ao dos n-grams que ser˜ao utilizados para construir o modelo que represente o documento.

A tokeniza¸c˜ao dos documentos divide o conte´udo de cada documento em senten¸cas e, por sua vez, em palavras, para que o marcador gramatical (ou tagger ) possa identificar as classes gramaticais das palavras do documento. O marcador gramatical usado foi o proposto por Brill (1995), o qual ´e tamb´em usado em trabalhos relacionados a esta pesquisa (Chaovalit; Zhou, 2005;Taboada; Voll; Brooke, 2008;Taboada et al., 2011). O marcador gramatical ´e um sistema que processa um texto num determinado idioma, identifica e atribui r´otulos para cada palavra nesse texto, como substantivos, verbos, adjetivos, adv´erbios, dentre outros6. A ferramenta utilizada para essas tarefas da metodologia foi

o Textblob7. Essa ferramenta provˆe uma interface simples de usar outras ferramentas conhecidas em processamento de linguagem natural, como NLTK8 e pattern9.

Tomemos o seguinte documento da base Epinions 1, como exemplo:

Size: slightly longer than Canon S500 but thinner - so not so bad. Overall the cons are

5

Dispon´ıvel em: http://patty.isti.cnr.it/~baccianella/reviewdata/index.php?download

6A lista completa dos r´otulos para o idioma inglˆes pode ser encontrado em: https://www.ling.

upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

7

Dispon´ıvel em: http://textblob.readthedocs.org/en/latest/

8

Dispon´ıvel em: http://www.nltk.org/

9

(31)

not rightfully bad.

Ap´os a marca¸c˜ao gramatical, o documento ´e alterado para:

Size/NN: slightly/RB longer/RB than/IN Canon/NNP S500/NNP but/CC thinner/JJR - so/RB not/RB so/RB bad/JJ. Overall/RB the/DT cons/NNS are/VBP not/RB

rightfully/RB bad/JJ.

A tarefa final ´e definir como compor o modelo que representar´a o documento. O tipo de modelo inicial utilizado nessa pesquisa foi o popular saco de palavras (bag-of-words), em que cada documento ´e representado por um vetor de termos (ou n-grams) do documento (Moraes; Valiati; Neto, 2012). Neste trabalho foram consideradas 3 classes de n-grams: unigrams (uma palavra), bigrams (duas palavras) ou trigrams (trˆes palavras).

Os trabalhos de Hatzivassiloglou e Wiebe (2000) e Wiebe (2000) demonstraram que adjetivos s˜ao bons indicadores de subjetividade e senten¸cas opinativas. Contudo, embora adjetivos isolados possam indicar a presen¸ca de opini˜oes, ´e poss´ıvel que n˜ao haja con-texto suficiente para determinar se o sentimento geral das opini˜oes ´e positivo ou negativo. Em Chaovalit e Zhou (2005), foi reiterado a importˆancia dos adjetivos e foi adicionado os adv´erbios como elementos que tamb´em provˆeem subjetividade, enquanto que os de-mais termos provˆeem contexto. Benamara et al. (2007) demonstraram que adv´erbios s˜ao importantes modificadores de intensidade dos adjetivos e influenciam significativamente na determina¸c˜ao do sentimento geral das opini˜oes de um documento. Dessa forma, n´os definimos 5 tipos de n-grams: adjetivos e adv´erbios como unigrams; adv´erbios com ad-jetivos (e.g. very good ), adv´erbios com adv´erbios como bigrams; e a combina¸c˜ao de dois adv´erbios e um adjetivo como trigram (e.g. not very nice) (Pang; Lee; Vaithyanathan, 2002; Turney, 2002;Taboada; Voll; Brooke, 2008;Karamibekr; Ghorbani, 2012).

Neste processo, tamb´em extra´ımos tipos especiais de bigrams e trigrams: n-grams ne-gados (e.g. not bad, nothing special ). N´os aplicamos uma vers˜ao simplificada da t´ecnica usada por Das e Chen (2001) para detec¸c˜ao de nega¸c˜ao. N-grams negados podem tanto inverter a polaridade local de um termo ou o sentimento geral de uma frase ou docu-mento, quanto podem intensificar a polaridade geral (e.g. not only good but amazing). Al´em disso, Taboada, Voll e Brooke (2008) demonstraram que, embora pequeno, o tra-tamento de nega¸c˜ao em minera¸c˜ao de opini˜ao, na m´edia, produz melhores resultados na classifica¸c˜ao dos documentos.

Retomando o exemplo anterior e uma vez definidos quais n-grams ser˜ao selecionados, os seguintes n-grams em negrito s˜ao selecionados do texto marcado gramaticalmente:

Size/NN: slightly/RB longer/RB than/IN Canon/NNP S500/NNP but/CC thinner/JJR - so/RB not/RB so/RB bad/JJ. Overall/RB the/DT cons/NNS

are/VBP not/RB rightfully/RB bad/JJ

Ao fim do est´agio de pr´e-processamento, cada documento ´e transformado num vetor de n-grams associados aos seus r´otulos gramaticais, o qual ´e passado para a etapa de transforma¸c˜ao - do exemplo que est´a sendo seguido, o vetor resultante ´e [slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ, not/RB rightfully/RB bad/JJ].

(32)

3.2 TRANSFORMAC¸ ˜AO 21

Nesta etapa, o vetor de n-grams que representa cada documento tem alta dimensiona-lidade pela existˆencia de muitos termos distintos em cada cole¸c˜ao, embora poucos termos estejam presentes em cada documento individual. O tamanho do vetor de n-grams asso-ciados aos seus r´otulos gramaticais na base de filmes foi de 22260 com m´edia de 25.59 ± 11.19 termos presentes em cada documento, e na base da Amazon o tamanho do vetor foi de 5010 com m´edia de 6.58 ± 5.93 termos presentes em cada documento.

3.2 TRANSFORMAC¸ ˜AO

A etapa de transforma¸c˜ao produz representa¸c˜oes num´ericas a partir dos vetores de n-grams da etapa de pr´e-processamento. Cada n-gram ´e associado a um valor num´erico que expressa um grau de polaridade opinativo, o qual ´e obtido por meio de um dicion´ario de opini˜oes (Ballhysa; Asilkan, 2012; Moraes; Valiati; Neto, 2012; Mouthami; Devi; Bhaskaran, 2013). Neste trabalho, o dicion´ario utilizado foi o SentiWordNet 3.010 (Baccianella; Esuli; Sebastiani, 2010b).

3.2.1 SentiWordNet 3.0

O SentiWordNet 3.0 (SWN) ´e a terceira vers˜ao do SentiWordNet, apresentado por Esuli e Sebastiani (2006). ´E um dicion´ario criado pela anota¸c˜ao autom´atica dos sentimentos de cada synset (conjuntos de sinˆonimos) do Wordnet 3.0, outro dicion´ario na l´ıngua inglesa (Fellbaum, 2005). Cada synset do Wordnet re´une palavras que denotam um mesmo conceito, mas como uma palavra pode ter mais de um sentido, esta pode pertencer a v´arios synsets dependendo do conceito que denota. Cada synset possui um gloss, uma breve defini¸c˜ao e, na maioria dos casos, uma ou mais senten¸cas ilustrando o uso dos termos dentro um synset. A anota¸c˜ao autom´atica feita pelo SWN associa trˆes escores num´ericos a cada synset s, P os(s), N eg(s) e Obj(s), que indicam o quanto positivos, negativos e ”objetivos”(ou neutros) s˜ao os termos existentes no synset (Baccianella; Esuli; Sebastiani, 2010b).

O m´etodo de cria¸c˜ao do SWN se baseia num conjunto de classificadores tern´arios11que

s˜ao capazes de decidir quando um synset ´e positivo, negativo ou objetivo (Esuli; Sebastiani, 2006). Cada classificador difere um do outro pelos conjuntos de treinos, produzindo diferentes resultados para os synsets do Wordnet. O escore final do synset ´e determinado pela propor¸c˜ao normalizada dos classificadores tern´arios que conseguiram associar um r´otulo ao synset. Se todos os classificadores concordarem em associar o mesmo r´otulo para um synset, aquele r´otulo (e.g. positivo) ter´a escore m´aximo para aquele synset. De outra forma, cada r´otulo ter´a um escore proporcional ao n´umero de classificadores que associaram um r´otulo a ele. Por exemplo, 3 classificadores assinalaram positivo para um dado synset, um outro classificou o synset como negativo, e nenhum conseguiu classifica-lo como objetivo. Assim o synset ter´a P os(s) = 0.75, N eg(s) = 0.25 e Obj(s) = 0. Como a propor¸c˜ao ´e normalizada, os valores est˜ao num intervalo [0, 1] e a soma dos trˆes

10Dispon´ıvel em: http://sentiwordnet.isti.cnr.it/. Download de 22/01/2013

11Um classificador n-´ario ´e um dispositivo que atribui a cada objeto exatamente um r´otulo a partir

Referências

Documentos relacionados

atendimento integral ao portador de fissura de lábio e/ou palato, referente às ações e serviços odontológicos nos três níveis de atenção a saúde (primário, secundário

Os métodos clássicos de determinação dos coeficientes, que possuem boa qualidade de estimativa e grande estabili- dade, têm alto custo computacional no problema de super-resolução;

Plantio: Março (sementes), outubro e novembro (estacas) Característica botânica: Planta subarbustiva, perene.. Os ramos são

O fato da contagem total de hemócitos no experimento com o agroquímico Talcord não ter sido diferente significativamente entre o controle e os dois tratamentos onde os

En este sentido, el concepto de interés general, ahora abierto a la participación por exigencias de un Estado que se presenta como social y democrático de Derecho, presenta

da quem praticasse tais assaltos às igrejas e mosteiros ou outros bens da Igreja, 29 medida que foi igualmente ineficaz, como decorre das deliberações tomadas por D. João I, quan-

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,

Assim, cumpre referir que variáveis, como qualidade das reviews, confiança nos reviewers, facilidade de uso percebido das reviews, atitude em relação às reviews, utilidade