• Nenhum resultado encontrado

Uma Análise de Comentários Sobre Produtos e Empresas, Usando o Corpus do Reclame Aqui

N/A
N/A
Protected

Academic year: 2021

Share "Uma Análise de Comentários Sobre Produtos e Empresas, Usando o Corpus do Reclame Aqui"

Copied!
6
0
0

Texto

(1)

Uma An´alise de Coment´arios Sobre Produtos e Empresas,

Usando o Corpus do Reclame Aqui

Roney L. de S. Santos1, Jo˜ao P. A. Vieira1, Jardeson L. N. Barbosa1, Carlos A. de S´a1, Raimundo S. Moura1

1Departamento de Computac¸˜ao – Universidade Federal do Piau´ı (UFPI)

64.049-550 – Teresina – PI – Brasil

roneylira@hotmail.com, {joaopauloalbu,jardesonbarbosa}@gmail.com {carlos.sa,rsm}@ufpi.edu.br

Abstract. In commercial activity, reviews are important because they can define the success or failure of a particular product or service. Thus, the objective of this work is to analyze reviews about products and companies using the corpus of the site Reclame Aqui, extract its main claimed characteristics using Natural Language Processing (NLP) techniques and summarize them according their frequency. Experimental results show that these techniques are effective in sen-timent analysis about product and services.

Resumo. Na atividade comercial os coment´arios s˜ao importantes, pois podem definir o sucesso ou fracasso de um determinado produto ou servic¸o. Nesse sen-tido, o objetivo deste trabalho consiste em analisar os coment´arios sobre pro-dutos e empresas usando o corpus do site Reclame Aqui, extrair as principais caracter´ısticas reclamadas usando t´ecnicas de Processamento de Linguagem Natural (PLN) e sumariz´a-las de acordo com sua frequˆencia. Resultados ex-perimentais mostram que essas t´ecnicas s˜ao eficazes na an´alise de sentimentos sobre produtos e servic¸os.

1. Introduc¸˜ao

Atualmente os sites de compra e venda de produtos pela Internet tˆem uma sec¸˜ao de ment´arios ou sugest˜oes para que seus clientes deixem suas opini˜oes sobre o produto co-mercializado. Geralmente, novos consumidores recorrem a essas sec¸˜oes de coment´arios para visualizar as opini˜oes de outros clientes antes de fechar um neg´ocio.

Com a evoluc¸˜ao do com´ercio eletrˆonico e das Redes Sociais, o n´umero de co-ment´arios sobre produtos cresceu bastante, fazendo com que o consumidor `as vezes n˜ao tenha tempo suficiente para analis´a-los. Para auxiliar no processo de an´alise e formac¸˜ao de opini˜ao sobre um produto, este artigo apresenta um prot´otipo para coletar coment´arios sobre produtos e empresas do site Reclame Aqui (http://www.reclameaqui.com.br), ex-trair e analisar as principais caracter´ısticas reclamadas e sumarizar os resultados obtidos.

Destaca-se que este trabalho faz parte de um projeto mais amplo que visa: i) ana-lisar as caracter´ısticas descritas pelo fabricante de um produto; ii) anaana-lisar os coment´arios dos clientes em sites que comercializam o produto; e iii) analisar as reclamac¸˜oes dos clientes nos sites de reclamac¸˜oes oficiais.

(2)

O restante do artigo est´a organizado como: A Sec¸˜ao 2 destaca os trabalhos relacio-nados. A Sec¸˜ao 3 discute o prot´otipo da ferramenta desenvolvida bem como as principais tecnologias utilizadas. A Sec¸˜ao 4 relata dois experimentos e discute os resultados obtidos. Por fim, a sec¸˜ao 5 conclui o artigo e sugere alguns trabalhos futuros.

2. Trabalhos Relacionados

H´a uma grande variedade de trabalhos sobre a an´alise de coment´arios de consumidores sobre os produtos, diferenciando-se apenas na utilizac¸˜ao das t´ecnicas de extrac¸˜ao e an´alise das caracter´ısticas lingu´ısticas. [Hu and Liu 2004] focam na minerac¸˜ao de opini˜oes e uti-lizam algumas t´ecnicas para extrair caracter´ısticas. [Li et al. 2009] prop˜oem um m´etodo que mostra que a combinac¸˜ao de t´ecnicas lingu´ısticas com t´ecnicas estat´ısticas ´e mais eficiente do que usando as t´ecnicas apenas lingu´ısticas. [Sakunkoo and Sakunkoo 2009] s˜ao mais espec´ıficos em analisar opini˜oes sobre livros, com o corpus baseado no site da Amazon.

Um sistema de An´alise de Sentimentos t´ıpico envolve trˆes etapas: i) extrac¸˜ao de opini˜oes e caracter´ısticas; ii) identificac¸˜ao da orientac¸˜ao semˆantica da opini˜ao; e iii) sumarizac¸˜ao dos resultados. Na literatura, existem diversas pesquisas (survey) sobre a ´area de minerac¸˜ao de opini˜ao e an´alise de sentimentos, com destaque para os trabalhos de [Khan et al. 2009], [Seerat and Azam 2012], [Vinodhini and Chandrasekaran 2012], [Becker and Tumitan 2013] e [Al-Maimani et al. 2014].

Al´em disso, os tipos de opini˜oes utilizadas no trabalho s˜ao regulares, diretas e expl´ıcitas. Regulares, pois o autor da opini˜ao expressa um sentimento, atitude, emoc¸˜ao ou percepc¸˜ao sobre um alvo; diretas, pois as opini˜oes na maioria das vezes s˜ao direcionadas a uma entidade (por exemplo: “Este suco ´e muito bom”); e expl´ıcitas, pois expressam diretamente o sentimento. [Becker and Tumitan 2013]

Em relac¸˜ao ao uso de corpus baseado em um site de compras espec´ıfico, [Borges and Oliveira 2010] utilizam a Livraria Saraiva, Submarino e Amazon para an´alises. A luz de nosso conhecimento, nenhum trabalho relacionado utilizou o Reclame Aqui como corpus. ´E importante mencionar que os coment´arios do Reclame Aqui s˜ao inerentemente coment´arios negativos. Por´em, com a resposta positiva da empresa, boas informac¸˜oes podem ser coletadas.

3. Prot´otipo: Vis˜ao Geral

Nesta sec¸˜ao descreve-se a vis˜ao geral do prot´otipo. Inicialmente apresenta-se a estrutura do site Reclame Aqui; em seguida, discute-se a arquitetura organizacional do mesmo; e no final, comenta-se sobre as tecnologias utilizadas na fase de implementac¸˜ao.

3.1. O site Reclame Aqui

Em relac¸˜ao `a estrutura dos coment´arios do Reclame Aqui (ver Fig. 1), o consumidor pri-meiro envia sua reclamac¸˜ao sobre um produto ou empresa. Em seguida, a empresa ent˜ao tem direito a uma r´eplica (resposta da empresa), tentando resolver o problema do consu-midor ou dando dicas de como fazer. Em um terceiro passo, o consuconsu-midor tem direito a uma tr´eplica (resposta do consumidor), que ´e a resposta para a resposta da empresa sobre sua reclamac¸˜ao. Finalmente, o consumidor tem o espac¸o para Considerac¸˜oes Finais onde deixa seu coment´ario se o problema foi ou n˜ao resolvido. Uma caracter´ıstica extra ´e a nota

(3)

do atendimento e se o consumidor voltaria a fazer neg´ocio com a empresa relacionada. Destaca-se que muitos coment´arios n˜ao possuem todas as etapas.

Figura 1. Estrutura de coment ´arios do site Reclame Aqui.

3.2. Arquitetura do Prot´otipo

A Fig. 2 mostra os quatro m´odulos que comp˜oem a arquitetura do prot´otipo desenvol-vido. O m´odulo 1 consiste na coleta dos coment´arios do site Reclame Aqui e faz uso de m´etodos de extrac¸˜ao autom´atica de textos. Os coment´arios s˜ao salvos em uma base para a an´alise posterior. O m´odulo 2 realiza a an´alise dos coment´arios armazenados para extrair padr˜oes lingu´ısticos, distinguindo as caracter´ısticas e as palavras opinativas presentes. O m´odulo 3 recebe as tuplas <caracter´ıstica, palavra opinativa> e determina a polaridade do coment´ario, de acordo com um l´exico de sentimentos, descrito na pr´oxima subsec¸˜ao. O m´odulo 4 sumariza os resultados obtidos, considerando todos os coment´arios.

Figura 2. Arquitetura do prot ´otipo desenvolvido.

3.3. Tecnologias Utilizadas

No m´odulo de coleta foi utilizada a biblioteca JSoup, pois ela prov´em uma API para extrair e manipular dados de p´aginas web, al´em de permitir a an´alise de um HTML a partir de uma URL ou arquivo. Utilizando m´etodos da API foi poss´ıvel analisar a estrutura das p´aginas de reclamac¸˜oes do Reclame Aqui e coletar os coment´arios.

No m´odulo de extrac¸˜ao, as tuplas <caracter´ıstica, palavra opinativa> dos coment´arios foram identificados com o uso do etiquetador Mac-Morpho [Alu´ısio et al. 2003], dispon´ıvel na plataforma NLTK para o Python [Bird et al. 2012], o qual identifica a classe gramatical das palavras, e com o uso de express˜oes regulares do pr´oprio Python para a identificac¸˜ao dos padr˜oes lingu´ısticos.

Os padr˜oes lingu´ısticos usados s˜ao adaptac¸˜oes dos padr˜oes definidos por [Kar and Mandal 2011] e [Turney 2002] para a l´ıngua portuguesa e s˜ao descritos na Fig. 3, em notac¸˜ao eBNF:

(4)

No m´odulo de an´alise foi utilizado o SentiLex-PT [Silva et al. 2012] , que ´e um l´exico de sentimento para o portuguˆes. Cada entrada do SentiLex-PT inclui o alvo do sentimento e a sua polaridade (positivo: +1 ou negativo: -1), al´em de outros atributos que n˜ao foram utilizados neste trabalho. Para cada tupla do coment´ario, a polaridade da palavra opinativa ´e verificada no l´exico de sentimentos. Se a palavra n˜ao existir, o SentiLex-PT retorna null para aquela palavra e sua polaridade ´e definida como zero. Se a soma dos pesos atribu´ıdos na an´alise for positiva, o coment´ario ´e classificado como positivo. Caso contr´ario, o coment´ario ´e classificado como negativo. Se a soma resultar em zero, o coment´ario ´e classificado como neutro. Por fim, o m´odulo de sumarizac¸˜ao apresenta os resultados da an´alise.

4. Resultados e Discuss˜oes

Para a avaliac¸˜ao do prot´otipo, foram realizados dois experimentos: primeiro para relatar as caracter´ısticas reclamadas pelos consumidores sobre um determinado produto e o segundo para definir a opini˜ao dos consumidores em relac¸˜ao a uma determinada empresa. Neste caso, comparou-se com as informac¸˜oes que existem no pr´oprio site Reclame Aqui para validac¸˜ao do experimento.

4.1. Experimento 1: an´alise de produtos

Dado um produto, o prot´otipo informa quais as caracter´ısticas que s˜ao mais reclamadas, considerando apenas os coment´arios referentes `as reclamac¸˜oes. O m´etodo consiste em ex-trair as caracter´ısticas do produto e ao final retornar a frequˆencia de cada caracter´ıstica que ocorre naquele conjunto de coment´arios. Neste experimento, coletou-se 30 reclamac¸˜oes do produto Nokia Lumia 920.

Tabela 1. Caracter´ısticas mais reclamadas do produto Nokia Lumia 920

Caracter´ıstica Frequˆencia Caracter´ıstica Frequˆencia

(prot´otipo) (manual)

assistˆencia 13 assistˆencia t´ecnica 7

aparelho 3 aparelho celular 6

camera 2 bateria 3

problema 2 suporte 3

bateria 2 cˆamera 3

Para avaliar a precis˜ao do prot´otipo neste experimento, os resultados obtidos foram comparados com os n´umeros obtidos em uma an´alise manual conduzida por dois avalia-dores. Destaca-se que os avaliadores s˜ao alunos de graduac¸˜ao do curso de Bacharelado em Ciˆencia da Computac¸˜ao do oitavo per´ıodo. No processo manual, pediu-se que eles identificassem as caracter´ısticas e as palavras opinativas dos coment´arios. Os n´umeros deste processo, bem como os n´umeros do prot´otipo est˜ao na Tabela 1.

Observando a tabela, nota-se que o prot´otipo identificou as palavras “assistˆencia” e “aparelho” como caracter´ısticas. Tais palavras no processo manual foram registra-das como “assistˆencia t´ecnica” e “aparelho celular”. Este problema acontece porque o prot´otipo considera apenas palavras isoladas. Por´em, futuramente, deve-se tratar ex-press˜oes multipalavras. Em resumo, das cinco principais caracter´ısticas apontadas manu-almente, quatro foram identificadas pelo prot´otipo, isto ´e, 80% de precis˜ao.

(5)

4.2. Experimento 2: an´alise de empresas

O experimento sobre a an´alise de sentimentos dos consumidores em relac¸˜ao `as em-presas foi feito com mais informac¸˜oes. Al´em das reclamac¸˜oes dos consumidores, as considerac¸˜oes finais da reclamac¸˜ao tamb´em foram consideradas, pois elas d˜ao o senti-mento final que o consumidor teve em relac¸˜ao a empresa. Para evitar incoerˆencias nos resultados, neste experimento considerou-se apenas reclamac¸˜oes finalizadas.

Para definir a polaridade do coment´ario foram utilizados os padr˜oes lingu´ısticos mostrados na Fig. 3. Todas as palavras pertencentes ao padr˜ao s˜ao passados para o Sentilex-PT analisar. O Sentilex-PT ent˜ao gera o peso daquele coment´ario, define sua polaridade e agrega essa polaridade `a caracter´ıstica presente na reclamac¸˜ao. Finalmente, o prot´otipo retorna a porcentagem de consumidores que voltariam a fazer neg´ocio tendo como parˆametros as polaridades resultantes da amostra.

Neste experimento, as empresas utilizadas nas an´alises foram a Nokia do Brasil e Lojas Americanas. Semelhante ao primeiro experimento, calculou-se a frequˆencia de cada caracter´ıstica que ocorre nos coment´arios. Aqui, a precis˜ao foi menor, vez que na an´alise manual foram considerados os sinˆonimos das caracter´ısticas para uniformiz´a-las, os quais o prot´otipo ainda n˜ao faz. Por exemplo, as palavras “dias”, “tempo” e “transportadora” foram consideradas apenas como “prazo de entrega” na an´alise manual.

A Fig. 4 mostra a comparac¸˜ao entre a porcentagem que o Reclame Aqui informa sobre os consumidores que voltariam a fazer neg´ocio com as empresas Nokia do Brasil e Lojas Americanas e a porcentagem que o prot´otipo gerou ao analisar a amostra dos coment´arios retirados do site. No caso, considera-se que um consumidor voltaria a fazer neg´ocio as empresas quando a avaliac¸˜ao do mesmo for positiva.

Figura 4. Porcentagem de consumidores que voltariam a fazer neg ´ocio.

5. Conclus˜ao

Este trabalho apresentou um prot´otipo capaz de coletar, analisar e sumarizar as carac-ter´ısticas mais reclamadas pelos consumidores em relac¸˜ao a um determinado produto usando o corpus do Reclame Aqui. Ele permite tamb´em avaliar a polaridade dos co-ment´arios em relac¸˜ao a caracter´ısticas apresentadas sobre os produtos e empresas.

Dois experimentos foram realizados para identificar as caracter´ısticas mais recla-madas de um produto e o percentual de satisfac¸˜ao dos consumidores em relac¸˜ao a uma empresa. Os resultados s˜ao considerados satisfat´orios, mas outros experimentos s˜ao ne-cess´arios para uma melhor avaliac¸˜ao da proposta.

(6)

Como trabalhos futuros destaca-se: i) realizar uma melhor an´alise de sentimentos utilizando padr˜oes lingu´ısticos mais sofisticados; ii) testar novos etiquetadores de palavras para gerar uma an´alise morfol´ogica mais fiel `a l´ıngua portuguesa; iii) usar uma base de sinˆonimos para uniformizar as caracter´ısticas identificadas; e iv) usar outras ferramentas de coleta autom´atica de coment´arios em sites com sistemas antispam.

Referˆencias

Al-Maimani, M., Salim, N., and Al-Naamany, A. (2014). Semantic and fuzzy aspects of opinion mining. Journal of Theoretical and Information Technology, 63(2):330–342. Alu´ısio, S., Pelizonni, J., Marchi, A., Oliveira, L., Manenti, R., and Marquiaf´avel, V.

(2003). An account of the challenge of tagging a reference corpus for brazilian por-tuguese. In 6th Int. Conf. on Computacional Processing Of Portuguese Language (PROPOR), pages 110–117.

Becker, K. and Tumitan, D. (2013). Introduc¸˜ao `a minerac¸˜ao de opini˜oes: Conceitos, aplicac¸˜oes e desafios. Simp´osio Brasileiro de Banco de Dados.

Bird, S., Klein, E., and Loper, E. (2012). Natural Language Processing with Python. O‘Reilly.

Borges, D. M. and Oliveira, F. L. (2010). An´alise e comparac¸˜ao dos sistemas de recomendac¸˜ao de produtos existentes em trˆes empresas de com´ercio eletrˆonico (ce): Saraiva, submarino e amazon. Centro Universit´ario Luteriano do Brasil, page 10. Hu, M. and Liu, B. (2004). Mining opinion features in customer reviews. In 19th

Inter-national Conference on Artificial Intelligence (AAAI), pages 755–760.

Kar, A. and Mandal, D. (2011). Finding opinion strength using fuzzy logic on web revi-ews. International Journal of Engineering and Industries, 2(1):37–44.

Khan, K., Baharudin, B., Khan, A., and E-Malik, F. (2009). Mining opinion from text document: A survey. In 3rd IEEE Int. Conf. on Digital Ecosystems and Technologies, pages 217–222.

Li, Z., Zhanh, M., Ma, S., Zhou, B., and Sun, Y. (2009). Automatic extraction for product feature words from comments on the web. In AIRS, pages 110–117.

Sakunkoo, P. and Sakunkoo, N. (2009). Analysis of social influence in online book revi-ews. In 3rd International ICWSM Conference, pages 308–310.

Seerat, B. and Azam, F. (2012). Opinion mining: Issues and challenges (a survey). Jour-nal of Advanced Research in Computer Science and Software Enginnering, 2(6):42–51. Silva, M. J., Carvalho, P., and Sarmento, L. (2012). Building a sentiment lexicon for social judgement mining. In Proceedings of the 10th International Conference on Computational Processing of the Portuguese Language, pages 218–228.

Turney, P. (2002). Thumbs up or thumbs down? semantic orientation applied to un-supervised classification of reviews. In 40th Annual Meeting of the association for Computational Linguistics (ACL), pages 417–424.

Vinodhini, G. and Chandrasekaran, R. (2012). Sentiment analysis and opinion mining: A survey. Journal of Advanced Research in Computer Science and Software Enginnering, 2(6):282–292.

Referências

Documentos relacionados

Para tanto, será apresentado uma fundamentação teórico-metodológica utilizada em pesquisas em História da Educação Matemática e os participantes poderão

[r]

A placa EXPRECIUM-II possui duas entradas de linhas telefônicas, uma entrada para uma bateria externa de 12 Volt DC e uma saída paralela para uma impressora escrava da placa, para

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças

O Design Thinking Canvas para jogos veio mostrar que é possível pensar em competitividade na concepção de artefatos, sem abrir mão da simplicidade, da

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

Isso significa que Lima Barreto propõe a ressignificação do olhar lançado sobre o futebol, deixando transparecer sua crítica às ten- tativas de padronização cultural e

a) 10 km. Um professor de geografia forneceu a seus alunos um mapa do estado de São Paulo, que informava que as distâncias aproximadas em linha reta entre os