• Nenhum resultado encontrado

Análise de sentimentos para português brasileiro usando redes neurais recursivas

N/A
N/A
Protected

Academic year: 2021

Share "Análise de sentimentos para português brasileiro usando redes neurais recursivas"

Copied!
5
0
0

Texto

(1)

An´alise de sentimentos para portuguˆes brasileiro usando redes

neurais recursivas

Henrico Bertini Brum1, F´abio Natanel Kepler1

1Ciˆencia da Computac¸˜ao – Universidade Federal do Pampa (UNIPAMPA) Caixa Postal 97.546-550 – Alegrete – RS – Brasil

henrico.brum@gmail.com, fabiokepler@unipampa.edu.br

1. Introduc¸˜ao

Redes sociais online tˆem se tornado uma importante plataforma de comunicac¸˜ao que agru-pam diversas informac¸˜oes, entre elas opini˜oes e sentimentos expressos por seus usu´arios em simples conversas ou mensagens [Ara´ujo et al. 2013]. O conte´udo presente nas redes sociais, por exemplo, se estende desde an´alises e coment´arios sobre filmes e programas televisivos at´e conversas e experiˆencias dos seus usu´arios. Esses dados n˜ao se encontram estruturados em um formato compreens´ıvel para um algoritmo ou sistema computacional trivial.

A ´area de Processamento de Linguagem Natural (PLN) provˆe t´ecnicas que podem facilitar a compreens˜ao de dados em linguagem humana, de maneira que possamos usar como entrada uma sentenc¸a em linguagem natural e termos como sa´ıda um conjunto de dados extra´ıdos desta.

Neste trabalho estudamos t´ecnicas de PLN que nos possibilitam extrair o senti-mento, ou a intenc¸˜ao de sentenc¸as no idioma portuguˆes brasileiro, dividindo sentenc¸as em trˆes categorias - sentenc¸as positivas, negativas ou neutras.

2. Estado da Arte

Alguns autores investigaram diferentes t´ecnicas para analisar sentimentos em sentec¸as. [Ara´ujo et al. 2013] analisou oito t´ecnicas diferentes para a extrac¸˜ao dos sentimentos para o portuguˆes. Foram testadas abordagens envolvendo redes neurais e aprendizado super-visionado especificamente para o microblog Twitter. [Strapparava and Mihalcea 2008] se concentraram na construc¸˜ao de um conjunto de dados anotados usando Latent Semantic Analysispara seis emoc¸˜oes: raiva, desgosto, medo, satisfac¸˜ao, tristeza e surpresa. Ambos os trabalhos usaram bases de dados em inglˆes.

[Pak and Paroubek 2010] e [Go et al. 2009] pesquisaram m´etodos para extrac¸˜ao de postagens com marcac¸˜ao de polaridade associada baseado-se em emoticons presentes no texto, supervisionando o treinamento das palavras de cada postagem. Abordagens como essas visam buscar por elementos que possibilitem categorizar uma sentenc¸a, por´em essa an´alise muitas vezes n˜ao consegue considerar a composic¸˜ao do sentido da sentenc¸a.

Em nosso trabalho buscamos uma t´ecnica que analisasse o sentido e a composic¸˜ao inteira das sentenc¸as, sendo poss´ıvel categorizar corretamente sentenc¸as mais com-plexas, contendo ironias ou subsentenc¸as variando positividade e negatividade. Em [Socher et al. 2013], os pesquisadores prop˜oem uma abordagem que envolve um robusto Treebank de Sentimentos e um modelo de rede neural recursivo que utiliza um tensor

(2)

agregado `a estrutura. Esse trabalho se tornou o estado da arte da an´alise de sentimentos para o idioma inglˆes, o que nos motivou para utilizar o modelo em portuguˆes brasileiro.

Em nosso trabalho replicamos o modelo de Rede Neural Recursiva com Ten-sor (RNTN) proposto por [Socher et al. 2013], geramos um Treebank de sentimentos para o portuguˆes e realizamos testes de acur´acia sobre nosso modelo treinado com o treebank formado.

3. Metodologia e recursos

Na Figura 1 podemos acompanhar os procedimentos descritos nessa sec¸˜ao at´e a formac¸˜ao do modelo treinado de an´alise de sentimentos.

Figura 1. Passos do desenvolvimento de um modelo de an ´alise de sentimentos para portugu ˆes brasileiro.

Para a replicac¸˜ao do modelo de [Socher et al. 2013], buscamos inicialmente a criac¸˜ao de um treebank de sentimentos para portuguˆes brasileiro para o treinamento do modelo. Nossas pesquisas nos levaram ao c´orpus Reli [Freitas et al. 2012], um c´orpus de sentimentos formado a partir de resenhas do website Skoob1.

(3)

O conjunto completo do Reli possui 12.508 sentenc¸as e 259.978 palavras. As re-senhas s˜ao em relac¸˜ao a livros de sete autores variados, com coment´arios sobre livros populares ou cl´assicos, o que nos dar´a registros formais, com um vocabul´ario mais rebus-cado, at´e registros mais informais contendo g´ırias e abreviac¸˜oes.

Nosso c´orpus possui marcac¸˜oes em trˆes classes, sentenc¸as positivas, neutras e negativas, portanto reduziremos as cinco classes que [Socher et al. 2013] utiliza em seu trabalho original para as trˆes presentes no c´orpus.

Antes de usarmos o c´orpus Reli para treinar o modelo de an´alise de sentimen-tos foi necess´ario represent´a-lo em formato Penn Treebank (PTB). O formato PTB ´e uma representac¸˜ao em texto da ´arvore sint´atica de sentenc¸as. Para extrairmos as ´arvores sint´aticas utilizamos dois parsers - o Stanford Parser2[Chen and Manning 2014] e o Ber-keley Parser3[Petrov et al. 2006].

Treinamos os dois parsers usando o c´orpus Tycho Brahe, que traz anotac¸˜oes sint´aticas para portuguˆes brasieiro. Esse treinamento gerou um modelo de an´alise sint´atica para nosso idioma.

Em seguida, aplicamos os parsers no c´orpus Reli e extra´ımos as ´arvores sint´aticas das sentenc¸as. Na Figura 2 podemos ver uma sentenc¸a do c´orpus Reli com sua ´arvore sint´atica extra´ıda. Podemos observar ela em formato PTB e sua representac¸˜ao em ´arvore.

Figura 2. ´Arvore sint ´atica extra´ıda de sentenc¸a do c ´orpus Reli.

O pr´oximo passo foi substituir as marcac¸˜oes sint´aticas por marcac¸˜oes de sentimen-tos. Essa substituic¸˜ao foi feita por meio de scripts desenvolvidos em Python e acess´ıveis em https://bitbucket.org/HBrum/sentipampa/src.

O treebank formado foi submetido ao treinamento da RNTN e foi gerado um modelo de an´alise de sentimentos para sentenc¸as em portuguˆes brasileiro.

2Dispon´ıvel em http://nlp.stanford.edu/software/lex-parser.shtml 3Dispon´ıvel em https://code.google.com/p/berkeleyparser/

(4)

4. Experimentos e Resultados

Conduzimos nossos experimentos usando a t´ecnica de 10-Fold Cross-Validation, que ´e o processo de criar pares distribu´ıdos de arquivos de “treino” e “teste” partindo de um ´unico conjunto de dados [Sammut and Webb 2011].

Geramos 10 modelos de an´alise, sendo cada um deles treinado com 90% do tre-ebankgerado e os testamos com os 10% restantes do c´orpus. Utilizamos como medida duas m´etricas - a acur´acia e a acur´acia combinada. A primeira ´e calculada sobre todas as sentenc¸as testadas, a segunda leva em considerac¸˜ao somente sentenc¸as positivas ou negativas.

Usamos a medida de acur´acia sobre os dados obtidos nos testes nos modelos criados com duas abordagens - acur´acia sobre todas as sentenc¸as (acur´arcia simples) e acur´acia sobre somente sentenc¸as positivas ou negativas (acur´acia combinada). Obser-vamos tamb´em as marcac¸˜oes sobre dois aspectos - sobre a marcac¸˜ao feita nas sentenc¸as inteiras e sobre a marcac¸˜ao feita sobre cada sintagma das sentenc¸as.

Usamos os dois parsers sint´aticos para gerar dois treebanks de sentimentos, ambos sobre o c´orpus de sentimentos Reli. O c´orpus analisado sintaticamente com o Stanford Parser foi chamado de Reli.Stanford, enquanto o treebank gerado a partir da extrac¸˜ao sint´atica do Berkeley Parser foi chamado de Reli.Berkeley.

Na Tabela 1 temos os resultados obtidos com os dois treebanks gerados. Os resul-tados foram obtidos com a m´edia dos 10 casos gerados na t´ecnica de Cross-Validation.

Tabela 1. Resultado final obtido com os dois treebanks gerados.

Acur´acia Simples Acur´acia Combinada

Em sintagmas Em sentenc¸as Em sintagmas Em sentenc¸as

Reli.Berkeley 70,19% 69,08% 17,82% 51,18%

Reli.Stanford 69,54% 67,47% 17,51% 51,36%

5. Discuss˜ao Final

Em nosso trabalho apresentamos a gerac¸˜ao de um treebank de sentimentos para o por-tuguˆes brasileiro, assim como a aplicac¸˜ao desse treebank no treinamento de um modelo de an´alise de sentimentos usando Redes Neurais Recursivas com Tensor.

O processo de gerac¸˜ao desse treebank ´e importante porque ´e uma maneira gen´erica de tornar um c´orpus de sentimento em portuguˆes brasileiro em conjunto de treinamento para o modelo proposto por [Socher et al. 2013]. Esse modelo consegue observar carac-ter´ısticas composicionais complexas em sentenc¸as e atinge resultados de estado da arte para o inglˆes, portanto pode servir como base para novas pesquisas na ´area de an´alise de sentimentos em portuguˆes.

Os resultados da pesquisa podem ser replicados e outras t´ecnicas podem ser apli-cadas a fim de gerar comparac¸˜oes e de se investigar melhores t´ecnicas de an´alise de sen-timentos para portuguˆes brasileiro.

Como desafios da pesquisa, podemos destacar a ausˆencia de um c´orpus mais com-pleto de sentimentos para portuguˆes, com maiores variac¸˜oes em polaridades de sentenc¸as e uma marcac¸˜ao mais espec´ıficas sobre os sint´agmas das frases.

(5)

Referˆencias

Ara´ujo, M., Gonc¸alves, P., and Benevenuto, F. (2013). M´etodos para an´alise de sentimen-tos no twitter. In Proceedings of the Simp´osio Brasileiro de Sistemas Multim´ıdia e Web (WEBMEDIA).

Chen, D. and Manning, C. D. (2014). A fast and accurate dependency parser using neural networks. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 740–750.

Freitas, C., Motta, E., Milidi´u, R. L., and C´esar, J. (2012). Vampiro que brilha... r´a! desafios na anotac¸ao de opiniao em um corpus de resenhas de livros. ENCONTRO DE LINGU´ISTICA DE CORPUS, 11.

Go, A., Huang, L., and Bhayani, R. (2009). Twitter sentiment analysis. Entropy, 17. Pak, A. and Paroubek, P. (2010). Twitter as a corpus for sentiment analysis and opinion

mining. In LREC.

Petrov, S., Barrett, L., Thibaux, R., and Klein, D. (2006). Learning accurate, compact, and interpretable tree annotation. In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Com-putational Linguistics, pages 433–440. Association for ComCom-putational Linguistics. Sammut, C. and Webb, G. I. (2011). Encyclopedia of machine learning. Springer Science

& Business Media.

Socher, R., Perelygin, A., Wu, J. Y., Chuang, J., Manning, C. D., Ng, A. Y., and Potts, C. (2013). Recursive deep models for semantic compositionality over a sentiment tre-ebank. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1631–1642. Citeseer.

Strapparava, C. and Mihalcea, R. (2008). Learning to identify emotions in text. In Proce-edings of the 2008 ACM symposium on Applied computing, pages 1556–1560. ACM.

Referências

Documentos relacionados

[r]

A aplicação de parafina em raízes de mandioca tem sido eficiente para prolongar o seu período de conservação.. Este efeito é atribuído à diminuição da permeabilidade ao

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Analysis of relief and toponymy of the landscape based on the interpretation of the military topographic survey: Altimetry, Hypsometry, Hydrography, Slopes, Solar orientation,

A descrição das atividades que podem vir a ser desempenhadas pelo AVISA, além de se fundamentar na perspectiva da integralidade da atenção à saúde, envolvendo desde as ações

Hoje o gasto com a saúde equivale a aproximada- mente 8% do Produto Interno Bruto (PIB), sendo que, dessa porcentagem, o setor privado gasta mais que o setor público (Portal

A lo largo del siglo XX, y especialmente después de la Segunda Guerra Mundial, se constata en las formaciones sociales capitalistas en general, aunque con variaciones

ensino superior como um todo e para o curso específico; desenho do projeto: a identidade da educação a distância; equipe profissional multidisciplinar;comunicação/interatividade