Trabalhos Relacionados - Resultados da Revisão Sistemática de Literatura

2.9 Resultados da Revisão Sistemática de Literatura

2.9.6 Trabalhos Relacionados

A internet é um meio onipresente, rápido, barato e anônimo para disseminação de quaisquer mensagem que um usuário deseja comunicar, e isso tem atraído muitos pesquisadores para a área de Mineração de Textos, sobretudo pela grande quantidade de informações em formato textual circulando no ambiente online, seja em fóruns, blogs ou redes sociais.

Para trabalhos relacionados buscou-se pesquisas sobre a Mineração de Textos, por duas razões. Em primeiro lugar, o discurso web é rico em conteúdo, emoção e opinião. Em segundo lugar, a análise desse tipo de texto é altamente relevante para pesquisas acadêmicas, uma vez que um texto opinativo desempenha um papel importante em influenciar as percepções das pessoas sobre a maneira em que comunicamos e na tomada de decisão. Além disso, buscou-se especificamente, pesquisas cujo o objetivo era prover técnicas para classificação de documentos.

Esse capítulo é organizado primeiramente por um quadro contendo as características principais sobre análise de sentimentos. Em seguida, um quadro com as principais características encontradas nos projetos relacionados a esta pesquisa e, na sequência uma descrição de cada um desses trabalhos.

A classificação de sentimento possui diversas características importantes, incluindo várias tarefas, técnicas e domínios de aplicações. Estas características encontra-se de forma resumida na taxonomia proposta por (ABBASI; CHEN; SALEM,2008), apresentada na tabela 6.

Tabela 6 – Taxonomia de polaridade e classificação de sentimentos

Categoria Característica ID

Sintática Word/POS tag n-grams. C1

Semântica Polaridade, grupos de avaliação, orientação semântica. C2

Categoria Técnicas ID

Aprendizagem de Máquina SVM, Naive Bayes, Vetores, Stemming, Term Connection e etc. T1

Índice de similaridade Contagem de frequência. T2

Categoria Domínios ID

Discurso web Fóruns e blogs da web. D1

Avaliações Comentários de produtos, filmes, músicas. D2

Ontologias Especificação formal e explícita. D3

Com base na taxonomia proposta, a figura 6 mostra os estudos anteriores selecionados, que servirão de base para o desenvolvimento deste projeto. Discutimos os estudos relacionados em detalhes a seguir.

Observando a figura 10, percebemos que os trabalhos possuem algumas características em comum, no entanto, somente o trabalho deAbbasi, Chen e Salem(2008) utilizou das técnicas de classificação de textos para diversos idiomas. A metodologia proposta por eles, foi avaliada através de um conjunto de dados sobre filmes norte-americanos e do Oriente Médio, por meio de postagens em fóruns web Árabe. Os resultados alcançados foram considerados satisfatórios, com uma precisão de mais de 91% de acertos.

Capítulo 2. Fundamentação Teórica 40

Figura 10 – Características dos trabalhos relacionados

O trabalho deAhmad e Doja(2012) apresentou uma técnica para analisar a subjetividade de um texto, demonstrando que a detecção pode ocorrer em comentários extraídos de textos curtos e, ainda sim, manter a polaridade em um nível comparável ao da revisão completa. Para isso, o autor criou para o experimento uma base de dados contendo comentários sobre diversos modelos de câmeras digitais, sendo ela pré-rotulada entre 1000 frases subjetivas e 1000 objetivas e, criaram um software em Java para extrair as características do conjunto de dados, convertendo as frases em vetores númericos. A avaliação da performace do sistema através da medida de Recall foi baixa, devido uma grande quantidade de palavras estarem escritas em uma linguagem não formal, com isso o analisador não conseguia identificar as sentenças corretamente.

O trabalho deEfron(2004) apresentou uma técnica para classificar documentos de hipertexto para estimar a orientação cultural, através de discursos polarizados sobre política. Usando um modelo probabilístico, dois experimentos foram relatados. O primeiro testou a capacidade do modelo discriminar entre apoiadores políticos de esquerda e os da direita. Neste modelo, foi testado 695 documentos web partidários, e 162 weblogs políticos. O classificador apresentado alcançou uma precisão acima de 90%. No segundo experimento, é proposto um modelo de classificação de páginas web de artistas musicais do gênero “alternativo”. Para este experimento, foi testado um conjunto de 515 páginas, alcançando uma precisão de 88%. No entanto, para melhorar os resultados alcançados, o autor sugere que seja abordado métodos lexicais e um corpus com maior números de dados.

E por último,Pak e Paroubek(2010) Apresentou um método para treinar um classificador de sentimentos automaticamente, a partir de um corpus coletado do microblogging Twitter. O classificador criado foi capaz de determinar sentimentos positivos, negativos e neutros, sendo ele baseado no algoritmo de Naive Bayes, utilizando N-gram e POS-tags como características. Avaliações experimentais mostraram que as técnicas utilizadas foram eficientes. Além disso, o autor afirma que utilizando o algoritmo Naive Bayes, teve-se um melhor desempelho do que outros algoritmos já propostos.

Os trabalhos mencionados acima serão os pilares para o desenvolvimento desta dissertação, que possuirá grande semelhança com os mesmos. A nossa pesquisa tem a intenção de trabalhar de forma semelhante com o trabalho de Abbasi, Chen e Salem(2008),Pak e Paroubek(2010) . Assim como desses autores, pode-se reutilizar nesta dissertação a criação de um modelo que tenha como base um corpus rotulado, o algoritmo Naïve Bayes e o cálculo de acurácia para analisar a precisão da ferramenta desenvolvida. Além características encontradas nesses trabalhos, pretendemos desenvolver este modelo no formato de uma API, para que outros pesquisadores possam utilizá-lo posteriormente.

3 Metodologia

A metodologia adotada neste trabalho foi norteada pelos objetivos propostos, ou seja, a criação de uma ferramenta capaz de detectar e classificar automaticamente a polaridade de um texto, escrito na língua portuguesa do Brasil.

O presente trabalho, quanto a natureza, classifica-se como aplicada, uma vez que, haverá um interesse em adquirir novos conhecimentos, apesar de orientada para a aplicação prática, esse tipo de pesquisa, não pode deixar de incluir uma reflexão teórica (MASCARENHAS,2010). De acordo comBarros e Lehfeld(2000), a pesquisa aplicada tem como motivação a necessidade de produzir conhecimento para aplicação de seus resultados, com o objetivo de contribuir para fins práticos, visando a solução mais ou menos imediata do problema encontrado na realidade. Quanto aos seus objetivos, trata-se de uma pesquisa exploratória com a finalidade de investigar e tornar explícitas as características de um fenômeno. A pesquisa exploratória é mais útil quando um tomador de decisão deseja compreender melhor a situação e/ou identificar alternativas de decisão. Os objetivos da exploração pode ser conseguida com diferentes técnicas. Ambos as técnicas qualitativas e quantitativas são aplicáveis (MASCARENHAS,2010).

Quantos aos procedimentos metodológicos, a pesquisa caracteriza-se como experimental, visando a criação de um protótipo de software com a finalidade de realizar classificação de polaridade contida em um texto. A última etapa desse processo metodológico será a pesquisa em laboratório, onde os dados serão tratados e submetidos ao protótipo desenvolvido.

Com relação ao modo de aquisição de referências, faz-se necessário um estudo bibliográfico para adquirir conhecimento na área, dando a devida atenção aos princípios básicos e ao estado da arte no assunto.

Por fim, o tempo de aplicação do estudo será transversal, pois os dados serão coletados em um espaço curto de tempo, obtendo um fato instantâneo de um fenômeno.

No documento Mineração de Textos: Detecção automática de sentimentos em comentários nas mídias sociais (páginas 40-43)