• Nenhum resultado encontrado

Um processo completo de AS engloba quatro etapas principais: detecção de subjetividade, que classifica os textos entre subjetivos e objetivos; extração de atributos, responsável por identificar os atributos do objeto em análise; classificação de sentimento/polaridade, que busca determinar a polaridade do texto; e apresentação dos resultados.

2.3. ETAPAS DA ANÁLISE DE SENTIMENTOS

2.3.1

Detecção de subjetividade

A etapa de detecção de subjetividade é responsável por identificar as sentenças subjetivas no texto. Essa etapa é fundamental para o processo de AS, pois as sentenças subjetivas apresentam de forma explícita os sentimentos, crenças, e emoções sobre um determinado objeto.

Existem duas abordagens principais para a detecção automática de subjetividade na literatura: os métodos baseados em técnicas linguísticas e estatísticas ((Castro,2011), (Hatzivassiloglou e Wiebe,2000)); e os métodos baseados em algoritmos de aprendizagem de máquina (Yu e Hatzivassiloglou,2003).

Como exemplo de métodos linguisticos e estatísticos, citamos o trabalho deHatzivas- siloglou e Wiebe(2000). Os autores defendem que os adjetivos são fortes indicadores de subjetividade. Dessa forma, eles determinam a subjetividade das sentenças com base na orientação semântica dos adjetivos. Em outra pesquisa,Castro(2011) realiza detecção de subjetividade em cima de um corpus de review de filmes. Com o uso de uma ferramenta de POS-Tagging e o léxico SentiWordNet (Esuli e Sebastiani,2006), Castro identifica a subjetividade em sentenças do corpus e as classifica como sentenças objetivas e sentenças subjetivas, alcançando taxas de acerto de até 74,5%.

Do outro lado,Yu e Hatzivassiloglou(2003) utilizaram um classificador NaiveBayes em um corpus composto por artigos do Wall Street Journal. O classificador separa sentenças objetivas (notícias e negócios) de sentenças subjetivas (artigos do editor e resposta às cartas de leitores).

2.3.2

Extração de atributos

A etapa de extração de atributos é responsável por identificar e extrair dos textos dis- poníveis os aspectos, componentes ou características associados ao objeto sob análise. Na ausência de um processo automático de extração, os atributos devem ser infomados manualmente.

Esta etapa é obrigatória quando se deseja realizar uma AS no nível de atributo, visto que na AS no nível de sentença e de documento, as características dos objetos não são analisadas individualmente.

As principais pesquisas sobre extração de atributos são conduzidas sobre corpus de reviewsde produtos (Liu,2012). Liu destaca que existem dois tipos mais comuns de reviews:

que descreva os atributos favoráveis e os não favoráveis separadamente, além de descrever um review detalhado posteriormente.

• Tipo 2 – Reviews de formato livre: O autor do comentário pode escrever livre- mente, sem ter que explicitar os prós e contras do produto ou serviço.

A extração de atributos nos comentários do Tipo 1 pode ser conduzida por diversos métodos (e.g., Aprendizagem de Máquina, PLN). Este tipo de review geralmente consiste em frases curtas, e cada uma das sentença trata somente de um único atributo.

Os reviews do Tipo 2 são mais complexos para processar, pois apresentam frases completas, podendo ser encontrados vários atributos em uma única sentença. Silva (2013) foi capaz de identificar os aspectos de produtos e suas opiniões a partir de padrões linguísticos, e posteriormente classificar esses pares como positivos, negativos ou neutros. Hu e Liu(2004) descrevem uma abordagem não-supervisionada para extração de aspectos em reviews do Tipo 2. Esta abordagem requer uma grande quantidade de reviews, e consiste em dois passos:

• Identificar os substantivos e sintagmas nominais mais frequentes: Hu e Liu defendem que os atributos dos objetos nos reviews são substantivos ou sintagmas nominais. Desta forma, o uso de um POS-Tagger é de grande utilidade. A ra- zão para a extração dos substantivos mais frequentes é que, quando as pessoas comentam sobre produtos e seus atributos, o vocabulário utilizado tende a coincidir. • Identificar os atributos menos frequentes utilizando palavras opinativas: As

palavras opinativas geralmente são adjetivos ou advérbios que expressam opiniões positivas e/ou negativas. A justificativa para este passo é que uma mesma palavra opinativa pode ser utilizada para descrever diferentes atributos (e.g., a palavra opinativa lame no exemplo 2.4 e na senteça (1) do exemplo 2.5, qualifica dois atributos/entidades distintos). Dessa forma, as palavra opinativas que avaliam os atributos frequentes podem avaliar os atributos não-frequentes, portanto, podem ser utilizadas para a extração destes atributos.

Como exemplos de outros trabalhos que fazem extração de atributos sobre reviews do tipo 2, podemos citar (Siqueira,2010) e (Lima,2011).

2.3.3

Classificação de sentimentos

Esta é a etapa do processo de AS onde são classificadas as opiniões no texto. Cada opinião possui um valor associado, que corresponde a sua orientação/polaridade (positiva,

2.3. ETAPAS DA ANÁLISE DE SENTIMENTOS

negativa ou neutra).

Aqui, também contamos com diferentes abordagens para realizar esta etapa da AS, sendo as principais delas a Aprendizagem de Máquina e a Abordagem baseada em Léxicos Subjetivos.

Como exemplos de trabalhos que utilizam Aprendizagem de Máquina para classifica- ção de sentimento, citamos (Pang et al.,2002), (Wilson et al.,2005), (Mullen e Malouf, 2006) e (Walker et al.,2012). Apesar de obterem uma ótima precisão na classificação, tais soluções são muito dependentes do corpus de treinamento do classificador, apresentando dificuldades no processamento de textos de outros domínios.

Como alternativa, temos a abordagem baseada no uso de Léxicos Subjetivos. Tais léxicos apresentam uma lista de palavras opinativas com suas polaridades associadas. Como exemplos, citamos o SentiWordNet ((Baccianella et al.,2010), (Esuli e Sebastiani, 2006)) e o léxico subjetivo MPQA (Wilson et al., 2005). Esta abordagem utiliza as polaridades associadas às palavras opinativas para determinar a polaridade das opiniões no texto.

Contudo, o uso de Léxicos Subjetivos para a classificação de sentimento pode não ser suficiente. É importante também considerar outros elementos presentes no texto que alteram a polaridade das opiniões, como por exemplo, expressões negativas, cláusulas adversativas, concessões etc.

Exemplo 2.6: Comentário retirado do corpus do debate Windows vs. Mac.

“(1) I’m not going into the details of why Macs are better, but I will say this: (2) Any person who switches to a Mac, I guarantee will never go back voluntarily.”

Liu (2010) descreve uma abordagem genérica para esta etapa de classificação de sentimentos:

• Identificação de palavras opinativas: Este passo corresponde a identificação de todas as palavras opinativas presentes no texto. A seguir, para as palavras positivas, negativas e neutras são atribuídos os valores [+1], [-1], e [0] respectivamente. • Expressões negativas: As expressões negativas, quando presentes no texto, inver-

tem a polaridade das opiniões associadas a elas (e.g., not, none, neither, nothing). Geralmente, utilizam-se valores empíricos para determinar o tamanho da janela que será utilizada para verificar se existe uma expressão negativa próxima a uma opinião. Um exemplo de sentença onde a negação não está próxima da palavra opinativa é a sentença (1) do exemplo 2.6.

• Cláusulas adversativas: Sentenças que possuem cláusulas adversativas, em geral, trazem opiniões contrárias. Dessa forma, considera-se que a polaridade da opinião antes da cláusula adversativa é contrária à polaridade da opinião depois desta cláusula. É possível averiguar uma cláusula adversativa na segunda sentença do exemplo 2.7.

Exemplo 2.7: Comentário retirado do corpus do debate Windows vs. Mac .

“(1) Apples are nice computers with an exceptional interface. (2) Vista will close the gap on the interface some but Apple still has the prettiest, most pleasing interface and most likely will for the next several years. ”

2.3.4

Apresentação dos resultados

A apresentação dos resultados é a última etapa do processo de AS. Esta etapa é responsável por analisar os dados de saída das etapas anteriores e apresentar, de forma simples e clara, os resultados para o usuário final. As informações obtidas a partir da classificação dos comentários podem ser mostradas de diversas formas, desde textos descrevendo os resultados da análise, a gráficos que fazem comparações entre dois ou mais produtos do mesmo domínio (ver figura2.1).

A figura 2.1 mostra um gráfico resultante da AS no nível de atributo em textos sobre duas câmeras digitais de marcas distintas. São apresentadas duas barras de cores diferentes para cada atributo das câmeras (foto, bateria, lentes, peso e tamanho), e o sentimento geral sobre os produtos - quanto mais acima da linha horizontal a barra estiver, maior é a avaliação positiva; quanto mais abaixo da linha horizontal, maior é a avaliação negativa.

Pang e Lee(2008) dividem a Visualização e Sumarização em dois tipos distintos: • Sumarização de documento único: Este primeiro tipo de sumarização trata ape-

nas das entidades de um único documento. O objetivo é apresentar o resultado da análise de sentenças extraídas, ou de unidades similares de textos, que relatam opiniões semelhantes ou que falem de um mesmo atributo, e a partir daí, apresentar os pontos positvos e os pontos negativos deste atributo.

• Sumarização Multi-documento: Este tipo de sumarização apresenta o resultado da análise dos objetos sobre diversos documentos de um mesmo domínio. O intuito dessa análise não é apenas mostrar ao usuário os pontos positivos e negativos de cada aspecto, como também comparar os aspectos dos dois objetos.