• Nenhum resultado encontrado

Em sua revisão dessa área de pesquisa (FELDMAN, 2013) aponta para 6 questões que as pesquisas precisam endereçar. São elas:

1. O cálculo do sentimento geral de uma sentença, chamado de “sentimento composto”. Isso passa por encontrar as palavras mais associadas com o sentimento expresso e encontrar as diferentes formas de utilização de inversores; 2. A resolução automática de entidade (produtos tem diversos nomes e são utilizados no mesmo documento ou em documentos distintos) não está resolvida. Diretamente relacionado a esse problema está a resolução de anáfora que, segundo o autor, impacta substancialmente no agrupamento de aspectos de um produto (“duração da bateria” e “consumo de energia” se referem ao mesmo aspecto de um telefone celular);

3. Um texto pode abordar entidades distintas e encontrar qual porção refere-se a qual entidade é importante e “a acurácia atual está longe de ser satisfatória”; 4. A classificação de sarcasmo;

5. Textos com ruído (erros ortográficos, erros gramaticais, uso indevido de pontuação e uso de gírias); e

6. Classificação de sentimento em sentenças objetivas. As pesquisas tendem a separar as sentenças em objetivas e subjetivas descartando o primeiro grupo para a análise de sentimento.

Na discussão dos novos caminhos para a análise de sentimento e mineração de opinião (CAMBRIA et al., 2013) levantam a pouca pesquisa existente no que apelidam de “análise multimodal de sentimento e opinião”, entendendo multimodal como evidências extraídas de áudio, vídeo e texto.

A visão dos autores é a de que essa área de pesquisa se distinguirá do processamento de linguagem natural (NLP)26, pois, diferentemente de sumarização e

categorização de texto, essa linha de pesquisa se preocupa com inferência semântica e afetiva associadas com linguagem natural, sem necessariamente precisar de uma compreensão profunda do documento analisado. Vislumbram que cada vez mais os trabalhos evoluirão para a análise baseada em conceito, conteúdo e contexto, suportadas por técnicas eficientes para o processamento do grande volume de conteúdo que apelidam de “big social data”.

Na dimensão conteúdo apontam para o desafio de avaliar a confiabilidade da opinião e de sua origem.

O desafio da dimensão conceito está alinhado com o desafio 2 (enumerado acima) porém acrescentando a necessidade de se criar uma base de conhecimento comum que possa, por um lado, melhorar o agrupamento de conceitos e permitir inferir que “quarto pequeno consiste em uma opinião negativa de um hotel, enquanto fila pequena consiste em um sentimento positivo de uma agência de correio”.

A dimensão contexto está ligada ao consumidor da informação e as futuras pesquisas deverão adequar a mineração da opinião às preferências e necessidades das pessoas.

Os autores enriquecem os desafios acrescentando a importância de “misturar” as teorias de emoção oriundas da psicologia com processamento de linguagem natural, “almejando uma melhor compreensão das regras que governam sentimento, assim como as evidências que podem converter esses conceitos da realização para a verbalização na mente humana”.

Esse desafio, de como sentimento realizado é convertido em discurso, consiste na essência da tese aqui apresentada.

Em uma revisão publicada recentemente (WHITE; CAMBRIA, 2014) os autores interpretam a “Jumping S-Curves” (NUNES; BREENE, 2011), para mostrar a visão da evolução de três curvas, sendo uma referente à sintática, a segunda referente à semântica e a terceira referente à pragmática.

Posicionam a maioria das pesquisas em curso na curva sintática, centrada no conceito de “bag-of-words” (HARRIS, 1981) base dos atuais sistemas de busca e recuperação da informação. Essa curva é constituída de três categorias: detecção de palavras-chave; afinidade lexical e métodos estatísticos.

Os artefatos usados na detecção de palavras-chave são dicionários (como os utilizados nessa tese), corpus anotados (como os utilizados para treinar classificadores de classe gramatical de palavras), algoritmos ordenadores de relevância (como os utilizados pelos principais sistemas de busca e recuperação de informação). Enquanto são bons atributos para recuperar textos falham no desafio 2 acima.

Afinidade lexical atribui probabilidades de palavras pertencerem a uma classe. Enquanto são boas para perceber que o substantivo “acidente” tem conotação negativa como em “sofreu um acidente”, falham em perceber a conotação positiva de “evitou um acidente”. Essa falha se alinha com o desafio 1 acima descrito.

NLP estatística consiste na terceira categoria da curva sintática e se caracteriza pelo uso de diferentes algoritmos de aprendizagem de máquina (modelos de linguagem, maximização da esperança, “Conditional Random Fields” (CRF) e “Support Vector

Machines” (SVM)) para encontrar uma função de atribuição de uma palavra a um

conjunto. Os autores apontam como principal lacuna nessa categoria sua incapacidade de atribuir valor semântico à coocorrência de palavras de baixa frequência, levando a necessidade desses algoritmos de serem treinados em corpus grande. Essa lacuna reduz o desempenho desses classificadores em pequenas unidades de texto como sentenças ou cláusulas.

O próximo salto será para a curva semântica27, caracterizada pelo modelo “bag-

of-concepts” (CAMBRIA; HUSSAIN, 2012). Os autores também classificam em três

categorias a curva semântica: NLP latente (os autores utilizam a palavra endógena), NLP taxonômica e NLP de bases de conhecimento (os autores utilizam a palavra em inglês “noetic”28).

NLP latente utiliza técnicas de aprendizagem de máquina para aproximar conceitos existentes em um grande número de documentos. As técnicas mais comuns são: “Latent Semantic Analysis” (LANDAUER; FOLTZ; LAHAM, 1998); “Latent

Dirichlet Allocation” (BLEI; NG; JORDAN, 2003)

A NLP taxonômica objetiva a construção de ontologias extraídas da Web compreender a hierarquia semântica associada com expressões em linguagem natural. Os autores enumeram várias bases, sendo a mais conhecida a “WordNet” (MILLER, 1995).

A NLP baseada em conhecimento “engloba todas as abordagens inspiradas na mente”. Se diferencia da NLP taxonômica por tentar coletar comportamentos particulares de objetos, eventos e pessoas. Os autores enumeram algumas pesquisas que utilizaram redes neuronais e computação afetiva (os autores utilizam a palavra em inglês “sentic”) (CAMBRIA; HUSSAIN, 2012).29

Especulam que no futuro30 acontecerá o salto para a curva pragmática, cujo

paradigma será caracterizado por “bag-of-narratives”. Segundo essa revisão da

27 Seu apogeu deve ocorrer por volta do ano 2050.

28 Não encontrei em nenhum texto uma explicação para a não utilização dos termos (latente e conhecimento) encontrados na literatura. Por isso não os adoto.

29 A palavra “sentic” em inglês vem do latim “sentire”, utilizada em (PICARD, 1995) para não usar a palavra emoção, dada a discordância existente em sua definição. Resolvi utilizar o termo afetiva. 30 Pela curva plotada no artigo seria próximo ao ano 2100.

literatura modelagem computacional terá papel central no entendimento de narrativas, componente importante da interação entre humanos. Embora estejamos longe das pesquisas consistentes na pragmática existem iniciativas em inteligência artificial, mais particularmente no entendimento dos processos cognitivos que levam à representação do conhecimento, raciocínio baseado em senso comum, aprendizagem e a própria NLP.