• Nenhum resultado encontrado

A visão da linguagem como um sistema não é uma concepção nova na lin- guística. Em 1916, Ferdinand de Saussure, um dos fundadores da linguística moderna, formulou que a linguagem é um sistema de termos interdependentes no qual o valor de cada termo resulta unicamente da presença simultânea das outras (SAUSSURE, 2011). Concebida como um sistema de termos independentes que interagem entre si, a linguagem passa a ser objeto de estudo das redes complexas.

Ora, se a linguagem é um sistema de unidades independentes, em que é pos- sível mapear suas relações como um grafo, é esperado o aparecimento de algum com- portamento resultante da interação destes elementos. Neste aspecto, a teoria de redes complexas fornece poderosas ferramentas para mensurar e interpretar estas propriedades, trazendo explicações importantes para diversos aspectos da linguagem humana, como a aquisição da linguagem, a evolução da língua e até a recuperação da informação (CONG; LIU, 2014).

O estudo da linguagem e seus fenômenos, do ponto de vista de um sistema complexo, implica na construção de uma rede linguística 𝐿, a qual se trata de um grafo 𝐿 = (𝑉, 𝐸), onde 𝑉 é o conjunto de vértices representando as unidades linguísticas e 𝐸

Capítulo 5. Projeto e-Ágora: o Extrator de Opinião Pública 133

o conjunto de arestas representando uma particular relação entre estas unidades. Depen- dendo da natureza do problema e das definições das relações entre os elementos linguísti- cos, diferentes modelos podem ser obtidos. Destacam-se, no entanto, redes para busca de padrões e estudos de processos da linguagem, como redes semânticas (SOWA, 2014), re- des sintáticas (STEYVERS; TENENBAUM, 2005) e as redes de co-ocorrência de palavras (LIU; CONG, 2013; CHOUDHURY et al., 2010; LIANG et al., 2009).

Um dos primeiros estudos com redes linguísticas foi publicado por Cancho e Solé (2001), cujo objetivo foi mostrar que a construção de sentenças em linguagem humana não é um processo aleatório, mas sim reflexo de toda uma organização oriunda do desenvolvimento evolutivo e do uso histórico das estruturas e combinações lexicais. Para comprovar essa hipótese, foram construídas redes de co-ocorrência de palavras, em que cada palavra é um nó e as arestas são direcionadas à palavra que ocorre imediatamente em seguida na sentença. Neste estudo, duas características importantes de redes complexas foram observadas nas redes de co-ocorrência: (1) o efeito mundo pequeno, com a distância média entre 2 e 3 vértices e (2) uma distribuição de graus com comportamento livre de escala.

A descoberta de que redes linguísticas poderiam apresentar o comportamento de redes complexas abriu caminho para diversos estudos no campo da linguagem, em especial para a área de PLN, mineração de dados e aquisição de linguagem. Exemplos na área de PLN estão no trabalho de Antiqueira et al. (2005), o qual modela textos como uma rede linguística para analisar a qualidade da escrita através de métricas de centralidade da rede; e em Antiqueira et al. (2009), os quais modelam redes a partir dos parágrafos de um texto com o objetivo de sumarizá-los, mapeando as sentenças como nós e calculando métricas de centralidade para avaliar a importância do parágrafo no contexto do texto. Outros destaques estão nas pesquisas de análise e construção de sentenças em linguagem humana e evolução da língua (SOLÉ et al., 2010; BECKNER et al., 2009; MOTTER et al., 2002; DOROGOVTSEV; MENDES, 2001).

Dentre os diversos modelos de redes linguísticas, destacam-se as redes de co- ocorrência de palavras, uma vez que este padrão foi escolhido para o tratamento dos dados no Extrator de Opinião Pública. A definição e características destas redes serão tratadas no próximo tópico.

5.6.1

Redes de Co-ocorrência de Palavras

Dentre as possíveis representações de redes linguísticas, encontra-se a rede de co-ocorrência de palavras, a qual é definida como um grafo em que as unidades textuais compõem-se os nós e um comportamento de co-ocorrência define as arestas. Um exemplo são as redes formadas a partir de parágrafos de textos: cada palavra distinta é um vértice, e a conexão com outro vértice se dá caso, em algum parágrafo, uma palavra seja diretamente

seguida da outra. Geralmente, uma rede de co-ocorrência é direcionada, uma vez que a ordem das palavras em uma sentença define a informação, e com pesos, cujo valor é, geralmente, a frequência de aparecimento do bigrama no texto. A Figura 29 ilustra uma rede de co-ocorrência construída a partir do poema de Carlos Drummond de Andrade “No Meio do Caminho”.

Figura 29 – Rede de co-ocorrência de palavras do poema “No Meio do Caminho” de Carlos Drummond de Andrade. Neste exemplo, as palavras do texto foram lematiza- das e foram retirados os termos de pouco significado semântico (stop-words). A espessura das arestas representa a frequência do bigrama.

Cancho e Solé (2001) foram pioneiros em pesquisas de redes de co-ocorrência de palavras como redes complexas. Em um estudo sobre a construção de sentenças e evolução da linguagem, observaram que redes de co-ocorrência apresentam as mesmas propriedades estatísticas que outras redes complexas, em especial o efeito mundo pequeno e o comportamento livre de escala, e puderam inferir que as palavras na linguagem humana interagem de uma forma não randômica, rápida e robusta na produção da informação semântica, sendo, desta forma, a rede de co-ocorrência um reflexo da organização da linguagem.

Partindo desta premissa, inúmeros outros estudos modelaram os mais diversos corpora linguísticos como uma rede de co-ocorrência de palavras, a fim de buscar padrões universais que permitissem extrair alguma informação relevante. Antiqueira et al. (2005) utilizaram-se da rede de co-ocorrência para determinar a qualidade linguística de textos. Akimushkin et al. (2017) também utilizaram as redes de co-ocorrência para tarefa de identificação automática de autoria de textos. Chen et al. (2018) estudaram uma rede de co-ocorrência de palavras de textos em chinês escritos nos últimos 2 mil anos para inferir se a linguagem se comporta como um sistema complexo adaptativo e concluíram que, com o passar dos anos, o comportamento livre de escala e mundo pequeno tornaram-se mais evidentes, fazendo com que a comunicação e expressão da linguagem ficasse mais eficiente.

Capítulo 5. Projeto e-Ágora: o Extrator de Opinião Pública 135

As diversas pesquisas apresentadas sugerem que as redes de co-ocorrência de palavras são um promissor caminho para estudos envolvendo a linguagem, desde a aquisi- ção e construção do conhecimento até a evolução do uso de uma língua. Por este motivo, este tipo de rede foi escolhida para a representação do corpus linguístico do Extrator de Opinião Pública. No próximo tópico trataremos, do desenvolvimento do EOP, desde a hipótese que norteia sua concepção até a metodologia de extração de informação.