• Nenhum resultado encontrado

Na literatura, é possível identificar nichos dedicados à ordenação de sinônimos para dada sentença, onde, principalmente, diferem-se pelo modo de representação do contexto, da palavra e seu conjunto de significados e, consequentemente, pela métrica utilizada para a comparação de semelhança semântica entre o contexto de entrada e a representação de um possível sinônimo.

Muitos trabalhos predizem o sinônimo correto para um contexto a partir de uma lista predeterminada, os “sinônimos aproximados”, que são comumente vinculados

2

https://code.google.com/archive/p/word2vec/

3

26 Fundamentação Teórica

a um mesmo conceito4 em thesaurus [31]. Assim, sobreposições semânticas entre a palavra definição da palavra e o contexto têm pouca relevância, já que inexplora quaisquer tipo de representação anotada de cada candidato/definição como fonte para um treinamento. [25] apresenta uma classificação formal das diferentes relações de sinonímia, como estilísticas e atitudinais (i.e “father”/“daddy”), onde, apesar de compartilharem um conceito nuclear em comum, suas nuances de diferenciação pouco são identificáveis nos significados de dicionários [26]

Outra gama de trabalhos, a da subárea homônima da Substituição Lexical [50], extrai e ordena sinônimos para sentença. Grande parte desses trabalhos, como a dos competidores do SemEval-2007, utiliza também de técnicas que mensuram a probabi- lidade de aplicação do candidato à sentença (adequabilidade contextual) como pilar central, utilizando de modelos de linguagem como n-grams ou de frequência extraídos de grandes volumes, como o corpus Google Web 1T, com até 1 trilhão de palavras [77] ou de motores de busca. Representações do contexto na aprendizagem apresentam variações no tamanho do n-gram ou a função de probabilidade usada. Já considerando o aspecto da relação semântica contexto-palavra, para as abordagens que realizam essa verificação, aprende-se o significado de determinada palavra para determinada definição/tema (desambiguação), para essa parcelas de trabalho utiliza-se de téc- nicas como a Latent Semantic Analysis (LSA), descobrindo palavras mais relevantes para determinado domínio, indexado por um termo substituível, e mensurando a proximidade deste com o contexto.

Para dicionários, em muitos casos, mensura-se as sobreposições entre unidades lexicais dos significados de t e entre as palavras contexto circundante de t, como em [4], predizendo uma lista de substitutos sem ordem de relevância entre si, sendo relevante entrada para métodos de sinônimos aproximados. Técnicas de modelagem por tópicos e desambigaução via-dicionários não são necessariamente excludentes entre si. No entanto, métodos de comparação semântica entre representação “independente de contexto” de um conceito e um contexto rarol incorrem na baixa sobreposição.

Alternativamente às restrições da comparação entre definições e contexto, a utiliza- ção das típicas frases de exemplos vinculadas a cada definição mitigaria esse impacto negativo, mas as frases são escassas, e a anotação de um grande volume de frases com os significados associados às palavras consistem em uma tarefa custosa. As frases associadas a cada definição da palavra principal em um contexto, pela lógica

4

Uma definição é uma descrição textual de um conceito, onde ambos estão associados a um conjunto de sinônimos para representar o mesmo conceito em um documento.

Fundamentação Teórica 27

da linguística, deveriam possuir uma distância muito reduzida do contexto onde a mesma palavra estaria aplicada. Portanto, dicionários, ainda relevantes fontes para obtenção de possíveis sinônimos, carecem de fontes auxiliares para ponderação da relação entre sinônimos. Uma ideia mais que natural é, então, de dados oriundos de corpus não-anotados, de modo a se verificar a aplicabilidade no contexto de potenciais sinônimos.

Modelos de embeddings representam palavras em um espaço vetorial de baixa dimensionalidade, resultantes de um processo de treinamento com redes neurais. Esse tipo de representação se baseia na hipótese distribucional, que sustenta que palavras que ocorrem nos mesmos contextos tendem a possuir mesmo significado [68]. Portanto, trazem consigo consigo a representação de palavras a partir dos seus contextos de uso. Diferente dos thesauri, que agrupam-as se considerar o contexto. Diferente da LSA, que identifica as palavras latentes (relevantes) para uma domínio específico (definição) representando-o em um vetor, embeddings recebem permitem a predição de determinada palavra informado o contexto [52,54]. Tal representação é capaz de captar relações entre as palavras, diferentes daquelas explicitamente tipificadas na Wordnet [57], onde regularidades estão relacionadas a certas posições dos vetores, sejam elas sintáticas, morfológicas, além daquelas efetivamente utilizadas pelo nosso trabalho: as semânticas. Algumas relações mais específicas são transcritíveis em operações algébricas, como a soma. [54] destaca essa contribuição, que inclui regularidades entre representações de palavras, ilustrando-a com a operaçãoυ[“king”] - υ[“man”]+ υ[“woman”]para se obter a representação no espaço dimensional mais aproximada à da

palavra “queen”.

Embeddings são essencialmentes ambíguos, condensando relações de uma pala- vra p sem que tal relação de coocorrência seja capaz de captar o significado de p no contexto utilizado como base de treinamento na geração do mesmo vetor, tornando possível a representação de palavras possivelmente contrastantes [60], como os antôni- mos [63], com considerável aplicabilidade contextual, ou conceitos relacionados, mas que inexpressam sinonímia, como “car”-“motorcycle”. Esse tipo de característica abre a possibilidade do uso de algum recurso complementar às representações contidas no modelo, que é possível pelo uso de um thesaurus, que agrupa sinônimos indepen- dentes de contexto, reduzindo contrastes de antonímia e papel. Embeddings são, na prática, referências extraídas de grandes volumes, mas que, de certa forma, esbarram na mesma questão da escassez de dados anotados, fato que faz necessário transfe- rir ao modelo a representação da sentença que contém a palavra a ser substituída,

28 Fundamentação Teórica

na intenção de obter representações de palavras com forte correlação à sentença em questão.

Destacada a característica central de dicionários/thesauri, é possível dizer que agru- pam sinônimos em função dos significados assumíveis pelas palavras. Entretanto, tal agrupamento é realizado por sinônimos-cognitivos, desconsideram o “fator contexto de uso”, conforme a hipótese distribucional [68]. Embeddings, por si só, constrõem a representação vetorial da palavra apenas baseada no contexto, dando margem à representação aproximada de não-sinônimos. Pelas características e deficiências obser- vadas, a junção das fontes se apresentam como um dos fatores impulsionadores deste trabalho.