A proposta do CoreLex - A polissemia como um desafio à estruturação de bases relacionais de

Seção 2 A polissemia como um desafio à estruturação de bases relacionais de

2.6 A proposta do CoreLex

O CoreLex (BUITELAAR, 1998) representa o resultado de um esforço para a extração semiautomática de similaridades a partir da WN.Pr com o intuito de construir uma base mais útil à WSD (BOAS & FELLBAUM, 2009). A primeira versão do léxico foi proposta em Buitelaar (1998), e a segunda será aqui apresentada a partir de um artigo de Buitelaar (2000). Nesse projeto, a proposta é extrair classes de nominais regularmente polissêmicos a partir da WN.Pr e da GN. O CoreLex é um léxico estruturado de modo a refletir a sistematicidade e a previsibilidade de propriedades semânticas dos itens de uma língua, centrado nos princípios do Léxico Gerativo (PUSTEJOVSKY, 1995). Explorando a relação de primos (ex. animal/alimento), Buitelaar (1998) reconheceu na WN.Pr 105 classes de nominais regularmente polissêmicos. Esse número foi ampliado na versão mais recente. Os critérios para a identificação de classes de itens regularmente polissêmicos serão descritos a seguir, tomando-se como exemplo o item lexical book.

No CoreLexI (BUITELAAR, 1998), as classes polissêmicas são identificadas a partir dos tipos básicos (unique beginners) da WN.Pr. O primeiro passo para a identificação das classes é extrair da WN.Pr os sentidos associados à forma lexical em análise. Para book, a base codifica sete sentidos: (1) ‘publication’; (2) ‘product, production’; (3) ‘fact’; (4) ‘dramatic_composition’, ‘dramatic_work’; (5) ‘record’; (6) ‘section’, ‘subdivision’; (7) ‘journal’. O segundo passo é a identificação dos tipos semânticos correspondentes. No topo da hierarquia da WN, esses sete sentidos podem ser reduzidos a dois tipos básicos: o conteúdo que está sendo comunicado (communication) ou o objeto físico (artifact). Os autores explicam que a constatação da existência de uma classe polissêmica se dá através da constatação de que outras

palavras compartilham esses mesmos sentidos e que são, então, polissêmicas da mesma maneira. Por exemplo, os sete sentidos diferentes que a WN.Pr discrimina para book podem ser reduzidos a dois tipos básicos: communication e artifact. A proposta é fazer isso para cada nome e então agrupá-los em classes de acordo com a combinação dos tipos básicos correspondentes. Finalmente, a partir de julgamento humano, diversas classes são agrupadas, porque seus membros são suficientemente similares, explica Buitelaar. Entre as classes resultantes, estão aquelas esperadas e já muito analisadas na literatura, como animal/alimento, planta/ produto natural. Além dessas, outras classes menos esperadas também foram identificadas, tal como artefato/atributo/substância, envolvendo os nomes chalk, charcoal, daub, fiber, fibre, tincture, que se referem a um objeto que é ao mesmo tempo um artefato feito de alguma substância que tem também a função de atributo.

No CoreLexII (BUITELAAR, 2000), as regras descritas acima são detalhadas, considerando os avanços de pesquisas posteriores (ex. KRYMOLOWSKI e ROTH, 1998; PETERS, PETERS e VOSSEN, 1998; TOMURO 1998). São propostos critérios mais livres para a identificação das classes polissêmicas. Essa nova proposta surgiu com o intuito de resolver críticas que o primeiro modelo sofreu, tais como: a escolha dos tipos básicos ser arbitrária e em nível muito alto na hierarquia, de modo que somente as classes polissêmicas que se manifestam em níveis altos podem ser identificadas; a arbitrariedade (e ineficiência) da intervenção humana para o agrupamento das classes resultantes a partir de critérios intuitivos de similaridade entre os membros (BUITELAAR, 2000).

Na nova abordagem, são comparados os synsets em todos os níveis, não somente no nível dos unique beginners. No CoreLexII, conforme descreve Buitelaar (2000), são executadas as seguintes etapas: (i) análise dos sentidos de cada nome na WN.Pr e na GN (nível1 synsets); (ii) se um nome tiver mais que um sentido, ele será incluído em uma lista separada, que será usada para próximos processamentos – nomes com somente um sentido são descartados; (iii) com o intuito de comparar os nomes em todos os níveis da hierarquia, também todos os hiperônimos de cada synset serão armazenados; (iv) a distribuição de cada sentido selecionado nas etapas anteriores é comparada automaticamente a partir da métrica de JACCARD, que compara objetos de acordo com os seus atributos individuais e os que ele compartilha; (v) se a similaridade for maior do que certo limiar, os pares de nomes são armazenados em uma matriz, que será

posteriormente utilizada; (vi) o agrupamento final se dá a partir de um algoritmo de relação simples e único que agrupa objetos em clusters discretos, ou seja, quebra-se a organização por synset (BUITELAAR, 2000).

O quadro 2 apresenta as classes de nomes regularmente polissêmicos geradas a partir do algoritmo proposto por Buitelaar (2000). No quadro, há o nome original da classe em inglês, seu respectivo equivalente no português e exemplos originais e possíveis ocorrências em PB, não necessariamente equivalentes às originais.

1. comunicação/barulho (communication/noise) Exemplo original: clamor, hiss, roaring, screeching, whisper.

Exemplo PB: ronco, berro, grito, murmúrio, sussurro

2. gosto/sensação (taste_property/sensation) Exemplo original: acrity, aroma, odor, pungency Exemplo PB: acridez, acridão, azedo, acre aroma, odor, fragrância, cheiro, perfume, sabor 3. fio/tecido (cord/fabric)

Exemplo oritinal: chenille, lace, lanyard, ripcord Exemplo em PB: chenile, renda, lã

4. continente/unidade de medida (vessel/measure) Exempo original: bottle, bucket, cask, tub, flask Exemplo em PB: garrafa, copo, prato, xícara, colher 5. planta/tipo de fruto (plant/berry)

Exemplo original: blueberry, checkerberry, cranberry *classe não-produtiva em PB

6. planta/ nós (plant/nut)

Exemplo original: hazelnut, pistachio, butternut Exemplo em PB: pistache, avelã

7. peixe/alimento (fish/food)

Exemplo original: cappie, dolphinfish, flatfish Exemplo em PB: carpa, tainha, sardinha

Quadro 2 - CoreLexII - Classes de polissemia regular

Conclui-se que o estudo das duas versões do CoreLex foi importante para investigarmos estratégias para identificação de classes polissêmicas automáticas e

semiautomáticas. A partir de Buitelaar (2000), tem-se a expansão da noção de polissemia regular para classes formadas por elementos situados em níveis distintos de uma hierarquia. Uma importante característica do modelo e que, ao contrário do que ocorre na GN, os synsets são quebrados, e passa-se a dar foco para a forma lexical regularmente polissêmica. As classes detectadas, conforme o quadro 2, revelaram-se úteis para descrever o português do Brasil, comprovando o que a literatura afirma (CROFT e CRUSE, 2004) sobre certa universalidade desse tipo de polissemia entre línguas.

No documento ISA MARA DA ROSA ALVES. Polyset: Modelo Linguístico-Computacional para a Estruturação de Redes de Polissemia de Nominais (páginas 46-49)