Representação conceitual do corpus: método e ferramenta

6. Aprendizado de critérios de relevância com base em hierarquias conceituais

6.1. Representação conceitual do corpus: método e ferramenta

Tendo em vista a experiência adquirida com a tarefa de investigação da pertinência das métricas, é notório que o método manual de anotação (indexação léxico-conceitual e geração da hierarquia) tende a ser mais preciso, já que não envolve possíveis erros causados pela automação das tarefas. No entanto, sabe-se também que o método manual é bastante custoso, principalmente devido ao tempo despendido na indexação dos nomes à WN.Pr e na geração da árvore conceitual (mesmo via o editor CMap). Assim, optou-se por pré-processar os 2 novos clusters de forma semiautomática.

Especificamente, utilizou-se o editor NASP++ (CABEZUDO, 2015), que automatiza (i) a anotação semântica de nomes e verbos de uma coleção multidocumento via indexação dos mesmos ao synsets da WN.Pr e (ii) a subsequente construção de uma ontologia dos conceitos/synsets indexados.

Para a anotação/indexação dos nomes à WN.Pr e geração da ontologia, o editor realiza o pré-processamento dos textos-fonte, que engloba os processos de (i) tokenização (isto é, delimitação de tokens, que comumente são sequências de caracteres

85 separados por espaços em branco), (ii) etiquetação morfossintática55_{(isto é,}

identificação das categorias das palavras, como nome, verbo, adjetivo, etc.) e (iii) lematização56_{(isto é, transformação das palavras à sua forma canônica ou básica).}

Feito isso, o NASP++ automatiza a anotação semântica por meio das seguintes etapas: (i) seleção do nome x a ser anotado; (ii) tradução de x para o inglês, o que é feito pelo acesso ao dicionário bilíngue WordReference®57; (iii) recuperação dos synsets dos quais x é elemento constitutivo; (iv) seleção do synset que mais adequadamente representa o conceito subjacente a x, e (v) anotação de x com o synset escolhido em (iv). Na Figura 29, tem-se a tela principal do NASP++, composta por vários campos nas quais as etapas (i-v) são realizadas.

Figura 29 - Tela principal do NASP++.

Fonte: autoria própria.

Na Figura 30, tem-se, como ilustração, os dois textos que compõem a coleção C31. Os textos são exibidos e anotados pelos anotadores humanos por meio do campo “visualizador de textos-fonte” (A). Nesse mesmo campo, a ferramenta permite

55_{O NASP utiliza o etiquetador MXPost (RATNAPARKHI, 1996).}

56_{Disponível em http://www.icmc.usp.br/pessoas/taspardo/LematizadorV2a.rar} 57_{http://www.wordreference.com/}

86 especificar a classe das palavras a serem anotadas (substantivo ou verbo); no caso, selecionou-se “substantivo”. Nos textos-fonte exibidos, as palavras destacadas em vermelho foram automaticamente identificadas como “nome” (ou substantivo) pelo etiquetador morfossintático MXPost, ou seja, quando a seleção da caixa “substantivo” é feita, a ferramenta destaca em vermelho todas as palavras identificadas como substantivos pelo etiquetador. A partir das palavras em destaque, tem-se início o processo de anotação/indexação. Por exemplo, a anotação do Texto 1 da Figura 30, teve início com o primeiro nome em destaque, no caso, “ginasta”.

Figura 30 - Visualizador de textos.

Fonte: autoria própria.

Ainda no campo “visualizador de textos-fonte”, ao se clicar na palavra a ser anotada, o editor ativa o campo “comentários” (D)58_{e recupera automaticamente, a partir do}

acesso ao dicionário online WordReference®, as possíveis traduções em inglês para a palavra em questão, exibindo-as no campo “escolha a tradução” (B). Em outras palavras, o campo “escolha a tradução” permite visualizar todas as possíveis traduções para a palavra em questão e selecionar a mais pertinente. No caso de “tocha”, o editor recuperou três equivalentes de tradução, “torch”, “firebrand” e “stump” (Figura 31).

58_{O campo “comentários” possibilita adicionar comentários às anotações escolhendo-se uma das opções}

disponíveis, a saber: (i) sem comentários; (ii) não é verbo, erro de anotação ; (iii) é predicado complexo; (iv) é verbo auxiliar; e (v) outros. As opções (ii), (iii) e (iv) são exclusivas para anotação de sentidos de verbos; a opção (i) é aplicável quando não há observações sobre a anotação; e a opção (v) é aplicável quando existem outros tipos de observação sobre o processo de anotação de uma palavra, incluindo dificuldades de anotação.

87 Figura 31 - Tela com “lista de traduções possíveis”

Fonte: autoria própria.

Escolhida a tradução “torch” como a mais adequada, o editor NASP++ recuperou automaticamente todos os synsets da WN.Pr que possuem esse nome como um de seus elementos constitutivos. Na Figura 32, observa-se que o editor recuperou 4 synsets e suas respectivas glosas e eventuais frases-exemplos. As glosas e as frases-exemplo auxiliam a identificaçãoo do synset que melhor codifica o conceito expresso pelo nome original em português.

Figura 32 - Tela de seleção do synset.

88 Dentre os synsets recuperados, cabe ao anotador escolher ou selecionar o que mais adequadamente representa o conceito subjacente ao nome “torch” (“tocha”). Caso os synsets constituídos pelo equivalente de tradução (“torch”), as glosas e as frases- exemplo não sejam suficientes para se definir a representação mais adequada do conceito do nome em português, o editor oferece a visualização dos hiperônimos e hipônimos dos synsets inicialmente recuperados. Essa funcionalidade corresponde aos botões “ver hiperônimos” e “ver hipônimos” do painel C da tela principal.

No caso de “torch”, o primeiro synset exibido ao anotador foi selecionado, ou seja, {torch}, cuja glosa é “a light usually carried in the hand; consists of some flammable substance”59, foi considerado adequado para rotular conceitualmente o nome “tocha” na coleção C31. Para selecionar, basta clicar no synset em questão e, na sequência, no botão “Selecionar synset” (C). O clique no botão “Selecionar synset” exibe uma janela de confirmação, cuja opção “sim” finaliza a anotação. Diante de dúvidas, o anotador pode clicar em “Não” e retornar à análise dos synsets.

Uma vez selecionado um synset, a palavra sob anotação (p.ex.: “tocha”) é destacada no campo “visualizador de textos” em “verde”, como ilustrado na Figura 33a. O destaque indica que à palavra foi associado um rótulo semântico, ou seja, um synset.

Partindo-se do pressuposto de que as diversas ocorrências de uma palavra em um texto (ou em textos que abordam mesmo assunto) tendem a ter um mesmo sentido, ressalta-se que, uma vez que uma palavra x tenha sido anotada com um sentido y, todas as demais ocorrências de x também são pré-anotados pelo editor com y. No NASP++, as demais ocorrências de x pré-anotadas com y são destacadas de “amarelo”. Na Figura 33b, por exemplo, vê-se que outra ocorrência de “tocha” foi pré-anotada com o synset selecionado para a anotação da primeira ocorrência de “tocha”. Ressalta-se aqui que a pré-anotação semântica é realizada para todas as ocorrências do nome “tocha”, independentemente de sua forma flexionada. Assim, caso ocorra o nome “tochas”, este também será pré-anotado. Ao anotador humano, cabe a tarefa de verificar se, de fato, o sentido/synset pré-anotado é pertinente para as diferentes ocorrências.

59_{Tradução da glosa de {torch}.}

89 Figura 33 - Anotação da 1a_{ocorrência de “tocha” e pré-anotação das demais}

(a)

(b)

Fonte: autoria própria.

Após a anotação de todos os nomes pertinentes de uma coleção, a ferramenta salva os textos-fonte anotados no formato XML (do inglês, Extensible Markup Language), um dos mais utilizados para a tarefa de anotação de corpus. Ademais, o NASP++ gera uma estrutura conceitual a partir dos synsets utilizados na anotação e das relações herdadas da WN.Pr.

Quanto à estrutura conceitual, especificamente, a cada conceito/synset x selecionado para a anotação de nome de um cluster, o editor obtém da WN.Pr: (i) os hipônimos imediatos de x, (ii) os co-hipônimos (isto é, synsets do mesmo nível de x e filhos do mesmo hiperônimo de x) de x, (iii) o hiperônimo imediato, os intermediários e o top-concept (ou seja, o hiperônimo mais genérico de x que inicia a hierarquia de que x parte no sentido top-down) de x. Em outras palavras, o NASP++ recupera toda a

90 hierarquia conceitual da qual o conceito/synset x é parte integrante, gerando uma árvore parcial interna.

Esse processo é repetido a cada conceito/synset distinto selecionado para anotar um nome em português. Ao final, as árvores parciais, referentes aos diferentes conceitos/synsets de um cluster, são unificadas em uma hierarquia final, que representa conceitualmente o conteúdo dos textos-fonte de um cluster. O arquivo que contém a hierarquia final é salvo automaticamente em formato XML pelo editor. Na Figura 34, apresenta-se a hierarquia do conceito “medalha” (do inglês, medal), que é representado na WN.Pr pelo synset {decoration, laurel wreath, medal, medallion, palm, ribbon}. Os synsets que pertencem ao mesmo nível de “medalha”, como {Prix Congourt}, {trophy}, {...} e {aliyah}, são seus co-hiperônimos. O synset que pertence ao nível imediatamente superior a “medalha” (e a seus co-hipônimos), no caso, {award, accolade, honor, honour, laurels, symbol}, é chamado de hiperônimo imediato. Os synsets que compõem os demais níveis, desde {symbol} até {entity} são também hiperônimos de “medalha”. Vale lembrar que os hiperônimos são itens lexicais que expressam conceitos mais genéricos ou amplos. Por fim, os synsets de nível inferior a “medalha”, como {Medal of Honor, Congressional Medal of Honor}, {Navy Cross} e {Air Medal} são hipônimos, expressando conceitos mais específicos que (ou tipos de) “medalha”.

Figura 34 - Parte da hierarquia conceitual de C31 viaNasp++

91 A ferramenta herda todos os hipônimos e co-hipônimos (conceitos de mesmo nível hierárquico) do conceito anotado. Com base na contagem da categoria nSelect, que expressa a Simple Frequency, identificaram-se os conceitos efetivamente ativados. Por exemplo, se o atributo nSelect de um conceito x tem valor “0”, isso significa que este não ocorreu no texto, pois tal atributo expressa a frequência de anotação de um conceito. O atributo countSub funciona como um contador da hierarquia, pois é responsável por somar a frequência de todos os conceitos hipônimos, sendo que a frequência final é herdada pelos hiperônimos. Sendo assim, o conceito que está no topo terá o maior valor associado a countSub da hierarquia.

Ainda na Figura 34, nota-se que “decoration, laurel wreath, medal, medallion, palm, ribbon” é um conceito ativado com uma Simple Frequency de valor “2”, o que é indicado pelo atributo-valor countSub=“2”. Esse par atributo-valor é herdado por todos os seus hiperônimos, por exemplo, “award, accolade, honor, honour, laurels”, que tem então uma Cumulative Frequency de valor 2.

Para evitar possíveis erros do editor, todos os nomes das coleções C31 e C37 foram contabilizados manualmente com base na observação dos dados inseridos via ferramenta Cmap.

Por exemplo, na Figura 35, os conceitos que estão em negrito são os que aconteceram nos textos e, ao lado deles, tem-se a frequência de ocorrência dos mesmos. Os conceitos restantes são os que foram herdados da WN.Pr. Sendo assim, conforme a hierarquia cresce e recebe os conceitos herdados, estes recebem também o peso de seus conceitos hipônimos. A distribuição dos pesos pode ser visualmente verificada na estrutura gráfica elaborada por meio da ferramenta Cmap.

92 Figura 35 - Contabilização das frequências via Cmap

Fonte: autoria própria.

No documento Investigação de métodos de sumarização automática multidocumento baseados em hierarquias conceituais (páginas 97-105)