• Nenhum resultado encontrado

3.3 O Corpus de Estudo

3.3.2 Etiquetagem (tagging)

Após o balanceamento, o próximo passo foi etiquetar o corpus. Em sentido amplo, etiquetar um corpus é introduzir nele informações que facilitem a análise lingüística (Sanchéz-Gijon, 2004:74). Os estudos baseados em corpus introduziram nos estudos lingüísticos descritivos ferramentas eletrônicas que nos permitem realizar análises cada vez mais automatizadas do texto, reduzindo, assim, muito do trabalho manual tedioso muitas vezes associado a esse tipo de estudo (Kennedy, 1998:204).

A literatura emprega, também, o termo annotation que é o processo de inserir informações em um corpus e é usado para incluir tagging, parsing e outras formas de anotação (Hunston, 2002:79). Há diversas formas de anotação: a morfossintática, semântica, discursiva, entre outras, que não serão discutidas aqui por fugirem do escopo deste trabalho.

No caso deste estudo, usaremos indistintamente os termos “anotação”, “etiquetagem” e/ou tagging para nos referir ao tipo de anotação adotada, que é a gramatical, definida por Hunston (2002:8):

A etiquetagem [tagging] consiste em atribuir uma etiqueta que representa a categoria gramatical de cada palavra no corpus. Por exemplo, a palavra light receberá uma etiqueta de verbo, substantivo ou adjetivo cada vez que ela ocorrer no corpus61.

61 Tagging means allocating a part of speech (POS) label to each word in a corpus. For example, the word light is tagged as either a verb, a noun or an adjective each time it occurs in the corpus.

MATERIAIS E MÉTODOS -79

O processo de etiquetar e inserir informações em um corpus reflete nos resultados obtidos, pois torna esse corpus uma fonte de informação lingüística muito mais rica (Leech, 1997:2 apud Hunston, 2002:79-80):

[...] um corpus etiquetado tem muitas utilidades. O exame de linhas de concordância para uma palavra que possui diversas acepções pode ser facilitado se a classe gramatical for especificada, [..] as freqüências relativas das diversas categorias gramaticais de uma determinada palavra podem ser comparadas, [pois] [...] não raro os colocados de uma palavra dependem da classe gramatical62. A autora afirma, ainda, que a partir de um corpus etiquetado é possível calcular a freqüência de seqüências de etiquetas para comparar diversos corpora (Hunston, 2002:82). No nosso caso específico, poderíamos, por exemplo, comparar as seqüências de etiquetas dos binômios obtidos na nossa pesquisa com outros corpora etiquetados para estabelecer, entre outras coisas, se ocorrem com a mesma freqüência e nos mesmos padrões lingüísticos.

Entretanto, é preciso que a etiquetagem seja feita automaticamente, sob risco de o trabalho de inserir as etiquetas manualmente inviabilizar a exploração de corpora grandes ou mesmo anular as vantagens de ter um corpus etiquetado (Hunston, 2002:83). Assim, na última década, houve muito esforço no sentido de desenvolver softwares e processos para a anotação automática de corpora (Kennedy, 1998:204).

Hunston (2002:83) elucida que:

[...] os programas que atribuem etiquetas adotam uma combinação de dois princípios: o das regras que regem classes gramaticais e o da probabilidade. [...] Quando a aplicação das regras não permite identificar a classe gramatical, muitos etiquetadores usam a probabilidade, baseada na freqüência total da palavra e da classe gramatical.63

A etiquetagem morfossintática ou part-of-speech tagging (POS tagging) consiste em inserir, por meio de um programa de computador, em

62

[…] a tagged corpus has various uses. Looking at the concordance line for a word with several senses can be made much simpler if the word-class is specificed [...] relative frequencies of different parts of speech for a specific word can be compared […] often collocations of a word depend on its word-class […] more sophisticated uses can be made of a tagged corpus.

63 Programs that assign tags (taggers) tend to work on a mixture of two principles: rules governing word-classes and probability. […] When applying the rules fails to identify the word-class, many taggers use probability, based on the overall frequency of the word and word-class.

cada palavra (token) do corpus uma etiqueta que determina sua classe gramatical. A etiqueta, em muitos casos, é separada da palavra pelo “_”.

Abaixo um exemplo do mesmo trecho sem e com as etiquetas.

Quadro 29 - Trechos não etiquetado e etiquetado

Trecho não etiquetado extraído do documento IOAAC03

Trecho etiquetado extraído do documento IOAAC03_tagged

THEREFORE, in consideration of the foregoing and the mutual covenants and agreements herein contained

THEREFORE_RR ,_, in_II consideration_NN1 of_IO the_AT foregoing_JJ and_CC the_AT mutual_JJ covenants_NN2 and_CC agreements_NN2 herein_RR contained_VVN

Dois fatores foram determinantes para optarmos pela etiquetagem do corpus. Em primeiro lugar, a definição de binômio adotada nesta pesquisa, à luz de outras pesquisas que abordaram os binômios em corpora (Kwok, 2000; Rossini, 2005; Benor & Levy, 2006, entre outros), destaca a classificação gramatical dos componentes dessas unidades, representadas por estruturas como:

- substantivo + conjunção e/ou + substantivo - adjetivo + conjunção e/ou + adjetivo

- verbo + conjunção e/ou + verbo - advérbio + conjunção e/ou + advérbio - preposição + conjunção e/ou + preposição.

Em segundo lugar, extrair os binômios a partir de um corpus não etiquetado é problemático por causa da quantidade de ruído que acompanha os resultados das buscas, pois as opções de busca são limitadas. A única possibilidade que encontramos de levantar os binômios foi por meio de uma busca das conjunções and e or usando a ferramenta Wordlist, que busca todas as ocorrências de and ou or, e em seguida usar a ferramenta Cluster, que identifica grupos de palavras que ocorrem nos arredores da palavra de busca e os reúne por freqüência.

Entretanto, as conjunções buscadas, evidentemente, nem sempre fazem parte de um binômio, e os grupos reunidos pela ferramenta Clusters nem sempre contêm as referidas conjunções. Assim, além de o ruído ser

MATERIAIS E MÉTODOS -81

significativo, o número de resultados também é excessivo – 7 179 agrupamentos para and e 7 776 para or. É o que podemos observar nas figuras abaixo.

Figura 6 - Resultado parcial produzido pela ferramenta Clusters para a busca de “and”

Figura 7 - Resultado parcial produzido pela ferramenta Cluster para a busca de “or”

Pelas razões expostas acima, optamos por etiquetar o corpus, e o etiquetador escolhido foi o CLAWS 7 sobre o qual falaremos no próximo item.

MATERIAIS E MÉTODOS -83