2.3 O processo de deteção de neologismos no ONP 82
2.3.1 Deteção semiautomática 83
2.3.1.2 Ferramentas usadas no ONP 91
2.3.1.2.2 NeoTrack (Maarten Janssen, 2004) 94
A deteção semiautomática de neologismos, como foi referido, pressupõe a existência de uma ferramenta que assista esse trabalho. O NeoTrack é uma ferramenta em linha, criada por Maarten Janssen em dezembro de 2004, que permite a deteção semiautomática de neologismos. Grosso modo, esta deteção é feita através do resultado da comparação automática de duas listas: o corpus de extração e o corpus de exclusão.
Por corpus de extração, neste contexto, entende-‐se o conjunto de textos de imprensa que, em formato .txt ou .html, é carregado no NeoTrack e que, posteriormente, é comparado com a lista de exclusão, ou seja, a lista de palavras correntes devidamente atestadas113 e reconhecidas como pertencentes a uma
determinada língua, resultando, deste cruzamento, uma terceira lista de unidades que não se encontram na lista de exclusão e que se encontram nos textos de imprensa e que são os candidatos a neologismo.
Como referido, o corpus de exclusão do ONP é constituído por recursos lexicográficos (Dicionário da Língua Portuguesa Contemporânea, Grande Dicionário
da Língua Portuguesa e Dicionário Houaiss da Língua Portuguesa) e textuais
(CETEMPúblico e Redip); contudo, para o funcionamento automático da ferramenta é necessária uma lista, em formato digital, que inclua as entradas e subentradas presentes nas nomenclaturas destes dicionários e todas as suas formas flexionadas, pois só deste modo é possível identificar as palavras tal como estas ocorrem nos seus contextos.
A lista de exclusão, em formato digital, que funciona integrada no NeoTrack é a lista do atual Vocabulário Ortográfico do Português, integrada no Portal da Língua
Portuguesa114 e que inicialmente se chamava MorDebe115 (cf. 2.2.2.3). Tal como referido em Janssen (2005):
113 Dicionarizadas ou com elevada frequência em corpora de referência do português europeu. 114 http://www.portaldalinguaportuguesa.org/ [25 de abril de 2010]
NeoTrack is integrated with a morphological database called MorDebe (Janssen 2005a; Janssen 2005b). MorDebe is a large-‐scale lexical resource which contains a large amount of correct portuguese words, including all their inflected forms.116
Apesar de ter sido concebida originalmente para servir o NeoTrack117, a
MorDebe era mais do que uma lista de exclusão e evoluiu no sentido de se tornar o vocabulário ortográfico computacional mais extenso e representativo do português, integrando palavras de outras variedades desta língua: do Brasil, de Moçambique, de Angola, da Guiné-‐Bissau, de Cabo Verde, de São Tomé e Príncipe, de Macau e de Timor-‐Leste. Em 2010 tornou-‐se o Vocabulário Ortográfico do Português, alterando, além do aumento das palavras que o compõem, a sua denominação para VOP118. O
Vocabulário Ortográfico do Português e o conversor Lince foram oficializados pela
Resolução do Conselho de Ministros n.º 8/2011 do dia 25 de janeiro de 2011119 como as ferramentas para aplicação do Acordo Ortográfico. Este vocabulário contém palavras atestadas nas fontes de consulta de referência para a língua portuguesa e ainda algumas das palavras que são descartadas pelo NeoTrack por conterem elevada frequência nos corpora de referência consultados.
Na maioria dos casos, os falsos candidatos são erros ortográficos, que, por razões óbvias, não figuram no corpus de exclusão; no entanto, há também outras unidades que não são consideradas neologismos por se tratar de nomes próprios, gralhas, endereços de Internet ou emails. À exceção destes candidatos rejeitados, o NeoTrack devolve, para análise, muitas unidades que, não apresentando qualquer tipo de erro, não podem ser consideradas neologismos, pois representam processos perfeitamente regulares de produtividade lexical, não representando nenhum tipo e
116 “O NeoTrack está integrado na base de dados morfológicos MorDebe (Janssen 2005a; Janssen 2005b). A
MorDebe é um recurso lexical de grande escala que contém uma grande quantidade de palavras do português, incluindo todas as suas formas flexionadas.” [tradução minha]
117 Para um conhecimento mais pormenorizado do desenho e estrutura do programa de base do Neotrack cf.
Janssen (2005 a)).
118 Esta integração tem como base a construção de uma rede aberta de informação lexical da autoria de Maarten
Janssen denominada de OSLIN. O OSLIN é uma iniciativa para construir recursos lexicais, em larga escala, para uma variedade de línguas. As bases de dados são construídos por equipas nativas dessas línguas e com experiência lexicográfica, preferencialmente, desenvolvidos no país ou região onde a língua é falada. A estrutura do OSLIN apresenta-‐se já com a estrutura de uma base de dados, uma interface em linha para consulta e um sistema de administração em linha. O design do banco de dados é modular, permitindo que novos tipos de informação sejam adicionados à rede. Por padrão, o sistema utiliza as mesmas ferramentas para todos os idiomas, mas é possível a inclusão de ferramentas específicas para casos particulares.
inovação (cf. 1.6) e que são, na maior parte dos casos, advérbios em –mente, diminutivos ou aumentativos. Estas unidades detetadas pelo NeoTrack eram acrescentadas ao corpus de exclusão e no tratamento de um outro texto de imprensa já não seriam apresentadas como candidatos, pois passariam a constituir a lista de exclusão reduzindo, deste modo, o número de falsos candidatos a neologismos. Com a oficialização do VOP este passou a ser um recurso fechado, pelo que não lhe são atualmente acrescentadas palavras novas, pelo menos não de forma sistemática. O tratamento dos neologismos passou assim a ser feito numa versão de trabalho do VOP própria para o efeito.
Trata-‐se de uma ferramenta que não foi desenhada para trabalhar com nenhum tipo específico de conceito de neologismo, pois a identificação de um neologismo será sempre condicionada pelas características da lista de exclusão utilizada e ainda pelas decisões feitas manualmente através da verificação e validação por elementos especializados da equipa que colabora no ONP, sendo cada candidato julgado individualmente, razão pela qual se considera o NeoTrack uma ferramenta semiautomática e não automática.
A lista de exclusão sobre a qual esta ferramenta opera contém, atualmente (em fevereiro de 2012), cerca de 211 000 entradas que correspondem a 1,5 milhões de formas flexionadas.
Na página de abertura do NeoTrack temos acesso às seguintes opções que podem ser selecionadas:
a) Sobre o NeoTrack – nesta ligação são dadas informações detalhadas sobre o funcionamento básico, sobre as opções relativas aos candidatos e sobre a ferramenta.
b) Carregamento de novos corpora – nesta ligação é possível adicionar novos jornais (em formato .txt ou em .html ) para processamento.
c) Processamento de corpora em progresso – neste campo temos acesso à ficha de tratamento de cada candidato a neologismo (cf. figura 5 e explicação detalhada).
d) Pesquisa na base de dados dos neologismos – que pode ser feita através de diversos campos como: a forma de citação, o tipo de neologismo, a
categoria gramatical, a proveniência ou tipo de empréstimo, as características tipográficas, o editor ou o ano de ocorrência de determinado neologismo.
e) Distribuição dos dados – através deste campo pode-‐se aceder à distribuição quantitativa dos neologismos registados por campo, editor, proveniência do empréstimo, categoria gramatical ou tipo de neologismo.
Observemos, na figura 5, a página do NeoTrack com um candidato a neologismo.
Na figura 5 é possível observar a imagem do candidato a neologismo “cheque-‐cirurgia” na altura do processamento do corpus em progresso. Assim, podemos observar os diversos campos da ficha de cada candidato que se distribuem em quatro blocos principais:
• Bloco 1 (linhas superiores): candidato a neologismo e corpus de extração. • Bloco 2 (lado esquerdo): campo de validação do neologismo; contexto da
ocorrência original e fontes para confirmação.
• Bloco 3 (meio): adição ao corpus exclusão / dicionário.
• Bloco 4 (lado direito): opções de descartamento do candidato a neologismo.
Cada um destes blocos principais é apresentado de forma clara e organizada, permitindo identificar de imediato o candidato a neologismo e a respetiva fonte e data. Recorrendo aos botões disponíveis no final da página pode-‐se verificar o contexto exato daquele candidato na fonte em análise ou ainda noutros contextos de uso, no caso de existirem, em corpora de referência ou no Google, que neste caso não tem a função de verificação de frequência, mas de pesquisa e conhecimento sobre a palavra, nomeadamente para identificar a sua proveniência, no caso de se tratar de um empréstimo, ou de, através do conhecimento do seu significado, compreender melhor a sua estrutura interna. Confirmado que este candidato é um neologismo, preencher-‐se-‐ão os campos destinados à validação do mesmo, nomeadamente a categoria sintática; a ocorrência de marcas tipográficas; o tipo de neologismo; o tipo de empréstimo. Os restantes campos, como o do candidato a neologismo e o do contexto, aparecem preenchidos automaticamente, bastando validar o neologismo e integrá-‐lo na base de dados do ONP. Contudo, no caso de se verificar que este candidato tem uma frequência superior a dez ocorrências no
corpus textual, será adicionado ao dicionário, através do Bloco 3, bastando
preencher a sua categoria gramatical e indicar a razão da sua inclusão na lista de exclusão, que poderá estar relacionada com as ocorrências em corpora ou com a presença num dos dicionários que pertencem ao corpus de exclusão que possa não constar no VOP. Este bloco é muito importante, pois permite evitar que o sistema selecione uma outra vez como candidato uma unidade que não é neológica. Por fim,
no Bloco 4, existem ainda outras opções para a exclusão de candidatos que frequentemente são selecionados pela ferramenta, que podemos observar na figura 6, relativa ao tratamento dado aos candidatos a neologismos descartados.
Figura 6 – Exemplos de candidatos descartados no NeoTrack
Deste modo, de parte da lista relativa ao jornal Diário de Notícias, do dia 3 de novembro de 2004, podemos ver que as unidades anglo-‐protestante(s),
anticivilização, antigripe e antilaica, foram consideradas neologismos; as unidades Afeganistão, Alexandre, Alfred, Andris, etc. marcadas como nomes próprios; a
unidade ante-‐rior como erro tipográfico; a unidade and como pertencente a uma citação numa outra língua que o contexto permitiu identificar; as unidades 90%em,
acpinto53@hotmailcom, aguarda-‐, aplicá descartadas por não se tratar de palavras
(completas) e a unidade ad-‐hoc por ter registadas 105 ocorrências no corpus do CETEMPúblico, como comprova a figura 7.
Figura 7 – Exemplo de ocorrência da unidade ad-‐hoc no CETEMPúblico
Como se pode observar, o critério lexicográfico alargado é aquele que melhor se adequa ao trabalho de deteção de neologismos pelas potencialidades que manifesta ao incorporar o critério lexicográfico tradicional com a verificação em
corpora textuais.