• Nenhum resultado encontrado

NeoTrack (Maarten Janssen, 2004) 94

No documento Neologia de imprensa do português (páginas 116-122)

2.3   O processo de deteção de neologismos no ONP 82

2.3.1   Deteção semiautomática 83

2.3.1.2   Ferramentas usadas no ONP 91

2.3.1.2.2   NeoTrack (Maarten Janssen, 2004) 94

 

A   deteção   semiautomática   de   neologismos,   como   foi   referido,   pressupõe   a   existência   de   uma   ferramenta   que   assista   esse   trabalho.   O   NeoTrack   é   uma   ferramenta   em   linha,   criada   por   Maarten   Janssen   em   dezembro   de   2004,   que   permite   a   deteção   semiautomática   de   neologismos.   Grosso   modo,   esta   deteção   é   feita   através   do   resultado   da   comparação   automática   de   duas   listas:   o   corpus   de   extração  e  o  corpus  de  exclusão.  

Por  corpus  de  extração,  neste  contexto,  entende-­‐se  o  conjunto  de  textos  de   imprensa   que,   em   formato   .txt   ou   .html,   é   carregado   no   NeoTrack   e   que,   posteriormente,   é   comparado   com   a   lista   de   exclusão,   ou   seja,   a   lista   de   palavras   correntes   devidamente   atestadas113   e   reconhecidas   como   pertencentes   a   uma  

determinada   língua,   resultando,   deste   cruzamento,   uma   terceira   lista   de   unidades   que   não   se   encontram   na   lista   de   exclusão   e   que   se   encontram   nos   textos   de   imprensa  e  que  são  os  candidatos  a  neologismo.  

Como   referido,   o   corpus   de   exclusão   do   ONP   é   constituído   por   recursos   lexicográficos  (Dicionário  da  Língua  Portuguesa  Contemporânea,  Grande  Dicionário  

da   Língua   Portuguesa   e   Dicionário   Houaiss   da   Língua   Portuguesa)   e   textuais  

(CETEMPúblico  e  Redip);  contudo,  para  o  funcionamento  automático  da  ferramenta   é   necessária   uma   lista,   em   formato   digital,   que   inclua   as   entradas   e   subentradas   presentes  nas  nomenclaturas  destes  dicionários  e  todas  as  suas  formas  flexionadas,   pois   só   deste   modo   é   possível   identificar   as   palavras   tal   como   estas   ocorrem   nos   seus  contextos.    

A  lista  de  exclusão,  em  formato  digital,  que  funciona  integrada  no  NeoTrack  é   a  lista  do  atual  Vocabulário  Ortográfico  do  Português,  integrada  no  Portal  da  Língua  

Portuguesa114   e   que   inicialmente   se   chamava   MorDebe115   (cf.   2.2.2.3).   Tal   como   referido  em  Janssen  (2005):  

         

113  Dicionarizadas  ou  com  elevada  frequência  em  corpora  de  referência  do  português  europeu.   114  http://www.portaldalinguaportuguesa.org/  [25  de  abril  de  2010]  

NeoTrack  is  integrated  with  a  morphological  database  called  MorDebe  (Janssen   2005a;  Janssen  2005b).  MorDebe  is  a  large-­‐scale  lexical  resource  which  contains   a   large   amount   of   correct   portuguese   words,   including   all   their   inflected   forms.116    

   

Apesar   de   ter   sido   concebida   originalmente   para   servir   o   NeoTrack117,   a  

MorDebe  era  mais  do  que  uma  lista  de  exclusão  e  evoluiu  no  sentido  de  se  tornar  o   vocabulário  ortográfico  computacional  mais  extenso  e  representativo  do  português,   integrando  palavras  de  outras  variedades  desta  língua:  do  Brasil,  de  Moçambique,  de   Angola,   da   Guiné-­‐Bissau,   de   Cabo   Verde,   de   São   Tomé   e   Príncipe,   de   Macau   e   de   Timor-­‐Leste.  Em  2010  tornou-­‐se  o  Vocabulário  Ortográfico  do  Português,  alterando,   além  do  aumento  das  palavras  que  o  compõem,  a  sua  denominação  para  VOP118.  O  

Vocabulário   Ortográfico   do   Português   e   o   conversor   Lince   foram   oficializados   pela  

Resolução   do   Conselho   de   Ministros   n.º   8/2011   do   dia   25   de   janeiro   de   2011119   como  as  ferramentas  para  aplicação  do  Acordo  Ortográfico.  Este  vocabulário  contém   palavras  atestadas  nas  fontes  de  consulta  de  referência  para  a  língua  portuguesa  e   ainda   algumas   das   palavras   que   são   descartadas   pelo   NeoTrack   por   conterem   elevada  frequência  nos  corpora  de  referência  consultados.    

Na   maioria   dos   casos,   os   falsos   candidatos   são   erros   ortográficos,   que,   por   razões   óbvias,   não   figuram   no   corpus   de   exclusão;   no   entanto,   há   também   outras   unidades   que   não   são   consideradas   neologismos   por   se   tratar   de   nomes   próprios,   gralhas,  endereços  de  Internet  ou  emails.  À  exceção  destes  candidatos  rejeitados,  o   NeoTrack   devolve,   para   análise,   muitas   unidades   que,   não   apresentando   qualquer   tipo  de  erro,  não  podem  ser  consideradas  neologismos,  pois  representam  processos   perfeitamente  regulares  de  produtividade  lexical,  não  representando  nenhum  tipo  e  

116   “O   NeoTrack   está   integrado   na   base   de   dados   morfológicos   MorDebe   (Janssen   2005a;   Janssen   2005b).   A  

MorDebe  é  um  recurso  lexical  de  grande  escala  que  contém  uma  grande  quantidade  de  palavras  do  português,   incluindo  todas  as  suas  formas  flexionadas.”  [tradução  minha]    

117  Para  um  conhecimento  mais  pormenorizado  do  desenho  e  estrutura  do  programa  de  base  do  Neotrack  cf.  

Janssen  (2005  a)).  

118  Esta  integração  tem  como  base  a  construção  de  uma  rede  aberta  de  informação  lexical  da  autoria  de  Maarten  

Janssen  denominada  de  OSLIN.  O  OSLIN  é  uma  iniciativa  para  construir  recursos  lexicais,  em  larga  escala,  para   uma   variedade   de   línguas.   As   bases   de   dados   são   construídos   por   equipas   nativas   dessas   línguas   e   com   experiência  lexicográfica,  preferencialmente,  desenvolvidos  no  país  ou  região  onde  a  língua  é  falada.  A  estrutura   do  OSLIN  apresenta-­‐se  já  com  a  estrutura  de  uma  base  de  dados,  uma  interface  em  linha  para  consulta  e  um   sistema   de   administração   em   linha.   O   design   do   banco   de   dados   é   modular,   permitindo   que   novos   tipos   de   informação   sejam   adicionados   à   rede.   Por   padrão,   o   sistema   utiliza   as   mesmas   ferramentas   para   todos   os   idiomas,  mas  é  possível  a  inclusão  de  ferramentas  específicas  para  casos  particulares.  

inovação   (cf.   1.6)   e   que   são,   na   maior   parte   dos   casos,   advérbios   em   –mente,   diminutivos   ou   aumentativos.   Estas   unidades   detetadas   pelo   NeoTrack   eram   acrescentadas   ao   corpus   de   exclusão   e   no   tratamento   de   um   outro   texto   de   imprensa  já  não  seriam  apresentadas  como  candidatos,  pois  passariam  a  constituir  a   lista   de   exclusão   reduzindo,   deste   modo,   o   número   de   falsos   candidatos   a   neologismos.  Com  a  oficialização  do  VOP  este  passou  a  ser  um  recurso  fechado,  pelo   que  não  lhe  são  atualmente  acrescentadas  palavras  novas,  pelo  menos  não  de  forma   sistemática.  O  tratamento  dos  neologismos  passou  assim  a  ser  feito  numa  versão  de   trabalho  do  VOP  própria  para  o  efeito.  

Trata-­‐se   de   uma   ferramenta   que   não   foi   desenhada   para   trabalhar   com   nenhum   tipo   específico   de   conceito   de   neologismo,   pois   a   identificação   de   um   neologismo   será   sempre   condicionada   pelas   características   da   lista   de   exclusão   utilizada   e   ainda   pelas   decisões   feitas   manualmente   através   da   verificação   e   validação  por  elementos  especializados  da  equipa  que  colabora  no  ONP,  sendo  cada   candidato   julgado   individualmente,   razão   pela   qual   se   considera   o   NeoTrack   uma   ferramenta  semiautomática  e  não  automática.    

A  lista  de  exclusão  sobre  a  qual  esta  ferramenta  opera  contém,  atualmente   (em  fevereiro  de  2012),  cerca  de  211  000  entradas  que  correspondem  a  1,5  milhões   de  formas  flexionadas.    

 

Na   página   de   abertura   do   NeoTrack   temos   acesso   às   seguintes   opções   que   podem  ser  selecionadas:  

a) Sobre   o   NeoTrack   –   nesta   ligação   são   dadas   informações   detalhadas   sobre  o  funcionamento  básico,  sobre  as  opções  relativas  aos  candidatos  e   sobre  a  ferramenta.  

b) Carregamento   de   novos   corpora   –   nesta   ligação   é   possível   adicionar   novos  jornais  (em  formato  .txt  ou  em  .html  )  para  processamento.    

c) Processamento  de  corpora  em  progresso  –  neste  campo  temos  acesso  à   ficha   de   tratamento   de   cada   candidato   a   neologismo   (cf.   figura   5   e   explicação  detalhada).  

d) Pesquisa  na  base  de  dados  dos  neologismos  –  que  pode  ser  feita  através   de   diversos   campos   como:   a   forma   de   citação,   o   tipo   de   neologismo,   a  

categoria   gramatical,   a   proveniência   ou   tipo   de   empréstimo,   as   características   tipográficas,   o   editor   ou   o   ano   de   ocorrência   de   determinado  neologismo.  

e) Distribuição   dos   dados   –   através   deste   campo   pode-­‐se   aceder   à   distribuição   quantitativa   dos   neologismos   registados   por   campo,   editor,   proveniência  do  empréstimo,  categoria  gramatical  ou  tipo  de  neologismo.    

Observemos,   na   figura   5,   a   página   do   NeoTrack   com   um   candidato   a   neologismo.  

Na   figura   5   é   possível   observar   a   imagem   do   candidato   a   neologismo   “cheque-­‐cirurgia”   na   altura   do   processamento   do   corpus   em   progresso.   Assim,   podemos  observar  os  diversos  campos  da  ficha  de  cada  candidato  que  se  distribuem   em  quatro  blocos  principais:  

• Bloco  1  (linhas  superiores):  candidato  a  neologismo  e  corpus  de  extração.   • Bloco  2  (lado  esquerdo):  campo  de  validação  do  neologismo;  contexto  da  

ocorrência  original  e  fontes  para  confirmação.    

• Bloco  3  (meio):  adição  ao  corpus  exclusão  /  dicionário.  

• Bloco   4   (lado   direito):   opções   de   descartamento   do   candidato   a   neologismo.  

 

Cada  um  destes  blocos  principais  é  apresentado  de  forma  clara  e  organizada,   permitindo  identificar  de  imediato  o  candidato  a  neologismo  e  a  respetiva  fonte  e   data.   Recorrendo   aos   botões   disponíveis   no   final   da   página   pode-­‐se   verificar   o   contexto  exato  daquele  candidato  na  fonte  em  análise  ou  ainda  noutros  contextos   de  uso,  no  caso  de  existirem,  em  corpora  de  referência  ou  no  Google,  que  neste  caso   não   tem   a   função   de   verificação   de   frequência,   mas   de   pesquisa   e   conhecimento   sobre  a  palavra,  nomeadamente  para  identificar  a  sua  proveniência,  no  caso  de  se   tratar   de   um   empréstimo,   ou   de,   através   do   conhecimento   do   seu   significado,   compreender  melhor  a  sua  estrutura  interna.  Confirmado  que  este  candidato  é  um   neologismo,   preencher-­‐se-­‐ão   os   campos   destinados   à   validação   do   mesmo,   nomeadamente  a  categoria  sintática;  a  ocorrência  de  marcas  tipográficas;  o  tipo  de   neologismo;   o   tipo   de   empréstimo.   Os   restantes   campos,   como   o   do   candidato   a   neologismo   e   o   do   contexto,   aparecem   preenchidos   automaticamente,   bastando   validar  o  neologismo  e  integrá-­‐lo  na  base  de  dados  do  ONP.  Contudo,  no  caso  de  se   verificar   que   este   candidato   tem   uma   frequência   superior   a   dez   ocorrências   no  

corpus   textual,   será   adicionado   ao   dicionário,   através   do   Bloco   3,   bastando  

preencher   a   sua   categoria   gramatical   e   indicar   a   razão   da   sua   inclusão   na   lista   de   exclusão,   que   poderá   estar   relacionada   com   as   ocorrências   em   corpora   ou   com   a   presença  num  dos  dicionários  que  pertencem  ao  corpus  de  exclusão  que  possa  não   constar  no  VOP.  Este  bloco  é  muito  importante,  pois  permite  evitar  que  o  sistema   selecione  uma  outra  vez  como  candidato  uma  unidade  que  não  é  neológica.  Por  fim,  

no   Bloco   4,   existem   ainda   outras   opções   para   a   exclusão   de   candidatos   que   frequentemente  são  selecionados  pela  ferramenta,  que  podemos  observar  na  figura   6,  relativa  ao  tratamento  dado  aos  candidatos  a  neologismos  descartados.  

 

 

Figura  6  –  Exemplos  de  candidatos  descartados  no  NeoTrack  

 

Deste  modo,  de  parte  da  lista  relativa  ao  jornal  Diário  de  Notícias,  do  dia  3  de   novembro   de   2004,   podemos   ver   que   as   unidades   anglo-­‐protestante(s),  

anticivilização,   antigripe   e   antilaica,   foram   consideradas   neologismos;   as   unidades   Afeganistão,   Alexandre,   Alfred,   Andris,   etc.   marcadas   como   nomes   próprios;   a  

unidade   ante-­‐rior   como   erro   tipográfico;   a   unidade   and   como   pertencente   a   uma   citação  numa  outra  língua  que  o  contexto  permitiu  identificar;  as  unidades  90%em,  

acpinto53@hotmailcom,  aguarda-­‐,  aplicá  descartadas  por  não  se  tratar  de  palavras  

(completas)   e   a   unidade   ad-­‐hoc   por   ter   registadas   105   ocorrências   no   corpus   do   CETEMPúblico,  como  comprova  a  figura  7.  

 

Figura  7  –  Exemplo  de  ocorrência  da  unidade  ad-­‐hoc  no  CETEMPúblico  

 

Como  se  pode  observar,  o  critério  lexicográfico  alargado  é  aquele  que  melhor   se   adequa   ao   trabalho   de   deteção   de   neologismos   pelas   potencialidades   que   manifesta   ao   incorporar   o   critério   lexicográfico   tradicional   com   a   verificação   em  

corpora  textuais.  

 

No documento Neologia de imprensa do português (páginas 116-122)