• Nenhum resultado encontrado

3. Método para a especificação multilingue de ontologias

3.1. Objectivos e justificação do método

3.3.1.2. Corpus Textual

experiência da gestão de terminologia e da organização e representação do conhecimento 

de  um  dado  domínio  ‐  com  as  competências  dos  especialistas,  advindas  do  seu 

conhecimento do domínio e da sua capacidade para o representar através de um sistema 

conceptual. 

Nesta etapa, a terminologia e o terminólogo representam um papel fundamental na 

adequação  e  transposição  da  informação  terminológica  e  conceptual  entre  os  diferentes  tipos de recursos de conhecimento disponíveis e no auxílio à estruturação e representação 

dos conceitos provenientes de diferentes fontes, bem como no processo da sua avaliação e 

validação por parte dos especialistas. 

Por  outro  lado,  o  terminólogo  pode  auxiliar  na  promoção  da  comunicação  entre  especialistas,  de  modo  a  que  explicitem  as  decisões  e  identifiquem  falhas  na  organização  conceptual,  sobretudo  ao  nível  dos  conceitos  não  representados.  O  terminólogo  pode,  ainda,  agir  de  modo  a  que  os  recursos  sejam  apresentados  e  analisados  por  etapas,  de 

acordo, por exemplo, com a sua relevância e abrangência, de forma a não haver um excesso 

de elementos em análise em simultâneo. 

 

3.3.1.2. Corpus Textual   

Quando  construímos  um  sistema  conceptual  ou  uma  ontologia,  o  recurso  à  língua  natural  é  inevitável,  uma  vez  que  é  através  dela  que  manifestamos  verbalmente  as  definições dos conceitos, por via dos termos. O acesso ao discurso do especialista torna‐se,  assim, um elemento importante, sendo através do texto de especialidade que o especialista  contribui  de  forma  decisiva  para  a  evolução  do  conhecimento;  é  a  ele  que  o  especialista 

recorre para transmitir e aceder a esse mesmo conhecimento. 

 Revisitando  as  palavras  de  Costa  (2010:  02)  o  saber  que  o  indivíduo  detém  sobre  uma ciência consiste, na essência, “no conhecimento e na capacidade de criação de discursos  e de textos que poderão servir de referência a outros ou a futuros membros da comunidade  científica”. No entanto, e como deixa claro a autora, o texto também é o espaço do debate, 

especialistas,  é  o  espaço  da  construção  da  polissemia,  da  ambiguidade,  da  sinonímia,  da  imprecisão voluntária ou involuntária” (Costa, 2005: 09).  

A  autora  vai  mais  além  e  aponta  grandes  dificuldades  no  recurso  ao  texto  para  o 

desenvolvimento de um trabalho terminológico de base conceptual e para a representação 

do  conhecimento,  tal  como  já  referimos  no  ponto  1.4.1.  No  entanto,  e  apesar  das  dificuldades  reconhecidas  e  dos  cuidados  necessários  na  análise  dos  resultados  obtidos  quando  recorremos  ao  texto  e  extraímos  informação  para  efeitos  de  conceptualização  de 

um domínio ou para a construção de ontologias, consideramos a existência de um corpus 

textual  como  um  meio  que  permite  a  obtenção  de  resultados  interessantes95  capazes  de  auxiliar  no  processo  de  organização  e  representação  do  conhecimento  de  um  domínio  específico.  O  recurso  ao  corpus  textual  é,  na  nossa  perspectiva,  importante  sobretudo  se 

usado como parte de abordagem mista, que considere a primazia da perspectiva conceptual 

mas que complemente esta com a linguística, tal como explicitámos no ponto 1.4.2.  

O recurso a um corpus textual96 que contribua para a identificação dos candidatos a 

termos ou de contextos ricos em informação, pode tornar‐se um meio importante para o 

desenvolvimento  do  processo  de  conceptualização  do  domínio  em  estudo.  Como  afirma  Budin  (2006),  a  existência  de  um  corpus  contribui  para  que  se  proceda  a  uma  análise  conceptual, ao explicitar a dimensão semântica, i.e. o significado dos termos. A existência de  um  corpus  pode  contribuir  ainda  noutros  aspectos  da  construção  e  representação  do 

conhecimento, nomeadamente:    1. Help negotiate a common understanding of terms in transdisciplinary and transcultural  discourse,  2. Reduce unnecessary synonyms, disambiguate polysems, help separate homonyms,  3. Support knowledge sharing and knowledge transfer in cooperative work environments,         95  Esta perspectiva é partilhada por diferentes autores como Lino (1996), Wright (1997), Cabré (1999, 2004,  2005), Budin (2004, 2007), Temmerman (2001, 2003), Condamines (2007) ou Despres e Szulman (2008).  96 Na perspectiva de Lino (1996: 30), um corpus textual serve de base a um sem número de pesquisas e pode 

prosseguir  uma  variedade  de  objectivos,  como  a  selecção  e  observação  do  comportamento  de  unidades  terminológicas  ou  a  selecção  de  contextos,  entre  outros.  A  identificação  e  selecção  das  unidades  terminológicas  constituem,  para  Wright  (1997a:14),  o  primeiro  passo  na  compreensão  dos  elementos  específicos que constituem e enformam uma língua de especialidade. Este primeiro passo torna‐se, depois,  um elemento num processo contínuo de análise da evolução dessa língua e na compreensão da forma como  verbaliza o conhecimento.  

4. Documenting  terminological  usage  in  domain  discourse  (within  and  across  disciplines,  within and across languages). 

5. Support cross‐cultural discourse (e.g. translation and parallel texts). (Budin, 2006) 

São estes aspectos que nos levam a considerar como necessária, enquanto parte do 

nosso  método,  a  constituição  e  a  existência  de  um  corpus,  preferencialmente  do  tipo  comparável.  Consideramos,  no  entanto,  como  Costa  (2010)  e  Roche  (2007,  2008),  que  o  recurso  ao  corpus  requer,  para  efeitos  de  análise  e  validação  dos  resultados  obtidos,  a  presença de especialistas do domínio, num processo que, a nosso ver, deve assumir um cariz  cooperativo e interdisciplinar.  Os critérios de selecção dos tipos de texto que vão compor um corpus devem, por  isso, ser precisos e distintos conforme o tipo de investigação, a sua finalidade e âmbito de  estudo, para que seja possível coligir e seleccionar apenas os dados essenciais com vista a  formar a amostra necessária para aceder à informação sobre o conhecimento do domínio. O 

processo  de  compilação  de  um  corpus  exige,  ainda,  que  se  sigam  certos  princípios  que 

apontam  para  a  sua  representatividade,  exaustividade,  homogeneidade  e  adequação, 

sempre  associadas  à  pertinência  e  utilidade  da  tarefa  a  empreender  e  do  domínio  a  representar. 

Para  que  se  atinjam  essas  metas  com  um  alto  grau  de  fiabilidade,  a  escolha  dos  textos deve ser feita em compatibilidade com os objectivos da pesquisa, para que se recolha  e seleccione apenas o material necessário e se constitua a amostra desejável, sendo que um  corpus textual, dependendo da função a que se destina, pode conter um ou mais tipos de 

texto, todos eles produzidos com propósitos e em contextos comunicativos diferentes, que 

importa ponderar97. A recolha e constituição de um corpus de especialidade, representativo 

de um domínio, têm, assim, que ter em conta um conjunto de aspectos, de que se destacam  o contexto profissional e cultural em que é produzido – contexto a que surge associado, de  modo inextrincável, o significado.         97 A estruturação de um corpus não está isenta de alguma opacidade, como se pode verificar pelas palavras de  Rastier (2004): Cependant, un corpus n’est pas plus un sac de mots qu’un nébuleux intertexte. Il est structuré  d’une part en fonction d’une typologie des textes, qui se reflète dans leur codage, et d’autre part, dans chaque  utilisation, par des sélections raisonnées de sous‐corpus. 

Entendemos,  tal  como  Leitner  (2001:  151),  que  um  corpus  deve  ser  composto  por 

vários tipos de texto e que a sua representatividade não é uma mera questão de dimensão. 

Um outro princípio importante é apontado por Biber (1993:256), para quem é essencial, no 

desenho de um corpus, que os parâmetros não sejam definidos à partida de modo estanque, 

a fim de que o corpus possa evoluir ciclicamente,  

Assim,  uma  vez  identificado  o  domínio  específico  e  respectivos  subdomínios,  e  delimitado  o  subdomínio  a  analisar,  devem,  na  nossa  perspectiva,  ser  definidas  as  características  e  critérios  de  selecção  dos  textos  de  especialidade98  para  constituir  o  corpus99. No entanto, o conceito de texto de especialidade é, como descreve Costa (2005),  demasiadamente  genérico  e  complexo  de  forma  a  permitir  um  tratamento  uniforme  de  todas as ocorrências de textos produzidos no seio de uma mesma comunidade científica100.  Os  públicos  a  quem  se  dirigem,  a  pluralidade  das  situações  e  o  enquadramento  espácio‐ temporal  em  que  os  diversos  textos101  são  produzidos  e  consumidos  são  tão  divergentes,  que se impõe, para a autora, a constituição de uma tipologia textual, ponto de vista com o  qual concordamos e que assumimos como necessário na aplicação do nosso método.         98 Cabré (2007: 90) define os textos de especialidade pelas suas condições discursivas, cognitivas e linguísticas,  condições que demonstram bem a natureza heterogénea dos textos de especialidade:   Condiciones discursivas: las propias del escenario especializado de este tipo de comunicación   Condiciones cognitivas: el tema de qué tratan y la forma precisa de tratarlo   Condiciones lingüísticas: las condiciones textuales generales (precisión, concisión y sistematicidad, las dos  últimas en grados diversos según las condiciones discursivas), la forma textual macro y micro del texto, y  sobre todo las unidades léxicas propias del dominio de que trata el texto.  99Remígio (2010, 266) chama a atenção para a distinção entre texto e corpus que Sinclair (2004: 189) identifica  ao afirmar que a distinção crucial não reside na “amount of language it contains, nor is it the nature of the  content, but the methodology, the way in which you approach it”. Efectivamente, para Sinclair (2004: 189) a 

observação  do  conjunto  de  textos  que  integram  um  corpus  não  é  directa,  mas  mediada  por  ferramentas  específicas “like query languages, concordancers, collocators, parsers and aligners”.

100  Para  Kerremans  (2005),  a  abordagem  à  classificação  dos  tipos  de  texto  resulta  normalmente  numa 

taxonomia de tipos de texto. O problema deste tipo de classificação é, para o autor, o de que a noção de tipo  de texto é “of such a wide applicability that it can subsume a bewildering range of text‐form variants (Emery 

1991:  567).  A  second  common  type  of  classification  –  i.e.  based  on  text  function  –  is  also  problematic  as  several functions may be discerned in a text. Text classification may also be based on different communicative  contexts (cf. Pearson 1998) or ‘situations’ such as province or domain (see e.g. Mason 1982)”. 

101

 A propósito da distinção entre o conceito de texto e o de discurso, partilhamos da opinião de Costa (2005),  para quem texto e discurso mantêm uma relação de interdependência, não podendo um ser pensado sem o  outro  uma  vez  que  o  discurso  actualizado  apresenta‐se,  geralmente,  sob  forma  de  texto.  Falar  em  texto,  implica a noção de discurso que foi proferido por um indivíduo, num espaço e num tempo específicos. Costa  cita (Ricoeur, 1986: 137) que perspectiva o texto como «[…] tout discours fixé par l’écriture».

O  estabelecimento  de  uma  tipologia  implica  a  classificação  e  a  reunião  de  um 

conjunto de textos, que mantêm entre si relações “de semelhança ao nível das respectivas 

macro  e/ou  microestruturas,  sob  uma  mesma  etiqueta,  através  da  identificação  de  regularidades de um conjunto de textos, por oposição às regularidades de outros conjuntos”  (Costa, 2005)102. 

Na nossa opinião, a existência de uma tipologia constitui um auxílio para o processo 

de selecção e compilação do corpus, quer no caso de um corpus especializado monolingue 

quer no caso de corpora comparáveis, uma vez que permite agrupar e estruturar melhor o 

próprio  corpus  e  atestar  a  sua  representatividade  e  abrangência,  sobretudo  no  caso  de  domínios complexos e interdisciplinares.  Contribui, também, para o processo de consulta, extracção e análise da informação  terminológica, que pode, de acordo com as necessidades de pesquisa, incidir apenas sobre  um dos tipos de textos, sendo os resultados obtidos mais contextualizados e mais facilmente  acessíveis103, auxiliando assim, por exemplo, na desambiguação de termos polissémicos ou  na clarificação do uso desses termos, ao torná‐los mais explícito.   No que se refere aos recursos que devem constituir o corpus somos de opinião que 

existe  uma  relação  de  complementaridade  entre  ambos.  Os  recursos  linguísticos  e  semânticos  constituem‐se  como  elementos  relevantes  para  a  extracção  e  análise  da  informação  do  corpus  textual,  ao  fornecerem  pistas  para  o  processo  de  extracção,  elementos  de  comparação  e,  em  última  análise,  de  revisão  e  validação  dos  resultados  obtidos.  Por  seu  lado,  os  resultados  obtidos  a  partir  do  corpus  textual  podem  ajudar  no  processo de interpretação, delimitação e validação da informação disponibilizada por cada  um dos restantes recursos, tornando‐se, assim, em elementos relevantes para a construção  e validação da representação conceptual.           102 Para a autora, é na “identificação, designação e classificação das regularidades, que podem ser da ordem do 

sociológico,  do  psicológico,  do  histórico  ou  do  linguístico,  entre  outros,  que  se  situa  a  essência  da  problemática da tipologia”. 

103  Esta  situação  pode  acontecer,  por  exemplo,  num  domínio  cuja  actividade  seja  fortemente  afectada  por 

legislação  específica,  sendo  assim  necessário  identificar  e  recolher  textos  do  tipo  jurídico,  cujo  conjunto  poderá  ser  usado  de  modo  independente  para  observar  e  validar  candidatos  a  termos  ou  analisar  o  seu  funcionamento e o seu significado em contextos específicos e situados. 

3.4. Papel do terminólogo   

No  seio  de  uma  rede  colaborativa,  a  presença  de  um  terminólogo  pode  funcionar 

como  um  elemento  importante  no  apoio  ao  acesso,  partilha  e  disseminação  do 

conhecimento do domínio. Tendo em conta a situação sociocultural da rede, e os ambientes 

sociolinguísticos,  macro  e  micro  (Cabré,  1999:  18),  em  que  o  terminólogo  actua,  as  suas  funções e o grau de intervenção na análise e estruturação do conhecimento e na construção  da  ontologia,  bem  como  na  sua  especificação  multilingue,  podem,  no  entanto,  ter  graus  diferenciados. 

Ao  terminólogo  cabe,  tendo  em  conta  as  diferentes  etapas  do  processo  de  conceptualização,  preparar,  facilitar  ou  conduzir  o  processo  de  elicitação  e  negociação  do  conhecimento  entre  os  especialistas104,  por  exemplo,  através  da  identificação  e 

disponibilização  de  recursos  relevantes  que  apoiem  esta  negociação,  promovam  o 

consenso105  ‐  como  recursos  e  fontes  internacionais  comummente  aceites  –  e  limitem  as  divergências semânticas entre línguas ou entre terminologias do domínio. 

O especialista e o terminólogo estabelecem um diálogo e interagem num contexto 

definido,  sendo,  segundo  Costa  (2010:  05),  a  mediação  entre  o  terminólogo  e  os  especialistas  feita  através  do  texto  oral,  o  que  tem  a  vantagem  de  reunir  os  dois 

intervenientes numa situação sócio‐pragmática precisa em que o contexto extralinguístico 

partilhado “dissout les ambigüités et les reformulations discursives sont frequentes”.  

No  entanto,  este  diálogo  nem  sempre  é  fluído.  De  facto,  ao  terminólogo  não  compete saber tudo106. Tal como se deixa claro no ISO/TR 22134 (2007: 15), os terminólogos  não  podem  prever  todas  as  decisões.  Podem  errar  nas  suas  escolhas  terminológicas  e        

104 

O terminólogo é, por natureza das suas funções, um harmonizador (…) linguístico, por descrever o vocabulário técnico e científico, um harmonizador de conhecimento, por estruturar esse conhecimento e organizá-lo de modo a permitir a sua compreensão, e um harmonizador social, por interpretar a informação e facilitar a circulação da mesma em contextos comunicativos e sociais heterogéneos. (Romualdo, 2010: 06)

105 Tal como refere o relatório técnico Pratical Guidelines for Socioterminology, ISO/TR 22134 (2007: 15): The 

speakers  in  a  given  professional  medium  will  have  a  greater  propensity  to  use  the  terms  appearing  in  a  standard if they know that the choice has been made by their peers. One of the possible responses to the  question  of  implantability  of  the  terminology  is  to  prepare  it  with  the  users,  as  a  function  of  their  communication requirements. 

106  Dubuc,  em  1987,  sintetizava  assim  o  perfil  do  teminólogo:  “Fireman,  safeguard,  grammarian  on  duty, 

walking  dictionary,  language  agent,  gallicization  force,  high‐quality  communications  promoter,  a  terminologist must be a bit of each…”