3. Método para a especificação multilingue de ontologias
3.1. Objectivos e justificação do método
3.3.1.2. Corpus Textual
experiência da gestão de terminologia e da organização e representação do conhecimento
de um dado domínio ‐ com as competências dos especialistas, advindas do seu
conhecimento do domínio e da sua capacidade para o representar através de um sistema
conceptual.
Nesta etapa, a terminologia e o terminólogo representam um papel fundamental na
adequação e transposição da informação terminológica e conceptual entre os diferentes tipos de recursos de conhecimento disponíveis e no auxílio à estruturação e representação
dos conceitos provenientes de diferentes fontes, bem como no processo da sua avaliação e
validação por parte dos especialistas.
Por outro lado, o terminólogo pode auxiliar na promoção da comunicação entre especialistas, de modo a que explicitem as decisões e identifiquem falhas na organização conceptual, sobretudo ao nível dos conceitos não representados. O terminólogo pode, ainda, agir de modo a que os recursos sejam apresentados e analisados por etapas, de
acordo, por exemplo, com a sua relevância e abrangência, de forma a não haver um excesso
de elementos em análise em simultâneo.
3.3.1.2. Corpus Textual
Quando construímos um sistema conceptual ou uma ontologia, o recurso à língua natural é inevitável, uma vez que é através dela que manifestamos verbalmente as definições dos conceitos, por via dos termos. O acesso ao discurso do especialista torna‐se, assim, um elemento importante, sendo através do texto de especialidade que o especialista contribui de forma decisiva para a evolução do conhecimento; é a ele que o especialista
recorre para transmitir e aceder a esse mesmo conhecimento.
Revisitando as palavras de Costa (2010: 02) o saber que o indivíduo detém sobre uma ciência consiste, na essência, “no conhecimento e na capacidade de criação de discursos e de textos que poderão servir de referência a outros ou a futuros membros da comunidade científica”. No entanto, e como deixa claro a autora, o texto também é o espaço do debate,
especialistas, é o espaço da construção da polissemia, da ambiguidade, da sinonímia, da imprecisão voluntária ou involuntária” (Costa, 2005: 09).
A autora vai mais além e aponta grandes dificuldades no recurso ao texto para o
desenvolvimento de um trabalho terminológico de base conceptual e para a representação
do conhecimento, tal como já referimos no ponto 1.4.1. No entanto, e apesar das dificuldades reconhecidas e dos cuidados necessários na análise dos resultados obtidos quando recorremos ao texto e extraímos informação para efeitos de conceptualização de
um domínio ou para a construção de ontologias, consideramos a existência de um corpus
textual como um meio que permite a obtenção de resultados interessantes95 capazes de auxiliar no processo de organização e representação do conhecimento de um domínio específico. O recurso ao corpus textual é, na nossa perspectiva, importante sobretudo se
usado como parte de abordagem mista, que considere a primazia da perspectiva conceptual
mas que complemente esta com a linguística, tal como explicitámos no ponto 1.4.2.
O recurso a um corpus textual96 que contribua para a identificação dos candidatos a
termos ou de contextos ricos em informação, pode tornar‐se um meio importante para o
desenvolvimento do processo de conceptualização do domínio em estudo. Como afirma Budin (2006), a existência de um corpus contribui para que se proceda a uma análise conceptual, ao explicitar a dimensão semântica, i.e. o significado dos termos. A existência de um corpus pode contribuir ainda noutros aspectos da construção e representação do
conhecimento, nomeadamente: 1. Help negotiate a common understanding of terms in transdisciplinary and transcultural discourse, 2. Reduce unnecessary synonyms, disambiguate polysems, help separate homonyms, 3. Support knowledge sharing and knowledge transfer in cooperative work environments, 95 Esta perspectiva é partilhada por diferentes autores como Lino (1996), Wright (1997), Cabré (1999, 2004, 2005), Budin (2004, 2007), Temmerman (2001, 2003), Condamines (2007) ou Despres e Szulman (2008). 96 Na perspectiva de Lino (1996: 30), um corpus textual serve de base a um sem número de pesquisas e pode
prosseguir uma variedade de objectivos, como a selecção e observação do comportamento de unidades terminológicas ou a selecção de contextos, entre outros. A identificação e selecção das unidades terminológicas constituem, para Wright (1997a:14), o primeiro passo na compreensão dos elementos específicos que constituem e enformam uma língua de especialidade. Este primeiro passo torna‐se, depois, um elemento num processo contínuo de análise da evolução dessa língua e na compreensão da forma como verbaliza o conhecimento.
4. Documenting terminological usage in domain discourse (within and across disciplines, within and across languages).
5. Support cross‐cultural discourse (e.g. translation and parallel texts). (Budin, 2006)
São estes aspectos que nos levam a considerar como necessária, enquanto parte do
nosso método, a constituição e a existência de um corpus, preferencialmente do tipo comparável. Consideramos, no entanto, como Costa (2010) e Roche (2007, 2008), que o recurso ao corpus requer, para efeitos de análise e validação dos resultados obtidos, a presença de especialistas do domínio, num processo que, a nosso ver, deve assumir um cariz cooperativo e interdisciplinar. Os critérios de selecção dos tipos de texto que vão compor um corpus devem, por isso, ser precisos e distintos conforme o tipo de investigação, a sua finalidade e âmbito de estudo, para que seja possível coligir e seleccionar apenas os dados essenciais com vista a formar a amostra necessária para aceder à informação sobre o conhecimento do domínio. O
processo de compilação de um corpus exige, ainda, que se sigam certos princípios que
apontam para a sua representatividade, exaustividade, homogeneidade e adequação,
sempre associadas à pertinência e utilidade da tarefa a empreender e do domínio a representar.
Para que se atinjam essas metas com um alto grau de fiabilidade, a escolha dos textos deve ser feita em compatibilidade com os objectivos da pesquisa, para que se recolha e seleccione apenas o material necessário e se constitua a amostra desejável, sendo que um corpus textual, dependendo da função a que se destina, pode conter um ou mais tipos de
texto, todos eles produzidos com propósitos e em contextos comunicativos diferentes, que
importa ponderar97. A recolha e constituição de um corpus de especialidade, representativo
de um domínio, têm, assim, que ter em conta um conjunto de aspectos, de que se destacam o contexto profissional e cultural em que é produzido – contexto a que surge associado, de modo inextrincável, o significado. 97 A estruturação de um corpus não está isenta de alguma opacidade, como se pode verificar pelas palavras de Rastier (2004): Cependant, un corpus n’est pas plus un sac de mots qu’un nébuleux intertexte. Il est structuré d’une part en fonction d’une typologie des textes, qui se reflète dans leur codage, et d’autre part, dans chaque utilisation, par des sélections raisonnées de sous‐corpus.
Entendemos, tal como Leitner (2001: 151), que um corpus deve ser composto por
vários tipos de texto e que a sua representatividade não é uma mera questão de dimensão.
Um outro princípio importante é apontado por Biber (1993:256), para quem é essencial, no
desenho de um corpus, que os parâmetros não sejam definidos à partida de modo estanque,
a fim de que o corpus possa evoluir ciclicamente,
Assim, uma vez identificado o domínio específico e respectivos subdomínios, e delimitado o subdomínio a analisar, devem, na nossa perspectiva, ser definidas as características e critérios de selecção dos textos de especialidade98 para constituir o corpus99. No entanto, o conceito de texto de especialidade é, como descreve Costa (2005), demasiadamente genérico e complexo de forma a permitir um tratamento uniforme de todas as ocorrências de textos produzidos no seio de uma mesma comunidade científica100. Os públicos a quem se dirigem, a pluralidade das situações e o enquadramento espácio‐ temporal em que os diversos textos101 são produzidos e consumidos são tão divergentes, que se impõe, para a autora, a constituição de uma tipologia textual, ponto de vista com o qual concordamos e que assumimos como necessário na aplicação do nosso método. 98 Cabré (2007: 90) define os textos de especialidade pelas suas condições discursivas, cognitivas e linguísticas, condições que demonstram bem a natureza heterogénea dos textos de especialidade: Condiciones discursivas: las propias del escenario especializado de este tipo de comunicación Condiciones cognitivas: el tema de qué tratan y la forma precisa de tratarlo Condiciones lingüísticas: las condiciones textuales generales (precisión, concisión y sistematicidad, las dos últimas en grados diversos según las condiciones discursivas), la forma textual macro y micro del texto, y sobre todo las unidades léxicas propias del dominio de que trata el texto. 99Remígio (2010, 266) chama a atenção para a distinção entre texto e corpus que Sinclair (2004: 189) identifica ao afirmar que a distinção crucial não reside na “amount of language it contains, nor is it the nature of the content, but the methodology, the way in which you approach it”. Efectivamente, para Sinclair (2004: 189) a
observação do conjunto de textos que integram um corpus não é directa, mas mediada por ferramentas específicas “like query languages, concordancers, collocators, parsers and aligners”.
100 Para Kerremans (2005), a abordagem à classificação dos tipos de texto resulta normalmente numa
taxonomia de tipos de texto. O problema deste tipo de classificação é, para o autor, o de que a noção de tipo de texto é “of such a wide applicability that it can subsume a bewildering range of text‐form variants (Emery
1991: 567). A second common type of classification – i.e. based on text function – is also problematic as several functions may be discerned in a text. Text classification may also be based on different communicative contexts (cf. Pearson 1998) or ‘situations’ such as province or domain (see e.g. Mason 1982)”.
101
A propósito da distinção entre o conceito de texto e o de discurso, partilhamos da opinião de Costa (2005), para quem texto e discurso mantêm uma relação de interdependência, não podendo um ser pensado sem o outro uma vez que o discurso actualizado apresenta‐se, geralmente, sob forma de texto. Falar em texto, implica a noção de discurso que foi proferido por um indivíduo, num espaço e num tempo específicos. Costa cita (Ricoeur, 1986: 137) que perspectiva o texto como «[…] tout discours fixé par l’écriture».
O estabelecimento de uma tipologia implica a classificação e a reunião de um
conjunto de textos, que mantêm entre si relações “de semelhança ao nível das respectivas
macro e/ou microestruturas, sob uma mesma etiqueta, através da identificação de regularidades de um conjunto de textos, por oposição às regularidades de outros conjuntos” (Costa, 2005)102.
Na nossa opinião, a existência de uma tipologia constitui um auxílio para o processo
de selecção e compilação do corpus, quer no caso de um corpus especializado monolingue
quer no caso de corpora comparáveis, uma vez que permite agrupar e estruturar melhor o
próprio corpus e atestar a sua representatividade e abrangência, sobretudo no caso de domínios complexos e interdisciplinares. Contribui, também, para o processo de consulta, extracção e análise da informação terminológica, que pode, de acordo com as necessidades de pesquisa, incidir apenas sobre um dos tipos de textos, sendo os resultados obtidos mais contextualizados e mais facilmente acessíveis103, auxiliando assim, por exemplo, na desambiguação de termos polissémicos ou na clarificação do uso desses termos, ao torná‐los mais explícito. No que se refere aos recursos que devem constituir o corpus somos de opinião que
existe uma relação de complementaridade entre ambos. Os recursos linguísticos e semânticos constituem‐se como elementos relevantes para a extracção e análise da informação do corpus textual, ao fornecerem pistas para o processo de extracção, elementos de comparação e, em última análise, de revisão e validação dos resultados obtidos. Por seu lado, os resultados obtidos a partir do corpus textual podem ajudar no processo de interpretação, delimitação e validação da informação disponibilizada por cada um dos restantes recursos, tornando‐se, assim, em elementos relevantes para a construção e validação da representação conceptual. 102 Para a autora, é na “identificação, designação e classificação das regularidades, que podem ser da ordem do
sociológico, do psicológico, do histórico ou do linguístico, entre outros, que se situa a essência da problemática da tipologia”.
103 Esta situação pode acontecer, por exemplo, num domínio cuja actividade seja fortemente afectada por
legislação específica, sendo assim necessário identificar e recolher textos do tipo jurídico, cujo conjunto poderá ser usado de modo independente para observar e validar candidatos a termos ou analisar o seu funcionamento e o seu significado em contextos específicos e situados.
3.4. Papel do terminólogo
No seio de uma rede colaborativa, a presença de um terminólogo pode funcionar
como um elemento importante no apoio ao acesso, partilha e disseminação do
conhecimento do domínio. Tendo em conta a situação sociocultural da rede, e os ambientes
sociolinguísticos, macro e micro (Cabré, 1999: 18), em que o terminólogo actua, as suas funções e o grau de intervenção na análise e estruturação do conhecimento e na construção da ontologia, bem como na sua especificação multilingue, podem, no entanto, ter graus diferenciados.
Ao terminólogo cabe, tendo em conta as diferentes etapas do processo de conceptualização, preparar, facilitar ou conduzir o processo de elicitação e negociação do conhecimento entre os especialistas104, por exemplo, através da identificação e
disponibilização de recursos relevantes que apoiem esta negociação, promovam o
consenso105 ‐ como recursos e fontes internacionais comummente aceites – e limitem as divergências semânticas entre línguas ou entre terminologias do domínio.
O especialista e o terminólogo estabelecem um diálogo e interagem num contexto
definido, sendo, segundo Costa (2010: 05), a mediação entre o terminólogo e os especialistas feita através do texto oral, o que tem a vantagem de reunir os dois
intervenientes numa situação sócio‐pragmática precisa em que o contexto extralinguístico
partilhado “dissout les ambigüités et les reformulations discursives sont frequentes”.
No entanto, este diálogo nem sempre é fluído. De facto, ao terminólogo não compete saber tudo106. Tal como se deixa claro no ISO/TR 22134 (2007: 15), os terminólogos não podem prever todas as decisões. Podem errar nas suas escolhas terminológicas e
104
O terminólogo é, por natureza das suas funções, um harmonizador (…) linguístico, por descrever o vocabulário técnico e científico, um harmonizador de conhecimento, por estruturar esse conhecimento e organizá-lo de modo a permitir a sua compreensão, e um harmonizador social, por interpretar a informação e facilitar a circulação da mesma em contextos comunicativos e sociais heterogéneos. (Romualdo, 2010: 06)
105 Tal como refere o relatório técnico Pratical Guidelines for Socioterminology, ISO/TR 22134 (2007: 15): The
speakers in a given professional medium will have a greater propensity to use the terms appearing in a standard if they know that the choice has been made by their peers. One of the possible responses to the question of implantability of the terminology is to prepare it with the users, as a function of their communication requirements.
106 Dubuc, em 1987, sintetizava assim o perfil do teminólogo: “Fireman, safeguard, grammarian on duty,
walking dictionary, language agent, gallicization force, high‐quality communications promoter, a terminologist must be a bit of each…”