• Nenhum resultado encontrado

Descrição das atividades

No documento Tese de Doutoramento em Linguística (páginas 113-118)

MODELO BASEADO EM PROCESSOS DE VALIDAÇÃO

1. Processo relativo aos corpora e validação de corpora

1.1. Descrição das atividades

Entremos no detalhe dos aspetos relacionados com as atividades acima enunciadas para o processo relacionado com corpora e validação de corpora. As atividades descritas na tabela devem ser interpretadas de forma sequencial, tendo em

- 104 - conta que a coluna das saídas representa o resultado da transformação obtida a partir dos dados fornecidos como entradas e que o conjunto das atividades forma um ciclo de processamento de dados em informação.

1.1.1. Atividade A - Identificação das fontes textuais

Esta é a atividade que dá início ao processo, assenta principalmente no contacto direto entre o terminólogo e os seus informantes dentro da instituição. Exige um questionamento permanente dos membros da instituição por parte do terminólogo para que este possa entender o contexto da sua missão e chegar à identificação de potenciais fontes textuais com pertinência terminológica.

Com base na estipulação de objetivos gerais quanto ao tipo de corpora que deveria ser tratado para fins de extração de terminologia, foram determinados os seguintes requisitos: (1) Só poderiam ser considerados textos produzidos pela própria instituição; (2) Os textos selecionados teriam que ter um certo grau de relevância para a instituição; (3) As fontes textuais teriam que ser indicadas pelos membros da instituição. Julgamos que tornar explícitos os requisitos para cada atividade logo à partida, isto é, estabelecer as condições necessárias para a sua realização, é a forma mais segura de não haver desperdícios de tempo e de trabalho na condução do processo.

Nesta fase, é geralmente prestada muita informação oral pelos informantes das instituições, esta deve ser recolhida sob a forma de apontamentos, de gravações ou de questionários pré-elaborados para ser posteriormente analisada. Neste caso, não foi elaborado qualquer questionário por escrito (mas podia ter sido uma opção), mas foram realizadas muitas reuniões com os diversos serviços da AR para se chegar à identificação das principais fontes textuais que seriam utilizadas no projeto.

Uma vez analisadas e confrontadas as diversas fontes de informação obteve-se uma lista genérica e não organizada de textos produzidos e relevantes dentro da instituição. Este estado de conhecimento constitui o ponto de partida para a atividade seguinte.

- 105 -

1.1.2. Atividade B - Organização de corpora

Esta atividade corresponde à fase de organização dos textos, é uma etapa importante uma vez que “il est indispensable de savoir gérer d’abord les textes en tant

qu’objets de connaissances eux-mêmes. En effet, les textes doivent d’abord être organisés comme des contenants, pour ensuite en permettre l’organisation des contenus“ (Costa, Silva 2008:5). É pressuposto que está atividade ajude a selecionar o

corpus de análise (atividade seguinte), uma vez que decidimos logo à partida que não iríamos tratar todas as fontes recolhidas na atividade A, essencialmente por se tratar de um grande volume de textos e pela heterogeneidade dos mesmos (decretos, atas, declarações, inquéritos, leis, orçamentos, pareceres, programas, regulamentos, etc.).

Foi perante a constatação desta grande diversidade de textos no seio da instituição que surgiu a necessidade de encontrarmos uma forma de organizar os mesmos, com vista ao estabelecimento de prioridades para a seleção do corpus de análise (atividade C). Por isso, o que é pretendido com esta atividade B de organização de corpora é de conseguir pôr alguma ordem nos textos.

Os requisitos estipulados para esta atividade foram: (1) Considerar apenas os textos ditos fundamentais para a instituição; (2) Considerar apenas os textos produzidos, atualizados e consultados com frequência dentro da instituição; (3) Organização dos textos por ordem de importância dentro da instituição.

A partir destes requisitos, foi elaborada com a ajuda dos informantes da Assembleia uma proposta de classificação dos textos que teve por base o quadro referencial da instituição assim como o estatuto que os diversos textos assumiam relativamente à sua importância, dentro da instituição.

Assim, passamos de uma lista não organizada de textos produzidos e relevantes dentro da instituição para uma lista organizada de textos de acordo com os critérios:

- 106 -

1.1.3. Atividade C - Seleção do corpus de análise

Esta atividade tem como principal objetivo a seleção do corpus de análise para extração de terminologia. Com base no trabalho de organização dos textos da atividade anterior, foi possível chegar a uma restrição do corpus com base nos requisitos: (1) Textos fundamentais e importantes para os objetivos do projeto; (2) Textos provenientes de fontes fiáveis e atualizadas; (3) Textos originais em PT; (4) Textos com traduções oficiais em EN e FR57.

Ao acrescentar os requisitos (3) e (4) a esta atividade limitamos a seleção do corpus de análise aos textos fundamentais e que apresente o grau de importância institucional para responder às exigências do projeto e para o qual existisse já traduções oficiais reconhecidas pela Assembleia da República.

Contemplando todos os requisitos, o corpus de análise selecionado para a extração de terminologia foi o seguinte, por ordem alfabética dos títulos dos textos:

- Constituição da República Portuguesa (2005)58 - Estatuto do Direito de Oposição (1998)

- Estatuto dos Deputados (2005)

- Lei das Precedências do Protocolo do Estado Português (2006) - Lei de Acompanhamento dos Assuntos Europeus (2006)

- Lei de Organização e Funcionamento dos Serviços da Assembleia da República (2003)

- Lei dos Partidos Políticos (2003)

- Regime Jurídico dos Inquéritos Parlamentares (1997) - Regimento da Assembleia da República (2003)

- Resolução dos Grupos Parlamentares de Amizade (2003)

1.1.4. Atividade D - Alimentação do corpus de análise

Esta atividade tem por objetivo a alimentação periódica do corpus selecionado para extração de terminologia, sempre de acordo com os requisitos pré-estabelecidos,

57 As versões em inglês e francês serviram a formar um corpus paralelo (PT-EN e PT-FR) para a

identificação de equivalentes, esta componente não será objeto de descrição neste processo uma vez que este ponto da metodologia não foi da responsabilidade da CLUNL, ficou a cargo do serviço de tradução da AR.

- 107 - mantendo-se os requisitos (3) (4) e (5) semelhantes aos da atividade C, e introduzindo novos requisitos que são: (1) Adição ao corpus de análise de novos textos fundamentais e importantes para os objetivos do projeto, como foi por exemplo o caso dos seguintes textos que vieram aumentar o corpus numa fase ulterior do projeto:

- Estatuto do Direito de Petição (2003)

- Iniciativa Legislativa dos Cidadãos (2003)

- Resolução dos Grupos Parlamentares de Amizade (2003)

(2) Atualização do corpus de análise com os textos que sofreram alterações por força das revisões a que estes são ciclicamente sujeitos na Assembleia, em consequência da atividade legislativa. Foi por exemplo o caso dos seguintes textos:

- Estatuto dos Deputados (2005), (2007), (2009)

- Estatuto do Direito de Petição (2003), (2007)

- Lei de Organização e Funcionamento dos Serviços da Assembleia da República (2003), (2010)

- Lei dos Partidos Políticos (2003), (2008)

- Regime Jurídico dos Inquéritos Parlamentares (1997), (2007) - Regimento da Assembleia da República (2003), (2007), (2010)

A atualização regular do corpus de análise, por via das diversas versões dos textos, também confere ao nosso corpus a característica de ser um corpus constituído em diacronia, formado pelas atualizações sucessivas dos textos parlamentares. Trata- se de um corpus em aberto que se pretende dinâmico, sensível à evolução dos textos, em constante atualização e que pode ser enriquecido sempre que necessário desde que passe pelo crivo da aprovação dos informantes da instituição.

Por fim, julgamos pertinente mencionar que se trata do primeiro corpus de especialidade constituído por textos parlamentares em língua portuguesa e validado pela instituição a que pertence.

O conjunto dos textos está disponível online através da base de dados textual da BDTT-AR59. É possível pesquisar qualquer forma linguística num ou em vários textos em simultâneo e obter o número de ocorrências da forma pesquisada no total do

- 108 - corpus ou em cada um dos textos, tal como ilustra a figura que se segue com a forma “votação” que apresenta um total de 364 ocorrências no conjunto do corpus.

Figura 7: Base de Dados Textual – resultado da pesquisa no corpus para “votação”

No documento Tese de Doutoramento em Linguística (páginas 113-118)