• Nenhum resultado encontrado

PARTE 2 – ESTUDO EMPÍRICO

5. METODOLOGIA

5.4. D ESCRIÇÃO DO ESTUDO EMPÍRICO

5.4.1. Construção dos corpora

Segundo Francis 1993, o estudo de corpora pode ser revelador e constitui uma fonte de conhecimento credível:

“The corpus has a lot of surprises in store for us at every turn, and contains some threats to our accepted views of language, but it is the only reliable authority and must be treated with respect.”

Francis (1993: 139)

De facto, um corpus pode revelar resultados surpreendentes, por isso, no sentido de estudar a forma em -ing como contributo para o ensino do inglês enquanto língua de especialidade, optámos pelo estudo de corpora. Assim, num trabalho de natureza

contrastiva, é importante ter acesso a corpora que nos permita tirar conclusões a partir da análise quantitava, bem como analisar aspectos da linguagem em corpora de uma área específica:

“... more specific research involving the contrastive analysis of aspects of English and Portuguese has led me to build up small corpora of a comparable nature - texts of similar genres and subject matter - as well as parallel corpora.”

Maia (1997: 404)

Neste sentido, com o objectivo de realizar um trabalho empírico de natureza contrastiva baseado em linguagem real e de estudar especificamente a forma em -ing num determinado registo e genre, procedemos à construção de corpora, bem como à utilização de corpora disponíveis em linha.

5.4.1.1. Selecção do material linguístico

A forma ou o material utilizado para construir os corpora não foram aleatórios. A Internet, que permite um acesso rápido à informação, foi a fonte escolhida para a recolha e selecção dos artigos. Foram recolhidos artigos escritos por engenheiros portugueses, e quando estava expressa a existência de um revisor linguístico, o artigo não era seleccionado, dado que um dos objectivos deste estudo é verificar a interferência da L1 na L2. Para além disso, tendo ponderado as conhecidas diferenças entre o português do Brasil e o português europeu no que concerne o uso do gerúndio, optámos por seleccionar apenas artigos escritos por falantes do português europeu e pertencentes a instituições de ensino superior portuguesas. (Vide Anexos 1 e 2)

Uma vez que a área de Telecomunicações é uma área bastante abrangente, optámos por seleccionar artigos sobre variados assuntos e com os mais diversos títulos (como o “Reconhecimento de Voz” aplicado em telecomunicações e “UMTS Terminal Equipment For All-IP Based Communications”), até porque esse leque de assuntos permitiu obter um grande número de autores (96) e cobrir uma grande diversidade de subtemas dentro deste domínio.

As recolhas foram efectuadas em diferentes fontes desta área de especialidade que tornam públicos os artigos publicados e a quem novamente agradecemos. No entanto, no sentido de protegermos os direitos dos autores destes documentos tornámos o acesso aos corpora construídos restrito apenas para efeito de investigação e tiramos apenas algumas frases dos documentos e não grandes extractos de texto. Segue-se a lista dos sítios dos quais os artigos foram retirados. A ordem por que são apresentados reflecte apenas a ordem por que foram explorados:

a) http://paginas.fe.up.pt/~mricardo/pub.html

Publicações de Manuel Alberto Pereira Ricardo, Professor Associado na FEUP (Faculdade de Engenharia da Universidade do Porto);

b) http://mariel.inesc.pt/publications.html

Publicações dos Membros do Grupo de Redes de Computadores do INESC (Instituto de Engenharia de Sistemas de Computadores);

c) http://www.ipb.pt/~rlopes/publications.en.html

Publicações de Rui Pedro Sanches de Castro Lopes, Professor Auxiliar na Escola Superior de Tecnologia e de Gestão do IPB (Instituto Politécnico de Bragança);

d) http://cisuc.dei.uc.pt/acg/publications.php

Publicações do CISUC (Centro de Informática e Sistemas da Universidade de Coimbra);

e) http://www.fccn.pt/crc1998/orais.html

Publicações da FCCN (Fundação para a Computação Científica Nacional).

5.4.1.2. Constituição dos Corpora

A constituição de corpora pressupõe um conjunto de passos de preparação do corpus de forma a torná-lo pesquisável.

Nesse sentido, foi feita a conversão dos documentos para o formato Word e Txt, consoante o formato que melhor resultasse. Para além disso, como os artigos contêm,

geralmente, tabelas e figuras, foi necessário proceder à eliminação dos mesmos para que esse tipo de elementos não afectasse a pesquisa. De seguida, foram introduzidos no Corpógrafo, uma ferramenta desenvolvida pelo Pólo do Porto da Linguateca que permite pesquisar corpora, e foi preenchida a informação dos Dados Gerais e das Fontes dos ficheiros relativa aos autores, instituições, bibliografia. Esta fase do trabalho foi especialmente morosa, mas revelou-se essencial sempre que era necessário verificar se um determinado fenómeno linguístico era típico apenas de um autor ou de vários. Foi também necessário proceder a algumas tarefas de edição, processamento e tratamento de texto, nomeadamente a limpeza de elementos não relevantes para a pesquisa, como fórmulas, e a correcção de alguns elementos que afectavam a correcta divisão em frases (Fraseamento), uma vez que há termos constituídos por números e pontos como, por exemplo, a norma “802.11”, que o Corpógrafo divide como se pertencessem a duas frases.

Após o pré-processamento e a organização dos ficheiros, foram constituídos dois corpora: um com 66 artigos em inglês, com 312.224 palavras, datado entre 1997 e 2007, que denominamos de “Papers EN by PT”; e outro com 16 artigos em português, com 72.650 palavras, datado entre 1997 e 2003, que denominamos de “Artigos PT por PT”:

Tabela 7 Constituição dos corpora

O corpus de artigos escritos por engenheiros portugueses em português é constituído apenas por 16 artigos, uma vez que pelo que constatámos durante a procura dos artigos na internet, de uma forma geral, apenas as teses de mestrado e de doutoramento são escritas em português. Os artigos devido ao seu cariz informativo são publicados em revistas que os internacionalizam e, portanto, são escritos em inglês.

Corpus com artigos em inglês: Papers EN by PT

Nº de artigos Datas Nº de palavras

66 1997 a 2007 312.224

Corpus com artigos em português: Artigos PT por PT

Nº de artigos Datas Nº de palavras