• Nenhum resultado encontrado

CAPÍTULO 2 – Corpus e metodologia

2.1. Representatividade e extensão do corpus

Uma das primeiras questões em função do corpus está relacionada a sua representatividade e extensão. Esses aspectos se encontram diretamente atrelados, segundo Berber Sardinha (2004, p.22), uma vez que um corpus, para ser representativo como amostra de uma dada linguagem, precisaria possuir uma extensão considerável em termos de palavras e de textos. Entendendo o uso da linguagem, no sentido hallidayano (1992), como um sistema probabilístico em que determinados traços são mais freqüentes que outros, a incorporação de corpora de grande extensão se faz necessária, dependendo dos propósitos descritivos que norteiam a pesquisa. Halliday (idem, p.61-63) considera que a gramática tem que ser estudada quantitativamente, em termos probabilísticos, pois representa o nível de organização de toda língua. Esse nível, tecnicamente, é a léxico- gramática, isto é, a combinação de vocabulário e de gramática. Halliday ainda ressalta sua preferência pelo emprego do termo gramática em lugar de sintaxe, pois esta última, tradicionalmente, exclui a gramática da palavra. O autor destaca que gramática e

vocabulário não devem ser vistos como coisas diferentes, mas como aspectos de um mesmo fenômeno, embora com seus próprios sistemas de realização.

A Lingüística de Corpus, dessa maneira, concebe a linguagem como um sistema probabilístico e aborda seu estudo em termos empíricos. Os dados provêm da observação da linguagem tal como ocorre nos textos, reunidos sob a forma de um corpus. A representatividade de um corpus, tal como assinala Berber Sardinha (2004), suscita um primeiro questionamento: o corpus deve ser representativo de quê? Na situação particular desta pesquisa, pode-se afirmar que os textos que compõem o corpus lingüístico da dissertação são representativos do momento de mudança em torno dos discursos sobre o ensino de espanhol no Brasil, porque instanciam o momento prévio e posterior à aprovação da Lei 11.161, conhecida como a “lei do espanhol”55 no Brasil. Situando-se o foco na descrição da representação de atores sociais participantes desse momento e de suas realizações lingüísticas nos textos, os subsídios buscados na Lingüística de Corpus se relacionam, principalmente, com o uso de ferramentas que facilitam a manipulação do corpus como um todo. Entre essas ferramentas, destaca-se o concordanciador (Concord), utilizado para a leitura e alinhamento das etiquetas previamente inseridas aos textos na análise manual.

Os textos que conformam o corpus, publicados em jornais de ampla circulação no Brasil, Espanha e Argentina, em sua versão on-line, tentam alcançar uma audiência de leitores construída segundo os próprios interesses das agências que representam56. Numa perspectiva crítica, Machin e van Leeuwen (2003, p.493) apontam, entre outras mudanças conduzidas pelas corporações midiáticas globais, a criação de comunidades globais de

55 O uso dessa referência à lei, definida como a “lei do espanhol”, foi observada em diversos textos do corpus, como, por exemplo, no artigo publicado pelo jornal Folha de São Paulo em 18/08/2005, poucos dias após a lei ser aprovada: “A aprovação da lei do espanhol repercutiu amplamente na Espanha e na América Latina, mas foi especialmente bem recebida na vizinha Argentina”. (texto 51)

56 Na subseção 2.2.1. há uma descrição detalhada sobre cada meio de publicação, partindo de informações providas pelos próprios jornais.

leitores e espectadores que, embora se possam encontrar globalmente dispersos, acham-se envolvidos com modalidades e gêneros de comunicação lingüística comuns e as mesmas construções lingüísticas da realidade. Essa afirmação aproxima-se da resposta ao segundo questionamento suscitado pela questão da representatividade de um corpus, tal como observado por Berber Sardinha (2004, p.25): um corpus deve ser representativo para quem? A esse respeito, o autor observa que, em definitiva, é o próprio pesquisador quem lhe atribui essa representatividade ao corpus, arcando com o ônus de demonstrá-lo com a pesquisa.

Em relação à extensão do corpus, a escolha de sua dimensão, pequena ou grande, está atrelada à metodologia e objetivos da pesquisa. Assim, Sinclair (2001, p.xi) aponta que um corpus pequeno “é visto como um corpo de evidências relevante e confiável, ou é pequeno o suficiente para ser analisado manualmente, ou é processado pelo computador de um modo preliminar”57. Os patamares que definem um corpus em função de sua extensão, como sendo de pequena, média ou de grande dimensão, variam conforme a abordagem:

(1) impressionística, um corpus pequeno possui entre 20 e 200 mil palavras; (2) histórica, um corpus pequeno contém menos de 80.000 ocorrências; e (3) estatística, em função de fórmulas matemáticas é possível identificar quantidades mínimas de palavras na constituição de uma amostragem representativa de linguagem (BERBER SARDINHA, 2002; 2004, p.25-27).

Um corpus de pequena dimensão se caracteriza por ser projetado para uma intervenção humana inicial (EHI – early human intervention), afirma Sinclair (2001). Pesquisas com EHI fazem uso, também, de ferramentas e utilitários de programas como,

57 Nossa tradução de “A small corpus is seen as a body of relevant and reliable evidence, and is either small enough to be analysed manually, or is processed by the computer in a preliminary fashion”.

por exemplo, o WST58, mas adaptando seus recursos às necessidades do trabalho. Pelo número de ocorrências (46.815) e por sua projeção para uma intervenção inicial de manipulação, os textos que integram esta dissertação caracterizam um corpus de pequena dimensão, assim como a maioria dos trabalhos do LETRA da UFMG, desenvolvidos com base em Sinclair. Entre outros autores que consideram a questão do corpus de pequena dimensão, podem-se citar Berber Sardinha (1999; 2000; 2002; 2004), Sinclair (2001) e Stubbs (1994; 1996; 2004).

Este trabalho, cabe lembrar, vincula-se a um corpus maior, o CORDIALL, desenvolvido pelo LETRA da Faculdade de Letras da UFMG. Esse corpus deve sua compilação ao estudo de aspectos tanto discursivos como cognitivos da linguagem, numa abordagem interdisciplinar de estudos de corpora, tradução, discurso e cognição. Entre os trabalhos desenvolvidos nesse âmbito e que também utilizaram corpus de pequena dimensão, recorrendo aos subsídios do WST, embora com diferentes aplicações, podem-se citar Mauri e Magalhães (2003), Assis e Magalhães (2004), Jesus e Pagano (2004), Bueno e Magalhães (2005), Carmo e Magalhães (2005), Feitosa e Pagano (2005), Rodrigues e Pagano (2005), Caetano e Magalhães (2007), Figueredo e Pagano (2007) e Araújo e Pagano (2007). Assis e Magalhães (em andamento) analisam questões vinculadas a representações raciais e de poder em Heart of darkness (O coração das trevas), utilizando o mesmo referencial teórico assumido para esta dissertação – A representação dos atores sociais (VAN LEEUWEN, 1996) –, buscando subsídios também na Lingüística de Corpus.

58 Cabe destacar que, nesta dissertação, utilizou-se a versão 3.0 do programa, que atendeu às necessidades requeridas aqui, mas que existem versões mais recentes, como a 5.0, lançada em junho de 2007 e disponível em: http://lexically.net/wordsmith/version5/index.html. Acesso em 13/03/2008.