A Relexicalização de Adjetivos nas Redações de Alunos de Inglês – Um Estudo Baseado em Corpus de Aprendiz

(1)

i

A Relexicalização de Adjetivos nas Redações de

Alunos de Inglês – Um Estudo Baseado em Corpus de

Aprendiz

Dissertação apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de MESTRE em Lingüística Aplicada e Estudos da Linguagem, sob a orientação do Prof. Dr. Antônio Paulo Berber Sardinha.

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO São Paulo

(2)

ii

Banca Examinadora:

___________________________________

(3)

iii

Autorizo, exclusivamente para fins acadêmicos e científicos, a reprodução parcial ou total desta dissertação por processos fotocopiadores ou eletrônicos.

(4)

iv

À Vera, minha mãe, por me ensinar a ter garra.

Ao Rodrigo, meu marido, por me ensinar a acreditar em mim.

(5)

v

A todos os meus familiares, principalmente a Dona Maria, minha sogra, pela paciência e carinho.

Ao Dimas, meu pai pelas longas conversas que inspiraram minhas decisões.

Aos meus irmãos, Débora e Douglas, pelos caminhos percorridos.

Ao Prof. Dr. Antônio Paulo Berber Sardinha, sua orientação e apoio me deram a motivação necessária para chegar onde cheguei.

Ao CNPQ pelo apoio financeiro concedido, bem como ao Setor de Lingüística Aplicada e Estudos da Linguagem da PUC/SP pela contribuição do corpus BR-ICLE, sem o qual esta pesquisa não teria sido possível.

A todos os professores, principalmente, Rosinda e Anise que contribuíram para que eu continuasse sempre interessada em aprender muito mais.

Aos amigos conquistados aqui no Lael, principalmente, Jordana, Roberto, Roberta e Áurea.

Aos amigos do grupo de orientação, principalmente Carlos, Gisele, Daniela, Cláudia e Elias, pela troca de idéias e ajuda nos momentos de dúvidas.

(6)

vi

série de fatores (internet, globalização, etc.), por isso realizar pesquisas a respeito do ensino-aprendizagem de um segundo idioma para auxiliar a prática do professor é de grande relevância hoje em dia. Uma das tarefas do professor, nessa prática, é o ensino de redação. Este é um tipo de prática que ainda necessita de pesquisa constante. São raros os estudos que auxiliem o professor na correção de redações de alunos de inglês, principalmente quando o problema não é corrigir um erro, mas sim ajudar o aluno a evitar a repetição excessiva de algumas palavras. Uma das classes de palavras para a qual ocorre muita repetição é a dos adjetivos. Este trabalho teve como objetivo investigar o sobreuso de adjetivos por alunos de Inglês como Língua Estrangeira em suas redações, sugerindo possíveis relexicalizações dessa categoria de palavras como uma alternativa para a correção dessas redações. Para tanto serão analisados dois corpora, o corpus do projeto BrICLE, composto por redações de alunos brasileiros de língua inglesa, que será o corpus de estudo e o do BNC (British National Corpus), que servirá como corpus de referência. Por este motivo, o estudo utilizará uma metodologia baseada em análise de corpus eletrônico, encontrando suporte teórico na Lingüística de Corpus (Berber Sardinha 2004; Biber, Conrad e Reppen, 1998; Hunston 2002; Sinclair 1988 e 1991) e Lingüística

(7)

vii

The need for communication in English has been rising enormously nowadays due to a lot of factors (internet, globalization, etc.). Because of this, research in the area of English teaching, mainly to help teachers in their practices, has earned a lot of relevance. One of the teachers’ tasks is the teaching of composition writing. In this kind of practice, sometimes teachers have a hard time correcting the compositions, especially when the problem is not a mistake but excessive repetition of words. One of the classes of words that Brazilian students tend to overuse is the adjectives. This research aims at finding relexicalization possibilities for overused adjectives by Brazilian students of English as an alternative for composition correction. To realize this study two corpora will be analyzed, one belonging to a project called BrICLE and another called

BNC (British National Corpus), the former will be the study corpus and the latter will be

the reference corpus. For this reason, this study will make use of a methodology based

on electronic corpus analyses, and will be theoretically supported by Corpus Linguistics

(Sinclair 1988 e 1991; Hunston 2002; Sardinha 2004) and Learner Corpus Linguistics

(Granger, 1998; Lorenz, 1999). By comparing the two corpora we came to the

conclusion that Brazilian students really overuse certain adjectives. After analyzing the

patterns found in both corpora we were able to suggest some relexicalizations

possibilities for the overused adjectives. These suggestions could be used by teachers

(8)

viii

INTRODUÇÃO ...01

CAPÍTULO 1: FUNDAMENTAÇÃO TEÓRICA ...07

1.1 A Lingüística de Corpus ...07

1.1.1 Definição e Características ...07

1.1.2 Vantagens e Desvantagens da Lingüística de Corpus ...08

1.1.3 Lingüística de Corpus – Metodologia ou Teoria? ...11

1.1.4 Contraposição à Lingüística Chomskyana e ao Estruturalismo ...11

1.2 Desenvolvimento Histórico da Lingüística de Corpus ...14

1.3 Lingüística de Corpus de Aprendiz ...16

1.4 Definições ...19

1.4.1 Corpus ...19

1.4.2 Corpus de Aprendiz ...21

1.4.3 Concordância ...21

1.4.4 Colocação ...22

1.4.5 Padrão...23

1.5 Princípio da Livre Escolha e Princípio Idiomático...24

1.6 Corpus Representativo...25

1.7 Adjetivos: descrição e critérios...27

METODOLOGIA ...32

2.1 Objetivo e Questões de Pesquisa...32

2.2 Descrição dos Corpora e Ferramentas Computacionais...33

2.2.1 Redações de Alunos Brasileiros - Corpus de Estudo...33

2.2.2 Corpus de Falantes Nativos – Corpus de Referência...35

(9)

ix

2.2.5.2 Concord...41

2.3 Procedimento de Análise...43

2.3.1 Seleção dos Adjetivos para Estudo...43

2.3.2 Adjetivos no BNC e o Sobreuso...44

2.3.3 Padrões dos Adjetivos no BrICLE...45

2.3.4 Adjetivos no BNC...46

2.3.5 Relexicalizações...47

CAPÍTULO 3 – RESULTADOS...50

3.1 Adjetivos Sobreusados...50

3.2 Good...52

3.2.1 Padrões de Good...52

3.2.2 Relexicalizações de Good...54

3.3 Important...64

3.3.1 Padrões de Important ...64

3.3.2 Relexicalizações de Important...67

3.4 Different...71

3.4.1 Padrões de Different...71

3.4.2 Relexicalizações de Different...73

CONSIDERAÇÕES FINAIS...77

(10)

x

(11)

xi

Quadro I

Quadro III – Adjetivos do BrICLE...50

Quadro VI – Adjetivos do BNC...50

Quadro V – Good Atributivo no BrICLE...52

Quadro VI – Estatística de Good no BrICLE...53

Quadro VII – Adjetivos colocados de ‘job’ no BNC...55

Quadro VIII – Adjetivos colocados de ‘example’ no BNC...58

Quadro IX – Adjetivos colocados de ‘solution’ no BNC...62

Quadro X – Important Atributivo no BrICLE...64

Quadro XI – Estatística de Important no BrICLE...65

Quadro XII – Adjetivos colocados de ‘thing’ no BNC...67

Quadro XIII – Adjetivos colocados de ‘things’ no BNC...69

Quadro XIV – Adjetivos colocados de ‘question’ no BNC...70

Quadro XV – Different Atributivo no BrICLE...71

Quadro XVI – Estatística de Different no BrICLE...72

Quadro XVII – Adjetivos colocados de ‘opinions’ no BNC...74

(12)

xii

Gráfico I – Comparação BrICLE X BNC ...51

Lista de Figuras

(13)

(14)

Introdução

Em tempos recentes o ensino de língua inglesa no Brasil vem se

popularizando cada vez mais. Saber1 inglês tornou-se requisito básico e indispensável para que um indivíduo consiga um estágio, um emprego e

desenvolvimento em sua carreira, em praticamente todas as áreas

profissionais existentes. Como conseqüência, a necessidade de pesquisas a

respeito do ensino-aprendizagem de um segundo idioma aumentou, pois

ainda há muito que não sabemos sobre como ensinar inglês e como as

pessoas o aprendem.

Uma área que julgamos precisar de pesquisa para auxiliar a prática do

professor é o ensino de redação. Mais especificamente, são raros os estudos

que auxiliem o professor na correção de redações de alunos de inglês,

principalmente quando o problema não é de fato um erro, mas sim a repetição

excessiva de algumas palavras. Por exemplo, quando um aluno escreve

repetidas vezes (em várias composições) ‘an important question’2, ele não está cometendo um erro sintático, morfológico ou pragmático, mas sim

demonstrando que não conhece alternativas para exprimir os vários sentidos

que podem se associar a ‘question’, como ‘crucial question’, ‘fundamental

question’, etc. Por seu lado, o professor que recebe composições com essa

expressão, muitas vezes nota o problema e se sente na obrigação de fornecer

alternativas de vocabulário ao aluno. Assim, o professor geralmente mostra ao

aluno que ele poderia escrever ‘crucial question’ ou ainda ‘interesting

question’. Em outras palavras, o professor oferece opções de relexicalização

para o aluno. Este estudo enfoca justamente a questão da relexicalização em

redações de alunos brasileiros de inglês.

Para ajudar o aluno nas redações, conforme esta nossa proposta, o

professor precisaria saber qual o léxico usado em excesso, ou seja,

1

Saber é entendido aqui como falar, compreender e escrever no idioma. 2

(15)

sobreusado3. O professor também teria que saber quais outras palavras poderiam substituir as sobreusadas. Decidimos chamar esta mudança de

palavras de relexicalização.

O termo relexicalização foi escolhido para esta pesquisa porque trazia a

idéia de substituição de palavras, com pequena variação de sentido, que

fornece maior fluência ao texto.

Existem outros termos como, por exemplo, sinônimo e equivalência,

que poderiam trazer a idéia de variação de vocabulário; porém, o termo

sinônimo é bastante criticado hoje em dia, e o termo equivalência parece ser

mais apropriado para a área de tradução.

Sobre o termo sinônimo Stubbs (2001 : 36) relata que:

“sinônimos são palavras que significam a mesma coisa. Freqüentemente se diz que é difícil encontrar exemplos que sejam convincentes. Afinal de contas, não pareceria haver nenhuma razão para uma língua ter palavras que significam exatamente o mesmo.”

Se optássemos por estudar sinônimos, poderíamos fazê-lo estudando a

palavra isolada. Porém, esse estudo implica na investigação da linguagem4 em contexto, assim observamos o comportamento das palavras umas em

relação às outras e como essa relação influencia o sentido de uso de cada

palavra.

A Equivalência, segundo Catford (1965:20) “é uma substituição do material

textual em uma língua (de partida) por um material textual equivalente em

outra (língua alvo)”5. Equivalência é um termo usado e já criticado na área de Tradução, justamente porque não se acredita que existam de fato duas

palavras, em línguas diferentes que signifiquem, conotem e denotem

exatamente o mesmo. Além do que, nesta pesquisa não estamos buscando

léxico para equivalência em línguas diferentes. Pretendemos encontrar

adjetivos que possam substituir outros na mesma língua.

3

O sobreuso de palavras diz respeito à utilização de uma mesma palavra mais vezes do que um falante nativo normalmente o faria.

4

Neste trabalho entendemos linguagem como ‘a língua em uso na redação dos alunos de inglês’. 5

(16)

O termo relexicalização é empregado de diferentes modos por

diferentes autores. Por exemplo, Partington (1998:134) utiliza o termo

relexicalização como desmetaforização, ou seja, o processo de substituir um

sentido idiomático por um sentido concreto. Por outro lado, Payne and Ross

(2005:40) descrevem a relexicalização como o remodelamento de um

conteúdo pelo uso de um similar semântico. Eles ainda explicam que a

relexicalização é parecida com a repetição, considerando-se que uma idéia

similar é repetida, mas a estrutura e/ou uma ou mais palavras gramaticais

(substantivos ou verbos) são diferentes6.

Ainda que haja variação no uso do termo relexicalização, ele nos

parece ser o mais apropriado para esta pesquisa. A relexicalização será

entendida aqui como uma mudança ou uma possibilidade de substituição

lexical no texto quando houver palavras utilizadas de modo incomum na

língua ou para evitar o sobreuso de palavras em um texto.

A importância da relexicalização, segundo McCarthy (1998), é a de que

‘mudanças de léxico na interação entre dois indivíduos, levam a conversa a

fluir ao invés de terminar. Transferindo essa idéia para as redações dos

alunos, podemos pensar que a relexicalização ajudaria a tornar o texto mais

fluente.

A relexicalização pode ser feita para qualquer classe de palavras. Nesta

pesquisa escolhemos estudar os adjetivos porque é uma classe de palavras

bastante sobreusada por alunos de inglês. Esse sobreuso ficou constatado

por Beber Sardinha (1999), a partir da investigação de redações de alunos

brasileiros de inglês. Beber Sardinha (1999) verificou que alguns adjetivos,

como ‘different’, eram duas vezes e meia mais usados pelos alunos brasileiros

de inglês do que pelos falantes nativos, ou seja, sobreusados.

A escolha de adjetivos para análise deveu-se primeiramente ao fato de

que essa é uma classe de palavras muito freqüente em qualquer tipo de texto

6

Do inglês: Relexicalization is similar to repetition in that a similar idea is repeated, but the structure and/or one or

(17)

e é usada principalmente para modificar substantivos, contribuindo para a

diversidade de informação em um texto (Biber et al., 1999).

Em segundo lugar, Peters and Peters (2000), em seu estudo dos

adjetivos da língua inglesa, afirmam que os adjetivos ainda não foram

estudados tão extensivamente quanto têm sido os verbos e substantivos.

Porém os adjetivos são semanticamente tão complexos quanto eles, se não

ainda mais.

Por fim, em nossa prática notamos que os adjetivos podem ser

relegados a um segundo plano no ensino de vocabulário, porque há alguns

adjetivos de alta generalidade semântica (Jenkins, 2006) - como ‘good’,

‘important’ - que parecem, aos olhos do aprendiz, serem capazes de se

associar a qualquer substantivo. Muitos alunos, então, os reusam

constantemente e acabam não percebendo que há relexicalizações, ás vezes,

mais apropriadas para os sentidos que eles desejam expressar. Em outras

palavras, tais adjetivos de alta generalidade semântica acabam se tornando

sobreusados.

Para encontrar os adjetivos sobreusados e relexicalizações foi

necessário encontrar uma abordagem teórica e metodológica que

possibilitasse perceber a freqüência de uso de palavras bem como seus

padrões de uso.

Dessa forma, a Lingüística de Corpus surgiu como uma alternativa

importante para a pesquisa em relexicalização, pois permitiu que

descobríssemos as colocações (nesse caso, as associações recorrentes de

adjetivo e substantivo) mais comuns da língua inglesa e que as

propuséssemos como as relexicalizações mais apropriadas e idiomáticas para

o contexto da escrita das composições pesquisadas. Estudos baseados em

corpus permitem que o lingüista tenha uma vasta quantidade de dados para

analisar e que a ocorrência de um dado fenômeno da língua fique evidente

(18)

Além disso, dentro da Lingüística de Corpus, existe uma ramificação

chamada Lingüística de Corpus de Aprendiz que desenvolve estudos

utilizando a teoria e abordagem da Lingüística de Corpus em corpora

formados por redações de alunos. Boa parte desses estudos são feitos

comparativamente, ou seja, observando um corpus de aprendiz e um corpus

de falantes nativos do inglês, sendo uma opção para estudos envolvendo

erros ou omissões, sobreuso e ‘evitamento’7.

Desse modo, esta pesquisa tem como objetivo verificar o sobreuso de

adjetivos feito por alunos brasileiros de inglês em suas redações e compará-lo

ao uso desses adjetivos por falantes nativos da língua inglesa, visando a

sugerir possibilidades de relexicalização para os adjetivos sobreusados pelos

alunos.

Dado esse objetivo, respondemos às questões elencadas abaixo:

1. Quais são os 3 adjetivos centrais mais sobreusados pelos alunos

brasileiros?

2. Quais as relexicalizações possíveis desses adjetivos?

Para verificar quais adjetivos são sobreusados e como são usados por

alunos de inglês, utilizamos como corpus de estudo o corpus de aprendiz

BrICLE. Este corpus é formado por redações de alunos brasileiros de inglês,

em nível avançado8.

Como corpus de referência, fizemos uso de um corpus de inglês nativo

chamado British National Corpus (doravante BNC). Este corpus é composto

de inúmeros textos de falantes nativos, perfazendo um total de

aproximadamente cem milhões de palavras9.

A dissertação está organizada como segue:

7

O que o aluno evita usar quando fala ou escreve – do inglês ‘avoidance’ 8

Critérios de coleta e detalhes sobre este corpus estão no capítulo 2, pg 33 9

(19)

O capítulo 1 apresenta a fundamentação teórica da pesquisa. Neste

capítulo, primeiramente abordamos a importância da Lingüística de Corpus na

pesquisa Lingüística. Em segundo lugar fizemos um breve histórico sobre

como surgiu e do seu uso em pesquisas. A seguir expusemos as definições

dos conceitos que permearam este estudo, quais sejam: corpus, corpus de

aprendiz, concordância, colocação, padrão e o que é um corpus

representativo. Tendo em vista esses conceitos, fizemos considerações a

respeito de sua relevância neste trabalho. Finalmente descrevemos

brevemente os adjetivos com base na gramática de padrões de Biber et al

(1999), mostrando quais os critérios adotados na escolha dos adjetivos

analisados.

O capítulo 2 apresenta detalhadamente a metodologia empregada

nesta pesquisa. Em primeiro lugar fizemos a descrição dos corpora e das

ferramentas utilizadas na análise para etiquetagem, cálculo de associação

lexical, levantamento de lista de palavras, linhas de concordância e

colocações dos adjetivos. A seguir, apresentamos os procedimentos

realizados na análise para a obtenção dos resultados que serão expostos no

capítulo seguinte.

No capítulo 3 foram apresentados e discutidos os resultados deste

estudo. Primeiramente, explicitamos o sobreuso feito pelos alunos de inglês

com os dados obtidos a partir das freqüências dos adjetivos em ambos os

corpora. A seguir, encontramos em quais sentidos os adjetivos sobreusados

no corpus de aprendiz são usados investigando os padrões desses adjetivos.

Por último, considerando os sentidos empregados pelos alunos, buscamos as

relexicalizações possíveis no corpus de falantes nativos.

Finalmente, apresentamos as Considerações Finais que concluem o

(20)

Capítulo 1 – Fundamentação Teórica

Neste capítulo apresentaremos os conceitos teóricos que embasaram

este trabalho. Inicialmente comentaremos sobre a importância da Lingüística

de Corpus na pesquisa lingüística. Em segundo lugar faremos um breve

histórico de seu desenvolvimento e uso. A seguir discutiremos a Lingüística

de Corpus de Aprendiz. Após essa discussão, trataremos do quadro

conceitual adotado como: definição de corpus, corpus de aprendiz,

concordância, colocação e padrões. Após as definições faremos uma

discussão a respeito dos princípios idiomático e de livre escolha. Também

serão discutidas questões a respeito de o que é um corpus representativo.

Finalmente, faremos considerações a respeito das características dos

adjetivos empregadas neste trabalho.

1.1 A Lingüística de Corpus

Inicialmente, introduziremos a área básica na qual esta pesquisa se

insere, qual seja a Lingüística de Corpus. Faremos isso apresentando a sua

definição e características, seguidas da discussão a respeito das vantagens

que a Lingüística de Corpus proporciona à pesquisa lingüística, bem como

seu caráter teórico em oposição ao metodológico. Finalmente, faremos a

contraposição da Lingüística de Corpus com a Lingüística Chomskyana e o

Estruturalismo.

1.1.1 Definição e Características

Este trabalho tem suporte teórico na Lingüística de Corpus, uma área

(21)

“Ocupa-se da coleta e exploração de corpora, ou conjuntos de dados lingüísticos textuais que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.”

A Lingüística de Corpus tem como uma de suas principais

características a observação e o uso de dados empíricos da língua, o que

permite ao pesquisador verificar fenômenos da língua real.

Reiterando as características da pesquisa que utiliza a Lingüística de

Corpus, podemos considerar as afirmações de Biber, Conrad e Reppen

(1998:4) que dizem que ela é10:

- _{“empírica, analisando padrões reais de uso da língua em textos naturais;} - _{utiliza grandes e criteriosas coleções de textos naturais, conhecidas como}

“corpus,” como base de análise;

-_{faz uso extensivo de computadores, tanto com técnicas automáticas}

quanto interativas na análise;

-_apóia-se_em _{técnicas analíticas tanto quantitativas quanto qualitativas”.}

(tradução minha)

Essas características são relevantes porque esta pesquisa, em

consonância com esta abordagem, faz uso de dois corpora de textos naturais,

criteriosamente coletados; faz uso de ferramentas computacionais para

análise automática e quantitativa dos dados, bem como usa técnicas

qualitativas na determinação e escolha de padrões e seus sentidos.

1.1.2 Vantagens e Desvantagens da Lingüística de Corpus

Considerando as características mencionadas anteriormente,

discutiremos a seguir as vantagens e desvantagens da abordagem da

Lingüística de Corpus nos estudos lingüísticos.

10

- _{it is empirical, analyzing the actual patterns of use in natural texts;}

(22)

A utilização de um corpus, como dado empírico, e de computadores na

análise lingüística, parecem ser as maiores vantagens da Lingüística de

Corpus (doravante LC).

O uso de um corpus e de ferramentas computacionais possibilita

encontrar provas da ocorrência de um determinado fenômeno da língua, bem

como a freqüência com a qual ele ocorre. Portanto, não é necessário recorrer

à intuição para verificar se um fenômeno acontece ou não na língua.

Um exemplo de como dados empíricos, advindos de um corpus, podem

ser úteis a estudos de linguagem na área de ensino de língua estrangeira é

Granger (1998). Examinando um corpus de falantes nativos e um de aprendiz,

Granger(1998:205) notou que o adjetivo important era muito usado por ambos em detrimento a seus similares semânticos mais específicos11. Essa descoberta é uma prova da importância do uso de um corpus nos estudos de

linguagem. Esse fenômeno só pode ser observado através da investigação e

comparação de dados estatísticos extraídos de dois corpora. A intuição do

falante nativo não forneceria ao lingüista dados relativos à freqüência de uso

de determinado léxico.

Além disso, o exame de um corpus permite investigar padrões de uso e

sentido da língua que não são possíveis na abordagem estruturalista nem na

lingüística gerativa de Chomsky. Segundo Stubbs (1993:17) todos os sentidos

e significados de uma palavra têm gramática própria e cada significado está

associado a um padrão distinto e formal. Ou seja, forma e significado são

inseparáveis (Firth, 1935 apud Stubbs,1993:13). A presente pesquisa foi

baseada na análise de padrões e colocações de adjetivos encontrados nos

corpora estudados.

Em estudos que dizem respeito ao uso da língua12 e dos sentidos expressos neste uso, a freqüência de ocorrência de padrões lexicais é

relevante, pois cada padrão de uso expressa um sentido diferente. O lingüista

11

Crucial, relevant, etc. 12

(23)

que investiga a linguagem a partir de seu conhecimento de falante nativo,

introspectivamente, pode encontrar dificuldades para perceber a presença e

freqüência de determinado padrão lexical. O que é confirmado por Sinclair

(1991a:5) ao dizer que: “o julgamento feito intuitivamente é especialmente não

confiável no que diz respeito à freqüência e distribuição do léxico, da

gramática e do sentido”13.. Com o uso de um corpus e de ferramentas computacionais podemos obter dados estatísticos referentes à ocorrência e

freqüência de padrões lexicais que auxiliam na interpretação dos dados.

O avanço da tecnologia e maior viabilidade do uso de computadores

hoje em dia favorece ainda mais os estudos baseados em LC, em primeiro

lugar porque permite o exame de grandes quantidades de dados, como afirma

Stubbs (1993:23):

“A visão essencial da Lingüística de Corpus é que a análise da linguagem feita com ajuda do computador dá acesso a dados que não eram observáveis anteriormente... Nessa visão do assunto, um corpus não é meramente uma ferramenta de análise, mas um conceito importante na teoria lingüística.” 14

Em segundo lugar porque o avanço tecnológico permite a criação de

novas ferramentas computacionais, que poderão viabilizar novos métodos de

análise, fazendo da LC um ramo da lingüística em constante atualização e

afinado com as mudanças no mundo.

Uma crítica feita ao uso de corpora é a de que ele revela apenas o que

ocorre na língua, mas não permite perceber o que não ocorre (Stubbs

2001:224). O lingüista pode observar apenas o que está presente no corpus.

No entanto, novos métodos de estudo como uso de comparação entre

corpora, tal como o de um corpus de falantes nativos e um de aprendiz, pode

mostrar o que não ocorre, ou seja, aquilo que um aluno não faz em relação a

algo que o falante nativo faz.

13

Do inglês: Intuitive judgments are particularly untrustworthy with respect to the frequency and distribution of different forms and meanings of words, and to the interaction of lexis, grammar and meaning.

14

(24)

1.1.3 Lingüística de Corpus – Metodologia ou Teoria?

Nesta pesquisas utilizamos a LC como abordagem teórica, no entanto

segundo Tognini-Bonelli (2001:1), há diferentes pontos de vista relativos ao

uso da LC como metodologia ou teoria. Discute-se que a LC não pertence

realmente ao domínio de pesquisa, ela é apenas uma base metodológica para

estudos de língua.

Opondo-se a essa afirmação Tognini-Bonelli (2001:1) explica que

“muitos lingüistas, como Halliday, acreditam que a LC vai muito além de

simplesmente uma abordagem metodológica”. A LC está trazendo novas

perspectivas para a área de pesquisa lingüística devido ao tipo de coleta

criteriosa de dados, a utilização de computador e de dados estatísticos e

teorização, o que resulta em uma mudança qualitativa de nosso entendimento

da língua.

Em nossa visão a LC não pode ser considerada somente uma

metodologia, porque metodologia é um conjunto de regras e procedimentos a

serem seguidos para a realização de uma pesquisa que são definidos a priori. Na LC os procedimentos são determinados de acordo com as necessidades

do lingüista para encontrar as informações necessárias para sua a análise.

1.1.4 Contraposição à Lingüística Chomskyana e ao

Estruturalismo

Há muito debate a respeito do uso de dados empíricos, advindos de um

corpus, na investigação de fenômenos da língua. Como esse trabalho faz uso

desse tipo de dado, é necessário justificar alguns pontos.

Segundo Sampson (2001) em décadas recentes a lingüística não tem

se baseado na observação de dados empíricos, como os provenientes de um

corpus, devido ao fato de muitos lingüistas haverem sido dissuadidos de tal

(25)

De acordo com Chomsky (1961:130, apud Sampson 2001): “é absurdo

tentar construir uma gramática que descreva o comportamento lingüístico

diretamente observado” 15. Chomsky (1961) acredita que o comportamento lingüístico observado a partir de um corpus pode ser afetado por muitas

variáveis, além da estrutura intrínseca da língua que é falada. Essas variáveis

funcionam como fatores complicadores, tornando a análise superficial.

Uma outra razão pela qual Chomsky (1966) critica o uso de um corpus

para análise lingüística é o fato de acreditar que a intuição do falante nativo

poderia dar acesso às propriedades intrínsecas da língua, tornando a

observação empírica inútil. Sampson (2001) contrapõe-se a essa idéia ao

dizer que não se pode analisar um determinado fenômeno sem observar

muitos fatores que o causam (como o uso lingüístico), inclusive os que

parecem de menor importância à regra geral.

Se pensarmos a respeito de subuso, sobreuso, evitamento e erros

cometidos por estudantes de uma língua, e considerarmos que os falantes

nativos desta língua não estão conscientes de como a utilizam todos os dias,

a intuição e introspecção do pesquisador e lingüista não poderiam auxiliá-lo

na análise do que um aprendiz de língua faz com a língua que está

estudando.

A respeito da consciência de uso da língua feito por falantes nativos,

Sinclair (1996:85) explica que: “o ser humano, contrariamente à crença

popular, não é bem organizado para isolar conscientemente o que é central e

típico na língua”. Como exemplo, Sinclair (1996) apresenta alguns dados

relativos ao verbo ‘see’. Em análises feitas a partir de um corpus, Sinclair

(1996) descobriu que o uso mais comuns do verbo ‘see’ são em expressões

do tipo ‘I see’ e ‘you see’, que aparecem com o sentido de ‘entender’. Sinclair

(1996) afirma que se os falantes nativos de inglês fossem questionados a

respeito do sentido e uso mais comum de ‘see’, responderiam que este verbo

é usado no sentido de ‘enxergar com os olhos’. Por isso, usando a intuição

15

(26)

podemos conseguir exemplos para explicar alguns fenômenos da língua. Há

porém uma série de outros fenômenos que sequer notaríamos e que

passariam despercebidos não fossem pelos estudos realizados a partir de um

corpus. Se deixássemos de usar corpora nas análises lingüísticas não

conseguiríamos amostras de linguagem que ajudassem a explicitar a

ocorrência de certos fenômenos da língua, principalmente aqueles relativos

ao uso16.

Um outro motivo pelo qual Chomsky (1965) não acredita no uso de

dados advindos de um corpus é porque Chomsky crê que os dados

provenientes da intuição e introspecção do falante são abundantes e mais do

que suficientes para a descrição de uma língua. Para Chomsky (1965:20) “o

problema do gramático é construir uma descrição e, se possível, uma

explicação para a quantidade enorme de dados inquestionáveis relativos á

intuição lingüística do falante nativo” 17.

Sampson (2001:2) rejeita a idéia de Chomsky e afirma que os dados

baseados na ‘intuição’ podem ser abundantes, porém pouco confiáveis18. Esses dados podem ser facilmente manipulados para preencher qualquer

requisito e muitas vezes são difíceis de se encontrar no uso da língua no

mundo.

Essas afirmações mostram a necessidade de observação de dados

provenientes de um corpus para analisar a língua em detrimento da intuição.

Principalmente quando os estudos feitos não se baseiam somente na língua

do falante nativo, mas também naquela utilizada por estudantes desta língua,

como no caso desta pesquisa.

Também há debate quanto ao estruturalismo na pesquisa lingüística,

Firth (1957b: 22-3, apud Monaghan,1979:7) afirma que:

16

Do ingles: usage 17

Do ingles: The problem for the grammarian is to construct a description and, where possible, an explanation for the enormous mass of unquestionable data concerning the linguistic intuition of the native speaker.

18

(27)

“A maior crítica a ser oferecida ao estruturalismo americano baseado em procedimentos fonéticos é que, ao tentar somente isso, não forneceu nenhuma análise gramatical válida de nenhuma língua por meio da qual tenha havido uma renovação de conexão com a experiência que pode ser feita de modo sistemático.” 19

Considerando os objetivos desta pesquisa, uma abordagem

estruturalista permitiria somente a busca de sinônimos porque considera a

análise de palavras individuais. No estruturalismo os colocados de cada

palavra não seriam levados em consideração na interpretação dos dados, na

observação de padrões e dos sentidos expressos por esses padrões.

1.2 Desenvolvimento Histórico da Lingüística de Corpus

As teorias a respeito do uso de evidência empírica nos estudos

lingüísticos tiveram como grande defensor e precursor J. R. Firth (1890-1960).

Firth foi um dos primeiros a preconizar a análise de dados reais, a mostrar

preocupação com o sentido, opondo-se às idéias estruturalistas e gerativistas

(anos 50 e 60), e a sugerir que para percebermos o comportamento de uma

palavra deveríamos dar atenção às palavras que a acompanhavam, criando

as primeiras noções a respeito das colocações. Firth acreditava que a

lingüística deveria ter bases teóricas fortes, mas que deveriam ser testadas

repetidamente observando-se a língua real. A partir de algumas dessas idéias

surgiu a LC.

O trabalho com corpus não começou com estudos que procurassem

entender o sentido, como são feitos hoje em dia. Segundo Monaghan

(1979:11) nos anos 50, o Estruturalismo procurou descrever a linguagem em

uso, num estágio da lingüística chamado de ‘centrado em corpus’ e que teve

trabalhos importantes na análise do inglês falado e escrito como o de Fries

(1940 e 1952). Essa fase diferiu bastante dos estudos recentes utilizando

19

(28)

corpus, pois nesse período (final dos anos 50) o interesse maior era pela

segmentação e classificação rigorosa da língua, enquanto que a LC se

interessa pelo comportamento das palavras num Corpus e como esse

comportamento20 tem influência no significado delas21.

A análise de dados reais há alguns anos sofria com o fato de que, para

tal, era necessário compilar um corpus, e fazê-lo manualmente era um

processo lento e custoso. Ainda assim, o trabalho realizado com corpus, em

Lingüística Aplicada, não aconteceu somente a partir do surgimento do

computador. Há muito tempo pesquisadores e estudiosos da área compilavam

corpora manualmente e faziam estudos a partir dos dados empíricos obtidos

desses corpora (Berber Sardinha, 2004).

As pesquisas do neofirthiano Sinclair, na área de LC, levou a um grande

desenvolvimento deste tipo de estudos e da teoria de LC. O trabalho de

Sinclair nos anos 60 era baseado em inglês falado autêntico que era gravado

com o propósito de estudar o léxico e as colocações (Sinclair 1965, 1966a, 1966b,1968). Nos anos 70, a linha de pesquisa de Sinclair mudou

consideravelmente, realizando estudos de análise do discurso com dados

autênticos gravados e escrevendo uma gramática do inglês falado utilizando,

porém, sentenças inventadas como exemplo (Sinclair, 1972 e Sinclair &

Coulthard, 1975). A partir dos anos 80 passou a utilizar grandes quantidades

de corpora escrito autêntico no computador e menos dados falados para

vários estudos de análise lexical e gramatical (Stubbs, 1993:6). Estes

trabalhos de Sinclair influenciaram pesquisas tanto nas áreas de lexicografia

quanto de ensino de línguas, preparação de material para o ensino e

confecção de dicionários.

Além de Sinclair, também havia outros estudiosos em LC como Quirk e

Leech. Quirk foi o responsável pelo primeiro corpus compilado para pesquisa

o SEU (Survey of English Usage). Ele foi compilado manualmente por Quirk e

sua equipe em fichas de papel, a partir de 1953. Este corpus chegou ao

20

Padrões de uso e colocações das palavras 21

(29)

número de um milhão de palavras e serviu como modelo para outros corpora

que o sucederam (Berber Sardinha, 2004).

Durante algum tempo, a pesquisa baseada em corpus foi considerada

menos importante devido à influência de Chomsky e de sua obra, que se

iniciou com Syntactic Structure e levou um bom número de lingüistas a

desenvolver pesquisas baseadas em seu conhecimento de falante nativo e na

introspecção.

No entanto, a pesquisa com corpus não desapareceu. A criação e

desenvolvimento dos computadores e de corpora eletrônicos levaram a um

ressurgimento e a um grande avanço da pesquisa baseada em corpus,

principalmente após 1980.

1.3 Lingüística de Corpus de Aprendiz

Conde (2002:28) define a Lingüística de Corpus de Aprendiz (doravante

LCA) como aquela que se dedica à coleta e armazenagem de dados

lingüísticos produzidos por aprendizes de línguas, para fins de estudos

descritivos.

A definição acima é de grande relevância para esta pesquisa já que o

corpus de estudo em questão é um corpus de aprendiz, que foi coletado e

armazenado de acordo com alguns dos critérios presentes no projeto ICLE22 (International Corpus of Learner English), um projeto pioneiro nessa área e

com a finalidade de servir à pesquisa.

Além do tipo de coleta criteriosa desenvolvido pela LCA, uma outra

característica que merece destaque é a utilização de comparação entre

corpora de aprendiz e de falantes nativos nas análises.

O uso comparado de corpora de estudantes e de falantes nativos

permite observar o que o aluno subusa, sobreusa ou evita usar, uma vez que

22

(30)

não é possível observar o processo mental de um aluno diretamente

(Granger, 1998).

Há uma série de trabalhos na área de LCA, dois dos mais relevantes

são a coletânea organizada por Granger (1998) e o de Lorenz (1999) sobre

intensificação de adjetivos, que serão comentados abaixo.

Granger (1998) mostra a versatilidade de uso de um corpus de aprendiz

computadorizado como fonte de dados para pesquisa no ensino de línguas.

Um dos pontos discutidos é o contraste entre a Lingüística Chomskyana, com

foco na competência e universais lingüísticos e a Lingüística de Corpus que

se preocupa com a performance e a descrição tanto quantitativa quanto

qualitativa da linguagem sendo analisada.

Uma análise realizada a partir da descrição da linguagem tanto

quantitativa quanto qualitativa viabiliza a descoberta de fatos totalmente novos

a respeito da linguagem. Este tipo de análise aliada a um corpus de aprendiz

abre novos caminhos para a pesquisa em ensino de línguas porque os dados

advindos deste corpus permitem investigação sistemática da linguagem

utilizada pelos alunos, do modo como eles a usam naturalmente, ao contrário

do que acontece com pesquisa experimentais, que não refletem o uso real da

língua pelo aluno.

Comparando um corpus de aprendiz e um corpus nativo é possível

identificar erros de modo contextualizado, perceber quando o aluno evita usar

qualquer ponto gramatical ou classe de palavra e ressalta o subuso ou

sobreuso de palavras pelos alunos.

No artigo de Granger e Tribble (1998) há demonstrações de como os

dados obtidos de um corpus de aprendiz podem ser usados na correção de

erros23 e no ensino e criação de materiais informados por este corpus. Também discutem como estes dados podem ser usados em sala de aula para

tornar os alunos mais independentes em seu aprendizado.

23

(31)

Lorenz (1999) desenvolveu um trabalho sobre intensificação de

adjetivos, discutindo os princípios da formação de um corpus de aprendiz e

um comparável nativo. Desse modo ele estudou os adjetivos e seus

intensificadores observando o que era feito pelo aluno em oposição ao que

era feito pelo falante nativo, encontrando algumas discrepâncias de uso pelos

estudantes.

Primeiramente buscou demonstrar todas as vantagens que esse tipo de

pesquisa pode trazer, principalmente para a área de ensino de línguas (EFL),

apontando a LCA como o melhor modo de verificar as necessidades de

aprendizagem de alunos.

Em segundo lugar, Lorenz (1999) apresenta os princípios básicos na

criação de um corpus de aprendiz, que são: a) a força da análise de um

corpus de aprendiz está em encontrar padrões e não erros; b) naturalidade e

idiomaticidade são conceitos probabilísticos; c) os estudos em corpora de

aprendiz são melhor trabalhados em nível avançado; d) os padrões

característicos da linguagem de alunos avançados são mais bem estudados

na produção escrita; e) a naturalidade pode ser melhorada explicitando os

padrões escondidos. Todos esses princípios permearam nosso trabalho.

O autor também argumenta sobre a necessidade de se fazer a

normalização dos dados estatísticos obtidos a partir dos corpora de aprendiz

e dos corpora nativos porque os corpora que utilizou tinham tamanhos

diferentes.

Após estas especificações metodológicas, Lorenz procura descrever os

intensificadores de adjetivos de modo funcional e propõe critérios para a

descrição e classificação de adjetivos. Esses critérios serão apresentados na

seção 1.5, considerando que alguns desses critérios foram utilizados neste

trabalho para selecionar os adjetivos a serem estudados e sugeridos.

Ainda que o estudo de Lorenz tenha foco nos intensificadores de

adjetivos, o autor obteve alguns resultados interessantes relativos ao uso de

(32)

escolha de alguns adjetivos teve influencia da L124, o que pode contribuir para o sobreuso dessa classe de palavras, sendo um dado revelador e relevante

para nossa pesquisa.

Nas três primeiras seções desse capítulo, utilizamos inúmeras vezes

termos como padrão, colocação, concordância, corpora nativo e de aprendiz.

Por isso, apresentaremos a seguir algumas definições para estes termos.

1.4 Definições

Esta pesquisa foi realizada utilizando dois corpora, um de textos em

inglês de falantes nativos chamado BNC (British National Corpus) e um de

redações de estudantes de inglês chamado BrICLE (Brazilian International

Corpus of Learner English), por esta razão é relevante definir estes corpora.

Há algum debate a respeito do que é um corpus, este estudo não pretende

esgotar o assunto, porém discutimos algumas definições. Em seguida

apresentamos as definições para colocação, linhas de concordância e padrão.

1.4.1 Corpus

Há varias definições de corpus na literatura. Aquela que adotamos

nesta pesquisa é a proposta por Sanchez e Cantos (1996:8-9):

“um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.”

Adotamos esta definição porque pondera sobre a representatividade de

um corpus, indica critérios na coleta e prevê seu uso no computador.

24

(33)

Há outras definições na literatura, tais como:

Um corpus é uma coletânea de textos naturais, escolhidos para

caracterizar um estado ou variedade de linguagem (Sinclair, 1995:171).

Essa definição é bastante ampla, pois textos naturais podem ser em

qualquer língua e de qualquer tipo. No caso de pesquisas é necessário haver

critérios na coleta dos textos para que sejam representativos do evento em

estudo.

Definindo um corpus como textos que representarão uma variedade de

linguagem, podemos considerar a definição de Percy et al (1996:4) que

afirmam que um corpus é uma coletânea de porções de linguagem que são

selecionadas e organizadas de acordo com critérios lingüísticos explícitos, a

fim de serem usadas como uma amostra de linguagem. A noção de porções

de linguagem é interessante principalmente considerando os critérios

empregados na escolha destas porções e que é uma amostra da língua, já

que não parece viável coletar e estudar a língua toda.

A definição de Stubbs (2001:25) que diz que um corpus é uma coleção

de textos que foi planejada para pesquisa lingüística, de modo a representar

algum aspecto da língua, é clara e completa, faltando apenas indicar o uso do

corpus em computador. O fato de ser planejada já mostra que há critérios

para a coleta, estabelecidos pelo pesquisador, que têm objetivo específico de

uso em pesquisa e também devem representar o que se está buscando em

um estudo.

A maioria das definições determina que, para fins de pesquisa, deve

haver critérios na coleta do corpus para que ele seja representativo, em

decorrência disso, se a pesquisa visa a analisar a linguagem usada por

estudantes de língua inglesa, é necessário um corpus formado por textos que

representem o que o aluno escreve. Para aclarar a diferença entre um corpus

nativo e um corpus de aprendiz, discutiremos a respeito do uso de corpora de

(34)

1.4.2 Corpus de Aprendiz

Um corpus de aprendiz é aquele formado por textos naturais falados ou

escritos por estudantes de uma língua estrangeira, que atenda a critérios que

possibilitem seu estudo e que tenha sido coletado de modo que possa ser lido

por computador.

Os textos de um corpus de aprendiz são considerados naturais porque

são produzidos por estudantes sem controle do que escrevem, ou seja,

nenhum ponto gramatical (por exemplo) específico deve ser elicitado. Há, no

entanto, critérios para a coleta desse corpus de acordo com o tipo de texto

que se quer representar. O corpus de aprendiz difere de um corpus nativo

porque é escrito por não-nativos de uma língua.

Segundo Granger (1998:6) um corpus de aprendiz deve possibilitar a

análise da maioria dos eventos lingüísticos e ter critérios severos de coleta,

pois desse modo pode-se estudar vários aspectos da linguagem utilizando o

produto da aprendizagem de um aluno.

1.4.3 Concordância

A pesquisa lingüística que segue a abordagem da LC, utiliza com

freqüência as linhas de concordância.

A definição de concordância que nos parece adequada a este trabalho

é a proposta por Beber Sardinha (2004:187) que diz que “a concordância

consiste de uma listagem dos cotextos (palavras ao redor) nos quais um dado

item (palavra isolada, composta, estrutura, pontuação) ocorre”.

Em discussões a respeito de dados provenientes de um corpus, há

algum debate a respeito da concordância por ela não trazer todo o contexto

no qual um item está inserido. Porém, se observarmos todo o contexto

possivelmente não conseguiremos enxergar os padrões presentes naquele

(35)

Stubbs (2001:222) afirma que a concordância, também chamada de

KWIC (Key Words In Context), coloca as palavras em pequenos contextos e

que por isso o foco fica restrito ao span colocacional, revelando novos

padrões. Portanto, a concordância mostra a parte do contexto ao qual

pertence uma palavra, ao mesmo tempo em que, por restringir esse contexto,

facilita a verificação de padrões, tornando-os mais visíveis.

1.4.4 Colocação

Neste estudo tivemos que encontrar colocados dos adjetivos estudados

nas linhas de concordância. O conceito de colocação que adotamos foi o de

Firth (1957 apud Monaghan, 1979:32) quando explica que os colocados de

uma dada palavra são:

“Declarações do lugar habitual daquela palavra na ordem colocacional, mas não em nenhuma outra ordem contextual e enfaticamente em nenhuma outra ordem gramatical. Os colocados de uma palavra não devem ser considerados como mera justaposição de palavras, são uma ordem de expectativa mútua”

25_{. (tradução minha)}

Há outras definições que trazem a noção de que uma palavra gera a

expectativa de ocorrência de uma outra, tais como a de Lewis (2000:245) que

diz que “as colocações podem ser descritas como palavras que estão

colocadas ou podem ser encontradas juntas em um padrão previsível”.

Outra definição que reforça a idéia de palavras encontradas juntas é a

de Stubbs (2001:24) que afirma que a colocação “é uma relação lexical entre

duas ou mais palavras que têm a tendência de co-ocorrer dentro de uma

distância de poucas palavras uma da outra em um texto corrente”. Como

conseqüência disso um nódulo26 prevê que uma outra palavra, anterior ou posteriormente também ocorra.

25

Do inglês: … statements of the habitual or customary places of that word in collocational order but not in any other contextual order and emphatically not in any grammatical order. /the collocation of a word or a ‘piece’ is not to be regarded as mere juxta-position, it is an order of mutual expectancy.

26

(36)

Considerando os estudos de padrões de uso de língua nativo como

modelo para estudantes dessa e que vem ao encontro da proposta deste

trabalho, ainda podemos examinar a afirmação de Bastiaensen (1994 apud

Partington 1996:56) que diz que:

“o estudo da colocação nos diz o que um falante nativo realmente faz e quais formas de linguagem são escolhidas com maior freqüência em relação a outras formas igualmente possíveis, viáveis e até mesmo apropriadas.27” (tradução minha)

Podemos notar, a partir dessa afirmação, que embora haja muitas

possibilidades de palavras que podem substituir outras, nem sempre essas

substituições são a possibilidade mais freqüente ou o que soa mais natural.

1.4.5 Padrão

Discutiremos nesta seção a noção de padrão. O conceito que adotamos

é o proposto por Berber Sardinha (2005:216) que afirma que:

“Um padrão é uma associação regular entre itens lexicais, categorias gramaticais, semânticas ou pragmáticas, observada num corpus, extraída por meio da aplicação de ferramentas computacionais ou pela observação de concordâncias”.

Quanto à investigação dos padrões pela abordagem da Lingüística de

Corpus, Berber Sardinha (2005: 216) diz que:

“a padronização é particularmente propícia de ser investigada por meio da exploração de corpora eletrônicos, porque ela é essencialmente um fenômeno probabilístico, o que significa dizer que o interesse dos lingüistas de corpus está em mostrar não somente que um padrão existe, mas também (e principalmente) em descobrir quantas vezes ele ocorre e quão típico ele é de uma língua, gênero, texto, grupo social ou de qualquer outra variável que esteja presente no corpus.”

27

(37)

1.5 O Princípio da Livre Escolha e o Princípio Idiomático

A linguagem pode ser interpretada de duas formas, dependendo da

visão que tivermos dela, uma de acordo com o princípio da livre escolha a

outra de acordo com o princípio idiomático.

O princípio da livre escolha diz que, ao nos expressarmos através da

linguagem, selecionamos as palavras que vamos utilizar de acordo com sua

função gramatical, gerando um número imenso de possibilidades (Barbosa,

2004:8). Sempre que falamos ou escrevemos temos liberdade para escolher

qual verbo acompanha o sujeito e qual objeto se relaciona ao verbo, não há

regras quanto à ocorrência de uma palavra em companhia de outra, por

exemplo. Seguindo esse princípio, toda vez que dizemos algo examinamos

nosso banco de dados cerebral e escolhemos palavra a palavra do que

desejamos falar. Isto tornaria nossa comunicação lenta e difícil.

Se não houvesse um padrão de uso e pudéssemos escolher qualquer palavra

para preencher os espaços em branco numa frase, ou seja, se tivéssemos

que selecionar uma palavra apenas de acordo com sua função gramatical,

teríamos um leque muito grande de possibilidades. As escolhas de palavras

que fazemos, como se elas fossem pré-selecionadas, não são aleatórias, daí

a noção de colocação e do princípio idiomático que será discutido abaixo.

No princípio idiomático (Sinclair, 1991), como mencionamos acima, a

escolha de palavras é feita a partir de uma seleção prévia, de acordo com os

padrões encontrados na língua, limitando o número de possibilidades de

palavras que, por exemplo, podem ocupar uma determinada posição em uma

frase e facilitando a comunicação. Portanto, no princípio idiomático o falante

pode fazer escolhas, porém dentro de alguns padrões que foram previamente

selecionados.

O princípio idiomático é o que traz uma visão de linguagem compatível

com a idéia de pesquisa empírica da Lingüística de Corpus, pois este princípio

(38)

Podemos observar este princípio investigando como os falantes exploram os

recursos de sua língua, através da análise da linguagem natural utilizada de

fato por esses falantes e levando em consideração não o que é teoricamente

possível, mas o que é estatisticamente provável (Barbosa, 2004:8).

A importância dos padrões, se deve, fundamentalmente ao princípio

idiomático. Em função desse princípio notamos como a observação e

investigação de padrões são um modo apropriado para se analisar um dado

item na linguagem em uso.

Uma das exigências principais da LC é que o corpus analisado seja

representativo do item em estudo, por isso, discutiremos brevemente as

características de um corpus representativo.

1.6 Corpus Representativo

Um corpus representativo é aquele que possui um número de textos (ou

palavras) tão grandes quanto seja possível conseguir28, desde que siga critérios rigorosos em sua compilação, de acordo com o propósito de estudo,

para que possa representar um determinado tipo de variedade de linguagem,

funcionando como amostra desta.

Por ser uma amostra de uma população com tamanho desconhecido é

difícil determinar o tamanho ideal para um corpus, conseqüentemente o

melhor modo de se obter um corpus representativo é estabelecer critérios

rigorosos na construção desse corpus (Berber Sardinha, 2004:23).

Segundo Sinclair (1997, apud Berber Sardinha, 2004) um corpus deve

ser tão grande quanto a tecnologia permitir, daí a grande variedade no

tamanho dos corpora existentes.

Os corpora gerais29 de língua inglesa, por exemplo, são bastante grandes. O BNC utilizado para realizar este trabalho tem cerca de cem

28

A possibilidade de erro é sempre menor em uma amostra maior, considerando dados estatísticos.

29

(39)

milhões de palavras, o Bank of English já ultrapassou os quatrocentos e

cinquenta milhões de palavras e continua crescendo, o mesmo acontece com

o Banco de Português da PUC São Paulo, com mais de duzentos e trinta e

três milhões de palavras (Berber Sardinha, 2004:8,9).

A variação de tamanho é ainda maior no caso de corpora

especializados30 que possuem um número menor de palavras em relação aos corpora gerais. Pode haver um corpus de cartas de negócios com 49.898

palavras (Barbosa, 2004), bem como um corpus de português literário

(Modern Portuguese – Brigham Young University) com 315 mil palavras.

Estes dois corpora, apesar de tamanhos diferentes, ainda assim podem ser

representativos, dependendo do tipo e tamanho da população do qual eles

pretendem ser amostras.

Os critérios de coleta para este tipo de corpus são mais restritivos e por

isso o acesso a estes textos é mais limitado, tornando-o menor que os

corpora gerais e com grande variedade de tamanho como exemplificado

acima.

Os corpora de redações de aprendiz de inglês do projeto ICLE, por

exemplo, possuem duzentas mil palavras. O corpus estudado neste trabalho

faz parte desse projeto e se chama BrICLE. Como é um corpus ainda em

desenvolvimento, conta com aproximadamente quarenta mil palavras.

O fato de esses corpora serem menores não significa que não sejam

representativos, pois vários autores como Berber Sardinha (2004),

Biber,Conrad & Reppen (1998), Granger (1998), Hunston (2002), Lorenz

(1999), Tognini-Bonelli (2001) sugerem que se o corpus for compilado

seguindo critérios rigorosos de coleta, mesmo pequeno ele pode ser

representativo.

Além disso, devemos considerar que se compilarmos um corpus de

todos os textos escritos por um determinado autor, por exemplo, e após essa

compilação verificarmos que temos um total de três mil palavras, apesar de

30

(40)

aparentemente pequeno, esse corpus pode ser representativo do trabalho

daquele autor.

O tamanho e o tipo de língua que se quer representar em um corpus

dependem do propósito do estudo a ser realizado com esse corpus

(Tognini-Bonelli, 2001).

Podemos dizer que o corpus de estudo desta pesquisa é uma amostra

representativa da linguagem utilizada por alunos brasileiros de inglês porque

ele possui somente redações de alunos de inglês como língua estrangeira e

que são brasileiros, sendo por isso um corpus especializado. Todos os textos

são argumentativos e em número tão grande quanto foi possível obter-se,

seguindo os critérios de compilação do projeto ICLE31. A única exceção feita a esses critérios foi a do número mínimo de palavras de cada redação: no ICLE

é de quinhentas palavras e no BrICLE algumas redações têm

aproximadamente duzentos e cinqüenta palavras. Esse corpus foi compilado

com o propósito de estudar a produção de alunos de inglês.

O estudo feito neste corpus teve como parte de seu objetivo analisar o

uso de adjetivos por alunos de inglês, e por isso foi necessário estabelecer

alguns critérios para a escolha dos adjetivos a serem pesquisados. Assim, a

seguir discutiremos algumas características dos adjetivos de acordo com seu

uso e função.

1.7 Adjetivos: descrição e critérios

Um adjetivo é uma palavra lexical ou de conteúdo, que faz parte das

palavras que carregam sentido. O adjetivo é usado principalmente para

modificar substantivos, contribuindo para a diversidade de informação em um

texto (Biber et al., 1999).

Os adjetivos têm a capacidade de mudar ou enfatizar o sentido de um

substantivo, por isso são tão importantes no texto quanto as palavras que eles

31

(41)

modificam. Desse modo, conhecê-los e saber usar variações de adjetivos é

relevante na aprendizagem de uma língua.

A descrição e critérios para a determinação de o que é um adjetivo (na

língua inglesa) adotados por nós para este trabalho seguem as noções da

gramática baseada em corpus de Biber et al. (1999).

Os adjetivos podem ser centrais ou periféricos.

Os adjetivos centrais são aqueles que se enquadram nas quatro

características mencionadas por Biber et al. (1999), quais sejam:

a) Ser flexionável, ou seja, aceitar modificação por advérbios como

‘very'. O fato de um adjetivo ser flexionável ou não se relaciona com

o aspecto morfológico deste. Ex: For them, the family is very

important and abortion is a murder.

b) Funcionar em ambas as posições atributiva e predicativa. A posição

do adjetivo na frase diz respeito ao aspecto sintático.

Ex: Atributivo – …it may seem that working is the only important thing …

Predicativo – I think that money is important…

c) Ser descritivo, que tem a ver com o aspecto semântico do adjetivo.

Ex: Now important people are getting involved and …

d) Ser graduável, ou seja, aceitar os graus comparativo e superlativo.

A graduação dos adjetivos também tem a ver com o aspecto

semântico. Ex:...if it you think it is the most important thing for your

life, ….

Desse modo, o adjetivo ‘important’, é considerado central porque possui

todas estas características32.

Os adjetivos periféricos são aqueles aos quais falta uma ou mais

características dos adjetivos centrais e normalmente são classificatórios ao

invés de descritivos (Biber et al. 1999:505 - 518).

Considerando o aspecto semântico de um adjetivo temos as

características descritivas e as classificatórias.

32

(42)

Os tipos de adjetivos considerados descritivos são:

a) Cor: red;

b) tamanho, quantidade ou extensão: big, little, wide;

c) tempo: late;

d) avaliativo: emotivo: good;

e) outros: appropriate, hard, hot, etc.

Os tipos de adjetivos classificatórios apresentam-se de forma:

a) relacional, de classificação, restritivo: complete, final, etc.;

b) de afiliação: American, English, Christian, etc.;

c) de tópico e outros: chemical, human, phonetic, etc.

O trabalho de Biber et al.(1999) ainda discute os adjetivos em outros

papéis sintáticos, adjetivos pospostos, como núcleo de frases nominais, com

função de ligar orações e como exclamações. Também faz comentários a

respeito dos graus de comparação e o uso dos adjetivos em vários tipos de

registro por eles estudados33. Como estas noções não são relevantes para este trabalho, não serão destacadas aqui.

No trabalho de Peters & Peters (2000), que é parte de um projeto

chamado SIMPLE (Specification Group, 2000), da Universidade de Sheffield,

são discutidas as dificuldades na caracterização dos adjetivos. Em primeiro

lugar, eles classificam os adjetivos de acordo com os aspectos morfológico,

sintático e semântico.

Em segundo lugar Peters & Peters (2000) passam a sugerir meios para

descrever o comportamento dos adjetivos. Primeiramente, separam os

adjetivos em predicativo, atributivo e predicativo/atributivo (aspecto sintático).

Morfologicamente classificam os adjetivos em flexionáveis e derivativos. No

aspecto semântico oferecem 2 tipos de classificação:

33

(43)

a) a de Chierchia e McConell Ginet (1990): intersectivo, subsectivo e

não predicativo.

b) a de Peters & Peters: intensional (temporal, modal, emotiva, de

modo, relacionada ao objeto e enfatizante) e extensional (psicológica, social,

física, temporal, intensificador e relacional)

Além desta classificação, apresentam a subclassificação (semântica)

feita por Quirk, Greenbaum, Leech e Svartvik (1985), que trazem as noções

de adjetivos estativos e dinâmicos, graduáveis e não graduáveis, e inerentes

e não inerentes.

Um outro trabalho que traz critérios para a classificação de adjetivos é o

de Lorenz (1999). Lorenz usa, em parte, os critérios de avaliação de adjetivos

propostos por Quirk et al. (1985, apud Lorenz, 1999:39) que são bastante

similares aos usados por Biber et al. (1999), quais sejam:

a) ocorrer em função atributiva;

b) ocorrer em função predicativa;

c) pré modificação pelo intensificador very;

d) formas comparativa e superlativa.

Além desses critérios, aparece no trabalho de Lorenz uma outra

classificação para os adjetivos, quais sejam: adjetivos de relevância

(significant, interesting, etc.), adjetivos de dimensão básica (good, bad, long,

short, etc.), adjetivos de viabilidade (difficult, impossible, etc.) e adjetivos do

trato humano (aggressive, friendly, etc.).

Baseando-nos nas descrições e classificações acima, escolhemos

utilizá-las apenas parcialmente, porque o objetivo do trabalho não é classificar

os adjetivos estudados. Assim os critérios que utilizamos para selecionar os

adjetivos a serem analisados em nossa pesquisa foram:

a) o adjetivo deve estar em posição atributiva34;

b) o adjetivo deve ser central (não analisaremos os periféricos).

34

(44)

Em outro aspecto do estudo de Lorenz (1999), não quanto à descrição

dos adjetivos, mas sobre os resultados obtidos por ele, há alguns dados de

relevância para comparação de resultados desta pesquisa. Em seu corpus,

dentre os adjetivos intensificados, o autor constatou que os adjetivos

important, good e different, são sobreusados pelos alunos de inglês alemães. Estes adjetivos também são sobreusados pelos alunos brasileiros.

Outra descoberta de Lorenz (1999:54) é que good tem variação de sentido de acordo com o contexto em que está inserido. Esse também é um

dado relevante para nosso trabalho, pois no caso de adjetivos com mais de

um sentido, dependendo do contexto, percebemos que os alunos tendem a

usar mais um sentido do que outro.

Outros trabalhos na área de LC que também analisaram padrões de

adjetivos e serviram de referência para esta pesquisa foram os de Francis

(1993), Granger (1998) e Hunston (2002).35

35

(45)

Capítulo 2 – Metodologia

Neste capítulo detalharemos a metodologia usada nesta pesquisa.

Primeiramente vamos reiterar o objetivo deste trabalho, e a seguir descrever

os corpora e ferramentas computacionais utilizados para tal. Finalmente,

apresentaremos os procedimentos de análise realizados para a obtenção dos

resultados expostos no Capítulo 3.

2.1 Objetivo e questões de pesquisa

O objetivo deste estudo é verificar o sobreuso de adjetivos feito por

alunos brasileiros de inglês em suas redações e compará-lo ao uso desses

adjetivos por falantes nativos da língua inglesa, visando a sugerir

possibilidades de relexicalização para os adjetivos sobreusados pelos alunos

brasileiros.

Dado esse objetivo, as questões de pesquisa estão listadas abaixo:

1. Quais são os três adjetivos de uso geral mais sobreusados pelos

alunos brasileiros?

2. Quais as relexicalizações possíveis desses adjetivos?

Para responder essas perguntas, a pesquisa empregará um corpus

constituído por redações de alunos brasileiros, o BrICLE, que será o corpus

de estudo e um de inglês nativo, o British National Corpus (BNC), que servirá