i
A Relexicalização de Adjetivos nas Redações de
Alunos de Inglês – Um Estudo Baseado em Corpus de
Aprendiz
Dissertação apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de MESTRE em Lingüística Aplicada e Estudos da Linguagem, sob a orientação do Prof. Dr. Antônio Paulo Berber Sardinha.
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO São Paulo
ii
Banca Examinadora:
___________________________________
___________________________________
iii
Autorizo, exclusivamente para fins acadêmicos e científicos, a reprodução parcial ou total desta dissertação por processos fotocopiadores ou eletrônicos.
iv
À Vera, minha mãe, por me ensinar a ter garra.
Ao Rodrigo, meu marido, por me ensinar a acreditar em mim.
v
A todos os meus familiares, principalmente a Dona Maria, minha sogra, pela paciência e carinho.
Ao Dimas, meu pai pelas longas conversas que inspiraram minhas decisões.
Aos meus irmãos, Débora e Douglas, pelos caminhos percorridos.
Ao Prof. Dr. Antônio Paulo Berber Sardinha, sua orientação e apoio me deram a motivação necessária para chegar onde cheguei.
Ao CNPQ pelo apoio financeiro concedido, bem como ao Setor de Lingüística Aplicada e Estudos da Linguagem da PUC/SP pela contribuição do corpus BR-ICLE, sem o qual esta pesquisa não teria sido possível.
A todos os professores, principalmente, Rosinda e Anise que contribuíram para que eu continuasse sempre interessada em aprender muito mais.
Aos amigos conquistados aqui no Lael, principalmente, Jordana, Roberto, Roberta e Áurea.
Aos amigos do grupo de orientação, principalmente Carlos, Gisele, Daniela, Cláudia e Elias, pela troca de idéias e ajuda nos momentos de dúvidas.
vi
série de fatores (internet, globalização, etc.), por isso realizar pesquisas a respeito do ensino-aprendizagem de um segundo idioma para auxiliar a prática do professor é de grande relevância hoje em dia. Uma das tarefas do professor, nessa prática, é o ensino de redação. Este é um tipo de prática que ainda necessita de pesquisa constante. São raros os estudos que auxiliem o professor na correção de redações de alunos de inglês, principalmente quando o problema não é corrigir um erro, mas sim ajudar o aluno a evitar a repetição excessiva de algumas palavras. Uma das classes de palavras para a qual ocorre muita repetição é a dos adjetivos. Este trabalho teve como objetivo investigar o sobreuso de adjetivos por alunos de Inglês como Língua Estrangeira em suas redações, sugerindo possíveis relexicalizações dessa categoria de palavras como uma alternativa para a correção dessas redações. Para tanto serão analisados dois corpora, o corpus do projeto BrICLE, composto por redações de alunos brasileiros de língua inglesa, que será o corpus de estudo e o do BNC (British National Corpus), que servirá como corpus de referência. Por este motivo, o estudo utilizará uma metodologia baseada em análise de corpus eletrônico, encontrando suporte teórico na Lingüística de Corpus (Berber Sardinha 2004; Biber, Conrad e Reppen, 1998; Hunston 2002; Sinclair 1988 e 1991) e Lingüística
vii
The need for communication in English has been rising enormously nowadays due to a lot of factors (internet, globalization, etc.). Because of this, research in the area of English teaching, mainly to help teachers in their practices, has earned a lot of relevance. One of the teachers’ tasks is the teaching of composition writing. In this kind of practice, sometimes teachers have a hard time correcting the compositions, especially when the problem is not a mistake but excessive repetition of words. One of the classes of words that Brazilian students tend to overuse is the adjectives. This research aims at finding relexicalization possibilities for overused adjectives by Brazilian students of English as an alternative for composition correction. To realize this study two corpora will be analyzed, one belonging to a project called BrICLE and another called
BNC (British National Corpus), the former will be the study corpus and the latter will be
the reference corpus. For this reason, this study will make use of a methodology based
on electronic corpus analyses, and will be theoretically supported by Corpus Linguistics
(Sinclair 1988 e 1991; Hunston 2002; Sardinha 2004) and Learner Corpus Linguistics
(Granger, 1998; Lorenz, 1999). By comparing the two corpora we came to the
conclusion that Brazilian students really overuse certain adjectives. After analyzing the
patterns found in both corpora we were able to suggest some relexicalizations
possibilities for the overused adjectives. These suggestions could be used by teachers
viii
INTRODUÇÃO ...01
CAPÍTULO 1: FUNDAMENTAÇÃO TEÓRICA ...07
1.1 A Lingüística de Corpus ...07
1.1.1 Definição e Características ...07
1.1.2 Vantagens e Desvantagens da Lingüística de Corpus ...08
1.1.3 Lingüística de Corpus – Metodologia ou Teoria? ...11
1.1.4 Contraposição à Lingüística Chomskyana e ao Estruturalismo ...11
1.2 Desenvolvimento Histórico da Lingüística de Corpus ...14
1.3 Lingüística de Corpus de Aprendiz ...16
1.4 Definições ...19
1.4.1 Corpus ...19
1.4.2 Corpus de Aprendiz ...21
1.4.3 Concordância ...21
1.4.4 Colocação ...22
1.4.5 Padrão...23
1.5 Princípio da Livre Escolha e Princípio Idiomático...24
1.6 Corpus Representativo...25
1.7 Adjetivos: descrição e critérios...27
METODOLOGIA ...32
2.1 Objetivo e Questões de Pesquisa...32
2.2 Descrição dos Corpora e Ferramentas Computacionais...33
2.2.1 Redações de Alunos Brasileiros - Corpus de Estudo...33
2.2.2 Corpus de Falantes Nativos – Corpus de Referência...35
ix
2.2.5.2 Concord...41
2.3 Procedimento de Análise...43
2.3.1 Seleção dos Adjetivos para Estudo...43
2.3.2 Adjetivos no BNC e o Sobreuso...44
2.3.3 Padrões dos Adjetivos no BrICLE...45
2.3.4 Adjetivos no BNC...46
2.3.5 Relexicalizações...47
CAPÍTULO 3 – RESULTADOS...50
3.1 Adjetivos Sobreusados...50
3.2 Good...52
3.2.1 Padrões de Good...52
3.2.2 Relexicalizações de Good...54
3.3 Important...64
3.3.1 Padrões de Important ...64
3.3.2 Relexicalizações de Important...67
3.4 Different...71
3.4.1 Padrões de Different...71
3.4.2 Relexicalizações de Different...73
CONSIDERAÇÕES FINAIS...77
x
xi
Quadro I
Quadro III – Adjetivos do BrICLE...50
Quadro VI – Adjetivos do BNC...50
Quadro V – Good Atributivo no BrICLE...52
Quadro VI – Estatística de Good no BrICLE...53
Quadro VII – Adjetivos colocados de ‘job’ no BNC...55
Quadro VIII – Adjetivos colocados de ‘example’ no BNC...58
Quadro IX – Adjetivos colocados de ‘solution’ no BNC...62
Quadro X – Important Atributivo no BrICLE...64
Quadro XI – Estatística de Important no BrICLE...65
Quadro XII – Adjetivos colocados de ‘thing’ no BNC...67
Quadro XIII – Adjetivos colocados de ‘things’ no BNC...69
Quadro XIV – Adjetivos colocados de ‘question’ no BNC...70
Quadro XV – Different Atributivo no BrICLE...71
Quadro XVI – Estatística de Different no BrICLE...72
Quadro XVII – Adjetivos colocados de ‘opinions’ no BNC...74
xii
Gráfico I – Comparação BrICLE X BNC ...51
Lista de Figuras
Introdução
Em tempos recentes o ensino de língua inglesa no Brasil vem se
popularizando cada vez mais. Saber1 inglês tornou-se requisito básico e indispensável para que um indivíduo consiga um estágio, um emprego e
desenvolvimento em sua carreira, em praticamente todas as áreas
profissionais existentes. Como conseqüência, a necessidade de pesquisas a
respeito do ensino-aprendizagem de um segundo idioma aumentou, pois
ainda há muito que não sabemos sobre como ensinar inglês e como as
pessoas o aprendem.
Uma área que julgamos precisar de pesquisa para auxiliar a prática do
professor é o ensino de redação. Mais especificamente, são raros os estudos
que auxiliem o professor na correção de redações de alunos de inglês,
principalmente quando o problema não é de fato um erro, mas sim a repetição
excessiva de algumas palavras. Por exemplo, quando um aluno escreve
repetidas vezes (em várias composições) ‘an important question’2, ele não está cometendo um erro sintático, morfológico ou pragmático, mas sim
demonstrando que não conhece alternativas para exprimir os vários sentidos
que podem se associar a ‘question’, como ‘crucial question’, ‘fundamental
question’, etc. Por seu lado, o professor que recebe composições com essa
expressão, muitas vezes nota o problema e se sente na obrigação de fornecer
alternativas de vocabulário ao aluno. Assim, o professor geralmente mostra ao
aluno que ele poderia escrever ‘crucial question’ ou ainda ‘interesting
question’. Em outras palavras, o professor oferece opções de relexicalização
para o aluno. Este estudo enfoca justamente a questão da relexicalização em
redações de alunos brasileiros de inglês.
Para ajudar o aluno nas redações, conforme esta nossa proposta, o
professor precisaria saber qual o léxico usado em excesso, ou seja,
1
Saber é entendido aqui como falar, compreender e escrever no idioma. 2
sobreusado3. O professor também teria que saber quais outras palavras poderiam substituir as sobreusadas. Decidimos chamar esta mudança de
palavras de relexicalização.
O termo relexicalização foi escolhido para esta pesquisa porque trazia a
idéia de substituição de palavras, com pequena variação de sentido, que
fornece maior fluência ao texto.
Existem outros termos como, por exemplo, sinônimo e equivalência,
que poderiam trazer a idéia de variação de vocabulário; porém, o termo
sinônimo é bastante criticado hoje em dia, e o termo equivalência parece ser
mais apropriado para a área de tradução.
Sobre o termo sinônimo Stubbs (2001 : 36) relata que:
“sinônimos são palavras que significam a mesma coisa. Freqüentemente se diz que é difícil encontrar exemplos que sejam convincentes. Afinal de contas, não pareceria haver nenhuma razão para uma língua ter palavras que significam exatamente o mesmo.”
Se optássemos por estudar sinônimos, poderíamos fazê-lo estudando a
palavra isolada. Porém, esse estudo implica na investigação da linguagem4 em contexto, assim observamos o comportamento das palavras umas em
relação às outras e como essa relação influencia o sentido de uso de cada
palavra.
A Equivalência, segundo Catford (1965:20) “é uma substituição do material
textual em uma língua (de partida) por um material textual equivalente em
outra (língua alvo)”5. Equivalência é um termo usado e já criticado na área de Tradução, justamente porque não se acredita que existam de fato duas
palavras, em línguas diferentes que signifiquem, conotem e denotem
exatamente o mesmo. Além do que, nesta pesquisa não estamos buscando
léxico para equivalência em línguas diferentes. Pretendemos encontrar
adjetivos que possam substituir outros na mesma língua.
3
O sobreuso de palavras diz respeito à utilização de uma mesma palavra mais vezes do que um falante nativo normalmente o faria.
4
Neste trabalho entendemos linguagem como ‘a língua em uso na redação dos alunos de inglês’. 5
O termo relexicalização é empregado de diferentes modos por
diferentes autores. Por exemplo, Partington (1998:134) utiliza o termo
relexicalização como desmetaforização, ou seja, o processo de substituir um
sentido idiomático por um sentido concreto. Por outro lado, Payne and Ross
(2005:40) descrevem a relexicalização como o remodelamento de um
conteúdo pelo uso de um similar semântico. Eles ainda explicam que a
relexicalização é parecida com a repetição, considerando-se que uma idéia
similar é repetida, mas a estrutura e/ou uma ou mais palavras gramaticais
(substantivos ou verbos) são diferentes6.
Ainda que haja variação no uso do termo relexicalização, ele nos
parece ser o mais apropriado para esta pesquisa. A relexicalização será
entendida aqui como uma mudança ou uma possibilidade de substituição
lexical no texto quando houver palavras utilizadas de modo incomum na
língua ou para evitar o sobreuso de palavras em um texto.
A importância da relexicalização, segundo McCarthy (1998), é a de que
‘mudanças de léxico na interação entre dois indivíduos, levam a conversa a
fluir ao invés de terminar. Transferindo essa idéia para as redações dos
alunos, podemos pensar que a relexicalização ajudaria a tornar o texto mais
fluente.
A relexicalização pode ser feita para qualquer classe de palavras. Nesta
pesquisa escolhemos estudar os adjetivos porque é uma classe de palavras
bastante sobreusada por alunos de inglês. Esse sobreuso ficou constatado
por Beber Sardinha (1999), a partir da investigação de redações de alunos
brasileiros de inglês. Beber Sardinha (1999) verificou que alguns adjetivos,
como ‘different’, eram duas vezes e meia mais usados pelos alunos brasileiros
de inglês do que pelos falantes nativos, ou seja, sobreusados.
A escolha de adjetivos para análise deveu-se primeiramente ao fato de
que essa é uma classe de palavras muito freqüente em qualquer tipo de texto
6
Do inglês: Relexicalization is similar to repetition in that a similar idea is repeated, but the structure and/or one or
e é usada principalmente para modificar substantivos, contribuindo para a
diversidade de informação em um texto (Biber et al., 1999).
Em segundo lugar, Peters and Peters (2000), em seu estudo dos
adjetivos da língua inglesa, afirmam que os adjetivos ainda não foram
estudados tão extensivamente quanto têm sido os verbos e substantivos.
Porém os adjetivos são semanticamente tão complexos quanto eles, se não
ainda mais.
Por fim, em nossa prática notamos que os adjetivos podem ser
relegados a um segundo plano no ensino de vocabulário, porque há alguns
adjetivos de alta generalidade semântica (Jenkins, 2006) - como ‘good’,
‘important’ - que parecem, aos olhos do aprendiz, serem capazes de se
associar a qualquer substantivo. Muitos alunos, então, os reusam
constantemente e acabam não percebendo que há relexicalizações, ás vezes,
mais apropriadas para os sentidos que eles desejam expressar. Em outras
palavras, tais adjetivos de alta generalidade semântica acabam se tornando
sobreusados.
Para encontrar os adjetivos sobreusados e relexicalizações foi
necessário encontrar uma abordagem teórica e metodológica que
possibilitasse perceber a freqüência de uso de palavras bem como seus
padrões de uso.
Dessa forma, a Lingüística de Corpus surgiu como uma alternativa
importante para a pesquisa em relexicalização, pois permitiu que
descobríssemos as colocações (nesse caso, as associações recorrentes de
adjetivo e substantivo) mais comuns da língua inglesa e que as
propuséssemos como as relexicalizações mais apropriadas e idiomáticas para
o contexto da escrita das composições pesquisadas. Estudos baseados em
corpus permitem que o lingüista tenha uma vasta quantidade de dados para
analisar e que a ocorrência de um dado fenômeno da língua fique evidente
Além disso, dentro da Lingüística de Corpus, existe uma ramificação
chamada Lingüística de Corpus de Aprendiz que desenvolve estudos
utilizando a teoria e abordagem da Lingüística de Corpus em corpora
formados por redações de alunos. Boa parte desses estudos são feitos
comparativamente, ou seja, observando um corpus de aprendiz e um corpus
de falantes nativos do inglês, sendo uma opção para estudos envolvendo
erros ou omissões, sobreuso e ‘evitamento’7.
Desse modo, esta pesquisa tem como objetivo verificar o sobreuso de
adjetivos feito por alunos brasileiros de inglês em suas redações e compará-lo
ao uso desses adjetivos por falantes nativos da língua inglesa, visando a
sugerir possibilidades de relexicalização para os adjetivos sobreusados pelos
alunos.
Dado esse objetivo, respondemos às questões elencadas abaixo:
1. Quais são os 3 adjetivos centrais mais sobreusados pelos alunos
brasileiros?
2. Quais as relexicalizações possíveis desses adjetivos?
Para verificar quais adjetivos são sobreusados e como são usados por
alunos de inglês, utilizamos como corpus de estudo o corpus de aprendiz
BrICLE. Este corpus é formado por redações de alunos brasileiros de inglês,
em nível avançado8.
Como corpus de referência, fizemos uso de um corpus de inglês nativo
chamado British National Corpus (doravante BNC). Este corpus é composto
de inúmeros textos de falantes nativos, perfazendo um total de
aproximadamente cem milhões de palavras9.
A dissertação está organizada como segue:
7
O que o aluno evita usar quando fala ou escreve – do inglês ‘avoidance’ 8
Critérios de coleta e detalhes sobre este corpus estão no capítulo 2, pg 33 9
O capítulo 1 apresenta a fundamentação teórica da pesquisa. Neste
capítulo, primeiramente abordamos a importância da Lingüística de Corpus na
pesquisa Lingüística. Em segundo lugar fizemos um breve histórico sobre
como surgiu e do seu uso em pesquisas. A seguir expusemos as definições
dos conceitos que permearam este estudo, quais sejam: corpus, corpus de
aprendiz, concordância, colocação, padrão e o que é um corpus
representativo. Tendo em vista esses conceitos, fizemos considerações a
respeito de sua relevância neste trabalho. Finalmente descrevemos
brevemente os adjetivos com base na gramática de padrões de Biber et al
(1999), mostrando quais os critérios adotados na escolha dos adjetivos
analisados.
O capítulo 2 apresenta detalhadamente a metodologia empregada
nesta pesquisa. Em primeiro lugar fizemos a descrição dos corpora e das
ferramentas utilizadas na análise para etiquetagem, cálculo de associação
lexical, levantamento de lista de palavras, linhas de concordância e
colocações dos adjetivos. A seguir, apresentamos os procedimentos
realizados na análise para a obtenção dos resultados que serão expostos no
capítulo seguinte.
No capítulo 3 foram apresentados e discutidos os resultados deste
estudo. Primeiramente, explicitamos o sobreuso feito pelos alunos de inglês
com os dados obtidos a partir das freqüências dos adjetivos em ambos os
corpora. A seguir, encontramos em quais sentidos os adjetivos sobreusados
no corpus de aprendiz são usados investigando os padrões desses adjetivos.
Por último, considerando os sentidos empregados pelos alunos, buscamos as
relexicalizações possíveis no corpus de falantes nativos.
Finalmente, apresentamos as Considerações Finais que concluem o
Capítulo 1 – Fundamentação Teórica
Neste capítulo apresentaremos os conceitos teóricos que embasaram
este trabalho. Inicialmente comentaremos sobre a importância da Lingüística
de Corpus na pesquisa lingüística. Em segundo lugar faremos um breve
histórico de seu desenvolvimento e uso. A seguir discutiremos a Lingüística
de Corpus de Aprendiz. Após essa discussão, trataremos do quadro
conceitual adotado como: definição de corpus, corpus de aprendiz,
concordância, colocação e padrões. Após as definições faremos uma
discussão a respeito dos princípios idiomático e de livre escolha. Também
serão discutidas questões a respeito de o que é um corpus representativo.
Finalmente, faremos considerações a respeito das características dos
adjetivos empregadas neste trabalho.
1.1 A Lingüística de Corpus
Inicialmente, introduziremos a área básica na qual esta pesquisa se
insere, qual seja a Lingüística de Corpus. Faremos isso apresentando a sua
definição e características, seguidas da discussão a respeito das vantagens
que a Lingüística de Corpus proporciona à pesquisa lingüística, bem como
seu caráter teórico em oposição ao metodológico. Finalmente, faremos a
contraposição da Lingüística de Corpus com a Lingüística Chomskyana e o
Estruturalismo.
1.1.1 Definição e Características
Este trabalho tem suporte teórico na Lingüística de Corpus, uma área
“Ocupa-se da coleta e exploração de corpora, ou conjuntos de dados lingüísticos textuais que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.”
A Lingüística de Corpus tem como uma de suas principais
características a observação e o uso de dados empíricos da língua, o que
permite ao pesquisador verificar fenômenos da língua real.
Reiterando as características da pesquisa que utiliza a Lingüística de
Corpus, podemos considerar as afirmações de Biber, Conrad e Reppen
(1998:4) que dizem que ela é10:
- “empírica, analisando padrões reais de uso da língua em textos naturais; - utiliza grandes e criteriosas coleções de textos naturais, conhecidas como
“corpus,” como base de análise;
- faz uso extensivo de computadores, tanto com técnicas automáticas
quanto interativas na análise;
- apóia-se em técnicas analíticas tanto quantitativas quanto qualitativas”.
(tradução minha)
Essas características são relevantes porque esta pesquisa, em
consonância com esta abordagem, faz uso de dois corpora de textos naturais,
criteriosamente coletados; faz uso de ferramentas computacionais para
análise automática e quantitativa dos dados, bem como usa técnicas
qualitativas na determinação e escolha de padrões e seus sentidos.
1.1.2 Vantagens e Desvantagens da Lingüística de Corpus
Considerando as características mencionadas anteriormente,
discutiremos a seguir as vantagens e desvantagens da abordagem da
Lingüística de Corpus nos estudos lingüísticos.
10
- it is empirical, analyzing the actual patterns of use in natural texts;
A utilização de um corpus, como dado empírico, e de computadores na
análise lingüística, parecem ser as maiores vantagens da Lingüística de
Corpus (doravante LC).
O uso de um corpus e de ferramentas computacionais possibilita
encontrar provas da ocorrência de um determinado fenômeno da língua, bem
como a freqüência com a qual ele ocorre. Portanto, não é necessário recorrer
à intuição para verificar se um fenômeno acontece ou não na língua.
Um exemplo de como dados empíricos, advindos de um corpus, podem
ser úteis a estudos de linguagem na área de ensino de língua estrangeira é
Granger (1998). Examinando um corpus de falantes nativos e um de aprendiz,
Granger(1998:205) notou que o adjetivo important era muito usado por ambos em detrimento a seus similares semânticos mais específicos11. Essa descoberta é uma prova da importância do uso de um corpus nos estudos de
linguagem. Esse fenômeno só pode ser observado através da investigação e
comparação de dados estatísticos extraídos de dois corpora. A intuição do
falante nativo não forneceria ao lingüista dados relativos à freqüência de uso
de determinado léxico.
Além disso, o exame de um corpus permite investigar padrões de uso e
sentido da língua que não são possíveis na abordagem estruturalista nem na
lingüística gerativa de Chomsky. Segundo Stubbs (1993:17) todos os sentidos
e significados de uma palavra têm gramática própria e cada significado está
associado a um padrão distinto e formal. Ou seja, forma e significado são
inseparáveis (Firth, 1935 apud Stubbs,1993:13). A presente pesquisa foi
baseada na análise de padrões e colocações de adjetivos encontrados nos
corpora estudados.
Em estudos que dizem respeito ao uso da língua12 e dos sentidos expressos neste uso, a freqüência de ocorrência de padrões lexicais é
relevante, pois cada padrão de uso expressa um sentido diferente. O lingüista
11
Crucial, relevant, etc. 12
que investiga a linguagem a partir de seu conhecimento de falante nativo,
introspectivamente, pode encontrar dificuldades para perceber a presença e
freqüência de determinado padrão lexical. O que é confirmado por Sinclair
(1991a:5) ao dizer que: “o julgamento feito intuitivamente é especialmente não
confiável no que diz respeito à freqüência e distribuição do léxico, da
gramática e do sentido”13.. Com o uso de um corpus e de ferramentas computacionais podemos obter dados estatísticos referentes à ocorrência e
freqüência de padrões lexicais que auxiliam na interpretação dos dados.
O avanço da tecnologia e maior viabilidade do uso de computadores
hoje em dia favorece ainda mais os estudos baseados em LC, em primeiro
lugar porque permite o exame de grandes quantidades de dados, como afirma
Stubbs (1993:23):
“A visão essencial da Lingüística de Corpus é que a análise da linguagem feita com ajuda do computador dá acesso a dados que não eram observáveis anteriormente... Nessa visão do assunto, um corpus não é meramente uma ferramenta de análise, mas um conceito importante na teoria lingüística.” 14
Em segundo lugar porque o avanço tecnológico permite a criação de
novas ferramentas computacionais, que poderão viabilizar novos métodos de
análise, fazendo da LC um ramo da lingüística em constante atualização e
afinado com as mudanças no mundo.
Uma crítica feita ao uso de corpora é a de que ele revela apenas o que
ocorre na língua, mas não permite perceber o que não ocorre (Stubbs
2001:224). O lingüista pode observar apenas o que está presente no corpus.
No entanto, novos métodos de estudo como uso de comparação entre
corpora, tal como o de um corpus de falantes nativos e um de aprendiz, pode
mostrar o que não ocorre, ou seja, aquilo que um aluno não faz em relação a
algo que o falante nativo faz.
13
Do inglês: Intuitive judgments are particularly untrustworthy with respect to the frequency and distribution of different forms and meanings of words, and to the interaction of lexis, grammar and meaning.
14
1.1.3 Lingüística de Corpus – Metodologia ou Teoria?
Nesta pesquisas utilizamos a LC como abordagem teórica, no entanto
segundo Tognini-Bonelli (2001:1), há diferentes pontos de vista relativos ao
uso da LC como metodologia ou teoria. Discute-se que a LC não pertence
realmente ao domínio de pesquisa, ela é apenas uma base metodológica para
estudos de língua.
Opondo-se a essa afirmação Tognini-Bonelli (2001:1) explica que
“muitos lingüistas, como Halliday, acreditam que a LC vai muito além de
simplesmente uma abordagem metodológica”. A LC está trazendo novas
perspectivas para a área de pesquisa lingüística devido ao tipo de coleta
criteriosa de dados, a utilização de computador e de dados estatísticos e
teorização, o que resulta em uma mudança qualitativa de nosso entendimento
da língua.
Em nossa visão a LC não pode ser considerada somente uma
metodologia, porque metodologia é um conjunto de regras e procedimentos a
serem seguidos para a realização de uma pesquisa que são definidos a priori. Na LC os procedimentos são determinados de acordo com as necessidades
do lingüista para encontrar as informações necessárias para sua a análise.
1.1.4 Contraposição à Lingüística Chomskyana e ao
Estruturalismo
Há muito debate a respeito do uso de dados empíricos, advindos de um
corpus, na investigação de fenômenos da língua. Como esse trabalho faz uso
desse tipo de dado, é necessário justificar alguns pontos.
Segundo Sampson (2001) em décadas recentes a lingüística não tem
se baseado na observação de dados empíricos, como os provenientes de um
corpus, devido ao fato de muitos lingüistas haverem sido dissuadidos de tal
De acordo com Chomsky (1961:130, apud Sampson 2001): “é absurdo
tentar construir uma gramática que descreva o comportamento lingüístico
diretamente observado” 15. Chomsky (1961) acredita que o comportamento lingüístico observado a partir de um corpus pode ser afetado por muitas
variáveis, além da estrutura intrínseca da língua que é falada. Essas variáveis
funcionam como fatores complicadores, tornando a análise superficial.
Uma outra razão pela qual Chomsky (1966) critica o uso de um corpus
para análise lingüística é o fato de acreditar que a intuição do falante nativo
poderia dar acesso às propriedades intrínsecas da língua, tornando a
observação empírica inútil. Sampson (2001) contrapõe-se a essa idéia ao
dizer que não se pode analisar um determinado fenômeno sem observar
muitos fatores que o causam (como o uso lingüístico), inclusive os que
parecem de menor importância à regra geral.
Se pensarmos a respeito de subuso, sobreuso, evitamento e erros
cometidos por estudantes de uma língua, e considerarmos que os falantes
nativos desta língua não estão conscientes de como a utilizam todos os dias,
a intuição e introspecção do pesquisador e lingüista não poderiam auxiliá-lo
na análise do que um aprendiz de língua faz com a língua que está
estudando.
A respeito da consciência de uso da língua feito por falantes nativos,
Sinclair (1996:85) explica que: “o ser humano, contrariamente à crença
popular, não é bem organizado para isolar conscientemente o que é central e
típico na língua”. Como exemplo, Sinclair (1996) apresenta alguns dados
relativos ao verbo ‘see’. Em análises feitas a partir de um corpus, Sinclair
(1996) descobriu que o uso mais comuns do verbo ‘see’ são em expressões
do tipo ‘I see’ e ‘you see’, que aparecem com o sentido de ‘entender’. Sinclair
(1996) afirma que se os falantes nativos de inglês fossem questionados a
respeito do sentido e uso mais comum de ‘see’, responderiam que este verbo
é usado no sentido de ‘enxergar com os olhos’. Por isso, usando a intuição
15
podemos conseguir exemplos para explicar alguns fenômenos da língua. Há
porém uma série de outros fenômenos que sequer notaríamos e que
passariam despercebidos não fossem pelos estudos realizados a partir de um
corpus. Se deixássemos de usar corpora nas análises lingüísticas não
conseguiríamos amostras de linguagem que ajudassem a explicitar a
ocorrência de certos fenômenos da língua, principalmente aqueles relativos
ao uso16.
Um outro motivo pelo qual Chomsky (1965) não acredita no uso de
dados advindos de um corpus é porque Chomsky crê que os dados
provenientes da intuição e introspecção do falante são abundantes e mais do
que suficientes para a descrição de uma língua. Para Chomsky (1965:20) “o
problema do gramático é construir uma descrição e, se possível, uma
explicação para a quantidade enorme de dados inquestionáveis relativos á
intuição lingüística do falante nativo” 17.
Sampson (2001:2) rejeita a idéia de Chomsky e afirma que os dados
baseados na ‘intuição’ podem ser abundantes, porém pouco confiáveis18. Esses dados podem ser facilmente manipulados para preencher qualquer
requisito e muitas vezes são difíceis de se encontrar no uso da língua no
mundo.
Essas afirmações mostram a necessidade de observação de dados
provenientes de um corpus para analisar a língua em detrimento da intuição.
Principalmente quando os estudos feitos não se baseiam somente na língua
do falante nativo, mas também naquela utilizada por estudantes desta língua,
como no caso desta pesquisa.
Também há debate quanto ao estruturalismo na pesquisa lingüística,
Firth (1957b: 22-3, apud Monaghan,1979:7) afirma que:
16
Do ingles: usage 17
Do ingles: The problem for the grammarian is to construct a description and, where possible, an explanation for the enormous mass of unquestionable data concerning the linguistic intuition of the native speaker.
18
“A maior crítica a ser oferecida ao estruturalismo americano baseado em procedimentos fonéticos é que, ao tentar somente isso, não forneceu nenhuma análise gramatical válida de nenhuma língua por meio da qual tenha havido uma renovação de conexão com a experiência que pode ser feita de modo sistemático.” 19
Considerando os objetivos desta pesquisa, uma abordagem
estruturalista permitiria somente a busca de sinônimos porque considera a
análise de palavras individuais. No estruturalismo os colocados de cada
palavra não seriam levados em consideração na interpretação dos dados, na
observação de padrões e dos sentidos expressos por esses padrões.
1.2 Desenvolvimento Histórico da Lingüística de Corpus
As teorias a respeito do uso de evidência empírica nos estudos
lingüísticos tiveram como grande defensor e precursor J. R. Firth (1890-1960).
Firth foi um dos primeiros a preconizar a análise de dados reais, a mostrar
preocupação com o sentido, opondo-se às idéias estruturalistas e gerativistas
(anos 50 e 60), e a sugerir que para percebermos o comportamento de uma
palavra deveríamos dar atenção às palavras que a acompanhavam, criando
as primeiras noções a respeito das colocações. Firth acreditava que a
lingüística deveria ter bases teóricas fortes, mas que deveriam ser testadas
repetidamente observando-se a língua real. A partir de algumas dessas idéias
surgiu a LC.
O trabalho com corpus não começou com estudos que procurassem
entender o sentido, como são feitos hoje em dia. Segundo Monaghan
(1979:11) nos anos 50, o Estruturalismo procurou descrever a linguagem em
uso, num estágio da lingüística chamado de ‘centrado em corpus’ e que teve
trabalhos importantes na análise do inglês falado e escrito como o de Fries
(1940 e 1952). Essa fase diferiu bastante dos estudos recentes utilizando
19
corpus, pois nesse período (final dos anos 50) o interesse maior era pela
segmentação e classificação rigorosa da língua, enquanto que a LC se
interessa pelo comportamento das palavras num Corpus e como esse
comportamento20 tem influência no significado delas21.
A análise de dados reais há alguns anos sofria com o fato de que, para
tal, era necessário compilar um corpus, e fazê-lo manualmente era um
processo lento e custoso. Ainda assim, o trabalho realizado com corpus, em
Lingüística Aplicada, não aconteceu somente a partir do surgimento do
computador. Há muito tempo pesquisadores e estudiosos da área compilavam
corpora manualmente e faziam estudos a partir dos dados empíricos obtidos
desses corpora (Berber Sardinha, 2004).
As pesquisas do neofirthiano Sinclair, na área de LC, levou a um grande
desenvolvimento deste tipo de estudos e da teoria de LC. O trabalho de
Sinclair nos anos 60 era baseado em inglês falado autêntico que era gravado
com o propósito de estudar o léxico e as colocações (Sinclair 1965, 1966a, 1966b,1968). Nos anos 70, a linha de pesquisa de Sinclair mudou
consideravelmente, realizando estudos de análise do discurso com dados
autênticos gravados e escrevendo uma gramática do inglês falado utilizando,
porém, sentenças inventadas como exemplo (Sinclair, 1972 e Sinclair &
Coulthard, 1975). A partir dos anos 80 passou a utilizar grandes quantidades
de corpora escrito autêntico no computador e menos dados falados para
vários estudos de análise lexical e gramatical (Stubbs, 1993:6). Estes
trabalhos de Sinclair influenciaram pesquisas tanto nas áreas de lexicografia
quanto de ensino de línguas, preparação de material para o ensino e
confecção de dicionários.
Além de Sinclair, também havia outros estudiosos em LC como Quirk e
Leech. Quirk foi o responsável pelo primeiro corpus compilado para pesquisa
o SEU (Survey of English Usage). Ele foi compilado manualmente por Quirk e
sua equipe em fichas de papel, a partir de 1953. Este corpus chegou ao
20
Padrões de uso e colocações das palavras 21
número de um milhão de palavras e serviu como modelo para outros corpora
que o sucederam (Berber Sardinha, 2004).
Durante algum tempo, a pesquisa baseada em corpus foi considerada
menos importante devido à influência de Chomsky e de sua obra, que se
iniciou com Syntactic Structure e levou um bom número de lingüistas a
desenvolver pesquisas baseadas em seu conhecimento de falante nativo e na
introspecção.
No entanto, a pesquisa com corpus não desapareceu. A criação e
desenvolvimento dos computadores e de corpora eletrônicos levaram a um
ressurgimento e a um grande avanço da pesquisa baseada em corpus,
principalmente após 1980.
1.3 Lingüística de Corpus de Aprendiz
Conde (2002:28) define a Lingüística de Corpus de Aprendiz (doravante
LCA) como aquela que se dedica à coleta e armazenagem de dados
lingüísticos produzidos por aprendizes de línguas, para fins de estudos
descritivos.
A definição acima é de grande relevância para esta pesquisa já que o
corpus de estudo em questão é um corpus de aprendiz, que foi coletado e
armazenado de acordo com alguns dos critérios presentes no projeto ICLE22 (International Corpus of Learner English), um projeto pioneiro nessa área e
com a finalidade de servir à pesquisa.
Além do tipo de coleta criteriosa desenvolvido pela LCA, uma outra
característica que merece destaque é a utilização de comparação entre
corpora de aprendiz e de falantes nativos nas análises.
O uso comparado de corpora de estudantes e de falantes nativos
permite observar o que o aluno subusa, sobreusa ou evita usar, uma vez que
22
não é possível observar o processo mental de um aluno diretamente
(Granger, 1998).
Há uma série de trabalhos na área de LCA, dois dos mais relevantes
são a coletânea organizada por Granger (1998) e o de Lorenz (1999) sobre
intensificação de adjetivos, que serão comentados abaixo.
Granger (1998) mostra a versatilidade de uso de um corpus de aprendiz
computadorizado como fonte de dados para pesquisa no ensino de línguas.
Um dos pontos discutidos é o contraste entre a Lingüística Chomskyana, com
foco na competência e universais lingüísticos e a Lingüística de Corpus que
se preocupa com a performance e a descrição tanto quantitativa quanto
qualitativa da linguagem sendo analisada.
Uma análise realizada a partir da descrição da linguagem tanto
quantitativa quanto qualitativa viabiliza a descoberta de fatos totalmente novos
a respeito da linguagem. Este tipo de análise aliada a um corpus de aprendiz
abre novos caminhos para a pesquisa em ensino de línguas porque os dados
advindos deste corpus permitem investigação sistemática da linguagem
utilizada pelos alunos, do modo como eles a usam naturalmente, ao contrário
do que acontece com pesquisa experimentais, que não refletem o uso real da
língua pelo aluno.
Comparando um corpus de aprendiz e um corpus nativo é possível
identificar erros de modo contextualizado, perceber quando o aluno evita usar
qualquer ponto gramatical ou classe de palavra e ressalta o subuso ou
sobreuso de palavras pelos alunos.
No artigo de Granger e Tribble (1998) há demonstrações de como os
dados obtidos de um corpus de aprendiz podem ser usados na correção de
erros23 e no ensino e criação de materiais informados por este corpus. Também discutem como estes dados podem ser usados em sala de aula para
tornar os alunos mais independentes em seu aprendizado.
23
Lorenz (1999) desenvolveu um trabalho sobre intensificação de
adjetivos, discutindo os princípios da formação de um corpus de aprendiz e
um comparável nativo. Desse modo ele estudou os adjetivos e seus
intensificadores observando o que era feito pelo aluno em oposição ao que
era feito pelo falante nativo, encontrando algumas discrepâncias de uso pelos
estudantes.
Primeiramente buscou demonstrar todas as vantagens que esse tipo de
pesquisa pode trazer, principalmente para a área de ensino de línguas (EFL),
apontando a LCA como o melhor modo de verificar as necessidades de
aprendizagem de alunos.
Em segundo lugar, Lorenz (1999) apresenta os princípios básicos na
criação de um corpus de aprendiz, que são: a) a força da análise de um
corpus de aprendiz está em encontrar padrões e não erros; b) naturalidade e
idiomaticidade são conceitos probabilísticos; c) os estudos em corpora de
aprendiz são melhor trabalhados em nível avançado; d) os padrões
característicos da linguagem de alunos avançados são mais bem estudados
na produção escrita; e) a naturalidade pode ser melhorada explicitando os
padrões escondidos. Todos esses princípios permearam nosso trabalho.
O autor também argumenta sobre a necessidade de se fazer a
normalização dos dados estatísticos obtidos a partir dos corpora de aprendiz
e dos corpora nativos porque os corpora que utilizou tinham tamanhos
diferentes.
Após estas especificações metodológicas, Lorenz procura descrever os
intensificadores de adjetivos de modo funcional e propõe critérios para a
descrição e classificação de adjetivos. Esses critérios serão apresentados na
seção 1.5, considerando que alguns desses critérios foram utilizados neste
trabalho para selecionar os adjetivos a serem estudados e sugeridos.
Ainda que o estudo de Lorenz tenha foco nos intensificadores de
adjetivos, o autor obteve alguns resultados interessantes relativos ao uso de
escolha de alguns adjetivos teve influencia da L124, o que pode contribuir para o sobreuso dessa classe de palavras, sendo um dado revelador e relevante
para nossa pesquisa.
Nas três primeiras seções desse capítulo, utilizamos inúmeras vezes
termos como padrão, colocação, concordância, corpora nativo e de aprendiz.
Por isso, apresentaremos a seguir algumas definições para estes termos.
1.4 Definições
Esta pesquisa foi realizada utilizando dois corpora, um de textos em
inglês de falantes nativos chamado BNC (British National Corpus) e um de
redações de estudantes de inglês chamado BrICLE (Brazilian International
Corpus of Learner English), por esta razão é relevante definir estes corpora.
Há algum debate a respeito do que é um corpus, este estudo não pretende
esgotar o assunto, porém discutimos algumas definições. Em seguida
apresentamos as definições para colocação, linhas de concordância e padrão.
1.4.1 Corpus
Há varias definições de corpus na literatura. Aquela que adotamos
nesta pesquisa é a proposta por Sanchez e Cantos (1996:8-9):
“um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.”
Adotamos esta definição porque pondera sobre a representatividade de
um corpus, indica critérios na coleta e prevê seu uso no computador.
24
Há outras definições na literatura, tais como:
Um corpus é uma coletânea de textos naturais, escolhidos para
caracterizar um estado ou variedade de linguagem (Sinclair, 1995:171).
Essa definição é bastante ampla, pois textos naturais podem ser em
qualquer língua e de qualquer tipo. No caso de pesquisas é necessário haver
critérios na coleta dos textos para que sejam representativos do evento em
estudo.
Definindo um corpus como textos que representarão uma variedade de
linguagem, podemos considerar a definição de Percy et al (1996:4) que
afirmam que um corpus é uma coletânea de porções de linguagem que são
selecionadas e organizadas de acordo com critérios lingüísticos explícitos, a
fim de serem usadas como uma amostra de linguagem. A noção de porções
de linguagem é interessante principalmente considerando os critérios
empregados na escolha destas porções e que é uma amostra da língua, já
que não parece viável coletar e estudar a língua toda.
A definição de Stubbs (2001:25) que diz que um corpus é uma coleção
de textos que foi planejada para pesquisa lingüística, de modo a representar
algum aspecto da língua, é clara e completa, faltando apenas indicar o uso do
corpus em computador. O fato de ser planejada já mostra que há critérios
para a coleta, estabelecidos pelo pesquisador, que têm objetivo específico de
uso em pesquisa e também devem representar o que se está buscando em
um estudo.
A maioria das definições determina que, para fins de pesquisa, deve
haver critérios na coleta do corpus para que ele seja representativo, em
decorrência disso, se a pesquisa visa a analisar a linguagem usada por
estudantes de língua inglesa, é necessário um corpus formado por textos que
representem o que o aluno escreve. Para aclarar a diferença entre um corpus
nativo e um corpus de aprendiz, discutiremos a respeito do uso de corpora de
1.4.2 Corpus de Aprendiz
Um corpus de aprendiz é aquele formado por textos naturais falados ou
escritos por estudantes de uma língua estrangeira, que atenda a critérios que
possibilitem seu estudo e que tenha sido coletado de modo que possa ser lido
por computador.
Os textos de um corpus de aprendiz são considerados naturais porque
são produzidos por estudantes sem controle do que escrevem, ou seja,
nenhum ponto gramatical (por exemplo) específico deve ser elicitado. Há, no
entanto, critérios para a coleta desse corpus de acordo com o tipo de texto
que se quer representar. O corpus de aprendiz difere de um corpus nativo
porque é escrito por não-nativos de uma língua.
Segundo Granger (1998:6) um corpus de aprendiz deve possibilitar a
análise da maioria dos eventos lingüísticos e ter critérios severos de coleta,
pois desse modo pode-se estudar vários aspectos da linguagem utilizando o
produto da aprendizagem de um aluno.
1.4.3 Concordância
A pesquisa lingüística que segue a abordagem da LC, utiliza com
freqüência as linhas de concordância.
A definição de concordância que nos parece adequada a este trabalho
é a proposta por Beber Sardinha (2004:187) que diz que “a concordância
consiste de uma listagem dos cotextos (palavras ao redor) nos quais um dado
item (palavra isolada, composta, estrutura, pontuação) ocorre”.
Em discussões a respeito de dados provenientes de um corpus, há
algum debate a respeito da concordância por ela não trazer todo o contexto
no qual um item está inserido. Porém, se observarmos todo o contexto
possivelmente não conseguiremos enxergar os padrões presentes naquele
Stubbs (2001:222) afirma que a concordância, também chamada de
KWIC (Key Words In Context), coloca as palavras em pequenos contextos e
que por isso o foco fica restrito ao span colocacional, revelando novos
padrões. Portanto, a concordância mostra a parte do contexto ao qual
pertence uma palavra, ao mesmo tempo em que, por restringir esse contexto,
facilita a verificação de padrões, tornando-os mais visíveis.
1.4.4 Colocação
Neste estudo tivemos que encontrar colocados dos adjetivos estudados
nas linhas de concordância. O conceito de colocação que adotamos foi o de
Firth (1957 apud Monaghan, 1979:32) quando explica que os colocados de
uma dada palavra são:
“Declarações do lugar habitual daquela palavra na ordem colocacional, mas não em nenhuma outra ordem contextual e enfaticamente em nenhuma outra ordem gramatical. Os colocados de uma palavra não devem ser considerados como mera justaposição de palavras, são uma ordem de expectativa mútua”
25. (tradução minha)
Há outras definições que trazem a noção de que uma palavra gera a
expectativa de ocorrência de uma outra, tais como a de Lewis (2000:245) que
diz que “as colocações podem ser descritas como palavras que estão
colocadas ou podem ser encontradas juntas em um padrão previsível”.
Outra definição que reforça a idéia de palavras encontradas juntas é a
de Stubbs (2001:24) que afirma que a colocação “é uma relação lexical entre
duas ou mais palavras que têm a tendência de co-ocorrer dentro de uma
distância de poucas palavras uma da outra em um texto corrente”. Como
conseqüência disso um nódulo26 prevê que uma outra palavra, anterior ou posteriormente também ocorra.
25
Do inglês: … statements of the habitual or customary places of that word in collocational order but not in any other contextual order and emphatically not in any grammatical order. /the collocation of a word or a ‘piece’ is not to be regarded as mere juxta-position, it is an order of mutual expectancy.
26
Considerando os estudos de padrões de uso de língua nativo como
modelo para estudantes dessa e que vem ao encontro da proposta deste
trabalho, ainda podemos examinar a afirmação de Bastiaensen (1994 apud
Partington 1996:56) que diz que:
“o estudo da colocação nos diz o que um falante nativo realmente faz e quais formas de linguagem são escolhidas com maior freqüência em relação a outras formas igualmente possíveis, viáveis e até mesmo apropriadas.27” (tradução minha)
Podemos notar, a partir dessa afirmação, que embora haja muitas
possibilidades de palavras que podem substituir outras, nem sempre essas
substituições são a possibilidade mais freqüente ou o que soa mais natural.
1.4.5 Padrão
Discutiremos nesta seção a noção de padrão. O conceito que adotamos
é o proposto por Berber Sardinha (2005:216) que afirma que:
“Um padrão é uma associação regular entre itens lexicais, categorias gramaticais, semânticas ou pragmáticas, observada num corpus, extraída por meio da aplicação de ferramentas computacionais ou pela observação de concordâncias”.
Quanto à investigação dos padrões pela abordagem da Lingüística de
Corpus, Berber Sardinha (2005: 216) diz que:
“a padronização é particularmente propícia de ser investigada por meio da exploração de corpora eletrônicos, porque ela é essencialmente um fenômeno probabilístico, o que significa dizer que o interesse dos lingüistas de corpus está em mostrar não somente que um padrão existe, mas também (e principalmente) em descobrir quantas vezes ele ocorre e quão típico ele é de uma língua, gênero, texto, grupo social ou de qualquer outra variável que esteja presente no corpus.”
27
1.5 O Princípio da Livre Escolha e o Princípio Idiomático
A linguagem pode ser interpretada de duas formas, dependendo da
visão que tivermos dela, uma de acordo com o princípio da livre escolha a
outra de acordo com o princípio idiomático.
O princípio da livre escolha diz que, ao nos expressarmos através da
linguagem, selecionamos as palavras que vamos utilizar de acordo com sua
função gramatical, gerando um número imenso de possibilidades (Barbosa,
2004:8). Sempre que falamos ou escrevemos temos liberdade para escolher
qual verbo acompanha o sujeito e qual objeto se relaciona ao verbo, não há
regras quanto à ocorrência de uma palavra em companhia de outra, por
exemplo. Seguindo esse princípio, toda vez que dizemos algo examinamos
nosso banco de dados cerebral e escolhemos palavra a palavra do que
desejamos falar. Isto tornaria nossa comunicação lenta e difícil.
Se não houvesse um padrão de uso e pudéssemos escolher qualquer palavra
para preencher os espaços em branco numa frase, ou seja, se tivéssemos
que selecionar uma palavra apenas de acordo com sua função gramatical,
teríamos um leque muito grande de possibilidades. As escolhas de palavras
que fazemos, como se elas fossem pré-selecionadas, não são aleatórias, daí
a noção de colocação e do princípio idiomático que será discutido abaixo.
No princípio idiomático (Sinclair, 1991), como mencionamos acima, a
escolha de palavras é feita a partir de uma seleção prévia, de acordo com os
padrões encontrados na língua, limitando o número de possibilidades de
palavras que, por exemplo, podem ocupar uma determinada posição em uma
frase e facilitando a comunicação. Portanto, no princípio idiomático o falante
pode fazer escolhas, porém dentro de alguns padrões que foram previamente
selecionados.
O princípio idiomático é o que traz uma visão de linguagem compatível
com a idéia de pesquisa empírica da Lingüística de Corpus, pois este princípio
Podemos observar este princípio investigando como os falantes exploram os
recursos de sua língua, através da análise da linguagem natural utilizada de
fato por esses falantes e levando em consideração não o que é teoricamente
possível, mas o que é estatisticamente provável (Barbosa, 2004:8).
A importância dos padrões, se deve, fundamentalmente ao princípio
idiomático. Em função desse princípio notamos como a observação e
investigação de padrões são um modo apropriado para se analisar um dado
item na linguagem em uso.
Uma das exigências principais da LC é que o corpus analisado seja
representativo do item em estudo, por isso, discutiremos brevemente as
características de um corpus representativo.
1.6 Corpus Representativo
Um corpus representativo é aquele que possui um número de textos (ou
palavras) tão grandes quanto seja possível conseguir28, desde que siga critérios rigorosos em sua compilação, de acordo com o propósito de estudo,
para que possa representar um determinado tipo de variedade de linguagem,
funcionando como amostra desta.
Por ser uma amostra de uma população com tamanho desconhecido é
difícil determinar o tamanho ideal para um corpus, conseqüentemente o
melhor modo de se obter um corpus representativo é estabelecer critérios
rigorosos na construção desse corpus (Berber Sardinha, 2004:23).
Segundo Sinclair (1997, apud Berber Sardinha, 2004) um corpus deve
ser tão grande quanto a tecnologia permitir, daí a grande variedade no
tamanho dos corpora existentes.
Os corpora gerais29 de língua inglesa, por exemplo, são bastante grandes. O BNC utilizado para realizar este trabalho tem cerca de cem
28
A possibilidade de erro é sempre menor em uma amostra maior, considerando dados estatísticos.
29
milhões de palavras, o Bank of English já ultrapassou os quatrocentos e
cinquenta milhões de palavras e continua crescendo, o mesmo acontece com
o Banco de Português da PUC São Paulo, com mais de duzentos e trinta e
três milhões de palavras (Berber Sardinha, 2004:8,9).
A variação de tamanho é ainda maior no caso de corpora
especializados30 que possuem um número menor de palavras em relação aos corpora gerais. Pode haver um corpus de cartas de negócios com 49.898
palavras (Barbosa, 2004), bem como um corpus de português literário
(Modern Portuguese – Brigham Young University) com 315 mil palavras.
Estes dois corpora, apesar de tamanhos diferentes, ainda assim podem ser
representativos, dependendo do tipo e tamanho da população do qual eles
pretendem ser amostras.
Os critérios de coleta para este tipo de corpus são mais restritivos e por
isso o acesso a estes textos é mais limitado, tornando-o menor que os
corpora gerais e com grande variedade de tamanho como exemplificado
acima.
Os corpora de redações de aprendiz de inglês do projeto ICLE, por
exemplo, possuem duzentas mil palavras. O corpus estudado neste trabalho
faz parte desse projeto e se chama BrICLE. Como é um corpus ainda em
desenvolvimento, conta com aproximadamente quarenta mil palavras.
O fato de esses corpora serem menores não significa que não sejam
representativos, pois vários autores como Berber Sardinha (2004),
Biber,Conrad & Reppen (1998), Granger (1998), Hunston (2002), Lorenz
(1999), Tognini-Bonelli (2001) sugerem que se o corpus for compilado
seguindo critérios rigorosos de coleta, mesmo pequeno ele pode ser
representativo.
Além disso, devemos considerar que se compilarmos um corpus de
todos os textos escritos por um determinado autor, por exemplo, e após essa
compilação verificarmos que temos um total de três mil palavras, apesar de
30
aparentemente pequeno, esse corpus pode ser representativo do trabalho
daquele autor.
O tamanho e o tipo de língua que se quer representar em um corpus
dependem do propósito do estudo a ser realizado com esse corpus
(Tognini-Bonelli, 2001).
Podemos dizer que o corpus de estudo desta pesquisa é uma amostra
representativa da linguagem utilizada por alunos brasileiros de inglês porque
ele possui somente redações de alunos de inglês como língua estrangeira e
que são brasileiros, sendo por isso um corpus especializado. Todos os textos
são argumentativos e em número tão grande quanto foi possível obter-se,
seguindo os critérios de compilação do projeto ICLE31. A única exceção feita a esses critérios foi a do número mínimo de palavras de cada redação: no ICLE
é de quinhentas palavras e no BrICLE algumas redações têm
aproximadamente duzentos e cinqüenta palavras. Esse corpus foi compilado
com o propósito de estudar a produção de alunos de inglês.
O estudo feito neste corpus teve como parte de seu objetivo analisar o
uso de adjetivos por alunos de inglês, e por isso foi necessário estabelecer
alguns critérios para a escolha dos adjetivos a serem pesquisados. Assim, a
seguir discutiremos algumas características dos adjetivos de acordo com seu
uso e função.
1.7 Adjetivos: descrição e critérios
Um adjetivo é uma palavra lexical ou de conteúdo, que faz parte das
palavras que carregam sentido. O adjetivo é usado principalmente para
modificar substantivos, contribuindo para a diversidade de informação em um
texto (Biber et al., 1999).
Os adjetivos têm a capacidade de mudar ou enfatizar o sentido de um
substantivo, por isso são tão importantes no texto quanto as palavras que eles
31
modificam. Desse modo, conhecê-los e saber usar variações de adjetivos é
relevante na aprendizagem de uma língua.
A descrição e critérios para a determinação de o que é um adjetivo (na
língua inglesa) adotados por nós para este trabalho seguem as noções da
gramática baseada em corpus de Biber et al. (1999).
Os adjetivos podem ser centrais ou periféricos.
Os adjetivos centrais são aqueles que se enquadram nas quatro
características mencionadas por Biber et al. (1999), quais sejam:
a) Ser flexionável, ou seja, aceitar modificação por advérbios como
‘very'. O fato de um adjetivo ser flexionável ou não se relaciona com
o aspecto morfológico deste. Ex: For them, the family is very
important and abortion is a murder.
b) Funcionar em ambas as posições atributiva e predicativa. A posição
do adjetivo na frase diz respeito ao aspecto sintático.
Ex: Atributivo – …it may seem that working is the only important thing …
Predicativo – I think that money is important…
c) Ser descritivo, que tem a ver com o aspecto semântico do adjetivo.
Ex: Now important people are getting involved and …
d) Ser graduável, ou seja, aceitar os graus comparativo e superlativo.
A graduação dos adjetivos também tem a ver com o aspecto
semântico. Ex:...if it you think it is the most important thing for your
life, ….
Desse modo, o adjetivo ‘important’, é considerado central porque possui
todas estas características32.
Os adjetivos periféricos são aqueles aos quais falta uma ou mais
características dos adjetivos centrais e normalmente são classificatórios ao
invés de descritivos (Biber et al. 1999:505 - 518).
Considerando o aspecto semântico de um adjetivo temos as
características descritivas e as classificatórias.
32
Os tipos de adjetivos considerados descritivos são:
a) Cor: red;
b) tamanho, quantidade ou extensão: big, little, wide;
c) tempo: late;
d) avaliativo: emotivo: good;
e) outros: appropriate, hard, hot, etc.
Os tipos de adjetivos classificatórios apresentam-se de forma:
a) relacional, de classificação, restritivo: complete, final, etc.;
b) de afiliação: American, English, Christian, etc.;
c) de tópico e outros: chemical, human, phonetic, etc.
O trabalho de Biber et al.(1999) ainda discute os adjetivos em outros
papéis sintáticos, adjetivos pospostos, como núcleo de frases nominais, com
função de ligar orações e como exclamações. Também faz comentários a
respeito dos graus de comparação e o uso dos adjetivos em vários tipos de
registro por eles estudados33. Como estas noções não são relevantes para este trabalho, não serão destacadas aqui.
No trabalho de Peters & Peters (2000), que é parte de um projeto
chamado SIMPLE (Specification Group, 2000), da Universidade de Sheffield,
são discutidas as dificuldades na caracterização dos adjetivos. Em primeiro
lugar, eles classificam os adjetivos de acordo com os aspectos morfológico,
sintático e semântico.
Em segundo lugar Peters & Peters (2000) passam a sugerir meios para
descrever o comportamento dos adjetivos. Primeiramente, separam os
adjetivos em predicativo, atributivo e predicativo/atributivo (aspecto sintático).
Morfologicamente classificam os adjetivos em flexionáveis e derivativos. No
aspecto semântico oferecem 2 tipos de classificação:
33
a) a de Chierchia e McConell Ginet (1990): intersectivo, subsectivo e
não predicativo.
b) a de Peters & Peters: intensional (temporal, modal, emotiva, de
modo, relacionada ao objeto e enfatizante) e extensional (psicológica, social,
física, temporal, intensificador e relacional)
Além desta classificação, apresentam a subclassificação (semântica)
feita por Quirk, Greenbaum, Leech e Svartvik (1985), que trazem as noções
de adjetivos estativos e dinâmicos, graduáveis e não graduáveis, e inerentes
e não inerentes.
Um outro trabalho que traz critérios para a classificação de adjetivos é o
de Lorenz (1999). Lorenz usa, em parte, os critérios de avaliação de adjetivos
propostos por Quirk et al. (1985, apud Lorenz, 1999:39) que são bastante
similares aos usados por Biber et al. (1999), quais sejam:
a) ocorrer em função atributiva;
b) ocorrer em função predicativa;
c) pré modificação pelo intensificador very;
d) formas comparativa e superlativa.
Além desses critérios, aparece no trabalho de Lorenz uma outra
classificação para os adjetivos, quais sejam: adjetivos de relevância
(significant, interesting, etc.), adjetivos de dimensão básica (good, bad, long,
short, etc.), adjetivos de viabilidade (difficult, impossible, etc.) e adjetivos do
trato humano (aggressive, friendly, etc.).
Baseando-nos nas descrições e classificações acima, escolhemos
utilizá-las apenas parcialmente, porque o objetivo do trabalho não é classificar
os adjetivos estudados. Assim os critérios que utilizamos para selecionar os
adjetivos a serem analisados em nossa pesquisa foram:
a) o adjetivo deve estar em posição atributiva34;
b) o adjetivo deve ser central (não analisaremos os periféricos).
34
Em outro aspecto do estudo de Lorenz (1999), não quanto à descrição
dos adjetivos, mas sobre os resultados obtidos por ele, há alguns dados de
relevância para comparação de resultados desta pesquisa. Em seu corpus,
dentre os adjetivos intensificados, o autor constatou que os adjetivos
important, good e different, são sobreusados pelos alunos de inglês alemães. Estes adjetivos também são sobreusados pelos alunos brasileiros.
Outra descoberta de Lorenz (1999:54) é que good tem variação de sentido de acordo com o contexto em que está inserido. Esse também é um
dado relevante para nosso trabalho, pois no caso de adjetivos com mais de
um sentido, dependendo do contexto, percebemos que os alunos tendem a
usar mais um sentido do que outro.
Outros trabalhos na área de LC que também analisaram padrões de
adjetivos e serviram de referência para esta pesquisa foram os de Francis
(1993), Granger (1998) e Hunston (2002).35
35
Capítulo 2 – Metodologia
Neste capítulo detalharemos a metodologia usada nesta pesquisa.
Primeiramente vamos reiterar o objetivo deste trabalho, e a seguir descrever
os corpora e ferramentas computacionais utilizados para tal. Finalmente,
apresentaremos os procedimentos de análise realizados para a obtenção dos
resultados expostos no Capítulo 3.
2.1 Objetivo e questões de pesquisa
O objetivo deste estudo é verificar o sobreuso de adjetivos feito por
alunos brasileiros de inglês em suas redações e compará-lo ao uso desses
adjetivos por falantes nativos da língua inglesa, visando a sugerir
possibilidades de relexicalização para os adjetivos sobreusados pelos alunos
brasileiros.
Dado esse objetivo, as questões de pesquisa estão listadas abaixo:
1. Quais são os três adjetivos de uso geral mais sobreusados pelos
alunos brasileiros?
2. Quais as relexicalizações possíveis desses adjetivos?
Para responder essas perguntas, a pesquisa empregará um corpus
constituído por redações de alunos brasileiros, o BrICLE, que será o corpus
de estudo e um de inglês nativo, o British National Corpus (BNC), que servirá