• Nenhum resultado encontrado

ENSINO-APRENDIZAGEM DE LÉXICO EM ESPANHOL COMO LÍNGUA ESTRANGEIRA (ELE) POR MEIO DE CORPORA (as palavras polissêmicas nos livros didáticos) DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

N/A
N/A
Protected

Academic year: 2019

Share "ENSINO-APRENDIZAGEM DE LÉXICO EM ESPANHOL COMO LÍNGUA ESTRANGEIRA (ELE) POR MEIO DE CORPORA (as palavras polissêmicas nos livros didáticos) DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM"

Copied!
523
0
0

Texto

(1)

MARIA CIBELE GONZÁLEZ PELLIZZARI ALONSO

ENSINO-APRENDIZAGEM DE LÉXICO EM ESPANHOL COMO LÍNGUA ESTRANGEIRA (E/LE) POR MEIO DE CORPORA

(as palavras polissêmicas nos livros didáticos)

DOUTORADO EM

LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

(2)

ENSINO-APRENDIZAGEM DE LÉXICO EM ESPANHOL COMO LÍNGUA ESTRANGEIRA (E/LE) POR MEIO DE CORPORA

(as palavras polissêmicas nos livros didáticos)

Tese apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de DOUTOR em Linguística Aplicada e Estudos da Linguagem, sob orientação do Prof. Dr. Antonio Paulo Berber Sardinha.

(3)

BANCA EXAMINADORA

____________________________

____________________________

____________________________

____________________________

(4)

Dedico mais esta conquista

aos meus grandes amores e incentivadores:

meu filho, Rafael, e meu marido, Rubens;

e aos meus pais, Francisca e José Lineu,

que sempre me apoiaram e souberam compreender

minha ausência em alguns momentos importantes,

(5)

“The fact is that while without grammar very little can be conveyed, without vocabulary, nothingcan be conveyed”.

“O fato é que, enquanto sem gramática muito pouco pode ser comunicado, sem vocabulário, nada pode ser comunicado.” (tradução da pesquisadora)

(6)

AGRADECIMENTOS

À minha família, aos meus amigos e, principalmente, a Deus, por terem me dado força e apoio para concretizar este estudo;

Ao Prof. Dr. Antonio Berber Sardinha, meu orientador, por todo incentivo e confiança, sabendo conduzir-me às descobertas e compreendendo minhas dificuldades;

Aos professores Eliane Gonçalves, Cida Caltabiano, Gretel Fernández e Pedro Benítez que, com respeito, carinho e profissionalismo, fizeram uma minuciosa leitura crítica do meu trabalho durante as qualificações e defesa;

À Universidade Pontifícia Católica de São Paulo, que me ofereceu bolsa integral, sem a qual não teria sido possível realizar este doutorado, assim como horas de capacitação docente, que permitiram que eu pudesse dedicar mais horas à pesquisa.

Também agradeço à Direção do Colégio Miguel de Cervantes que me ofereceu flexibilidade no meu horário de trabalho para que pudesse participar das aulas e dos encontros de orientação de estudo.

(7)

RESUMO

O léxico é um dos aspectos que apresentam maior dificuldade aos estudantes de uma língua estrangeira, pois podemos cometer erros fonéticos, gramaticais, pragmáticos e ser compreendidos, mas muitos dos usos incorretos de vocabulário prejudicam a comunicação. Assim sendo, observamos que o léxico não pode ser trabalhado de maneira secundária no processo de ensino-aprendizagem, pois os estudantes apresentam, muitas vezes, inclusive em um nível avançado, um léxico pobre, o que os prejudica.

Dessa forma, constituiu objeto central deste trabalho o estudo sobre o ensino-aprendizagem do léxico, mais especificamente, das palavras polissêmicas que aparecem nos livros didáticos de espanhol como língua estrangeira (E/LE), pois acreditamos que conhecer os vários significados das mesmas contribui para a ampliação do universo lexical dos estudantes.

Para tanto, o trabalho encontrou suporte teórico na Linguística de Corpus, mais especificamente, na área de pesquisa baseada em corpus que se preocupa com o ensino-aprendizagem de línguas estrangeiras (SÁNCHEZ, 1995; SINCLAIR, 1991; HALLIDAY, 2002, BERBER SARDINHA, 2004).

As questões de pesquisa propostas foram as seguintes:

1. O(s) significado(s) das palavras polissêmicas que aparece(m) nos livros didáticos é(são) o(s) mais frequente(s) no dia a dia?

2. Qual a importância do livro didático no processo de ensino-aprendizagem do léxico?

3. Os estudantes utilizam outros recursos, além do livro didático, para ampliar seu léxico, neste caso específico, os diferentes significados das palavras polissêmicas?

4. As atividades elaboradas com linhas de concordância contribuem para a aprendizagem de novos significados das palavras polissêmicas?

Os corpora empregados na pesquisa foram: 1) um corpus elaborado a partir dos textos de quatro livros didáticos de E/LE; 2) dois corpora com redações de doze informantes, elaboradas em diferentes momentos; e 3) um corpus de referência, CREA (Corpus de Referencia del Español Actual), da Real

(8)

Os resultados indicaram, em resposta às perguntas de pesquisa, que os estudantes podem utilizar diferentes recursos para adquirir e ampliar seu léxico, mas o livro didático é o principal deles. Não obstante, observou-se, neste estudo, que o léxico apresentado nos livros didáticos nem sempre representa a língua em uso. Por isso, os autores dos livros didáticos precisam dedicar mais atenção ao léxico que vai introduzir em seus materiais, e, por outro lado, os professores podem colaborar nessa tarefa complementando o livro com atividades. Para isso, sugerimos a utilização de atividades elaboradas com linhas de concordância, que contribuem de forma eficaz para a aquisição do léxico.

Tais achados, portanto, trazem uma contribuição para a área de ensino-aprendizagem de E/LE por meio de corpora, ajudando a preencher a lacuna existente especificamente nos trabalhos com o ensino de palavras polissêmicas em espanhol como língua estrangeira. Até o momento, não havia estudos nessa área, e, portanto, esta pesquisa espera ter-lhe feito uma contribuição original.

(9)

ABSTRACT

The lexicon is one of the aspects that students of a foreign language have most difficult with. Despite the fact that one can make phonetic, grammatical, pragmatic mistakes and still be understood, communication may be compromised by the misuses of vocabulary. Thus, we observe that the lexicon cannot be neglected in the process of teaching and learning because students often present, even at an advanced level, poor range and appropriacy of lexicon, which impairs their proper use of the language.

Therefore, the target of this research is the study of the process of teaching and learning the lexicon, more specifically, the polysemous words that are present in the textbooks of Spanish as a Foreign Language (E / LE), because we believe that knowing the several meanings of such words helps students extend their range and appropriacy of lexicon.

Consequently, this research found theoretical support in Corpus Linguistics, specifically in the area of corpus-based research which is concerned with the process of teaching and learning foreign languages (Sánchez, 1995; SINCLAIR, 1991, Halliday 2002 BERBER SARDINHA, 2004).

The proposed questions were: 1. Are the meanings of polysemous words which are present in textbooks the

most frequent ones on a daily basis?

2. What is the importance of the textbook in the process of teaching and learning the lexicon?

3. Do students use resources other than the textbook in order to extend their range of vocabulary (in this particular case, the different meanings of polysemous words)?

4. Do the activities developed with concordance lines contribute to the learning of new meanings of polysemous words?

(10)

use different resources to acquire and extend their lexicon, but the textbook is the main one. Nevertheless, it was observed in this study that the lexicon presented in textbooks does not necessarily involve the actual colloquial language used on a daily basis. Hence, the authors of the textbooks need to devote more attention to the lexicon they will present in their materials. Moreover, teachers can collaborate in this task by supplementing the book with activities. For this, we suggest the use of activities designed with lines of agreement, contributing effectively to the acquisition of the lexicon.

All in all, these findings bring a contribution to the field of teaching-learning E / LE through corpora, helping to fill the gap in the work specifically with the teaching of polysemous words in Spanish as a foreign language. There were no studies in this field up to this moment and therefore, the aim of this research is to make a unique contribution.

(11)

RESUMEN

El léxico es uno de los aspectos que presentan mayor dificultad a los estudiantes de una lengua extranjera, pues podemos cometer errores fonéticos, gramaticales, pragmáticos y ser comprendidos, no obstante, muchos de los usos incorrectos de vocabulario perjudican la comunicación. Por esa razón, observamos que no se puede trabajar el léxico de manera secundaria en el proceso de enseñanza-aprendizaje, ya que muchas veces los estudiantes presentan, incluso en un nivel avanzado, un léxico pobre, lo que les perjudica. Es objeto central de este trabajo un estudio sobre la enseñanza-aprendizaje del léxico, más específicamente, de las palabras polisémicas que aparecen en los libros didácticos de español como lengua extranjera (E/LE), pues creemos que conocer sus distintos significados contribuye para la ampliación del universo lexical de los estudiantes.

Para su desarrollo, este estudio tuvo soporte teórico en la Lingüística de Corpus, principalmente en el área de la investigación basada en corpus que se preocupa con la enseñanza-aprendizaje de lenguas extranjeras (SÁNCHEZ, 1995; SINCLAIR, 1991; HALLIDAY, 2002, BERBER SARDINHA, 2004).

Las preguntas de investigación propuestas fueron las siguientes:

1. ¿El(los) significado(s) de las palabras polisémicas que aparece(n) en los libros didácticos es(son) el(los) más frecuente(s) en el día a día?

2. ¿Cuál es la importancia del libro didáctico en el proceso de enseñanza-aprendizaje del léxico?

3. ¿Los estudiantes utilizan otros recursos, además del libro didáctico, para ampliar su léxico, en este caso específicos, los diferentes significados de las palabras polisémicas?

4. ¿Las actividades elaboradas con líneas de concordancia contribuyen para el aprendizaje de nuevos significados de las palabras polisémicas?

Los corpora utilizados en la investigación fueron: 1) un corpus elaborado a partir de los textos de cuatro libros didácticos de E/LE; 2) dos corpora con redacciones de doce informantes, elaboradas en diferentes momentos; e 3) un corpus de referencia, CREA (Corpus de Referencia del Español Actual), de la

(12)

Los resultados indicaron, en respuesta a las preguntas de investigación, que los estudiantes pueden utilizar diferentes recursos para adquirir y ampliar su léxico, pero el libro didáctico es el principal de ellos. No obstante, se observó en este estudio que el léxico presentado en los libros didácticos ni siempre representa la lengua en uso. Por eso, autores de libros didácticos necesitan dedicar más atención al léxico que va a introducir en sus materiales y, por otro lado, los profesores pueden colaborar en esa tarea complementando el libro con actividades. Para eso, sugerimos la utilización de actividades elaboradas con líneas de concordancia, que contribuyen de forma eficaz para la adquisición del léxico.

Esas conclusiones, por lo tanto, traen una contribución para el área de enseñanza-aprendizaje de E/LE mediante corpora, principalmente en la enseñanza de las palabras polisémicas en español como lengua extranjera, objeto específico de estudio de este trabajo. Hasta el momento, no había estudios en esa área y, por lo tanto, esta investigación espera haber hecho una contribución original.

(13)

LISTA DE FIGURAS

FIGURA 1: Apresentação das linhas de concordância no Corpus

de Referência da Real Academia Espanhola ... 60 FIGURA 2. Interface de consulta do CREA... 96

FIGURA 3: Concordâncias de “estudianta” e “estudiantas” no CREA... 97

FIGURA 4: Apresentação da lista de palavras por ordem alfabética,

elaborada a partir do WordList... 101

FIGURA 5: Apresentação da lista de palavras por frequência, elaborada a partir do WordList... 102

FIGURA 6: Apresentação dos dados estatísticos da lista de palavras,

elaborada a partir do WordList... 102

FIGURA 7: Apresentação das linhas de concordância da palavra

(14)

LISTA DE QUADROS

QUADRO 1: Características dos corpora deste estudo... 87

QUADRO 2: Composição do CREA... 93

QUADRO 3: CREA. Origem das palavras... 93

QUADRO 4: Composição do CREA. Zonas linguísticas da América... 93

QUADRO 5: Composição do CREA. Tipos de textos coletados... 93

QUADRO 6: Composição do CREA. Critérios cronológicos... 94

QUADRO 7: Composição do CREA. Temas... 94

QUADRO 8. Composição do CREA. Critérios geográficos... 95

QUADRO 9 – Lista das palavras polissêmicas objeto deste estudo... 106

QUADRO 10 – Seleção das palavras que foram utilizadas nas atividades elaboradas com linhas de concordância ... 110

QUADRO 11 – Seleção das palavras que foram utilizadas nas atividades elaboradas sem linhas de concordância... 110

QUADRO 12 - Quantidade de padrões / significados que aparecem no CREA e no corpus dos livros didáticos... 159

QUADRO 13 – Padrões / significados mais frequentes das palavras polissêmicas no CREA e no corpus dos livros didáticos ... 161

QUADRO 14 – Quantidade de padrões / significados apresentados no corpus dos livros didáticos e no corpus da primeira redação dos informantes... 164

QUADRO 15 – Padrão / significado mais frequente no corpus dos livros didáticos e da primeira redação... 165

QUADRO 16 – Quantidade de padrões / significados que aparecem no CREA e no corpus da primeira redação dos informantes... 168

QUADRO 17 – Palavras cujo padrão / significado mais frequente coincide no CREA, no corpus dos livros didáticos e no corpus da primeira redação... 169

QUADRO 18 – Padrão / significado mais frequente no CREA e no Corpus da primeira redação... 170

(15)

QUADRO 20 – Quantidade de padrões / significados obtidos nos

(16)

SUMÁRIO

INTRODUÇÃO ... 19

1. Objetivos e questões de pesquisa ... 22

2. Justificativas ... 24

3. Organização da tese ... 24

CAPÍTULO 1. FUNDAMENTAÇÃO TEÓRICA ... 27

1.1. LINGUÍSTICA DE CORPUS ... 27

1.1.1. Breve história da Linguística de Corpus ... 27

1.1.2. Definição de Linguística de Corpus ... 32

1.1.3. Linguagem enquanto sistema probabilístico ... 39

1.1.4. Visão empirista de linguagem ... 41

1.1.5. Linguística de Corpus e a língua espanhola ... 42

1.2. LINGUÍSTICA DE CORPUS E O ENSINO-APRENDIZAGEM DE LÍNGUAS ESTRANGEIRAS ... 47

1.2.1. Linguística de Corpus e a preparação de material didático ... 50

1.2.2. Desenvolvimento de metodologias ou abordagens de ensino por meio da Linguística de Corpus ... 55

1.2.3. Aspectos da linguagem e o ensino de idiomas a partir da análise de concordâncias ... 59

1.2.3.1. Atividades centradas em concordâncias ... 63

1.3. PAPEL DO LÉXICO NO ENSINO DE LÍNGUAS ESTRANGEIRAS ... 67

1.3.1. Panorama histórico do ensino do léxico em língua estrangeira .. 74

1.3.2. Aplicações da Linguística de Corpus para promover a aprendizagem de léxico em língua estrangeira ... 78

1.4. PALAVRAS POLISSÊMICAS ... 80

CAPÍTULO 2. METODOLOGIA DE PESQUISA ... 83

2.1. OBJETIVO E QUESTÕES DE PESQUISA ... 83

2.2. INFORMANTES ... 85

2.3. PROCEDIMENTOS DE COLETA DOS DADOS ... 86

(17)

2.3.2. Corpora elaborados a partir das redações dos informantes ... 89

2.3.3. CREA Corpus de Referencia del Español Actual ... 91

2.4. PROCEDIMENTOS DE ANÁLISE DOS DADOS ... 98

2.4.1. WordSmith Tools ... 99

2.4.2. Seleção das palavras polissêmicas ... 105

2.4.3. Análise das linhas de concordância dos livros didáticos ...106

2.4.4. Análise das linhas de concordância do CREA ... 107

2.4.5. Análise das linhas de concordância da primeira redação ...108

2.4.6. Seleção das palavras polissêmicas que serão utilizadas nas atividades elaboradas com linhas de concordância ... 108

2.4.7. Elaboração de atividades ... 111

2.4.8. Análise das linhas de concordância da segunda redação ...155

CAPÍTULO 3. APRESENTAÇÃO E ANÁLISE DOS RESULTADOS ...157

3.1. ANÁLISE DOS PADRÕES / SIGNIFICADOS APRESENTADOS NO CREA E NO CORPUS DOS LIVROS DIDÁTICOS ...158

3.2. ANÁLISE DOS PADRÕES / SIGNIFICADOS APRESENTADOS NO CORPUS DOS LIVROS DIDÁTICOS E DA PRIMEIRA REDAÇÃO ...163

3.3. ANÁLISE DOS PADRÕES / SIGNIFICADOS APRESENTADOS NO CREA, NO CORPUS DOS LIVROS DIDÁTICOS E DA PRIMEIRA REDAÇÃO ...167

3.4. ANÁLISE DOS PADRÕES / SIGNIFICADOS APRESENTADOS NO CORPUS DA PRIMEIRA E DA SEGUNDA REDAÇÃO ...172

3.5. DESCRIÇÃO DOS PADRÕES / SIGNIFICADOS APRESENTADOS NO CREA, NO CORPUS DOS LIVROS DIDÁTICOS E DAS DUAS REDAÇÕES ...175

3.6. DISCUSSÃO ...200

CONSIDERAÇÕES FINAIS ...203

REFERÊNCIAS BIBLIOGRÁFICAS ...209

(18)

INTRODUÇÃO

É evidente a importância do léxico no ensino-aprendizagem de qualquer idioma (GÓMEZ MOLINA, 2004), consequência de uma maior compreensão da natureza do léxico motivada tanto pela análise de seu uso real quanto por sua contribuição potencial à pedagogia de línguas. Assim, há anos autores defendem a importância do léxico no ensino de línguas. Por exemplo, Krashen e Terrell (1983) destacam a importância do vocabulário tanto para a comunicação efetiva como para o próprio processo de aquisição; Willis (1990) elabora um syllabus

cujo eixo da programação é o léxico; Nattinger e DeCarrico (1992) descrevem a língua em segmentos (chunks) e afirmam que é a nossa capacidade de usar

frases lexicais que nos ajuda a falar com fluência; Lewis (1997; 1993) argumenta que a gramática, como estrutura, está subordinada ao léxico, e que a linguagem consiste em um léxico gramaticalizado, não em uma gramática lexicalizada; e Coady e Huckin (1997) destacam que as palavras e frases são essenciais ao ensino de línguas. Junto a essas opiniões, é necessário lembrar, como um argumento a mais, que qualquer língua implica essencialmente a nominalização, ou seja, é muito mais léxica que gramatical (GÓMEZ MOLINA, 2004).

O léxico é um dos aspectos que apresentam maior dificuldade aos estudantes de uma língua estrangeira (LE), pois podemos cometer erros fonéticos, gramaticais, pragmáticos e ser compreendidos; mas muitos dos usos incorretos de vocabulário causam problemas na comunicação.

No entanto, como aponta Zimmerman (1997), apesar dessa ênfase à aprendizagem do vocabulário e do papel central que desempenha o léxico na aprendizagem e uso das línguas, o ensino do léxico na sala de aula não é prioritário para muitos professores nem para os programas de ensino de línguas.

No que se refere ao ensino do léxico em espanhol para estudantes brasileiros, o fato de o português e o espanhol serem muito parecidos dá ao falante nativo de português a satisfação de poder entender seu interlocutor em espanhol mesmo com um conhecimento elementar. Por outro lado, traz-lhe uma insatisfação por não conseguir o desempenho desejado na LE, ou ainda, por não se fazer entender nela.

(19)

examinadoras de provas de proficiência, observamos que o léxico não pode ser apresentado de maneira secundária no processo de ensino-aprendizagem. Os estudantes possuem, inclusive em um nível avançado, um léxico pobre, o que os prejudica, muitas vezes, na comunicação. Cuba Vega e Miranda Cuba (2004:816), em pesquisa realizada com professores de E/LE, destacam

todos los profesores seleccionados coincidieron en señalar que los estudiantes adolecen de pobreza léxica, entendiendo esta como la incapacidad de expresarse fluidamente, tanto en la lengua oral como en la lengua escrita, y en la repetición de las mismas palabras en el discurso1.

Em geral, os estudantes preferem que cada palavra tenha um único significado e que cada coisa tenha uma única forma linguística para ser mencionada.

O trabalho aqui descrito teve como objetivo justamente enfocar uma área central nessa problemática, que são as palavras polissêmicas do espanhol que aparecem com mais frequência nos livros didáticos de E/LE, pois acreditamos que conhecer os vários significados dessas palavras contribui para a ampliação do universo lexical dos estudantes. Também foi objeto de estudo verificar se os significados apresentados nos livros didáticos são os mais utilizados no dia a dia e se a linguística de corpus pode ajudar na ampliação desses significados, já que um dos problemas referentes ao ensino-aprendizagem do léxico em E/LE é a exposição dos estudantes a um vocabulário pobre.

Para tanto, o trabalho encontrou suporte teórico na Linguística de Corpus,

“uma área que trata do uso de corpora computadorizados (coletâneas de textos, escritos ou de transcrições de fala, mantidas em arquivo de computador)”

(BERBER SARDINHA, 2004:XVII). Essa coletânea de dados tem como propósito servir para a pesquisa de uma língua ou variedade linguística, dedicando-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador.

Mais especificamente, o trabalho aqui proposto fundamenta-se na área de pesquisa baseada em corpus que enfoca o ensino-aprendizagem de línguas

1 todos os professores selecionados afirmaram que os estudantes possuem uma pobreza lexical,

(20)

estrangeiras (BERBER SARDINHA, 2004; HALLIDAY, 2002; SÁNCHEZ, 1995; SINCLAIR, 1991). A questão central dessa área é a utilização de conceitos e metodologias da Linguística de Corpus na determinação de conteúdos programáticos (MINDT, 1994; SINCLAIR e RENOUF, 1987); aspectos da linguagem e ensino de idiomas a partir da análise de concordâncias (BIBER et al., 1999; KENNEDY, 1998; SÁNCHEZ, 1995); preparação de material didático (BERBER SARDINHA, 2004; STEVENS, 1991; TRIBBLE,1990); e desenvolvimento de novas metodologias ou abordagens de ensino (JOHNS, 1991; LEWIS, 1993; WILLIS, 1990).

A Linguística de Corpus, entendida como a investigação criteriosa de corpora de linguagem natural, tem sido influente no ensino de língua há pelo menos oitenta anos. O desenvolvimento científico e tecnológico permitiu o progresso da informática, conjuntamente com o acesso e manipulação computadorizada, tanto de textos escritos quanto de transcrições de diálogos, com uma rapidez, fiabilidade e facilidade impensáveis até pouco tempo atrás.

Desde a década de 60, os corpora informatizados são bases de dados textuais que contribuíram significativamente para a área da pesquisa linguística, uma vez que os pesquisadores têm, à sua disposição, grandes volumes de dados e, dessa forma, podem estudar a língua integrada ao contexto discursivo por meio de exemplos reais e precisos de uso.

Ainda que, durante vários anos, o acesso aos corpora tenha facilitado o trabalho de numerosas áreas de estudo no campo da linguística, apenas nos últimos anos passou a ter importância para fins pedagógicos na aprendizagem de línguas estrangeiras e no ensino de língua em geral.

No ensino de LE, podemos contar com instrumentos da Linguística de Corpus, tais como concordâncias para a preparação e análise de atividades, que permitem ao estudante ter contato com os diferentes significados de uma palavra da LE, de acordo com o contexto.

As atividades baseadas na análise de concordâncias facilitam os processos de descoberta e de resolução de problemas, na medida em que ajudam o estudante a construir seu próprio conhecimento. Os estudantes entram em contato com mais palavras e estruturas que as apresentadas nos livros didáticos.

(21)

baseados na disponibilidade léxica, defendida por Samper (2002) e Bartol Hernández (2010), que consideram que as palavras que devem ser trabalhadas com os estudantes são as que primeiro vêm à mente do falante quando começa a discorrer sobre um tema em concreto; entretanto, são estudos que enfocam a seleção do léxico, mas não apresentam propostas de como trabalhá-lo ou ampliá-lo com a ajuda de corpora. Embora haja uma série de publicações e trabalhos na área de inglês como LE baseados em corpora, são escassas as pesquisas em língua espanhola, e nenhuma relacionada às palavras polissêmicas especificamente. Dessa forma, o presente trabalho buscou oferecer uma contribuição original para o ensino do E/LE para estudantes brasileiros, dirigido por corpora, mais especificamente, na área das palavras polissêmicas.

1. Objetivos e questões de pesquisa

O objetivo geral do trabalho está focado no estudo do léxico apresentado nos livros didáticos de E/LE; especificamente, analisar se os livros didáticos apresentam o léxico mais frequente, neste estudo, restringido aos significados das palavras polissêmicas, pois acreditamos que conhecer os vários significados dessas palavras contribui para a ampliação do repertório léxico dos estudantes. Também foi objeto de estudo, analisar qual a importância dos livros didáticos no processo de aquisição do léxico; avaliar se os estudantes possuem outros recursos para adquiri-lo, além do livro didático; assim como investigar se as atividades elaboradas a partir de aplicações da Linguística de Corpus podem contribuir para a ampliação dos significados das palavras polissêmicas, já que um dos problemas referentes ao ensino-aprendizagem do léxico em E/LE é a exposição dos estudantes a um vocabulário limitado.

Para isso, foram realizadas as seguintes ações: 1) analisar, com a ajuda do WordSmith Tools, os significados das trinta palavras polissêmicas mais

frequentes, que aparecem nos seguintes livros didáticos destinados ao ensino do E/LE: Cerrollaza, M. et al. Planeta, Madrid: Edelsa, 1999: Castro, F. et al.

(22)

2) analisar os diferentes significados dessas palavras a partir de cinquenta linhas de concordâncias (escolhidas aleatoriamente) do Corpus de Referencia del

Español Actual (CREA) da Real Academia Espanhola; 3) verificar os significados

que aparecem no CREA, nos livros didáticos e nas redações elaboradas por um grupo de informantes de E/LE; 4) organizar e propor a esse grupo atividades didáticas com essas palavras, utilizando linhas de concordância do corpus da Real Academia Espanhola; 5) verificar se essas atividades baseadas em corpus (especificamente em concordâncias) contribuem para o ensino do léxico com a ampliação dos significados dessas palavras.

A metodologia empregada na pesquisa consistiu na coleta de dados de quatro corpora diferentes: 1) um corpus elaborado a partir dos textos dos quatro livros didáticos mencionados anteriormente; 2) dois corpora com redações de doze informantes, realizadas em dois momentos diferentes; e 3) um corpus de referência, o CREA, da Real Academia Espanhola.

Os dados foram analisados da seguinte maneira: primeiramente, por meio do corpus dos livros didáticos, obtivemos as trinta palavras polissêmicas mais frequentes (objeto deste estudo), assim como suas linhas de concordância. Em segundo lugar, analisamos cinquenta linhas de concordância (escolhidas aleatoriamente) do CREA de cada uma das palavras polissêmicas selecionadas, com as quais verificamos os significados que aparecem no CREA, nos livros didáticos e, por sua vez, os significados utilizados por um grupo de informantes de E/LE em suas redações. Por fim, organizamos atividades didáticas com essas palavras e aplicamo-las em trabalhos com o grupo de informantes, com o objetivo de verificar se essas atividades baseadas em corpus (especificamente em concordâncias) contribuem para uma ampliação de significados dessas palavras por parte desses informantes.

As questões de pesquisa propostas para este estudo são as elencadas a seguir:

1. O(s) significado(s) das palavras polissêmicas que aparece(m) nos livros didáticos é(são) o(s) mais frequente(s) no dia a dia?

2. Qual a importância do livro didático no processo de ensino-aprendizagem do léxico?

(23)

polissêmicas?

4. As atividades elaboradas com linhas de concordância contribuem para a aprendizagem de novos significados das palavras polissêmicas?

2. Justificativas

Como já mencionado anteriormente, um dos problemas referentes ao ensino-aprendizagem do léxico em E/LE é a exposição dos estudantes a um vocabulário limitado e pobre. A importância da preparação de material didático a partir de corpora eletrônicos para o ensino de E/LE a brasileiros deve-se principalmente ao fato de expor o estudante a um grande número de exemplos de uso autêntico da língua em questão e, neste caso específico das palavras polissêmicas, a possibilidade de estar em contato com os seus possíveis significados.

Por outro lado, as atividades baseadas na análise de concordâncias facilitam os processos de descoberta e de resolução de problemas, na medida em que permitem ao estudante construir seu próprio conhecimento. Ele entra em contato com mais palavras e estruturas que as estudadas, ou seja, o rico contexto no qual o léxico é estudado possibilita consideráveis oportunidades para enriquecer seu léxico.

Concluindo, a relevância do trabalho aqui proposto é contribuir com o ensino-aprendizagem do E/LE mediante Linguística de Corpus e, consequentemente, oferecer um recurso didático a mais aos professores de E/LE.

3. Organização da tese

(24)
(25)

CAPÍTULO 1. FUNDAMENTAÇÃO TEÓRICA

Este capítulo apresenta as áreas que forneceram embasamento teórico para o trabalho.

Esta pesquisa fundamenta-se, do ponto de vista teórico, na Linguística de Corpus, por isso, apresentamos, em um primeiro momento, um breve histórico da Linguística de Corpus e sua definição, além de tratar de sua visão empirista de linguagem.

A posteriori, tratamos dos estudos que aplicam a Linguística de Corpus

no ensino de línguas estrangeiras, destacando-se os aspectos da linguagem e do ensino de idiomas a partir da análise de concordâncias2, a preparação de

material didático e o desenvolvimento de algumas metodologias ou abordagens de ensino.

Finalmente, destacamos o papel do léxico no ensino de línguas estrangeiras, tratando-se, especificamente, das palavras polissêmicas no ensino do espanhol e das aplicações da Linguística de Corpus para desenvolver a aquisição de léxico. A relevância deste estudo teórico é dar embasamento que contribuirá para as análises e elaboração das atividades, tendo como resultado uma contribuição para o ensino-aprendizagem do léxico de E/LE e um recurso didático a mais aos professores.

1.1. LINGUÍSTICA DE CORPUS

1.1.1. Breve história da Linguística de Corpus

A história da Linguística de Corpus mantém relação direta com a tecnologia, pois esta permite o armazenamento de corpora e sua exploração. Não obstante, havia corpora antes do computador, visto que o sentido original da palavra corpus é “corpo”, “coletânea ou conjunto de documentos”, conforme o dicionário Houaiss (INSTITUTO HOUAISS, 2001). Já na Grécia Antiga,

2 Concordância, segundo Berber Sardinha (2004), consiste numa listagem dos cotextos

(26)

Alexandre, o Grande, definiu o corpus helenístico; e na Antiguidade e Idade Média, produziam-se corpora de citações da Bíblia.

O estudo da linguagem por meio da observação de dados apresenta uma longa tradição na Linguística. Nos anos 1950, John R. Firth, fundador da tradição britânica na Linguística, publicou Papers in linguistics (1957), em que o

enfoque ao estudo da linguagem resumia-se com a famosa frase “you shall know a word for the company it keeps”. Para Firth, a Linguística é uma ciência social aplicada, pois está envolvida com os problemas da língua e da sociedade (STUBBS, 1993).

Esse interesse empírico praticamente desapareceu no final dos anos 1950, devido a duas fortes críticas que a Linguística baseada em corpus vinha recebendo, uma das quais dizia respeito à falta de confiança nos resultados obtidos por meio do processamento manual de um número muito grande de dados.

Outra crítica que colaborou para o atraso no desenvolvimento da Linguística de Corpus foi a mudança de paradigma ocorrida no início dos anos 1960, a partir das novas considerações de Noam Chomsky em sua obra

Syntactic Structures (2002), em que defende um modelo de competência, tácito

e internalizado, que todo falante possui acerca da língua que fala.

Para Chomsky, a linguagem está sujeita a influências externas e, consequentemente, não pode explicar o conhecimento que o falante tem dela, por isso, deixa de ter sentido a observação da linguagem, brindando a introspecção.

Para o teórico, a linguagem, enquanto possibilidade, enfatiza os possíveis agrupamentos sintáticos que um falante da língua possui.

A partir de seu posicionamento ortodoxamente racionalista, Chomsky atacou todos aqueles trabalhos que baseavam as suas investigações em coleções de textos, ou seja, em corpus, e os métodos empíricos ficaram em segundo plano, uma vez que as ideias de Chomsky foram amplamente aceitas na comunidade científica.

(27)

Isso permitiu o ressurgimento dos métodos empíricos e estatísticos de análise linguística, típicos da década dos 1950, período em que se tornou comum o estudo das unidades léxicas, baseadas não apenas em seu significado, mas também em sua frequência com outras palavras, dando-se origem àquilo que se convencionou chamar de Linguística de Corpus.

O desenvolvimento dos computadores e a Linguística de Corpus estão intimamente ligados, já que grandes quantidades de dados devem ser analisadas de forma rápida, correta e eficaz.

O resurgimento dos estudos baseados em corpus pode ser fixado no início da década de 1960, marcado, em parte, pela inclusão dos computadores no âmbito linguístico e pelo desenvolvimento de projetos de investigação na Inglaterra e nos países escandinavos, a partir da construção de grandes corpora linguísticos digitais para o inglês. A partir desse cenário, é possível estabelecer três momentos relevantes para a Linguística de Corpus (PARODI, 2010).

O primeiro surge com a coleta de grandes corpora de textos autênticos, que, além de estarem agora devidamente digitalizados e manuseados por meio de ferramentas computacionais, incluíam uma diversidade de usos linguísticos que permitem alcançar observações gerais sobre a estrutura e o uso de registros tanto orais quanto escritos, através de uma hierarquização e organização pertinente. Esses primeiros avanços desenvolvem-se basicamente em língua inglesa. O corpus Brown de inglês norte-americano escrito (constituído por textos jornalísticos, documentos governamentais e narrativas de ficção) alcançou um milhão de palavras, assim como o Lancaster-Oslo-Bergen, em sua versão de inglês britânico. Como primeira iniciativa de criação de um corpus de textos orais, London-Lund incluiu quinhentas mil palavras de textos orais de inglês britânico, incorporando uma variedade importante de diversos gêneros.

Esses corpora, naquela época, foram considerados como construídos “em grande escala”, já que superavam muito os corpora tradicionalmente armazenados em formato papel e organizados por fichas.

(28)

etiquetadores morfossintáticos) conduziram os estudos a descrições em termos probabilísticos, como já mencionamos no item anterior.

Um segundo momento pode ser marcado a partir da década de oitenta, quando se inicia a coleta de megacorpora, que passam a constituir dimensões gigantescas. Passa, assim, a surgir a primeira geração de corpora digitais, formada por megacorpora como Bank of English, que contém quatrocentos e cinquenta milhões de palavras; o corpus internacional de Cambridge, com cem milhões de palavras; o corpus Longman de inglês oral e escrito, formado por quarenta milhões de palavras; e o Nacional Britânico, com cem milhões de palavras. Recentemente, estão sendo elaborados alguns corpora com mais de um bilhão de palavras, muitos deles compilados a partir de ferramentas computacionais automáticas, que utilizam a Internet como fonte de informação. Esses megacorpora, diferentemente dos anteriores, contêm textos completos e não apenas fragmentos, o que significa que agora não se trabalha com textos mutilados ou parcialmente representativos, mas com unidades reais completas. Também se deve destacar que esses novos grandes corpora estão muito mais organizados, ou seja, estabelecem-se a partir de uma conjunção de diversos tipos de variáveis. Por exemplo, acolhem variedades orais e escritas, formais e informais, planejadas e espontâneas, monológicas e dialógicas e, no caso da língua inglesa, incorporam variedades do inglês britânico e do americano.

Apenas algumas décadas mais tarde de seu surgimento, o perfil da Linguística de Corpus e dos corpora gerais passou por uma tremenda transformação, não apenas no que se refere a seu tamanho, mas também em termos de composição interna, que cada vez é mais precisa, diversificada e de maior impacto e envergadura. Esses desenvolvimentos só foram possíveis graças a um avanço também na área tecnológica.

(29)

escrita, um único registro ou gênero, e a partir de enfoques eminentemente normativos, fosse superada.

Um terceiro momento surge com o interesse por estudar os denominados discursos especializados. Essa variedade de discursos constitui normalmente, seja por sua natureza ou por outras razões, mostras relativamente pequenas em comparação aos corpora de índole mais geral. Devido ao fato de que, em algumas situações, são textos escassos ou de disponibilidade difícil por questões de produção, acesso, ética ou moral, sua constituição costuma ser reduzida. Por isso, identifica-se essa alternativa como um terceiro momento, no qual nos movemos dos megacorpora a corpora comparativamente pequenos, mas altamente focados temática, estrutural e/ou funcionalmente. Cabe destacar que não necessariamente o corpus especializado deva ser de tamanho reduzido, já que é possível também contar com corpus de natureza não geral e de tamanho considerável, como, por exemplo, o PUCV-2006 (cinquenta e oito milhões de palavras), que recolhe textos escritos em espanhol de quatro áreas (psicologia, trabalho social, indústria química e engenharia civil).

Nos tempos atuais, a Linguística de Corpus exerce grande influência na pesquisa linguística (BERBER SARDINHA, 2004), sobretudo na Europa. Na Grã-Bretanha, várias universidades e centros de pesquisas, como Birmingham, dedicam-se à pesquisa baseada em corpus para a análise de diferentes aspectos da linguagem, entretanto sua presença não se restringe ao universo acadêmico; transita, inclusive, pela esfera empresarial.

Estabeleceu-se parceria entre a Universidade de Birmingham e a Editora Collins, cujo fim é o desenvolvimento do projeto Cobuild, que possibilitou a elaboração de vários dicionários, gramáticas e livros didáticos para o ensino de inglês.

Não obstante fora de andamento, tal projeto permanece como referência no desenvolvimento e na aplicação da pesquisa baseada em corpus com fins comerciais.

(30)

de informações capaz de modificar os princípios expressos em concepções teóricas que não se fundaram na observação sistemática de dados de grande magnitude para construir suas gramáticas ou suas descrições linguísticas.

1.1.2. Definição de Linguística de Corpus

Uma vez feito esse breve histórico da Linguística de Corpus, passamos à sua definição.

Apesar de seus 50 anos de história, atualmente a Linguística de Corpus se encontra imersa num processo de consolidação no seio da Linguística, que explica a existência, ainda na atualidade, de uma controvérsia científica a respeito de seu status (MALVAR FERNÁNDEZ, 2007).

Nos últimos anos, debateu-se muito sobre a definição de Linguística de Corpus e se ela consiste em uma teoria ou uma metodologia. Há quem prefira considerá-la uma teoria e quem prefira considerá-la uma metodologia. Existe ampla bibliografia que aborda esse tema (KENNEDY, 1998; MCENERY e WILSON, 1996; SVARTVIK, 1992; STUBBS, 2007; 2001; 1996; TOGNINI- BONELLI, 2001).

De um lado, encontramos linguistas como Tom McEnery e Andrew Wilson (1996) que consideram a Linguística de Corpus como uma mera metodologia de trabalho aplicável a muitas diferentes investigações com, também, muitas diferentes finalidades.

Corpus linguistics is not a branch of linguistics in the same sense as syntax, semantics, sociolinguistics and so on. All of these disciplines concentrate on describing/explaining some aspect of language. Corpus linguistics in contrast in a methodology rather than an aspect of language requiring explanation or description. A corpus-based approach can be taken to many aspects of linguistics enrquiry. [...] Corpus linguistics is a methodology that may be used in almost any area of linguistics, but it does not truly delimit an area of linguistics itself (MCENERY & WILSON, 2001:2 apud MALVAR FERNÁNDEZ, 2007).3

3 A Linguística de Corpus não é uma área da linguística igual à sintaxe, semântica,

(31)

Na mesma linha, também o linguista Geoffrey Leech:

[...] corpus linguistics refers not to a domain of study, but rather to a methodological basis for pursuing linguistic research. In principle (and often in practice) corpus linguistics combines easily with other branches of linguistics: we can study phonetics, syntax, sociolinguistics, and any other aspect of linguistics by means of corpora, and when we are doing this we can be said to be combining techniques of corpus linguistics with the subject matter of phonetics, syntax, sociolinguistics, and so on (LEECH, 1992:105-106 apud MALVAR FERNÁNDEZ, 2007)4.

De outro lado, encontramos linguistas como Elena Tognini-Bonelli, que considera que

[...] although corpus linguistics belongs to the sphere linguistics, it differs from the other partner disciplines under the same umbrella in that it can be seen as a pre-application methodology. [...] by pre-application we mean that, unlike other pre-applications that start by accepting certain facts as given, corpus linguistics is in a position to define its own sets of rules and pieces of knowledge before they are applied [...] corpus linguistics has, therefore, a theoretical status and because of this it is in a position to contribute specifically to other applications (TOGNINI-BONELLI, 2001:1 apud MALVAR FERNÁNDEZ, 2007)5.

Diversas apreciações podem ser feitas a respeito destas duas posições encontradas. Por um lado, para contestar o primeiro posicionamento apresentado, tal e como afirma Caravedo (1999:19),

si por metodología se entiende el conjunto de técnicas y estrategias de aproximación y manejo de la realidad que se persigue estudiar, también la linguística de corpus puede agrupar distintas metodologías [...], y no se identifica con sólo una de ellas, sino más bien con un modo de relación entre teoría y realidad6.

4 [...] a Linguística de Corpus não se refere a uma área de estudo, mas sim a uma base

metodológica que auxilia as pesquisas linguísticas. Em geral (e, principalmente na prática), a linguística de corpus se insere perfeitamente em várias áreas da linguística: podemos estudar fonética, sintaxe, sociolinguística, e muitos outros aspectos da linguística através de corpora, e quando estamos realizando essa pesquisa, podemos dizer que estamos combinando técnicas da Linguística de Corpus com as questões fonéticas, sintáticas, sociolinguísticas, etc. (tradução da autora)

5 Embora a linguística de corpus pertença à esfera da linguística aplicada, há uma diferença em

relação com as outras disciplinas, já que pode ser vista como uma pre-application methodology [...] entendemos por pré-aplicação, diferente de outras aplicações que partem da ideia de fatos já concretos, a Linguística de Corpus define seu próprio conjunto de regras e partes do conhecimento antes de serem aplicados [...] a Linguística de Corpus possui, não obstante, um status teórico e, por isso, pode contribuir especificamente com outras aplicações. (tradução da autora)

6 se entendemos metodologia como conjunto de técnicas e estratégias de aproximação e uso

(32)

Por outro lado, para contestar a posição de Tognini-Bonelli, o fato de que se possa elaborar um construto teórico em torno a uma metodologia determinada de estudo não implica que esse construto tenha que se erigir numa disciplina autônoma da área disciplinar a partir da qual aquela teorização tinha sido elaborada. Precisamente, se se aceitar que o uso de corpora foi durante décadas uma mera metodologia empregada desde diferentes áreas da linguística, o fato de que hoje se tenha formulado toda uma coleção terminológica nova, surgida após o desenvolvimento dos computadores e da aplicação de técnicas estatístico-quantitativas no processamento dos corpora, trata-se de um indicador dos progressos feitos no seio daquelas áreas disciplinares, que se adaptaram às potencialidades oferecidas pelas novas ferramentas de estudos.

Dessa maneira, segundo Parodi (2010), a Linguística de Corpus, em sua versão atual, constitui um enfoque metodológico para o estudo das línguas e apresenta oportunidades revolucionárias para a descrição, análise e ensino de discursos de todo tipo. Também oferece uma base empírica para o desenvolvimento de materiais educacionais e metodológicos de diversa índole, assim como para a construção de gramáticas, dicionários e outros, tanto de discursos gerais como especializados, orais e escritos. A partir dessa ótica, a Linguística de Corpus constitui um conjunto ou coleção de princípios metodológicos para estudar qualquer domínio linguístico e caracteriza-se por oferecer base à investigação da língua em uso a partir de corpus linguístico com apoio na tecnologia computacional e programas informáticos. Nesse sentido, a Linguística de Corpus não deve ser entendida como uma área da linguística, como é a fonologia, a semântica, a sintaxe, mas, sim, como um método de investigação que pode ser utilizado em todas as áreas da linguística, em todos os níveis da língua e com enfoques teóricos diferentes. Suas aplicações são múltiplas e não limitam as possibilidades de indagação. Assim sendo, a Linguística de Corpus não funciona como um enfoque metodológico extremamente restritivo, pois, se assim fosse, impediria certa diversidade de opções no estudo das línguas, mas como uma metodologia para a investigação das línguas e da linguagem, a qual permite realizar

(33)

pesquisas empíricas em contextos autênticos e que se baseia em certos princípios reguladores poderosos.

Para este estudo, no entanto, preferimos considerar a Linguística de Corpus como abordagem, em vez de metodologia, conforme apresenta e defende Berber Sardinha (2004:37).

A Linguística de Corpus é uma perspectiva, isto é, uma maneira de se chegar à linguagem, e faz alusão ao conceito de teoria linguística como janela que molda como enxergamos a linguagem. A Linguística de Corpus não seria apenas um instrumental, mas, sim, uma abordagem.

Assim como Berber Sardinha, alguns influentes linguistas do corpus, como Douglas Biber, preferem o termo “abordagem baseada em corpus”.

A partir do exposto, optamos também pela definição de Linguística de Corpus apresentada por Berber Sardinha (2000:46).

A Linguística de Corpus é uma área que se ocupa da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais que foram coletados, criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.

Uma vez definida a Linguística de Corpus, passamos a detalhar o que é um corpus.

Um corpus é um conjunto amplo de textos digitais de natureza específica, que conta com uma organização predeterminada de categorias identificáveis para a descrição e a análise de uma variedade de língua. Esse conjunto de textos deve mostrar, de preferência, acessibilidade aos ambientes computacionais e visibilidade, de modo a possibilitar seu uso em diversas pesquisas e garantir acúmulo de conhecimento e integração da investigação de uma língua específica ou em comparação com outra. Também deve oferecer detalhes relevantes sobre sua coleta e procedência.

Um corpus, nos dizeres de Sánchez (1995:8-9), é

(34)

alguno de sus ámbitos y dispuestos de tal modo que puedan ser procesados mediante ordenador con el fin de obtener resultados varios y útiles para la descripción y el análisis7.

Em suma, um corpus deve constituir-se de dados autênticos e legíveis por computador, tendo, como fim, o estudo linguístico, e sendo seu conteúdo vasto e cuidadosamente escolhido para ser representativo de uma língua ou variedade linguística.

A partir da definição de Sánchez (1995), que é bastante completa, especificamos algumas características importantes de um corpus:

- origem: os dados devem ser autênticos;

- propósito: deve ter a finalidade de ser um objeto de estudo linguístico; - composição: deve ser criteriosamente selecionado;

- formatação: os dados devem ser legíveis por computador;

- representatividade: deve ser representativo de uma língua ou variedade;

- extensão: deve ser vasto, para ser representativo.

Os requisitos para a formação de um corpus computadorizado são: 1) Deve ser composto de textos autênticos, em linguagem natural. Os

textos não podem ser elaborados com um propósito específico nem criados em linguagem artificial.

2) Os textos devem ser escritos por falantes nativos ou, do contrário, deve ser qualificado como corpus de aprendizes.

3) O conteúdo do corpus deve ser escolhido de acordo com as características desejadas, mas deve respeitar as condições de naturalidade e de autenticidade.

4) O corpus deve ser um conjunto representativo da linguagem, de um idioma ou de uma variedade linguística.

A análise de uma língua baseada em corpus inaugura novas perspectivas no sentido de se resolverem problemas do estudo da língua,

7 [...] um conjunto de dados linguísticos - pertencentes ao uso oral ou escrito da língua

(35)

podendo ser utilizada em vários campos da linguística aplicada, dentre os quais a tradução, a elaboração de dicionários e gramáticas, o ensino de idiomas etc. (BERBER SARDINHA, 2004).

Da própria atividade de formação e análise do corpus podem derivar, de modo natural, novos modelos teóricos ou metodologias bem definidas.

De uma análise dos diferentes estudos nessa linha, é possível extrair dos corpora utilizados algumas características que, combinadas, conferem identidade ao universo empírico:

1. O meio ou os instrumentos para a utilização dos dados: a

automatização. O aspecto mais distintivo é a intervenção dos computadores

para a inserção, a codificação e a distribuição dos dados, o que supõe a explicitação das técnicas de codificação e da forma de acesso à informação. Os métodos de codificação constituem, de fato, um verdadeiro domínio independente, na medida em que o material inserido deve estar devidamente etiquetado ou anotado, a fim de que se identifique mais facilmente o objeto de análise.

Uma característica importante da Linguística de Corpus é justamente o uso da informática para a distribuição e análise do material com finalidades abertas de pesquisa.

2. O caráter dos dados: definidos em sua representatividade e em sua

naturalidade. A representatividade é um tema bastante discutível. Segundo

Kock (1999), deve combinar aspectos derivados de uma noção de representatividade quantitativa com aspectos correspondentes a uma noção de representatividade intuitiva ou qualitativa. Essa combinação permite contar com um registro limitado de dados, cuja seleção possa ser avaliada como adequada, de acordo com o que se conhece antecipadamente da variedade ou do registro analisado.

(36)

A concentração da Linguística de Corpus nos textos escritos parece motivada pela facilidade de manejo de seus dados em comparação à dificuldade de transcrição dos textos orais.

A língua oral está, em geral, representada por emissões radiofônicas ou televisivas, aulas e conferências, ou seja, atos públicos em que o texto flui sem obstáculos e pode ser gravado sem o controle ou a intervenção do linguista.

Kennedy (1998) aponta quatro grandes áreas de estudo na Linguística de Corpus. A primeira dedica-se aos problemas inerentes à compilação e à constituição de corpora; a segunda, ao desenvolvimento de ferramentas que possibilitem a análise dos corpora; a terceira, à descrição e à mensuração da probabilidade de ocorrência de determinados fatores dentro do sistema linguístico; e, por fim, uma área de grandes inovações: a de ensino-aprendizagem de idiomas com corpora.

A Linguística de Corpus, no campo do ensino de línguas estrangeiras, constitui-se área fundamental para o presente estudo.

No ensino, podemos classificar quatro áreas de maior concentração (BERBER SARDINHA, 2004): descrição da linguagem nativa; descrição da linguagem do aprendiz; transposição de metodologias de pesquisa acadêmica para a sala de aula; e desenvolvimento de materiais de ensino, currículos e abordagens.

O principal instrumento para o ensino por meio de corpus é a concordância, lista dos cotextos nos quais um dado ocorre. Ela é utilizada para exemplificar o uso de traços linguísticos e as situações em que se dá a ocorrência de um dado.

As concordâncias facilitam o desenvolvimento de habilidades de seleção e extração de esquemas, processos cognitivos fundamentais na aprendizagem de uma língua, seja ela materna ou estrangeira.

(37)

1.1.3. Linguagem enquanto sistema probabilístico

Um aspecto importante dentro da Linguística de Corpus é sua visão de linguagem como sistema probabilístico, cujo aspecto mais importante é a frequência de uso das palavras. Consoante Sinclair (1991) e Halliday (2002), o falante faz escolhas linguísticas que terão maior ou menor frequência de acordo com o contexto que se lhe apresenta.

Com a evolução da Linguística de Corpus, passou-se a usar o corpus não somente para a verificação da frequência de itens lexicais isolados, mas também para a análise estatística de padrões de uso, e até mesmo para a comparação entre corpora.

Neste estudo, a frequência é inicialmente utilizada para a seleção das palavras polissêmicas que serão analisadas e utilizadas na elaboração das atividades.

Essa visão probabilística é compartilhada por vários linguistas, como John Sinclair, Michael Halliday e Geoffrey Sampson.

A visão da linguagem, enquanto sistema probabilístico, pressupõe que nem todos os traços linguísticos se dão com a mesma frequência. O mais importante quanto à diferença de frequências entre os traços é que não sejam elas aleatórias.

Segundo Biber (1988), ao afirmar que a variação não é aleatória, na verdade, estamos afirmando que a linguagem é padronizada, ou seja, que se evidencia pela recorrência, isto é, uma colocação, coligação ou estrutura que se repete significativamente.

Para se saber, portanto, a probabilidade de ocorrência de um traço linguístico, faz-se necessária a observação empírica - por parte de diversos usuários - da frequência do uso, em contextos definidos.

A título de exemplo, quanto maior for a quantidade de palavras, maior será a probabilidade de elas aparecerem com baixa frequência, ou seja, de serem pouco utilizadas, já que a maioria das palavras de uma língua pode ser considerada de baixa frequência.

(38)

Para que possam ocorrer, faz-se mister o uso de amostras, uma vez que constituem a maior parte do vocabulário de uma língua.

A representatividade atrela-se, pois, à probabilidade, considerando-se que sua característica mais significativa é a extensão do corpus, o que significa dizer que, para ter representatividade, o corpus deve conter o maior número possível de sentidos de cada forma. Não há critérios para a determinação da representatividade, por isso o corpus deve ser adequado aos interesses do pesquisador.

A Linguística de Corpus, baseada na visão de linguagem como probabilidade (HALLIDAY, 1992), prioriza o estudo de padrões de uso em línguas específicas. Devido ao uso do computador na investigação de corpora, os estudos iniciam-se pela forma, já que essa é mais facilmente identificada por ferramentas computacionais, mas isso não significa que a Linguística de Corpus se ocupe apenas desse aspecto; pelo contrário, a pesquisa deve ser pautada pela investigação tanto da forma quanto da função do objeto de análise.

Para alcançar seus objetivos de pesquisa, os linguistas de corpus utilizam métodos quantitativos e qualitativos (LEECH, 1992); por isso, muitos dos estudos de corpora iniciam-se por meio de uma metodologia quantitativa (observação de frequências de uso, por exemplo), mas a abordagem qualitativa revela-se fundamental para decodificar os padrões evidenciados pela ferramenta computacional, contextualizar os resultados, explicar o que os números revelam e interpretar os achados de uma forma geral.

A visão da linguagem como sistema probabilístico não é exclusividade da Linguística de Corpus, mas também da Linguística Sistêmico-Funcional (HALLIDAY, 1991), cujos conceitos centrais são o de sistema, o de escolha e o de contexto.

A Linguística Sistêmico-Funcional é socialmente orientada e reconhece as línguas como redes de opções inter-relacionadas, em que cada sistema representa uma escolha, um conjunto de alternativas possíveis.

(39)

ou menor probabilidade de um sistema ser ativado em um determinado contexto. A linguagem é, portanto, um sistema probabilístico e não categórico.

A frequência de uso de um traço linguístico informa sua probabilidade de ocorrência no contexto, permitindo saber se uma escolha é típica ou não daquele contexto. Pode-se, assim, afirmar que a linguagem é padronizada e não aleatória. A padronização evidencia-se pela recorrência, ou seja, uma colocação, coligação ou estrutura que se repete significativamente e mostra sinais de ser um padrão lexical ou léxico-gramatical (BERBER SARDINHA, 2004).

1.1.4. Visão empirista de linguagem

Como já mencionamos, a Linguística de Corpus possui uma visão empirista de linguagem, tomada como um sistema probabilístico. Dito de outro modo, trata-se de dados provenientes da observação e análise da linguagem, reunidos em um corpus, e sua frequência. Segue-se, assim, um pensamento indutivo, que não implica a exclusão de conteúdos teóricos gerais nem a restrição do pensamento à singularidade do dado.

O pensamento indutivo supõe a observação da realidade por meio de novas construções ou representações, que podem ser mais ou menos próximas do original, sempre que consigam representar adequadamente seus princípios organizadores intuídos no corpo do dado.

A visão empirista contrapõe-se à visão racionalista da linguagem, que se fundamenta no estudo da linguagem por meio da introspecção, ou seja, o conhecimento provém de princípios estabelecidos a priori.

A principal diferença entre a visão empirista e a racionalista reside na natureza dos dados usados para informar a teoria (MCENERY e WILSON, 1996).

Há, assim, uma oposição fundamental entre as posições filosóficas inerentes às visões empirista e racionalista da linguagem representadas pelos seus maiores expoentes; de um lado, Halliday, seguindo a tradição empirista; e de outro, Chomsky, seguindo a tradição racionalista.

(40)

não a performance. Também criticou a descrição de algo infinito como a linguagem natural, a partir de algo finito como o corpus (MCENERY e WILSON, 1996).

A diferença entre a posição racionalista e a empirista não impede que o empirista utilize sua intuição linguística na análise dos dados.

1.1.5. Linguística de Corpus e a língua espanhola

Em língua espanhola, estudos vêm demonstrando a necessidade de enfatizar o uso de corpora digitais com a finalidade de avançar nas descrições linguísticas e também como um meio empírico eficaz para comprovar as hipóteses dos investigadores (CRUZ PIÑOL, 2012; FERNÁNDEZ PÉREZ, 2011). As distinções, por exemplo, entre um tipo de discurso especializado e outro de índole mais geral, ou de um tipo de registro escrito e outro oral, apenas ultimamente conseguiram ser descritos de forma mais detalhada e cuidadosa, ainda que de modo preliminar. Infelizmente, isso não materializa uma gramática de espanhol que dê conta de estruturas e usos diversos dessa língua particular e que mostre a heterogeneidade de gêneros, registros e modos atuais, inclusive incorporando informação fonológica, prosódica ou de tipo de tomada de turnos, no caso de textos orais. Tampouco houve um impacto no sistema educativo e nas metodologias de línguas, aproveitando, por exemplo, os denominados atualmente “corpora de aprendizes”.

A investigação pioneira em língua espanhola, tanto na América Latina quanto na Espanha, registra estudos muito relevantes, como o Proyecto de la

Norma Culta, que se centra na pesquisa da norma linguística culta das

principais cidades da Espanha e da América Latina. Essa iniciativa, sem dúvida, consolidou uma oportunidade de trabalho conjunto com investigações baseadas na Linguística de Corpus, ainda que sem os apoios tecnológicos atuais (LOPE BLANCH, 1994; 1990; 1977; 1969; MATUS, 2002; OYANEDEL e SAMANIEGO, 1998; RABANALES e CONTRERAS, 1979).

Também cabe destacar obras como a de Paul Garvin (1969), Breve introducción a la computación lingüística, inicialmente publicada no Peru, pela

(41)

Dentro dessa visão panorâmica, ainda que de modo tardio, os estudiosos de espanhol foram incorporando-se à área da Linguística de Corpus e começaram a utilizar as técnicas de coleta e construção de corpus. Um trabalho representativo dessa iniciativa é o elaborado pela Real Academia Espanhola da Língua (RAE), que disponibilizou on-line (www.rae.es) o CREA

(Corpus de Referencia del Español Actual), que possui cerca de cento e

quarenta milhões de palavras, e o CORDE (Corpus Diacrónico del Español),

com cento e oitenta milhões de palavras. Também cabe mencionar aqui que a RAE, por meio de seu departamento de linguística computacional, vem implementando ferramentas de análise linguística, que se espera estejam disponíveis on-line em um futuro próximo.

Outro exemplo relevante é o projeto PRESEEA (Proyecto para el estudio sociolingüístico del español de España y de América), que tem como objetivo a

criação de um corpus de espanhol falado, representativo do mundo hispânico em sua variedade geográfica e social. O projeto PRESEEA reúne aproximadamente quarenta equipes de investigação sociolinguística em diversas partes do mundo. O material é recopilado atendendo à variedade sociolinguística das comunidades falantes do espanhol.

Entre os grupos de estudiosos, destacam-se o Grupo Val.Es.Co na Espanha, que trabalha com língua oral, registro coloquial e variedade conversacional; a equipe da Universidade de Santiago de Compostela, com a base de dados sintáticos do espanhol atual (www.bds.usc.es); e o grupo do Instituto de Linguística Aplicada da Universidade Pompeu Fabra (http://bwananet.iula.upf.edu).

Também existe uma série de bancos de dados e de recursos para o espanhol disponíveis gratuitamente na Internet, criados por iniciativas acadêmicas institucionais ou pessoais, como, por exemplo, o denominado

Corpus del Español, elaborado por Mark Davis, da Universidade de Brigham

(42)

Também merecem destaques os estudos desenvolvidos por Parodi (2007a e b, 2005, 2004), Sabaj (2004), Venegas (2005), González (2005), Silva (2006), Gutiérrez (2007) e Ferrari (2007).

Da mesma forma, não podemos deixar de citar o projeto Cumbre,

financiado pela editora SGEL S.A., cujo objetivo foi a elaboração de um corpus de espanhol contemporâneo, de 20 milhões de palavras etiquetadas morfologicamente e utilizadas para distintos cálculos estatísticos, representativo do espanhol oral e escrito, de todos os países de fala hispânica. Foi utilizado para a elaboração da primeira gramática de espanhol baseada em corpus Gramática práctica del español actual (SÁNCHEZ e SARMIENTO,

2005) –, assim como do primeiro livro didático de espanhol como língua estrangeira, que recebeu o mesmo nome: CUMBRE.

Atualmente, a Linguística de Corpus vai ganhando seu espaço dentro do mundo hispânico. Em 2008, a Associação Espanhola de Linguística de Corpus (AELINCO), foi criada por um grupo de professores universitários, na Universidade de Murcia.

Detalharemos, a seguir, alguns corpora existentes em língua espanhola (MONTERO MARTÍNEZ, 20-- 31-39):

CORPORA ESCRITOS

a) Corpus da língua espanhola para fins gerais

- Corpus de Referencia del Español Actual (CREA). Desenvolvido pelo

Instituto de Lexicografia da Real Academia da Língua Espanhola, com textos literários, jornalísticos, científicos e técnicos, assim como transcrições de gravações da língua oral e de meios de comunicação correspondentes aos últimos anos.

- Corpus Diacrónico del Español (CORDE). Também desenvolvido pelo

Instituto de Lexicografia da Real Academia da Língua Espanhola, com textos da língua espanhola desde sua origem até 1975.

- Archivo de textos hispánicos de la Universidad de Santiago (ARTHUS),

com textos literários, jornalísticos e transcrições da língua oral de diferentes períodos da história da língua espanhola.

- CUMBRE, conjunto de dados linguísticos representativos do uso do

Imagem

FIGURA 1: Apresentação das linhas de concordância no Corpus
FIGURA  1:  Apresentação  das  linhas  de  concordância  no  Corpus  de  Referência da Real Academia Espanhola
FIGURA 2. Interface de consulta do CREA.
FIGURA 3: Concordâncias de “ estudianta ” e “ estudiantas ” no CREA.
+4

Referências

Documentos relacionados

Na primeira década da existência do Estado de Minas Gerais, a legislação educacional mineira estabeleceu o perfil de professor estadual, imputando como formação

Evento que exigiu o fim da impunidade para os Crimes de Maio de 2006 reuniu vítimas da violência policial de vários Estados e deixou claro que os massacres de pobres e jovens

A prova do ENADE/2011, aplicada aos estudantes da Área de Tecnologia em Redes de Computadores, com duração total de 4 horas, apresentou questões discursivas e de múltipla

Apresentaremos a seguir alguns resultados que serão fundamentais para obtermos uma generalização dos teoremas das seçãos anterior para uma versão com tempo contínuo. Consideremos

Equipamentos de emergência imediatamente acessíveis, com instruções de utilização. Assegurar-se que os lava- olhos e os chuveiros de segurança estejam próximos ao local de

Tal será possível através do fornecimento de evidências de que a relação entre educação inclusiva e inclusão social é pertinente para a qualidade dos recursos de

6 Consideraremos que a narrativa de Lewis Carroll oscila ficcionalmente entre o maravilhoso e o fantástico, chegando mesmo a sugerir-se com aspectos do estranho,

Figura 17: a) imagem de satélite no canal infravermelho, b) Campo de pressão em superfície ao nível do mar (linhas pretas) e temperatura em 1000 hPa (colorido), c) altura