Linguística de Corpus na pesquisa em ensino e aprendizagem de línguas

CAPÍTULO II METODOLOGIA DA PESQUISA

2.7 Linguística de Corpus na pesquisa em ensino e aprendizagem de línguas

Embora o paradigma deste estudo seja primordialmente qualitativo, pois, além dos dados do TEPOLI e dos questionários, analiso também gravações em vídeo de aulas, bem como notas de campo dos alunos, atas, meus diários reflexivos, pois esta pesquisa tem como foco a avaliação de características específicas da produção oral (interlíngua, doravante IL) do

(futuro) professor de ILE. Entre elas, está a PO, tratada por um método quantitativo de análise de dados: uma análise da precisão gramatical e da pronúncia da produção oral dos alunos durante testes orais (TEPOLI 1, 2 e 3) por meio de um programa de computador que examina o vocabulário em textos, o WordSmith Tools.

Assim, em função do acima exposto, este trabalho apresenta a verificação da variação lexical e dos desvios linguísticos coletados pelos testes, com base na avaliação lexical e da concordância levantada pela Linguística de Corpus (BERBER SARDINHA, 2004; BAKER, 1996). Segundo Berber Sardinha (2000, p. 325),

A Linguística de Corpus ocupa-se da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.

Com base na definição acima, nos idos dos anos 80 e 90, a partir das investigações de Sinclair (1991) na Lexicologia, a Linguística de Corpus (doravante LC) surgiu como uma abordagem teórico-metodológica para a área da Linguística e não diretamente atrelada a pesquisas na área de ensino e aprendizagem de línguas, como acontece atualmente – inclusive no presente trabalho e em livros didáticos64. De acordo com Laviosa (2002, p. 6), foi definida como “um ramo da Linguística geral que envolve a análise de corpora de textos corridos legíveis por computador”.

Com vistas a isso, pesquisadores da área de Linguística Aplicada passaram a concordar, bem como utilizar corpora eletrônicos como fornecedores de contribuições importantes para o desenvolvimento de suas pesquisas, visto que a LC se fundamenta em uma base empirista, favorecendo a análise de dados provenientes da observação do uso da linguagem por meio do exame de corpus computadorizado, cuja definição de Sanchez (1995 p. 8-9, apud BERBER SARDINHA, 2000, p. 338), melhor engloba suas características:

Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.

A linguagem é, assim, vista como um sistema probabilístico, ou seja, a probabilidade dos sistemas linguísticos, dados os contextos em que os falantes os empregam, é o que a identifica, de acordo com Halliday (1991 apud BERBER SARDINHA, 2004, p. 30).

Tognini-Bonelli (2002) lembra ser perigoso ignorar a evidência que um corpus possa oferecer pelo fato de a LC já ter comprovado, sob aspectos da língua nas falas dos nativos, a inexatidão dos falantes da língua em uma perspectiva humana. Tais motivos me conduziram a utilizar alguns pressupostos da LC ao analisar um corpus computadorizado formado pelas transcrições das entrevistas orais em LI dos alunos.

Para fins de análise neste trabalho, o corpus compilado é composto pelas transcrições das falas dos alunos durante as entrevistas do TEPOLI, isto é, dados linguísticos autênticos pertencentes à linguagem oral de um dado grupo, alunos do segundo ano do contexto de pesquisa, cujas entrevistas apresentam temas e condições de uso da LI semelhantes, preenchendo os pré-requisitos abaixo para a formação de um corpus computadorizado, a saber:

(a) A origem: os dados devem ser autênticos.

(b) O propósito: o corpus deve ter a finalidade de ser um objeto de estudo linguístico.

escolhido.

(d) A formação: os dados do corpus devem ser legíveis por computador. (e) A representatividade: o corpus deve ser representativo de uma língua ou variedade.

(f) A extensão: o corpus deve ser vasto para ser representativo. (BERBER SARDINHA, 2004, p. 18-19).

O mesmo autor explica que o programa WordSmith Tools, composto por três ferramentas (WordList, KeyWords, Concord), quatro utilitários (Renamer, Text Converter,

Splitter, Viewer), instrumentos e funções, desenvolvido por Mike Scott e publicado pela Oxford University Press, aqui utilizado para análise dos dados,

[...] coloca à disposição do analista uma série de recursos que, bem usados, são extremamente úteis e poderosos na análise de vários aspectos da linguagem, como a composição lexical, a temática de textos selecionados e a organização retórica e composicional de gêneros discursivos (BERBER SARDINHA, 2004, p. 86).

A ferramenta WordList é pré-definida para criar, a cada vez, duas listas de palavras, cada uma apresentada em uma janela diferente – uma ordenada alfabeticamente (identificada pela letra ‘A’ entre parênteses) e outra classificada por ordem de frequência das palavras (‘F’,

com a palavra mais frequente encabeçando a lista). Juntamente com as duas janelas, (‘A’) e (‘F’), o programa apresenta uma terceira janela (S) na qual aparecem estatísticas relativas aos dados usados para a produção das listas. Desse modo, cada vez que o WordList é utilizado para criar uma lista de palavras, as três janelas são produzidas: uma lista de palavras ordenada por ordem alfabética, outra com uma lista classificada pela frequência das palavras e uma terceira janela com estatísticas simples a respeito dos dados (Anexo D).

Nas listas estatísticas geradas, um dos elementos aqui utilizado foi Type-Token Ratio (TT, em inglês), isto é, a razão forma/item (ou vocábulo/ocorrência, cuja abreviação é VO ou FI em português). Na sua forma tradicional, é obtida dividindo-se o total de formas pelo total de itens. No WordList, esse valor é dado em porcentagem – depois de dividir o total de formas pelo total de itens, o valor é multiplicado por cem. Na prática, a razão forma/item indica a riqueza lexical do texto – neste trabalho, indica a variação lexical da produção oral dos alunos. Quanto maior o seu valor, maior o número de palavras diferentes. Em contraposição, um valor baixo indicará um número alto de repetições, o que pode indicar uma PO menos ‘rica’ ou variada do ponto de vista de seu vocabulário.

Também foi utilizado o aplicativo KeyWords, levantamento que fornece uma relação de palavras-chave ao comparar as listas de frequência de palavras de um corpus de língua geral (corpus de referência) e de um corpus de estudo. Segundo Berber Sardinha (2004, p. 97), há dois componentes principais para uma análise de palavras-chave:

1. Um corpus de estudo [principal], representado por uma lista de frequência de palavras. O corpus de estudo é aquele que se pretende descrever. A ferramenta KeyWords aceita a análise simultânea de mais de um corpus de estudo.

2. Um corpus de referência, também formatado como uma lista de frequência de palavras. Também é conhecido como corpus de controle, e funciona como termo de comparação para análise. A sua função é fornecer uma norma com a qual se fará a comparação das frequências do corpus de estudo. A comparação é feita por meio de uma prova estatística selecionada pelo usuário (qui-quadrado ou log-likelihood). As palavras cujas frequências no corpus de estudo forem significativamente maiores segundo o resultado da prova estatística são consideradas chave e passam a compor uma listagem específica de palavras-chave.

É importante ressaltar que, além da observação da variação lexical, ou seja, razão forma/item, também foram levantadas listas de frequência e listas de palavras-chave de cada transcrição separadamente, para analisar as palavras lexicais ou de conteúdo, conforme sugerido por McCarthy (1990), e para confirmar se as palavras mais frequentes em cada entrevista realmente eram significativas dentro do corpus principal, respectivamente. Segundo

Baker (1996) e conforme dito anteriormente, uma razão forma/item mais baixa pode sugerir menor variação lexical, ou seja, um maior índice de repetições empregado pelo falante. Dessa forma, “se um texto tiver 100 palavras, dizemos que possui 100 itens, mas muitos desses itens podem estar repetidos dentro do texto e isso pode nos fornecer um total de itens consideravelmente baixo”, como exposto por McCarthy (1990)65.

O mesmo autor também aborda a distinção entre palavras lexicais ou de conteúdo (verbos, substantivos) e palavras gramaticais ou funcionais (demonstrativos, artigos definidos/indefinidos), relevante para o resultado da variação lexical, pois leva em conta tais classificações dentro do mesmo corpus. Sendo assim, decidi gerar, também, uma lista de palavras-chave, ou seja, palavras estatisticamente relevantes dentro do corpus – conforme explicado na fundamentação teórica. A intenção aqui é, ao identificar, observar e comparar a razão forma/item das entrevistas individualmente, checar a validade e a confiabilidade do teste em relação à avaliação da competência lexical dos alunos e, em consequência, sua POLI e CL.

Como corpus de referência de LI, foi utilizado o British National Corpus - BNC Sampler (corpus do inglês britânico), amostra que apresenta 2.530.849 palavras, por ser de fácil acesso e por servir para o propósito de extração de palavras-chave, já que é mais de cinco vezes maior que o corpus de estudo – sugerido por Berber Sardinha (2004, p. 102) para que um corpus seja usado como referência.

A última ferramenta utilizada foi Concord, queproduz concordâncias ou listagens das ocorrências de um item específico (chamado de palavra de busca ou nódulo, que pode ser formado por uma ou mais palavras), acompanhado do texto ao seu redor (o co-texto). A intenção foi buscar a concordância, feita pelos alunos, de palavras-chave utilizadas em suas falas a fim de levantar os desvios linguísticos apresentados para que fossem retomados em sala de aula. Assim, foi possível gerar a frequência de palavras, a variação lexical e os desvios linguísticos de cada um individualmente e do grupo com a ajuda do programa WordSmith

Tools.

Consequentemente, os dados levantados e analisados ajudaram a interpretar a POLI dos alunos a partir de um ponto de vista empírico, quantitativo, fornecendo subsídios para a validação do TEPOLI como instrumento de avaliação da PO de futuros professores de LE.

65_{Tradução de “Lexical variation takes as its starting point the distinction between token and type. If a text is 100}

words long, it is said to contain 100 tokens, but many of these tokens may be repeated within the text and this may give us a considerably lower total of types (…)”.

No documento Avaliação: meio para intervenção pedagógica na formação do professor de língua estrangeira e (re)construção da sala de aula (páginas 110-115)