• Nenhum resultado encontrado

CAPÍTULO 1. FUNDAMENTAÇÃO TEÓRICA

1.1. LINGUÍSTICA DE CORPUS

1.1.2. Definição de Linguística de Corpus

Uma vez feito esse breve histórico da Linguística de Corpus, passamos à sua definição.

Apesar de seus 50 anos de história, atualmente a Linguística de Corpus se encontra imersa num processo de consolidação no seio da Linguística, que explica a existência, ainda na atualidade, de uma controvérsia científica a respeito de seu status (MALVAR FERNÁNDEZ, 2007).

Nos últimos anos, debateu-se muito sobre a definição de Linguística de Corpus e se ela consiste em uma teoria ou uma metodologia. Há quem prefira considerá-la uma teoria e quem prefira considerá-la uma metodologia. Existe ampla bibliografia que aborda esse tema (KENNEDY, 1998; MCENERY e WILSON, 1996; SVARTVIK, 1992; STUBBS, 2007; 2001; 1996; TOGNINI- BONELLI, 2001).

De um lado, encontramos linguistas como Tom McEnery e Andrew Wilson (1996) que consideram a Linguística de Corpus como uma mera metodologia de trabalho aplicável a muitas diferentes investigações com, também, muitas diferentes finalidades.

Corpus linguistics is not a branch of linguistics in the same sense as syntax, semantics, sociolinguistics and so on. All of these disciplines concentrate on describing/explaining some aspect of language. Corpus linguistics in contrast in a methodology rather than an aspect of language requiring explanation or description. A corpus-based approach can be taken to many aspects of linguistics enrquiry. [...] Corpus linguistics is a methodology that may be used in almost any area of linguistics, but it does not truly delimit an area of linguistics itself (MCENERY & WILSON, 2001:2 apud MALVAR FERNÁNDEZ, 2007).3

3 A Linguística de Corpus não é uma área da linguística igual à sintaxe, semântica,

sociolinguística, etc. Essas disciplinas se focam na descrição, explicação dos aspectos da linguagem. A Linguística de Corpus, por outro lado, é mais uma metodologia que um aspecto da linguagem que requer explicação ou descrição. Uma abordagem baseada em corpus pode ser utilizada para vários questionamentos de aspectos linguísticos. [...] A linguística de corpus é uma metodologia que pode ser usada em quase todas as áreas da linguística, mas não pode ser considerada uma área da linguística por si só. (tradução da autora)

Na mesma linha, também o linguista Geoffrey Leech:

[...] corpus linguistics refers not to a domain of study, but rather to a methodological basis for pursuing linguistic research. In principle (and often in practice) corpus linguistics combines easily with other branches of linguistics: we can study phonetics, syntax, sociolinguistics, and any other aspect of linguistics by means of corpora, and when we are doing this we can be said to be combining techniques of corpus linguistics with the subject matter of phonetics, syntax, sociolinguistics, and so on (LEECH, 1992:105-106 apud MALVAR FERNÁNDEZ, 2007)4.

De outro lado, encontramos linguistas como Elena Tognini-Bonelli, que considera que

[...] although corpus linguistics belongs to the sphere linguistics, it differs from the other partner disciplines under the same umbrella in that it can be seen as a pre-application methodology. [...] by pre- application we mean that, unlike other applications that start by accepting certain facts as given, corpus linguistics is in a position to define its own sets of rules and pieces of knowledge before they are applied [...] corpus linguistics has, therefore, a theoretical status and because of this it is in a position to contribute specifically to other applications (TOGNINI-BONELLI, 2001:1 apud MALVAR

FERNÁNDEZ, 2007)5.

Diversas apreciações podem ser feitas a respeito destas duas posições encontradas. Por um lado, para contestar o primeiro posicionamento apresentado, tal e como afirma Caravedo (1999:19),

si por metodología se entiende el conjunto de técnicas y estrategias de aproximación y manejo de la realidad que se persigue estudiar, también la linguística de corpus puede agrupar distintas metodologías [...], y no se identifica con sólo una de ellas, sino más bien con un modo de relación entre teoría y realidad6.

4 [...] a Linguística de Corpus não se refere a uma área de estudo, mas sim a uma base

metodológica que auxilia as pesquisas linguísticas. Em geral (e, principalmente na prática), a linguística de corpus se insere perfeitamente em várias áreas da linguística: podemos estudar fonética, sintaxe, sociolinguística, e muitos outros aspectos da linguística através de corpora, e quando estamos realizando essa pesquisa, podemos dizer que estamos combinando técnicas da Linguística de Corpus com as questões fonéticas, sintáticas, sociolinguísticas, etc. (tradução da autora)

5 Embora a linguística de corpus pertença à esfera da linguística aplicada, há uma diferença em

relação com as outras disciplinas, já que pode ser vista como uma pre-application methodology [...] entendemos por pré-aplicação, diferente de outras aplicações que partem da ideia de fatos já concretos, a Linguística de Corpus define seu próprio conjunto de regras e partes do conhecimento antes de serem aplicados [...] a Linguística de Corpus possui, não obstante, um status teórico e, por isso, pode contribuir especificamente com outras aplicações. (tradução da autora)

6 se entendemos metodologia como conjunto de técnicas e estratégias de aproximação e uso

Por outro lado, para contestar a posição de Tognini-Bonelli, o fato de que se possa elaborar um construto teórico em torno a uma metodologia determinada de estudo não implica que esse construto tenha que se erigir numa disciplina autônoma da área disciplinar a partir da qual aquela teorização tinha sido elaborada. Precisamente, se se aceitar que o uso de corpora foi durante décadas uma mera metodologia empregada desde diferentes áreas da linguística, o fato de que hoje se tenha formulado toda uma coleção terminológica nova, surgida após o desenvolvimento dos computadores e da aplicação de técnicas estatístico-quantitativas no processamento dos corpora, trata-se de um indicador dos progressos feitos no seio daquelas áreas disciplinares, que se adaptaram às potencialidades oferecidas pelas novas ferramentas de estudos.

Dessa maneira, segundo Parodi (2010), a Linguística de Corpus, em sua versão atual, constitui um enfoque metodológico para o estudo das línguas e apresenta oportunidades revolucionárias para a descrição, análise e ensino de discursos de todo tipo. Também oferece uma base empírica para o desenvolvimento de materiais educacionais e metodológicos de diversa índole, assim como para a construção de gramáticas, dicionários e outros, tanto de discursos gerais como especializados, orais e escritos. A partir dessa ótica, a Linguística de Corpus constitui um conjunto ou coleção de princípios metodológicos para estudar qualquer domínio linguístico e caracteriza-se por oferecer base à investigação da língua em uso a partir de corpus linguístico com apoio na tecnologia computacional e programas informáticos. Nesse sentido, a Linguística de Corpus não deve ser entendida como uma área da linguística, como é a fonologia, a semântica, a sintaxe, mas, sim, como um método de investigação que pode ser utilizado em todas as áreas da linguística, em todos os níveis da língua e com enfoques teóricos diferentes. Suas aplicações são múltiplas e não limitam as possibilidades de indagação. Assim sendo, a Linguística de Corpus não funciona como um enfoque metodológico extremamente restritivo, pois, se assim fosse, impediria certa diversidade de opções no estudo das línguas, mas como uma metodologia para a investigação das línguas e da linguagem, a qual permite realizar metodologias [...], e não se identifica apenas com uma delas, mas sim com uma forma de relacionar a teoria e a realidade. (tradução da autora)

pesquisas empíricas em contextos autênticos e que se baseia em certos princípios reguladores poderosos.

Para este estudo, no entanto, preferimos considerar a Linguística de Corpus como abordagem, em vez de metodologia, conforme apresenta e defende Berber Sardinha (2004:37).

A Linguística de Corpus é uma perspectiva, isto é, uma maneira de se chegar à linguagem, e faz alusão ao conceito de teoria linguística como janela que molda como enxergamos a linguagem. A Linguística de Corpus não seria apenas um instrumental, mas, sim, uma abordagem.

Assim como Berber Sardinha, alguns influentes linguistas do corpus, como Douglas Biber, preferem o termo “abordagem baseada em corpus”.

A partir do exposto, optamos também pela definição de Linguística de Corpus apresentada por Berber Sardinha (2000:46).

A Linguística de Corpus é uma área que se ocupa da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais que foram coletados, criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.

Uma vez definida a Linguística de Corpus, passamos a detalhar o que é um corpus.

Um corpus é um conjunto amplo de textos digitais de natureza específica, que conta com uma organização predeterminada de categorias identificáveis para a descrição e a análise de uma variedade de língua. Esse conjunto de textos deve mostrar, de preferência, acessibilidade aos ambientes computacionais e visibilidade, de modo a possibilitar seu uso em diversas pesquisas e garantir acúmulo de conhecimento e integração da investigação de uma língua específica ou em comparação com outra. Também deve oferecer detalhes relevantes sobre sua coleta e procedência.

Um corpus, nos dizeres de Sánchez (1995:8-9), é

[...] un conjunto de datos lingüísticos (pertenecientes al uso oral o escrito de la lengua, o a ambos), sistematizados según determinados criterios, suficientemente extensos en amplitud y profundidad, de manera que sean representativos del total del uso lingüístico o de

alguno de sus ámbitos y dispuestos de tal modo que puedan ser procesados mediante ordenador con el fin de obtener resultados varios y útiles para la descripción y el análisis7.

Em suma, um corpus deve constituir-se de dados autênticos e legíveis por computador, tendo, como fim, o estudo linguístico, e sendo seu conteúdo vasto e cuidadosamente escolhido para ser representativo de uma língua ou variedade linguística.

A partir da definição de Sánchez (1995), que é bastante completa, especificamos algumas características importantes de um corpus:

- origem: os dados devem ser autênticos;

- propósito: deve ter a finalidade de ser um objeto de estudo linguístico; - composição: deve ser criteriosamente selecionado;

- formatação: os dados devem ser legíveis por computador;

- representatividade: deve ser representativo de uma língua ou variedade;

- extensão: deve ser vasto, para ser representativo.

Os requisitos para a formação de um corpus computadorizado são: 1) Deve ser composto de textos autênticos, em linguagem natural. Os

textos não podem ser elaborados com um propósito específico nem criados em linguagem artificial.

2) Os textos devem ser escritos por falantes nativos ou, do contrário, deve ser qualificado como corpus de aprendizes.

3) O conteúdo do corpus deve ser escolhido de acordo com as características desejadas, mas deve respeitar as condições de naturalidade e de autenticidade.

4) O corpus deve ser um conjunto representativo da linguagem, de um idioma ou de uma variedade linguística.

A análise de uma língua baseada em corpus inaugura novas perspectivas no sentido de se resolverem problemas do estudo da língua,

7 [...] um conjunto de dados linguísticos - pertencentes ao uso oral ou escrito da língua

ou a ambos - sistematizados conforme determinados critérios, suficientemente extensos em amplitude e profundidade, de forma que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal forma que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e a análise. (tradução da autora)

podendo ser utilizada em vários campos da linguística aplicada, dentre os quais a tradução, a elaboração de dicionários e gramáticas, o ensino de idiomas etc. (BERBER SARDINHA, 2004).

Da própria atividade de formação e análise do corpus podem derivar, de modo natural, novos modelos teóricos ou metodologias bem definidas.

De uma análise dos diferentes estudos nessa linha, é possível extrair dos corpora utilizados algumas características que, combinadas, conferem identidade ao universo empírico:

1. O meio ou os instrumentos para a utilização dos dados: a

automatização. O aspecto mais distintivo é a intervenção dos computadores

para a inserção, a codificação e a distribuição dos dados, o que supõe a explicitação das técnicas de codificação e da forma de acesso à informação. Os métodos de codificação constituem, de fato, um verdadeiro domínio independente, na medida em que o material inserido deve estar devidamente etiquetado ou anotado, a fim de que se identifique mais facilmente o objeto de análise.

Uma característica importante da Linguística de Corpus é justamente o uso da informática para a distribuição e análise do material com finalidades abertas de pesquisa.

2. O caráter dos dados: definidos em sua representatividade e em sua

naturalidade. A representatividade é um tema bastante discutível. Segundo

Kock (1999), deve combinar aspectos derivados de uma noção de representatividade quantitativa com aspectos correspondentes a uma noção de representatividade intuitiva ou qualitativa. Essa combinação permite contar com um registro limitado de dados, cuja seleção possa ser avaliada como adequada, de acordo com o que se conhece antecipadamente da variedade ou do registro analisado.

No que tange à naturalidade, há uma ideia de que o material oral coletado é mais natural que o escrito. No entanto, a utilização de textos escritos é muito mais frequente que a de textos orais. O texto escrito é tido como natural, não tendo sido modificado pelo pesquisador, exceto quando ele isola ou recorta fragmentos de textos completos.

A concentração da Linguística de Corpus nos textos escritos parece motivada pela facilidade de manejo de seus dados em comparação à dificuldade de transcrição dos textos orais.

A língua oral está, em geral, representada por emissões radiofônicas ou televisivas, aulas e conferências, ou seja, atos públicos em que o texto flui sem obstáculos e pode ser gravado sem o controle ou a intervenção do linguista.

Kennedy (1998) aponta quatro grandes áreas de estudo na Linguística de Corpus. A primeira dedica-se aos problemas inerentes à compilação e à constituição de corpora; a segunda, ao desenvolvimento de ferramentas que possibilitem a análise dos corpora; a terceira, à descrição e à mensuração da probabilidade de ocorrência de determinados fatores dentro do sistema linguístico; e, por fim, uma área de grandes inovações: a de ensino- aprendizagem de idiomas com corpora.

A Linguística de Corpus, no campo do ensino de línguas estrangeiras, constitui-se área fundamental para o presente estudo.

No ensino, podemos classificar quatro áreas de maior concentração (BERBER SARDINHA, 2004): descrição da linguagem nativa; descrição da linguagem do aprendiz; transposição de metodologias de pesquisa acadêmica para a sala de aula; e desenvolvimento de materiais de ensino, currículos e abordagens.

O principal instrumento para o ensino por meio de corpus é a concordância, lista dos cotextos nos quais um dado ocorre. Ela é utilizada para exemplificar o uso de traços linguísticos e as situações em que se dá a ocorrência de um dado.

As concordâncias facilitam o desenvolvimento de habilidades de seleção e extração de esquemas, processos cognitivos fundamentais na aprendizagem de uma língua, seja ela materna ou estrangeira.

No âmbito da elaboração de materiais de ensino, pode-se mencionar a proposta de Tim John, conhecida por Aprendizagem Movida por Dados (DDL), cujo objetivo é desenvolver no estudante a habilidade de descoberta, restringindo-se o papel do professor a viabilizar meios para tal descoberta.