• Nenhum resultado encontrado

A concepção de corpus

No documento – PósGraduação em Letras Neolatinas (páginas 120-127)

CAPÍTULO 3. A ABORDAGEM LEXICAL EM LÍNGUA ESTRANGEIRA

3.1. A competência léxica

3.6.2. A concepção de corpus

Considerando que nem toda coletânea de dados possa ser concebida como um corpus, convém ressaltar a relevância de uma definição que abarque esse conhecimento dentro da especificidade da Linguística de Corpus a que se propõe. A compilação do corpus considera a utilização de textos naturais ou autênticos, entendidos, nesse contexto, como “aqueles que

existem na linguagem” produzidos pelo homem e que “não foram criados” com o mero

intuito de serem exemplos para um banco de dados (SARDINHA, 2000, p. 336). Nesse sentido, os textos gerados por programas computacionais e que atendem necessidades de outras áreas de estudos não são considerados como escopo de um corpus45 linguístico.

A compilação de dados é um instrumento de observação da linguagem. O corpus é um dispositivo artificialmente produzido com o propósito de constituir-se em um objeto de estudo (OLIVEIRA, 2005). Nessa perspectiva, a Linguística de Corpus estabelece um

45 Há no mercado editorial uma infinidade de empresas que investem em pesquisas tecnológicas e disponibilizam comercialmente sistemas de software chamados de geradores de textos que se prestam a atender, principalmente, as necessidades tipográficas, de diagramação e de impressão. O uso de programas geradores de textos tem alcançado interesses particulares de pessoas motivadas em dinamizar, por exemplo, seus blogs.

distanciamento conceitual entre o artefato forjado (o que equivale à ferramenta computacional) e a autenticidade do corpus compilado (o que equivale ao insumo linguístico), não invalidando o caráter empírico deste banco de dados - observação da linguagem - em função da instrumentalização do primeiro (SARDINHA, 2000).

A caracterização do objeto de estudo para a compilação do corpus se estabelece por sua natureza oral (falas transcritas) e escrita (registros impressos), sendo coletado a partir de amostras linguísticas de diversas áreas. O corpus está constituído pelas representações da língua em todas as práticas sociais que vai de um trecho de uma conversa informal a uma obra escrita de referência. Todos os insumos linguísticos produzidos por nativos são considerados relevantes para o corpus. O estudo da Linguística de Corpus pretende observar o aspecto representativo da linguagem em uso46.

Dessa maneira, se redimensiona o conceito de extensão textual, considerando-se a utilização de porções de linguagem47 dentro da Linguística de Corpus, em que se contempla a gama de amostras compiladas em amplitude e em diversidade textual. Nessa perspectiva, a escolha dos dados de um subcorpus tende a conformar as amostras que deem representatividade ao banco de dados linguístico que se organize. A construção de um corpus de variedade específica (médica, informática, jurídica, entre outras) considera o processamento das porções da linguagem regido por critérios específicos de seleção para que

46

Para Sardinha (2000), a representatividade de um corpus está, genericamente, atrelada à extensão de palavras compiladas, servindo esta como base de referência para a observação da probabilidade de ocorrência de determinados traços linguísticos. Entretanto, questões mais abrangentes são levantadas, como por exemplo, que tipo de corpus é considerado representativo e para quem ele é representativo. Para este impasse, Sardinha (2000, p. 345) transfere a responsabilidade de validar a representatividade de um corpus ao falante nativo, uma vez que “o ônus é dos usuários em demonstrar a representatividade da amostra e de serem cuidadosos em relação à generalização dos seus achados para uma população inteira (um gênero ou a língua inteira, por exemplo). Assim, são os próprios nativos que legitimam a probabilidade de ocorrência da palavra ao fazer uso dela dentro do discurso.

47

Com relação à utilização da expressão porções da linguagem na Linguística de Corpus, Sardinha (2000) considera irrelevante mensurar a extensão textual da amostra, mas sim que esta seja capaz de representar a língua do falante nativo, independente do seu tamanho. Nesse sentido, um fragmento, um parágrafo, um texto, uma resenha, uma obra completa, uma fala são considerados como porções da linguagem, visto que representam a língua em uso.

as informações representem a língua em uso de cada área temática do objeto de referência48 (SARDINHA, 2000).

Nesse sentido, uma aproximação conceitual mais adequada para o conceito de corpus é apresentada por Sánchez (1995, p.8-9),

Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.

A compilação do corpus abrange, temporalmente, um ou mais períodos de observação ou um período contemporâneo ou histórico de acordo com a finalidade da pesquisa. A seleção de dados parte da perspectiva do corpus por amostragem, em que este é percebido como um todo ou, pela atualização da base de dados, na qual se recicla constantemente as informações sobre o estado da língua. Nesse sentido, o corpus se estabelece por seu dinamismo, inclusão e exclusão de dados ou por seu caráter estático. O conteúdo da linguagem se constrói por seu aspecto geral, especializado, dialetológico ou multilíngue que se define como critério de escolha. Os sujeitos informantes dos dados coletados se caracterizam por serem falantes nativos ou por serem aprendizes de uma língua. E, os objetivos com o corpus são determinados pela descrição da linguagem, pelo estudo contrastivo com outros corpora ou pelo desenvolvimento de aplicativos ou ferramentas de análise.

Apresentamos, a seguir, um modelo de corpus eletrônico, em que se recupera uma amostra parcial de um banco de dados online de grande referência na língua espanhola a fim demonstrar a relevância desta ferramenta computacional49. Em particular, consultou-se o item

48 Convém mencionar também a compilação de um corpus a partir dos dados produzidos por aprendizes de uma língua estrangeira. Nesse caso, classificam-se como learner corpora (SARDINHA, 2004).

49 Com relação à existência de outro corpus da língua espanhola, Sardinha (2004) faz referência ao Corpus

Cumbre com 20 milhões de formas. Este não pode ser acessado pela internet, entretanto, ao adquirir o dicionário Grand diccionario de uso del español actual da editora SGEL, segundo as informações divulgadas por esta empresa, obtém-se uma amostra gratuita equivalente a 10% do corpus compilado.

lexical blanco, delimitando-se o campo especializado à área das ciências militares - exército, no qual partiu-se da compilação de informações de diversos falantes nativos como pode ser observado.

Figura 25. Fonte: REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [online]. Corpus de referencia del español actual. <http://www.rae.es> [18/03/2010]

Após a realização da consulta, foram computados oitenta e nove (89) casos em setenta e sete (77) documentos específicos da temática escolhida como se observa na figura 26.

Figura 26. Fonte: REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [online]. Corpus de referencia del español actual. <http://www.rae.es> [18/03/2010]

Na tela da figura 26, observamos que o item lexical aparece em um contexto comunicativo a partir de exemplos de extratos textuais da língua em uso. Enumera-se o componente léxico considerando as concordâncias50 prováveis a que se submete este item no discurso linguístico do usuário. Uma análise preliminar permite observar que os significados construídos por este componente léxico variam conforme a composição do sentido que se apresenta a partir do cotexto, isto é, pelas relações semânticas que se estabelecem com os elementos contextuais. A concordância nº 1 – r la gran cruz del mérito, con distintivo blanco,

al general de división médico del cuerpo mili** – faz menção ao sentido primário do item -

cor branca - , em que se especifica, neste caso, a tonalidade da medalha recebida. A

50

Toma-se o conceito de concordância dentro da perspectiva teórica da Linguística de Corpus como “... a exibição de uma ou diversas ocorrências de determinada palavra, partes de palavras ou mesmo uma expressão, geralmente apresentada por linhas, com a palavra-chave no meio e o respectivo contexto de cada lado” (OLIVEIRA, 2005, p. 63). Os programas de software que geram as concordâncias são chamados de concordanciadores.

concordância nº 5 – uró que nuevos misiles de Estados Unidos hicieron blanco en bases

militares y zonas civiles de la capit** – se refere a um significado específico do campo

semântico da língua espanhola: alvo a ser atingido. E a concordância nº 10 – er

innecesariamente”. Aunque no es fácil poner en blanco y negro las ganancias o las pérdidas

de un pro** – remete ao sentido da locução adverbial “às claras”.

Este corpus permite que se estabeleça a consulta não somente das ocorrências do componente léxico contextualizado, como também oferece informações adicionais que identificam os dados coletados de forma geográfica e temporalmente, em que são fornecidas, estatisticamente, as contribuições compiladas de cada país. A tela a seguir exemplifica os dados estatísticos entorno ao item blanco que evidenciam a tendência das ocorrências.

Figura 27. Fonte: REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [online]. Corpus de referencia del español actual. <http://www.rae.es> [18/03/2010]

A partir da consulta desse corpus eletrônico também é possível recuperar e visualizar o documento que serve de referência a cada concordância compilada (vide figura 28). Nesse

aspecto, recuperamos a concordância nº 1, mencionada anteriormente, relativa ao item blanco, em que se apresenta o fragmento com o componente léxico em destaque dentro do contexto compilado. Nessa perspectiva, são apresentadas as informações relativas ao ano em que foi produzido o documento, à tipologia do autor (a imprensa), à caracterização do autor (La Voz

de Galicia), à identificação geográfica (Espanha) e à especificidade temática (ciências

militares).

Figura 28. Fonte: REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [online]. Corpus de referencia del español actual. <http://www.rae.es> [18/03/2010]

Essa amostra de banco de dados é uma tentativa de registrar o léxico a partir de referências linguísticas que evidenciam a língua em uso produzida pelos falantes nativos, tentando apresentar “todas as ocorrências da palavra selecionada no corpus de estudo e a

observação das palavras que co-ocorrem com essa forma selecionada” (GONÇALVES,

O banco de dados é um recurso de referência dos pressupostos teóricos da Linguística de Corpus que possibilita observar o dinamismo da língua a partir das ocorrências, produto das interações discursivas dos falantes. Seu caráter empírico coloca em discussão a natureza das representações linguísticas evidenciadas pelos corpora compilados, permitindo uma interface com outras áreas da Linguística da Comunicação, como por exemplo, a pragmática, a sociolinguística e a análise do discurso.

No documento – PósGraduação em Letras Neolatinas (páginas 120-127)