• Nenhum resultado encontrado

CAPÍTULO 1. FUNDAMENTAÇÃO TEÓRICA

1.1. LINGUÍSTICA DE CORPUS

1.1.5. Linguística de Corpus e a língua espanhola

Em língua espanhola, estudos vêm demonstrando a necessidade de enfatizar o uso de corpora digitais com a finalidade de avançar nas descrições linguísticas e também como um meio empírico eficaz para comprovar as hipóteses dos investigadores (CRUZ PIÑOL, 2012; FERNÁNDEZ PÉREZ, 2011). As distinções, por exemplo, entre um tipo de discurso especializado e outro de índole mais geral, ou de um tipo de registro escrito e outro oral, apenas ultimamente conseguiram ser descritos de forma mais detalhada e cuidadosa, ainda que de modo preliminar. Infelizmente, isso não materializa uma gramática de espanhol que dê conta de estruturas e usos diversos dessa língua particular e que mostre a heterogeneidade de gêneros, registros e modos atuais, inclusive incorporando informação fonológica, prosódica ou de tipo de tomada de turnos, no caso de textos orais. Tampouco houve um impacto no sistema educativo e nas metodologias de línguas, aproveitando, por exemplo, os denominados atualmente “corpora de aprendizes”.

A investigação pioneira em língua espanhola, tanto na América Latina quanto na Espanha, registra estudos muito relevantes, como o Proyecto de la

Norma Culta, que se centra na pesquisa da norma linguística culta das

principais cidades da Espanha e da América Latina. Essa iniciativa, sem dúvida, consolidou uma oportunidade de trabalho conjunto com investigações baseadas na Linguística de Corpus, ainda que sem os apoios tecnológicos atuais (LOPE BLANCH, 1994; 1990; 1977; 1969; MATUS, 2002; OYANEDEL e SAMANIEGO, 1998; RABANALES e CONTRERAS, 1979).

Também cabe destacar obras como a de Paul Garvin (1969), Breve

introducción a la computación lingüística, inicialmente publicada no Peru, pela

Universidade Mayor de San Marcos. Essa obra apresenta ferramentas e fundamentos informáticos para realizar trabalhos em linguística descritiva.

Dentro dessa visão panorâmica, ainda que de modo tardio, os estudiosos de espanhol foram incorporando-se à área da Linguística de Corpus e começaram a utilizar as técnicas de coleta e construção de corpus. Um trabalho representativo dessa iniciativa é o elaborado pela Real Academia Espanhola da Língua (RAE), que disponibilizou on-line (www.rae.es) o CREA (Corpus de Referencia del Español Actual), que possui cerca de cento e quarenta milhões de palavras, e o CORDE (Corpus Diacrónico del Español), com cento e oitenta milhões de palavras. Também cabe mencionar aqui que a RAE, por meio de seu departamento de linguística computacional, vem implementando ferramentas de análise linguística, que se espera estejam disponíveis on-line em um futuro próximo.

Outro exemplo relevante é o projeto PRESEEA (Proyecto para el estudio

sociolingüístico del español de España y de América), que tem como objetivo a

criação de um corpus de espanhol falado, representativo do mundo hispânico em sua variedade geográfica e social. O projeto PRESEEA reúne aproximadamente quarenta equipes de investigação sociolinguística em diversas partes do mundo. O material é recopilado atendendo à variedade sociolinguística das comunidades falantes do espanhol.

Entre os grupos de estudiosos, destacam-se o Grupo Val.Es.Co na Espanha, que trabalha com língua oral, registro coloquial e variedade conversacional; a equipe da Universidade de Santiago de Compostela, com a base de dados sintáticos do espanhol atual (www.bds.usc.es); e o grupo do Instituto de Linguística Aplicada da Universidade Pompeu Fabra (http://bwananet.iula.upf.edu).

Também existe uma série de bancos de dados e de recursos para o espanhol disponíveis gratuitamente na Internet, criados por iniciativas acadêmicas institucionais ou pessoais, como, por exemplo, o denominado

Corpus del Español, elaborado por Mark Davis, da Universidade de Brigham

Young, nos Estados Unidos. Esse corpus, com mais de cem milhões de palavras, foi patrocinado por NEH (National Endowment for the Humanities) durante os anos 2001 e 2002, e o sistema computacional que o mantém conta com uma diversidade de buscas que permite uma grande quantidade de indagações a partir de um corpus tão extenso.

Também merecem destaques os estudos desenvolvidos por Parodi (2007a e b, 2005, 2004), Sabaj (2004), Venegas (2005), González (2005), Silva (2006), Gutiérrez (2007) e Ferrari (2007).

Da mesma forma, não podemos deixar de citar o projeto Cumbre, financiado pela editora SGEL S.A., cujo objetivo foi a elaboração de um corpus de espanhol contemporâneo, de 20 milhões de palavras etiquetadas morfologicamente e utilizadas para distintos cálculos estatísticos, representativo do espanhol oral e escrito, de todos os países de fala hispânica. Foi utilizado para a elaboração da primeira gramática de espanhol baseada em corpus –Gramática práctica del español actual (SÁNCHEZ e SARMIENTO, 2005) –, assim como do primeiro livro didático de espanhol como língua estrangeira, que recebeu o mesmo nome: CUMBRE.

Atualmente, a Linguística de Corpus vai ganhando seu espaço dentro do mundo hispânico. Em 2008, a Associação Espanhola de Linguística de Corpus (AELINCO), foi criada por um grupo de professores universitários, na Universidade de Murcia.

Detalharemos, a seguir, alguns corpora existentes em língua espanhola (MONTERO MARTÍNEZ, 20-- 31-39):

CORPORA ESCRITOS

a) Corpus da língua espanhola para fins gerais

- Corpus de Referencia del Español Actual (CREA). Desenvolvido pelo Instituto de Lexicografia da Real Academia da Língua Espanhola, com textos literários, jornalísticos, científicos e técnicos, assim como transcrições de gravações da língua oral e de meios de comunicação correspondentes aos últimos anos.

- Corpus Diacrónico del Español (CORDE). Também desenvolvido pelo Instituto de Lexicografia da Real Academia da Língua Espanhola, com textos da língua espanhola desde sua origem até 1975.

- Archivo de textos hispánicos de la Universidad de Santiago (ARTHUS), com textos literários, jornalísticos e transcrições da língua oral de diferentes períodos da história da língua espanhola.

- CUMBRE, conjunto de dados linguísticos representativos do uso do espanhol contemporâneo, coletados pela editora SGEL S.A., e supervisionados por Aquilino Sánchez (Universidade de Murcia).

- Corpus de español de la República de Argentina e Corpus Chileno de

Referencia. Recolhem uma grande variedade de tipos de textos do espanhol

escrito na Argentina e Chile respectivamente.

b) Corpus da língua espanhola com fins específicos

- TANGORA. Coletado por IBM Espanha, sua finalidade foi a extração de dados estatísticos para o modelo de linguagem utilizado no projeto TANGORA.

- SISCOOR (Sistema de Consultas Coordenadas). Desenvolvido na Universidade Politécnica de Valencia, contém textos científicos e técnicos.

- CorVerifSDGEE (Corpus de Verificação do Sistema de Dicionários e Gramáticas Eletrônicos do Espanhol). É um corpus textual diretamente relacionado com o Sistema de Dicionários e Gramáticas Eletrônicos do Espanhol. Foi desenvolvido na Universidade Autônoma de Barcelona e está em constante ampliação.

- CRATER. Projeto europeu que consiste em textos da IUT (International

Telecommunications Union) em espanhol, francês e inglês. Este corpus está

disponível na Universidade Autônoma de Madri.

- A Universidade Pompeu Fabra está elaborando uma coleção especializada de textos técnicos multilígues com anotação estrutural.

- Atualmente estão em projeto dois corpora para o estudo de diferentes aspectos gramaticais da língua: Gramática Española-Corpus de contraste (Universidade de Salamanca) e Valencias verbales del español (Universidade de Múrcia).

- Com a mesma finalidade foi desenvolvido o AGLE (Archivo Gramatical

de la Lengua Española), que contém mais de 100.000 citações coletadas pelo

gramático espanhol Salvador Fernández Ramírez e editado pelo Instituto Cervantes.

- A editora Dicionários SM está coletando um conjunto de textos literários, jornalísticos, científicos e técnicos, assim como transcrições de meios de comunicação para uso em trabalhos lexicográficos.

- Bibliograf SA está desenvolvendo um corpus com fins predominantemente lexicográficos, que inclui uma ampla variedade de textos.

- LAN. Corpus de textos técnicos elaborado pela empresa Micro Focus SA, com o objetivo de validar ferramentas de etiquetagem de textos em espanhol nos projetos SPAL e DISUF, Diccionarios de la lengua española e MORFEOSP, Morfología estándar operativa de la lengua española.

- LEGEBIDUN (Software para verificação e composição simultânea de textos bilíngues). Com este corpus a Universidade de Deusto se propõe a reunir um grande número de textos administrativos e legais para formar um corpus bilíngue espanhol/vasco.

- Corpus de transcrição da língua oral para o estudo de La norma

lingüística culta de la lengua española hablada en Madrid, criado pelo Conselho

Superior de Investigações Científicas.

- Corpus 92, Lengua escrita por aspirantes a estudios universitarios, P.A.A.U. (Universidade Pompeu Fabra). Seu objetivo é caracterizar o texto acadêmico escrito por estudantes que realizaram o Ensino Fundamental II.

- Corpus contrastivo español/francés (Universidade de Sevilha), que permitirá a análise contrastiva e de erros em traduções do espanhol e francês.

- LEJES. Projeto desenvolvido conjuntamente nas universidades de Granada e Bonn para o estudo do léxico jurídico.

- Na área do estudo histórico do vocabulário espanhol estão sendo desenvolvidos dois projetos na Universidade Autônoma de Barcelona:

Informatización del Diccionario Crítico Etimológico Castellano e Hispánico de J. Coromina y J.A. Pascual e o Archivo Informatizado de Textos Jurídicos Medievales (AITJUM).

- Corpus de vocabulario del niño de 6 a 14 años (Diccionario de

frecuencias) da Universidade de Granada. Tem como finalidade determinar o

vocabulário usual das crianças dessa faixa etária.

- Representación de categorías semánticas en niños ciegos de

nacimiento de edad escolar (EGB), desenvolvido pela Universidade Nacional

de Educação a Distância (UNED).

d) Corpus de sublinguagem com fins gerais

- Corpus Textual del Español Periodístico, atualmente em desenvolvimento na Universidade Autônoma de Barcelona.

CORPORA ORAIS

- Corpus de Referencia del Español Contemporáneo (Universidade Autônoma de Madri).

- ADPA: Análise do discurso público atual.

- FAE-Esp Can: Fonética acústica e experimental do espanhol de Canárias.

- ILSE: Investigações histórico-linguísticas e das falas vivas do sudeste espanhol.

- VUA: Variedades urbanas andaluzas.

1.2. LINGUÍSTICA DE CORPUS E O ENSINO-APRENDIZAGEM DE