• Nenhum resultado encontrado

2 FUNDAMENTAÇÃO TEÓRICA

2.4 Linguística de Corpus e corpus: conceito e características

2.4.1 Marcos da Linguística de Corpus

Estudos com grandes corpora sempre existiram, entretanto, a configuração atual dos estudos linguísticos em LC muito se deve ao desenvolvimento das tecnologias e ferramentas computacionais.

O início dos trabalhos com corpora de grandes dimensões foi marcado pela utilização de corpora não computadorizados manipulados por meio de fichas, as quais eram criadas,

17

A elaboração e apresentação dos mapas conceituais são retomados 5.1.2 (Mapas semânticos relacionais). 18

O Lucidchart, neste trabalho, também foi usado na elaboração de outras estruturas (esquemas e ou organogramas).

63

organizadas e utilizadas de forma manual, dificultando a precisão dos dados devido a falhas provindas do controle humano. Esse processo também dificulta a replicação de todas as etapas de pesquisa.

Desde a década de 1960, com a invenção do computador, os centros de pesquisa priorizaram a utilização de corpora computadorizados. Alguns corpora manuais tiveram seus dados inseridos nessas máquinas. Atualmente, com a popularização da Internet (World Wide

Web) entre os pesquisadores, é muito comum a utilização de textos já disponibilizados ao

público, eletronicamente. Porém, nada impede que um pesquisador digitalize textos impressos e os transforme em corpus eletrônico.

Parodi (2010, p. 28) tam ém afirma q e “o reflorescimento dos est dos aseados em

corpus pode ser fixado no início da década de 1960, marcado, em parte, fortemente pelo

advento dos computadores [...] a partir da construção de grandes corpora linguísticos digitais [...]”.19 Dentre esses corpora, destaca-se o lançamento do primeiro corpus linguístico computadorizado, em 1964, o Brown University Standard Corpus of Present-day American

English, com um milhão de palavras, que alavancou os estudos em LC e permitiu que a

observação de padrões linguísticos, tanto em uma mesma língua quanto, comparativamente, entre duas ou várias línguas, passasse a ser vista como uma importante fonte de informação para professores, tradutores, lexicógrafos e outros profissionais.

No final dos anos 1950, com o lançamento da obra Syntactic Structures, de Noam Chomsky, a linguística gerativa e as teorias racionalistas da linguagem tomaram lugar central nos estudos da linguagem. Essas teorias se fortaleceram em detrimento dos estudos empíricos relacionados aos corpora desenvolvidos até então. Uma mudança como esta promoveu e estimulou as críticas ao processo manual de criação e desenvolvimento de corpora gigantescos. Estudiosos alegavam, principalmente, que o ser humano não era capaz de controlar, de forma confiável, quantidades de dados de dimensões gigantescas.

Já na década de 1960, com a invenção do computador, referida anteriormente, os

corpora passaram a ser controlados eletronicamente em centros de pesquisas e/ou

universidades, o que contribuiu para a retomada dos estudos com mais eficiência e credibilidade. E as mudanças foram além. Com o progresso da ciência nos anos 1980, os computadores se estenderam aos lares, o que possibilitou a popularização de ferramentas de

19“El (re)florescimiento de los estudios basados em corpus se puede fijar a comienzos de la década del sessenta, marcado – em parte – por la fuerte irrupción de los computadores [...] a partir de la construcción de grandes corpus lingüísticos [...].”

64

processamento e compilação de corpora, fortalecendo assim as pesquisas linguísticas relacionadas a esse contexto.

Cresce também, o desenvolvimento de centros de pesquisa financiados por empresas de telecomunicações e fabricantes de produtos de informática. Essas empresas se utilizam de pesquisas baseadas em corpus para fins comerciais como: “processamento a tomático de textos, informatização de grandes bases de dados e a montagem de sistemas inteligentes de reconhecimento de voz e erenciamento de informação” (BERBER SARDINHA, , p. 6).

Em res mo, as pesq isas em LC priorizam a “pro a ilidade de ocorrência de determinada forma, enquanto Chomsky (1974) interessa-se apenas pela possibilidade de ocorrência” ( AGNIN, , p. ). Nesse sentido, a LC volta a atenção para as manifestações naturais de linguagem, tanto na sua forma oral quanto na sua forma escrita representados por meio de grandes corpora. Ou seja, os corpora oferecem aquilo que será objeto de estudo.

De acordo com Leech (1992), a expressão corpus linguistics aparece pela primeira vez em um livro publicado por Aarts e Meijs em 1984, década em que, segundo Svartvik (1992, p. 12), a LC atin i a maioridade “tornando-se um campo de grande importância científica e de grande relevância para a sociedade”.20

No Brasil, é possível traçar um histórico da pesquisa em LC por meio dos eventos científicos realizados desde 1999 e o marco considerado de razoável relevância foi a publicação do trabalho Linguística de Corpus, de Berber Sardinha (2004). Além disso, desde o final do século XX, é cada vez maior o número de pesquisadores nessa área, o que denota “crescimento q alitativo e q antitativo das pesq isas realizadas [...], bem como a existência de corpora e ferramentas para pesq isa em várias lín as” (BERBER SARDINHA; ALMEIDA, 2008, p. 17).

Assim, em vista de meio século de desenvolvimento mundial e, no Brasil há mais de uma década, já podemos afirmar q e a LC se consolido “como ma avent ra mais do q e adequada, haja vista a relevância e diversidade das pesquisas desenvolvidas e publicações feitas no país” (NOVODVORSKI; FINATTO, 2014, p. 15).

Nessa conjuntura, a LC não se refere a um domínio de estudos, mas a uma abordagem metodológica de pesquisa linguística, pois faz uso de traços característicos, segundo Leech (1992), comparados às outras abordagens em linguística, a saber: i) foco no desempenho linguístico, ao invés da competência; ii) foco na descrição linguística, ao invés dos universais

65

linguísticos; iii) foco tanto na quantidade quanto nos modelos qualitativos de linguagem; e iv) foco na pesquisa empírica, ao invés de uma visão mais racionalista de pesquisa científica. Cada um dos traços apontados anteriormente ilustra um contraste entre o paradigma da LC e o paradigma chomskiano que dominava o pensamento desde 1950.

De acordo com Viana (2011, p. 34), a LC é ma “forma de investi ação empírica da linguagem a partir da exploração sistemática de um corpus”. O seja, por meio da LC, a linguagem é observada cientificamente em seu contexto de uso, por meio da construção de um

corpus que demonstre as aplicações da linguagem em situações distintas, por usuários

também distintos. Viana (2011, p. 26) esclarece que, por meio da LC, desenvolve-se “investigação da linguagem a partir da compreensão do funcionamento de uma língua [e afirma ainda que] o estudo do funcionamento das línguas se dá através do uso de dados de uma determinada língua por seus usuários”. Com a LC, torna-se plausível o trabalho com a “linguagem em contexto real”, havendo a oportunidade de se observar como a língua é aplicada em várias situações e propósitos distintos.

Além de os corpora terem um importante papel em grandes projetos lexicográficos orientados por uma metodologia empírica, considera-se que a palavra seja a principal unidade de análise dos estudos realizados em LC, dada a facilidade de sua identificação pelas ferramentas computacionais (VIANA, 2011). Em projetos envolvendo o léxico, a palavra é praticamente a porta de entrada para a análise de corpus, ou, como afirma Calzolari (1996, p. ), “todas as aplicações de engenharia da linguagem requerem conhecimento sobre as palavras”.21 Não é sem razão, pois, que pesquisas situadas no âmbito do léxico tenham no

corpus seu maior aliado. O que mudou dos projetos lexicográficos fundadores para os atuais é

a concepção de corpus.

Esse formato eletrônico, promovido pelo advento do computador, interferiu diretamente não só na concepção que se tem de corpus como também na sua forma de armazenamento e exploração, já que os recursos oferecidos pela máquina permitiram que grandes quantidades de textos pudessem ser processadas em questão de segundos, fazendo com que muitas hipóteses sobre determinados fenômenos linguísticos pudessem ser testadas rápida e eficientemente.

A moderna noção de corpus também carrega consigo requisitos que devem ser fortemente considerados num projeto de elaboração de corpus. São eles: “representatividade, balanceamento, diversidade e tamanho” (ALMEIDA; ALUÍSIO, 2006, p. 158). Dentre todos

66

esses requisitos, a representatividade é crucial, haja vista que um corpus representativo tende a ser bem balanceado, ter boa diversidade e tamanho adequado aos objetivos da pesquisa.

Viana (2008, p. 31) apresenta uma descrição de características de corpora em geral apresentada a seguir. Os corpora devem i) ser compreendidos como um conjunto de textos; ii) contemplar textos (orais ou escritos) que tenham sido efetivamente produzidos por falantes de determinada língua; iii) consistir numa forma de representar empiricamente o uso que se faz de uma língua em sentido geral ou específico; iv) reproduzir a produção linguística de toda a população que se quer investigar ou uma amostra representativa dessa população, com base em princípios claros e bem definidos; v) assumir forma eletrônica com vistas a serem investigados pelo computador; e vi) ser concebidos com o objetivo de possibilitar a realização de uma pesquisa linguística.

Assim sendo, os corpora devem, necessariamente, ter formato eletrônico e ser trabalhados considerando aspectos linguísticos. Outro ponto relevante com relação aos

corpora é que não há regras consistentes para determinar o tamanho ideal de um corpus. A

decisão de tamanho deve ser baseada em fatores como necessidades do projeto, disponibilidade de dados e tempo disponível para o desenvolvimento da pesquisa. Segundo Bowker e Pearson (2002, p. 45), “não se suponha que maior é sempre melhor22”, pois é possível haver mais informações úteis em um corpus pequeno e melhor planejado, do que em outro corpus maior, sem personalização, para atender às necessidades da pesquisa. Os autores afirmam que antes de uma preocupação com tamanho ou quantidade, deve-se buscar a verificação de qualidade do corpus em termos de organização, planejamento e do que se quer investigar.

Sabendo-se exatamente o que se pretende com determinada investigação, torna-se mais objetiva a elaboração de um corpus, e o seu propósito, mais bem delimitado. A compilação de textos sem um propósito claro e focado pode gerar dados que vão oferecer informações quantitativas de pouco valor científico e informativo. A adequação do conteúdo de um corpus deve prevalecer sobre questões acerca de seu tamanho. Assim, garante-se que os dados sejam representativos de uso da linguagem que se deseja investigar, ponto fundamental para a pesquisa e aplicação de corpora (VIANA, 2011).

Considerando-se ainda a questão acerca do tamanho de um corpus, Berber Sardinha, por meio da observação durante quatro anos de conferências de linguística de corpus, elaborou uma classificação para os tamanhos de corpora assim apresentada:

67

Tabela 1 Classificação do corpus segundo o tamanho em palavras Tamanho em palavras Classificação

Menos de 80 mil Pequeno

80 a 250 mil Pequeno-médio

250 mil a 1 milhão Médio

1 milhão a 10 milhões Médio-grande 10 milhões ou mais Grande

Fonte: Berber Sardinha (2004, p. 26)

Esclarecemos que, em publicações posteriores, até o momento da elaboração deste texto, o autor não apresenta atualização desses dados.

Nesse contexto, há que se especificar o que se entende por corpus. O corpus é o elemento essencial para a efetivação dos estudos e análises em LC. Um corpus de estudo pode ser constituído por textos de origem impressa (jornais, revistas, folhetos, livros, cartas) ou eletrônica (notícias publicadas na Internet, conteúdo de blogs, e-mails, jornais e revistas eletrônicas).

Para Sergio e Falbo (2012), a elaboração de um corpus depende do objetivo da pesquisa. Além disso, a importância das descobertas feitas em um corpus, quer sejam qualitativas ou quantitativas, depende dos dados selecionados para a exploração das questões de pesquisa (MCENERY; HARDIE, 2012). E ainda, a LC é “ ma área c jo foco está no estabelecimento de procedimentos, ou métodos, para o estudo linguístico”23 (MCENERY; HARDIE, 2012, p. 1); é uma metodologia que analisa um conjunto de textos que devem ser digitalizados, favorecendo a pesquisa de grandes quantidades de dados em um curto espaço de tempo se comparada a uma análise manual. Essa coleção de textos digitalizados, sejam eles escritos ou representações ortográficas da língua falada, é o que denominam como corpus.

Além disso, a pesquisa em LC pode ser classificada seguindo diversos critérios precisos. Para McEnery e Hardie (2012), os critérios que melhor representam a distinção entre diversos tipos de estudos em LC são: i) o modo pelo qual a comunicação é realizada (oral ou escrito); ii) abordagem de estudo baseada em corpus versus abordagem dirigida pelo corpus; iii) forma de coleta de dados; iv) uso de corpora anotados versus não anotados; v) quantitativo versus qualitativo; e vi) corpora multilíngues versus monolíngues. Por meio da análise desses critérios, é possível traçar ao menos os princípios iniciais de uma tipologia de pesquisa em LC.

68

Assim em LC, além da observação de critérios para a definição da tipologia, a organização de um corpus eletrônico é o primeiro passo para a análise de um determinado conteúdo por meio da utilização de ferramentas computacionais atuais.