• Nenhum resultado encontrado

2 RESENHA DA LITERATURA

2.3 LINGUÍSTICA DE CÓRPUS E EXPRESSÕES MULTIPALAVRA Nesta seção, pretende-se abordar a Linguística de Córpus

2.3.6 Tipos de córpus e representatividade de um córpus

A título de ilustração e contribuição quanto ao levantamento teórico para fundamentação de um estudo de córpus, verificou-se a relevância de se conhecer as principais classificações de córpus citados na literatura, conforme tipologia apontada por Sardinha (2004, p.20-21) acerca da qual montou-se uma tabela demonstrativa a seguir:

Tipo Subdivisões Modo falado escrito Tempo sincrônico diacrônico contemporâneo histórico

Seleção de amostragem monitor dinâmico ou orgânico estático Conteúdo especializado regional ou dialetal multilíngue Autoria de aprendiz de língua nativa Disposição Interna paralelo

alinhado Finalidade de estudo

de referência

de treinamento ou tese

A partir dessa classificação, o autor aponta algumas questões pertinentes ao pesquisador, cujas respostas o levariam a construir um córpus adequado ao que esse pretende pesquisar, a saber:

a) se os textos foram produzidos por um autor apenas ou mais, por falantes nativos ou não nativos;

b) se são escritos ou falados;

c) se são integrais ou em fragmentos;

d) se o córpus é composto de tipos variados de texto ou textos específicos;

e) se as variedades presentes no córpus são do tipo padrão ou regionais/dialetais;

f) se são distribuídas equitativamente ou não;

g) se é permitida a inclusão de conteúdos novos ou não;

h) se o conteúdo do córpus reflete um período definitivo de tempo ou se renova;

i) se o córpus é planejado para retratar períodos históricos de tempo ou não;

j) se possui só textos originais ou também as traduções desses textos para uma ou mais línguas;

k) se as traduções dos textos são incorporadas a cada linha do texto original ou são apresentadas em textos separados.

Concernente a essa perspectiva e no tocante à pesquisa das EM em questão, os textos são escritos por mais de um autor e coletados na sua íntegra, sendo eles de tipos variados, mas na modalidade padrão de ambas as línguas investigadas.

Procurou-se distribuir os textos equitativamente quanto à quantidade de textos no córpus, dentro do tempo estipulado para a realização da pesquisa durante o doutorado. Todos são textos atuais, e foram utilizados os originais e suas traduções.

Outro aspecto ressaltado por Berber Sardinha (2004, p. 22), enfoque este também relevante para esta pesquisa, é quanto à representatividade de um córpus em sua língua, seja do idioma ou de uma variedade desa língua.

Assim, Leech (1992, p. 120) aponta os estudos de Biber (1991), para dizer que o córpus possui uma função representativa, sendo a extensão sua principal característica, pois “in córpus design, representativeness of the language is achieved by cyclic progression, based on empirically testing the adequacy of previously designed corpora.” (p.33)

Nesse sentido, Leech (1999) e Sinclair (1995) acrescentam que para se ter um córpus representativo é necessário conhecer a população de onde ele provém, estando isso ligado à probabilidade de se estabelecer relações entre traços mais ou menos comuns em determinado contexto.

Em outras palavras, para Berber Sardinha (2004),

[…] o conhecimento da probabilidade de ocorrência de traços lexicais, estruturais, pragmáticos e discursivos está no cerne da Linguística de Córpus e, portanto, o conhecimento acerca da probabilidade de ocorrência da maioria dos traços linguísticos em vários contextos ainda está sendo adquirido. (p. 22)

Rocha (2007, p. 20) também aponta algumas características que um córpus deve ter para ser constituído como tal, a saber:

a) amostra e representatividade; b) tamanho finito;

Para este autor (2007), a “[…] representativeness determines which generalisations regarding features of a given population are trustworthy, often expressed in terms of populations to which generalisations apply.” (p. 21)

Assim, de acordo com Rocha (2007)

Biber et al (1998) discuss the notion of a balanced córpus, attempting to specify what should be included in it. The author explains that typical sampling techniques used in statistical studies are only useful to linguistics to a limited extent. Thus, a proportional sample of a language, as registered through a group of language users in their daily activities, would result in a rather homogeneous córpus, in which conversation would dominate, along with a limited variety of additional text genres, such as TV programs, some journalistic reporting and billboard texts. Moreover, textual features of these dominant conversations would be mostly quite similar, if contrasted to other text genres. [...] On the other hand, excluding these texts would seriously jeopardize representativeness, if the importance of these text genres in society is taken into account. (p. 21–22)

Com relação ao apresentado nesta subseção, acredita-se que o córpus selecionado para esta investigação se adequa bem à questão da representatividade. Não só pela diversidade de gêneros textuais – institucionais, notícias, técnicos, contos e crônicas – como por coletá-los em quantidade equilibrada, córpus estes obtido, após a computação dos dados, a partir de um resultado equitativo, posteriormente, analisado quanto à pesquisa das EM.

2.4 WORDSMITH

Como o programa utilizado para computar os dados do córpus foi o WordSmith Tools 6.0 (doravante WS), acredita-se ser pertinente trazer uma subseção específica sobre seu uso e relevância para o método descritivo da LC na presente investigação.

Importante acrescentar que a escolha se deu por entender que este programa poderia rodar uma quantidade de dados razoável para análise

final das EM, bem como ser posteriormente utilizada por esta doutoranda quando de seu retorno à sala de aula como professora no curso de Letras e outros afins de sua universidade de origem, a versão gratuita 3.0 do WS, no sentido que familiarização dos granduandos com as ferrametas deste programa em projetos a serem desenvolvidos naquela IES.