• Nenhum resultado encontrado

O corpus utilizado constitui-se de textos produzidos na modalidade escrita das variedades do Português Brasileiro e do Português Europeu. As amostras contempladas nesse corpus são provenientes do Corpus do Português,48 de Davies e Ferreira (2006). A escolha desse banco de dados se explica não somente pela facilidade de acesso ao material, mas principalmente por sua constituição.

O Corpus do Português é um vasto banco de dados nas duas modalidades, oral e escrita. Além da busca dos dados, o corpus permite realizar a comparação de frequência e de distribuição de palavras, frases e construções gramaticais entre os séculos, entre as variedades do português (PB e PE) e entre os registros (oral, ficção, jornalístico e acadêmico). Ao todo são 45 milhões de palavras, contudo, nesta tese, somente serão considerados os dados que compreendem textos da modalidade escrita.

47 Na nossa pesquisa utilizaremos três termos “corpus”, “amostra” e “banco de dados”. Entendemos que

“corpus” é o conjunto de amostras utilizadas na pesquisa, “amostra” corresponde a um conjunto de textos para cada período ou variedade e “banco de dados” são as fontes de onde coletamos as amostras.

48 Lehmann (2008) faz críticas a esse corpus: “Alguns textos estão contidos no corpus mais de uma vez; há

discrepâncias, quanto ao tamanho dos subcorpora de cada século, entre os números indicados em páginas diferentes; muitas palavras corridas estão categorizadas erroneamente; há erros na reprodução da ortografia. Contudo, este corpus eletrônico é um primeiro passo valioso e útil para pesquisas históricas. A consciência das suas várias insuficiências não nos impedirá de nos servirmos dele como representativo da história da língua portuguesa.” Concordamos com as críticas feitas pelo autor e acreditamos que as suas limitações não comprometerão a realização desta pesquisa.

Davies e Ferreira (2006) informam que, nos séculos XIV, XVII e XX, períodos que nos interessam para a realização da nossa pesquisa, encontram-se 23.322.845 milhões de palavras em português. A tabela a seguir apresenta a distribuição do número de palavras por século, levando-se em conta a variedade nacional do português.

Tabela 1 - Distribuição da quantidade de palavras no Corpus do Português nos séculos XIV, XVII e XX

NUMERO DE

PALAVRAS SÉCULO PAÍS

INSTÂNCIA DISCURSIVA 1,316,268 XIV Portugal Acadêmico, Jornalístico e Literário

3,407,741 XVII Portugal / Brasil Jornalístico e Acadêmico, Literário 3,087,052 XX Portugal Acadêmico Jornalístico Literário 3,271,328 XX Portugal 3,048,020 XX Portugal 2,816,802 XX Brasil Acadêmico Jornalístico Literário 3,346,988 XX Brasil 3,028,646 XX Brasil

Fonte: Mark Davies e Ferreira (2006).

O Corpus do Português disponibiliza uma ferramenta de busca própria. Para que a busca se efetive, é preciso escrever a palavra em sua forma não-finita entre colchetes, por exemplo [tomar], assim todas as formas desse verbo são identificadas pelo sistema e apresentadas na tela principal. A busca pode ser ainda mais específica, à medida que selecionamos aspectos relevantes para a pesquisa, como século, variedade nacional do português e tipo de registro.

Os corpora selecionados para análise são constituídos pelas seguintes instâncias discursivas: acadêmico, jornalístico e literário49. Estas são de uso frequente na sociedade das

49

Acadêmico, jornalístico e literário são instâncias discursivas que abrangem diferentes gêneros. Essa classificação está ancorada em Adam (1992) e Bakhtin (1992). Adam (1992) apresenta as formações discursivas (domínios discursivos) religiosa, jornalísticas, política, literária ou cotidiana nas quais se produzem os gêneros do discurso. O domínio discursivo, na visão bakhtiniana, constitui uma esfera da atividade humana, pois indica instâncias discursivas, tais como: discurso jurídico, discurso jornalístico, discurso religioso, etc. Constituem o

diferentes épocas – em Portugal e no Brasil, nos séculos XIV, XVII e XX. A diversidade dos gêneros possibilitou a análise das ocorrências de tomar em diferentes contextos. Os textos selecionados serão caracterizados e identificados de acordo com as seguintes siglas: acadêmicos (ACA), jornalísticos (JOR) e literários (LIT).

Não analisaremos a influência que o gênero textual exerce no uso do verbo. Essa questão merece maior atenção e um estudo mais aprofundado para que se possa chegar a outras conclusões que não as apresentadas neste estudo, bem como os usos mais comuns em cada gênero. Nosso propósito ao utilizar textos dessas três instâncias é diversificar o corpus, aumentando a probabilidade de flagar os diferentes usos do verbo tomar.

Uma vez coletadas as ocorrências do verbo tomar, submetemos os dados a um tratamento qualitativo, que se fundamenta na observação/investigação de alguns parâmetros para o estudo da multifuncionalidade desse verbo, e também quantitativo, no que se refere a alguns aspectos, como aos tipos de usos de tomar e as características sintáticas e semânticas em cada contexto. Para o tratamento qualitativo, verificamos a multifuncionalidade do verbo em questão, os contextos em que ele está mais gramaticalizado e as propriedades que permitem estabelecer um continuum entre os usos funcionais de tomar. Para o tratamento quantitativo, utilizamos o programa SPSS (Statistical Program for Social Science), que, adaptado às nossas necessidades, foi essencial para se trabalhar com estatística e análise de dados. Com esse programa, foi possível fazer vários testes e análises, bem como apresentar os resultados em forma de gráficos.

Optamos, no presente estudo, pela periodização proposta por Mattos e Silva (1989). Os três períodos ficaram assim delimitados: (a) período arcaico: representado pelo intervalo de tempo que vai do século XIV ao século XVI; (b) período moderno: intervalo de tempo que compreende os séculos XVII e XVIII; e (c) período contemporâneo: representado pelos séculos XX e XXI.50

É comum os linguistas afirmarem que a delimitação desse período relaciona-se com diversos fatores linguísticos e extralinguísticos. Essa periodização é uma tentativa de

domínio discursivo práticas discursivas nas quais podemos identificar um conjunto de gêneros textuais próprios de sua rotina comunicativa. Para se ter uma melhor visão de conjunto e sem esgotar a diversidade e a heterogeneidade dos gêneros existentes, Costa (2009) organiza os tipos de gêneros: jornalístico (notícia, reportagem, editorial, crônica, tirinha, breves∕curtas, artigo jornalístico, carta de leitor, entrevista, debate, manchete, etc,; acadêmico (dissertação, tese, ensaio, resumo, resenha, artigo científico, paper, sumário, hand- out, abstrato, palestra, conferência, etc); literário (conto, romance, novela, poema, tragédia, comédia, folhetim, dedicatória, crônica, diário, fábula, epopéia, lenda, biografia autobiografia, etc). Nesta tese, preferimos utilizar o termo “instância discursiva”.

marcar, para fins didáticos, o início de um período, e, quando se marca o início de um período, o anterior não se encerra de imediato. Acreditamos que eles coexistam até que as ocorrências diminuam e sejam superadas pelas do período atual. Levando-se em conta essas evidências, a proposta de periodização de Mattos e Silva (1989) mostra-se mais pertinente por manter uma distância temporal de cento e cinquenta anos para cada período. Nesse intervalo de tempo, pode-se aumentar as chances de se flagrar uma mudança linguística. Esse cuidado metodológico não garante que a mudança se efetive neste intervalo, no entanto, acreditamos que, quanto maior for a distância diacrônica percorrida, maiores são as chances de se identificar um processo de gramaticalização.

Para Ilari e Basso (2009), os textos do período arcaico são considerados de difícil leitura devido a três fatores: surgimento da escrita, diferenças de ordem linguística e diferenças de ordem cultural. Podemos inferir a dificuldade de normatizar a escrita naquele período pelo fato de que a ortografia não estava totalmente fixada. Mas, a partir do século XVI, a Língua Portuguesa se uniformiza e adquire as características do Português atual, e isso se deve a algumas modificações ocorridas no léxico e na sintaxe.

Observe abaixo o quadro que exibe a distribuição dos dados segundo cada período selecionado:

Quadro 7 - Distribuição dos dados obtidos no corpus do português

Discurso (formação discursiva∕instância

discursiva)

Sincronia Modalidade escrita

Acadêmico Jornalístico Literário XIV Portugal XVII Portugal/Brasil XX Portugal/Brasil

Fonte: Mark Davies e Ferreira (2006)

Para observar o continuum do processo de gramaticalização, fizemos uma análise pancrônica com os dados dos séculos XIV, XVII e XX. Temos como objetivo investigar se, já na fase arcaica da Língua Portuguesa, essas construções eram frequentes e se apresentavam características semelhantes àquelas identificadas em textos do português contemporâneo, tais como qualificação do nome predicativo, detransitivação do verbo e uma matriz aspectual do evento. A Língua Portuguesa na fase arcaica, representada pela documentação escrita, apresenta algumas características que fundamentam a oposição entre o Português arcaico e o

atual, como: a ordem dos constituintes (inversão entre verbo-suporte e o sintagma nominal que o complementa) e diferenças no inventário dos verbos.

Outro fator considerado nesta pesquisa é o papel da frequência51. De acordo com Bybee (2003), a maior frequência de um item faz com que seu uso se torne automático na língua; ou seja, o número de contextos em que ocorre aumenta, fazendo com que sua força semântica seja reduzida e seu significado seja mais geral e abstrato, colaborando com o processo de gramaticalização.

O corpus da língua escrita, considerado nesta pesquisa, foi constituído de, mais ou menos 38 mil palavras por período, perfazendo um total de 114.246 palavras. Tivemos o cuidado de equilibrar o tamanho entre os corpora representativos de cada um dos três períodos para minimizar a possibilidade de equívoco com relação à produtividade de itens em determinado período.

O quadro a seguir apresenta a caracterização pormenorizada dos textos selecionados para o estudo. Na coluna 1, temos o total de palavras distribuído entre os três períodos referentes à amostra da nossa pesquisa. Em seguida, apresentamos a variedade nacional, o título do texto, o número de palavras em cada texto, o período e o autor.

51 Para os propósitos desta tese, quantitativamente, o que a frequência tem a dizer é sobre as preferências do

falante no uso. Constitui, assim, uma ferramenta para a discussão sobre o fenômeno estudado, e, embora possa não ser algo determinante, não deve ser descartada.

Quadro 8 - Constituição e delimitação do corpus

PERÍODO ARCAICO

Total: 38.688 palavras Português Europeu

Título do texto

Número de

palavras Período Autor Crônica Geral da

Espanha de 134452 38.68853 1344 Pedro Afonso

PERÍODO MODERNO54 Total: 37.026 palavras Português Europeu Título do texto 18.741 Período Autor Anais de D. João

III55 1631 Frei Luis de Sousa

Cartas 18.285 1626-1692 Padre Antônio Vieira

PERÍODO CONTEMPORÂNEO Total: 38.532 palavras Português Europeu Título do texto 6.167 Período Autor Jornal 1993 Diversos Trânsito 10.734 1997 Botelho Português Brasileiro Judaísmo 6.631 1960 - Folha de São Paulo 10.000 1994 Diversos Corpo Vivo 2.500 1962 Adonias Aguiar Cartilha do

Silêncio 2.500 1997 Francisco J. C. Dantas Fonte: Mark Davies e Ferreira (2006)