• Nenhum resultado encontrado

03 Seleção e construção dos corpora e metodologia de análise

3.2. A seleção dos corpora

3.2.2. O corpus jornalístico

Para investigar a sintaxe nominal, através do estudo dos artigos definidos, lançamos mão, além dos textos anotados do Corpus Tycho Brahe, de artigos jornalísticos analisados em Macedo-Costa (2012). Tais periódicos circularam na cidade de Salvador (BA) 55 e foram

organizados em três períodos, de acordo com a sua data de publicação:

- 1ª Fase (1833-1850): Diário da Bahia, Novo Diário da Bahia, O Ateneu; - 2ª Fase (1898-1900): Correio de Notícias e Jornal de Notícias;

- 3ª Fase (1945-1948): Diário da Bahia e Diário de Notícias.

No total, esse corpus é constituído por aproximadamente 70.000 palavras por período, o que corresponde a aproximadamente 210.000 palavras. Para o trabalho com esses

54 GALVES, C. et al. (manuscrito) A Língua Portuguesa no Tempo e no Espaço: contato linguístico, gramáticas

em competição e mudança paramétrica. Projeto temático financiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), processo n° 12/06078-9.

55 Apesar de terem sido publicados na cidade de Salvador - BA, o jornal da terceira fase, Diário de Notícias, por

pertencer à cadeia Diários Associados no período em que foi coletado, publicava artigos que também apareciam em outros periódicos do território nacional.

periódicos, foi adotada a metodologia de Gravina (2008)56, que também investigou periódicos publicados no Brasil, mais especificamente, jornais que circularam na cidade de Ouro Preto (MG), nesse mesmo período histórico. Em sua pesquisa, Gravina (2008) selecionou apenas os artigos jornalísticos assinados, com vistas a manter a uniformidade de gênero textual dentro de um suporte tão diversificado como o jornal. Além disso, os textos precisavam ser assinados para que se pudesse recuperar informações sobre a nacionalidade dos redatores, ou seja, avaliar se eram, de fato, brasileiros.

A decisão de incluir essa fonte de pesquisa formada por artigos jornalísticos assinados se deu, basicamente, com vistas a ampliar os textos relativos ao português brasileiro sob análise. Esses textos são representativos de uma norma culta, visto que o acesso ao jornal no século XIX era restrito. Apesar disso, tal como pode-se notar pela discussão acima, o uso desse conjunto de textos jornalísticos57, formado exclusivamente por artigos assinados, não visou à comparação entre textos orais e escritos, normas coloquiais e cultas. O objetivo foi tão somente o acesso a textos que fossem escritos por brasileiros e que, portanto, fossem representativos da variedade brasileira do português.

Assim, a partir dessas escolhas metodológicas concernentes à seleção dessa fonte de pesquisa, os artigos dos periódicos publicados no estado da Bahia58, transcritos para o desenvolvimento da dissertação de mestrado de Macedo-Costa (2012), foram modernizados, através da ferramenta eDictor, “um processador especialmente voltado para a edição filológica e a codificação linguística eletrônicas” (cf. PAIXÃO DE SOUSA, 2014), desenvolvido para o Corpus Tycho Brahe. O eDictor permite que textos com finalidade de estudo linguístico sejam transcritos, editados e codificados em linguagem XML de forma confiável, uma vez que o programa não executa alterações automáticas sem um comando específico para tal. O programa,

56 A mesma metodologia foi adotada em uma pesquisa posterior desenvolvida por essa autora (cf. Gravina (2014))

sobre a ordem VS na diacronia, que – além de analisar dados provenientes dos artigos dos jornais mineiros – também contou com artigos publicados em jornais portugueses.

57 O uso de textos formais, como os textos jornalísticos, se fundamenta na hipótese de que se houve mudança na

gramática de uma dada língua, os dados – independentemente do seu grau de formalidade – devem, pelo menos, fornecer pistas dessa mudança. Assim, esperamos que os textos jornalísticos analisados apresentem resultados semelhantes àqueles encontrados pelas pesquisas baseadas em outras fontes de dados. Para maiores informações históricas sobre os periódicos e sobre os autores dos artigos analisados, remeto o leitor a Macedo-Costa (2012).

58 Os jornais que constituem a 1ª fase foram coletados a partir dos microfilmes disponíveis no Arquivo Público da

Bahia (APB), em Salvador (BA), e no Arquivo Edgard Leuenroth (AEL) do Instituto de Filosofia e Ciências

Humanas (IFCH) da Universidade Estadual de Campinas (UNICAMP), que contém um grande acervo de documentos e periódicos de várias regiões do Brasil. Já os jornais que constituem as 2ª e 3ª fases foram fotografados a partir dos originais disponíveis no setor de revistas e jornais raros da Biblioteca Pública do Estado

em sua versão atual, possui uma tela com três abas: a da transcrição (cf. fig. 02), a da edição (cf. fig. 03) e a da anotação morfológica (cf. fig. 04).

Figura 02 – Interface de transcrição do EDictor.

O processo de transcrição é realizado a partir do fac-símile do texto original e, nessa etapa, não são realizadas quaisquer modificações nos textos. A partir da transcrição, realizada em formato XML, o texto pode ser disponibilizado na rede mundial de computadores e submetido às etapas posteriores (edição, anotação morfológica e sintática).

Figura 03 – Interface de edição do EDictor.

No processo de edição, são realizadas alterações sem que se perca nenhuma informação sobre a forma original, já que a linguagem XML permite guardar todas as etapas de

preparação dos textos. Nessa tela, podemos executar ações como junção e segmentação de palavras, alterar a grafia (maiúsculas e minúsculas), expandir abreviaturas, corrigir erros constantes nos originais dos textos que são claramente decorrentes de problemas de impressão, inserir comentários referentes à pontuação e corrigir apenas símbolos que não possuem correspondência no sistema atual, marcar um item como ilegível, modernizar o texto a partir do acordo ortográfico de 1990, padronizar palavras que possuem formas variantes no corpus e, por fim, marcar flexão (inadequações de concordância)59.

De todas essas possibilidades de edição, no momento de exportar o texto para o parser que realiza a anotação sintática automática, somente as alterações referentes à flexão não são consideradas, visto que se perderiam informações importantes sobre a morfossintaxe do período estudado a partir de um dado texto. Todas as demais edições não interferem em questões morfossintáticas.

Figura 04 – Interface de anotação morfológica do EDictor.

A anotação morfológica é gerada automaticamente pelo eDictor e, a partir dela, todas as palavras recebem uma etiqueta que deve corresponder à sua classe gramatical. No entanto, como o programa ainda gera alguns erros nessa tarefa, é realizada uma correção dessa

59 Todo esse processo segue as orientações disponíveis nos seguintes manuais: Manual de Preparação dos Textos

(http://www.tycho.iel.unicamp.br/~tycho/corpus/manual/prep/manual_frameset.html) e Manual de edição (http://wiki.tycho.iel.unicamp.br/w/index.php/Manual_de_edi%C3%A7%C3%A3o).

etiquetagem, de acordo com o manual de etiquetas do corpus, disponível em

http://www.tycho.iel.unicamp.br/~tycho/corpus/manual/tags.html.

Após passar por todos esses passos de preparação, os textos são enviados para um parser, que realiza toda a anotação sintática automática. Após essa etapa, também é realizada uma correção da anotação automática para que eventuais erros possam ser corrigidos (cf.

manual de anotação sintática, disponível em

http://www.tycho.iel.unicamp.br/~tycho/corpus/manual/syn-frm.html).

Em relação aos textos jornalísticos, é importante salientar que foram seguidas todas as etapas de preparação adotadas pelo Corpus Tycho Brahe, o que possibilitou, inclusive, a inclusão desse material no referido corpus. Ademais, como houve a unificação do método de preparação dos corpora, todos os contextos investigados nessa pesquisa puderam ser recuperados através da realização de buscas automáticas, por meio de um programa de busca baseado na linguagem de Corpus Search60, o que garantiu, além da rapidez na coleta dos dados, uma maior confiabilidade quanto aos resultados encontrados.

Em linhas gerais, o Corpus Search é um programa Java que oferece suporte para pesquisas com corpus linguístico. Pode ser utilizado tanto para a construção de corpora sintaticamente anotado como para o desenvolvimento de buscas no interior dos textos. Ao rodar o Corpus Search em um corpus anotado, pode-se (i) encontrar e contar configurações sintáticas e lexicais de qualquer complexidade, (ii) corrigir erros sistemáticos e (iii) codificar os traços linguísticos das sentenças do corpus para uma posterior análise estatística.

O uso desse tipo de ferramenta oferece, portanto, uma vantagem significativa para os estudos linguísticos, visto que – a partir da linguagem de busca empregada – obtém-se a confiabilidade na recuperação de todos os dados que satisfazem os critérios estabelecidos pelo pesquisador. Além disso, é possível recuperar itens específicos em contextos particulares, refinando ainda mais os resultados encontrados, conforme veremos na próxima seção.

60 O Corpus Search foi desenvolvido por Beth Randall, em parceria com Ann Taylor e Anthony Kroch, a partir de

um projeto coordenado por A. Kroch, na Universidade da Pensilvânia, e tinha como objetivo criar um corpus anotado do inglês histórico (cf. RANDALL, B.; TAYLOR, A. & KROCH, A. (2009) -

http://corpussearch.sourceforge.net/). Atualmente, é utilizado também para a formação de corpora de outras línguas, como o português histórico, através do Corpus Tycho Brahe.