• Nenhum resultado encontrado

Expressão explícita de persuasão versus não-explícita 74

O polo negativo desta dimensão não tem traços marcados. No polo negativo encontram-se textos concisos, como resenhas. Biber (1988) defende que os traços do polo positivo em conjunto expressam a opinião ou posicionamento do autor, com estilos de argumentação para persuadir o ouvinte (destinatário). Ela não contém traços negativos e os traços do polo positivo marcam um continuum entre a presença e a ausência de traços que marcam a persuasão. Somente o polo positivo apresenta características na dimensão 4:

39

75 Polo positivo (persuasão explícita) Polo negativo (persuasão não-explícita) - infinitivos - modais de predição

- verbos de persuasão (pedir, recomendar, concordar, etc.)40 - modais de necessidade - modais de possibilidade

- não há características

QUADRO 8: TRAÇOS DA DIMENSÃO 4 (FONTE: ADAPTADO DE BIBER, 1988) Dimensão  5:  Informação  abstrata  versus  não-­‐abstrata  

Esta dimensão distingue textos cujo foco é a informação altamente abstrata, como a prosa acadêmica e técnica de textos com foco não abstrato. Não há traços estatisticamente relevantes no polo negativo. Algumas das características da dimensão 5 são: Polo positivo (estilo abstrato) Polo negativo (estilo não-abstrato) - conjunções

- voz passiva sem agente - voz passiva com agente

- apagamento de pronome relativo WH em construções de particípio passado - adjetivos predicativos

- razão forma / item

QUADRO 9: TRAÇOS DA DIMENSÃO 5 (FONTE: ADAPTADO DE BIBER, 1988)

Com seu trabalho, Biber (1988, 2009) mostra a inter-relação entre registros falados e escritos. Essa relação foi estabelecida nas dimensões de variação da língua

40

76 inglesa identificadas. Friginal (2013, p. 3) acrescenta que Biber desenvolveu quatro características metodológicas primárias necessárias para a execução da Análise Multidimensional. São elas:

Uso de corpora de textos armazenados em computador, que servem de banco de dados padronizados e de pronto acesso a uma gama de variação em situações e propósitos comunicativos;

Uso de programas de computador para contar a frequência de certos traços linguísticos em uma grande gama de textos, proporcionando a análise da distribuição de muitos traços linguísticos em muitos textos e registros;

Uso de técnicas estatísticas multivariadas (a Análise Fatorial) para determinar relações de coocorrência entre os traços linguísticos; e

Uso de análises microscópicas para interpretar os parâmetros funcionais subjacentes aos padrões de coocorrência identificados quantitativamente.

2.3.5 Trabalhos com AMD

Segundo Xiao (2009), a abordagem da Análise Multidimensional para análise de registro desenvolvida por Biber (1988) para comparar registros falados e escritos em inglês tem sido aplicada para um amplo leque de pesquisas em variação linguística. Entre essas áreas de pesquisa, podem ser destacadas:

Análises sincrônicas de registros e gêneros específicos e de autoria; Estudos diacrônicos que descrevem a evolução de registros;

Pesquisa de inglês usado na universidade e desenvolvimento de materiais; Análise de movimento e estudo de estrutura do discurso.

A AMD também tem sido aplicada a questões referentes a desenho de corpora e também a questões relacionadas a registros / gêneros e tipos de texto. Xiao (2009) acrescenta que, apesar de ser muito relacionado a estudos de categorias gramaticais, o modelo da AMD tem incorporado também estudos de categorias semânticas e de classes de palavras.

77 e a Cambrige Grammar of English são trabalhos de referência que aplicam análises baseadas em corpus para mostrar como qualquer traço gramatical pode ter tanto as suas características estruturais quanto os padrões de uso entre os registros falado e escrito discutidos. Biber observa que há muitos estudos que descrevem a variação linguística dentro de um contexto de um registro específico. São, na maioria, de um tipo de registro acadêmico. Biber destaca ainda que estudos que identificam pacotes lexicais (lexical

bundles), que são peças importantes do discurso, podem ser feitos com o uso da Análise

Multidimensional (AMD).

Desde o trabalho de Biber (1988), é crescente o número de trabalhos com Análise Multidimensional, entre outros: Biber, 1995; Berber Sardinha, 2000a; Biber et. al, 2002b; Biber, 2006; Biber et al., 2006; Venegas, 2010; Gray, 2013; Cao & Xiao, 2013; Hardy & Römer, 2013.

Da mesma forma, a partir desse trabalho em que Biber mostra a inter-relação entre os registros falados e escritos, estabelecida nas dimensões identificadas, a quantidade de pesquisas com Análise Multidimensional vem crescendo no Brasil.

Esse avanço pode ser visto em dissertações e teses do Programa de Pós- Graduação em Linguística Aplicada e Estudos da Linguagem (LAEL), na PUC-SP. Destacam-se, dentre outros, Conde (2002), que investigou e comparou escolhas léxico- gramaticais em composições escritas por alunos de inglês como língua estrangeira; Shergue (2003), cujo estudo tem como ponto de partida uma necessidade da comunidade médica acadêmica: usar a língua inglesa de maneira competente para fazer apresentações orais e escrever artigos; Kauffmann (2005), que identificou semelhanças e diferenças linguísticas em um corpus composto por textos e gêneros de um jornal brasileiro, representativo da língua portuguesa de imprensa diária; Acunzo (2012), que, a partir da extração dos padrões lexicogramaticais de um corpus de textos de publicidade, propôs atividades de ensino para estudantes da respectiva área; Souza (2012), cujo trabalho faz uma análise das matérias de capa da revista americana Time desde 1923 até 2011, descrevendo suas dimensões de variação linguística ao longo de quase um século; Delegá-Lúcio (2013), em cuja pesquisa a autora verifica a variação

78 entre textos argumentativos escritos por estudantes de inglês, com o propósito de desenvolvimento de material didático para o ensino de inglês; Veirano Pinto (2013), que investigou as dimensões na linguagem de 80 anos do cinema falado americano; e Zuppardo (2014), que, visando contribuir para o ensino de inglês específico para a aviação, usou a AMD para mapear a variação lexical e gramatical de manuais aeronáuticos. A autora mostrou que eles são altamente informacionais e não-narrativos, e apresentam variação entre eles.

A abordagem da Análise Multidimensional tem sido uma grande contribuição para uma melhor compreensão da linguagem usada em diferentes contextos e situações. O caráter analítico da abordagem da AMD faz com que ela seja apropriada para esta pesquisa, pois ela permite a identificação de padrões de coocorrência dos artigos que compõem o corpus de estudo. Ademais, seu uso possibilita verificar como a linguagem varia sistematicamente em textos de uma mesma língua.

Na seção seguinte são apresentados o corpus utilizado na pesquisa e o processo de análise de dados.

79

3.  METODOLOGIA  

3.1  DESCRIÇÃO  DO  CORPUS  DE  ESTUDO  

Para este estudo foi necessário desenhar um corpus que fosse uma amostra representativa do registro acadêmico em forma de artigos escritos em língua inglesa. Conforme apontam Gray (2013) e Hardy & Römer (2013), estudos com Análise Multidimensional mostram a variação na linguagem de uma disciplina para outra. Ainda, Biber & Conrad (2009) explicam que, para identificar traços linguísticos em um registro, é necessário que sejam feitas comparações com outros. Por esses motivos, embora a escrita de pesquisadores brasileiros seja o que motivou este estudo, sua comparação com textos de outras origens parece ser essencial para uma descrição nítida do que é tipicamente traço da escrita de brasileiros.

Sendo assim, foram estabelecidos critérios que englobassem essas sugestões. Foram elencadas dez diferentes áreas de conhecimento para elaboração do corpus de estudo e nove diferentes origens, entre as quais falantes nativos e não-nativos, para fins comparativos. Isso permite traçar um panorama mais abrangente dos padrões do registro acadêmico do que o atualmente disponível na literatura de Análise Multidimensional (Cf. BIBER, 1988).

Para satisfazer os critérios estabelecidos acima, foi utilizado na pesquisa o

corpus eletrônico denominado Corpus of English Research Articles (sigla CERA), de

grande extensão. O número de artigos das áreas elencadas, que foram minuciosamente coletados para a compilação do corpus, atende à necessidade de representatividade proposta por Biber (1993; 2006). Ele diz que há duas considerações principais que influenciam a representatividade de um corpus. São elas o tamanho e a diversidade. Para Biber, “um corpus deve ser ‘representativo’ para ser usado de maneira apropriada como base para generalizações sobre uma língua como um todo” (1993, p. 1; minha

80 tradução)41. As origens dos pesquisadores e as diferentes áreas fornecem os dados necessários para uma análise dos padrões linguísticos do artigo acadêmico escrito em inglês.

Ainda sobre a importância da conformação do corpus, Berber Sardinha (2004b) discorre sobre tipologia e esclarece que a nomenclatura usada em Linguística de Corpus para sua classificação é bastante extensa, conforme mostrado na Fundamentação Teórica. Tomando como base essa tipologia, pode-se dizer que o

corpus deste estudo apresenta o seguinte perfil: O modo deste corpus é escrito. Quanto

à temporalidade, ele é contemporâneo – os artigos coletados foram publicados entre 2001 e 2013. Sua seleção é de amostragem, pois ele é composto por trechos de textos que são uma amostra da linguagem como um todo. Seu conteúdo é especializado: os textos são de tipos específicos definidos – artigos acadêmicos.

Para a compilação ou criação do corpus foram escolhidos textos de uma linguagem específica ou corpus do tipo especializado, de artigos acadêmicos, cujos parâmetros de seleção envolvem origem do autor e área de pesquisa do autor. Os dados que compõem o corpus foram coletados entre janeiro e dezembro de 2013. Os artigos foram baixados de periódicos estrangeiros através do site Directory of Open Access

Journals42 e por meio da página Periódicos Capes43. O conteúdo assinado do Portal de Periódicos Capes foi acessado via Instituto Federal do Espírito Santo, instituição à qual o pesquisador é filiado e que é parte da Rede Nacional de Ensino e Pesquisa (RNP). Vale ressaltar que, devido às dificuldades encontradas na compilação do corpus, muitos dos periódicos que serviram como fonte não são os mais prestigiosos das áreas.

O corpus de estudo é composto de 900 artigos de dez diferentes áreas de conhecimento, escritos por pesquisadores de nove origens. Das nove origens, três são

41 “a corpus must be 'representative' in order to be appropriately used as the basis for generalizations concerning a language as a whole”.

42

DOAJ é um diretório que indexa e fornece acesso livre a periódicos renomados revisados por pares. Disponível em www.doaj.org.

43

81 países cujos autores são falantes nativos de inglês e as outras seis são de países que não tem o inglês como primeira língua. A escolha de autores nativos e não-nativos foi feita para que a análise da escrita desses perfis pudesse ser comparada. As áreas de conhecimento, assim como a origem e a quantidade de artigos por áreas podem ser vistas no Quadro 3 abaixo.

ORIGEM __________ ÁREAS

Brasil China Índia Canadá Reino Unido

Estados Unidos

França Alemanha Itália

Química 100 100 100 100 100 100 100 100 100 Engenharia e Ciência da Computação 100 100 100 100 100 100 100 100 100 Engenharia 100 100 100 100 100 100 100 100 100 Ciências da Vida 100 100 100 100 100 100 100 100 100 Pesquisa de Materiais 100 100 100 100 100 100 100 100 100 Física e Astronomia 100 100 100 100 100 100 100 100 100 Psicologia 100 100 100 100 100 100 100 100 100 Economia 100 100 100 100 100 100 100 100 100 Antropologia 100 100 100 100 100 100 100 100 100 Linguística 100 100 100 100 100 100 100 100 100

QUADRO 10: CERA: ORIGEM, ÁREAS E NÚMERO DE TEXTOS

No âmbito deste estudo, “origem” refere-se ao local de nascimento e trabalho do pesquisador. O periódico de onde o artigo foi coletado, no entanto, pode ser uma publicação de qualquer país, contanto que tenha sido escrita em inglês. Vale acrescentar que, para artigos com mais de um autor, foi considerada a origem do primeiro autor citado, pois parece ser um padrão que esse autor seja o de maior relevância. Textos de

82 coautoria os quais um dos autores é um falante nativo foram descartados.

Este corpus busca atender as sugestões de representatividade propostas por Biber (1993) e Berber Sardinha (2004a). O corpus contém 93.570 itens (types) e 5.008.411 ocorrências (tokens), números que o enquadram, na classificação proposta por Berber Sardinha (2004b), como um corpus médio-grande. Segundo o mesmo autor, um corpus com 91.161 palavras já seria suficiente para englobar a variação das categorias morfossintáticas da língua inglesa. O número de tokens (ocorrências) e de

types (itens) foram obtidos através da ferramenta WordList do programa WordSmith Tools, versão 6.

A seleção das áreas de pesquisa foi feita em dois passos, levando em consideração a questão das publicações de brasileiros em periódicos de língua inglesa, que é o cerne desta pesquisa. Primeiramente, elas foram feitas tomando como base o indicador de periódicos científicos SCImago Journal & Country Rank, que disponibiliza gratuitamente dados de produção de todas as grandes áreas de estudo. Ele classifica tanto os periódicos, de acordo com o número de citações (fator de impacto), quanto os países, a partir de sua produção científica. Tais classificações estão disponíveis no endereço eletrônico http://www.scimagojr.com, que é a página do indicador, e no sítio do National Science Foundation Graduate Research Fellowship Program44

.

A partir da seleção inicial, o passo seguinte foi consultar a Tabela de Áreas de Conhecimento, da Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) e do Conselho Nacional de Desenvolvimento Cientifico e Tecnológico (CNPq). Dessa consulta, foram elencadas as dez áreas de conhecimento que melhor se comparavam àquelas selecionadas nos dados do indicador SCImago

Journal & Country Rank. Vale acrescentar que as áreas sem um equivalente específico

na tabela brasileira receberam uma tradução condizente com a nomenclatura usada no Brasil. São elas: COMPUTER AND INFORMATION SCIENCE AND ENGINEERING

44

O National Sience Foundation (NFS) Graduate Research Fellowship Program (GRFP) é o programa de bolsas de pós-graduação mais antigo dos Estados Unidos. Endereço eletrônico: http://www.nsfgrfp.org/general_resources/about.

83

(CISE) (ENGENHARIA E CIÊNCIA DA COMPUTAÇÃO), LIFE SCIENCES

(CIÊNCIAS DA VIDA), MATERIALS RESEARCH (PESQUISA DE MATERIAIS) e

PHYSICS AND ASTRONOMY (FÍSICA E ASTRONOMIA).

Optei por registrar as áreas de conhecimento em inglês, por ter sido esse o idioma utilizado para pesquisar e garimpar nos periódicos disponíveis na internet os textos que compõem o corpus. Cada item dos quadros é acompanhado de sua tradução, em parênteses. Foram elencados artigos acadêmicos representativos de países com grande produção acadêmica, escritos em inglês, por autores de três categorias de origens: a) falantes nativos: Canadá, Estados Unidos e Reino Unido; b) países europeus: Alemanha, França e Itália; e c) países com economia emergente, membros do BRICS45: Brasil, China e Índia. Os Quadros 11 e 12, a seguir, mostram respectivamente as origens dos pesquisadores e as nove áreas de pesquisa do corpus de estudo.

Falantes nativos BRICS Europa

Canadá Estados Unidos Reino Unido Brasil China Índia Alemanha França Itália QUADRO 11: CERA: ORIGEM DOS PESQUISADORES

CHEMISTRY (QUÍMICA)

COMPUTER AND INFORMATION SCIENCE AND ENGINEERING (CISE)

(ENGENHARIA E CIÊNCIA DA COMPUTAÇÃO)

ENGINEERING (ENGENHARIA) LIFE SCIENCES (CIÊNCIAS DA VIDA)

MATERIALS RESEARCH (PESQUISA DE MATERIAIS) PHYSICS AND ASTRONOMY (FÍSICA E ASTRONOMIA) PSYCHOLOGY (PSICOLOGIA)

ECONOMICS (ECONOMIA)

45 BRICS: grupo de cooperação política e econômica formado pelos seguintes países: Brasil, Rússia, Índia, China e África do Sul.

84

ANTHROPOLOGY (ANTROPOLOGIA) LINGUISTICS (LINGUÍSTICA)

QUADRO 12: CERA: ÁREAS DE PESQUISA. FONTE: NATIONAL SCIENCE FOUNDATION GRADUATE RESEARCH FELLOWSHIP PROGRAM.

3.1.1 (Pré-)processamento do corpus

O processamento do corpus seguiu alguns passos que são comuns nos estudos em Linguística de Corpus. Uma vez que esta pesquisa fez uso de um corpus específico, ele precisou ser compilado a partir do modelo traçado, qual seja: um corpus com 900 artigos de dez áreas de estudo, de pesquisadores de nove origens diferentes, das quais três provenientes de países falantes nativos do inglês. Tendo em vista que a origem foi definida como local de nascimento e trabalho do pesquisador, todo artigo demandou uma checagem de autoria, de modo a atender o desenho do corpus.

Um dos passos relevantes da pesquisa foi certificar-se minuciosamente de que a autoria do artigo do corpus atenderia aos critérios estabelecidos no desenho do corpus. Houve grande dificuldade de encontrar um curriculum vitae ou résumé dos pesquisadores estrangeiros. Aparentemente, eles não mantêm um currículo em plataformas, como a Lattes, comumente usada por pesquisadores brasileiros. Uma alternativa encontrada foi pesquisar o local de nascimento e a formação acadêmica dos autores. Desse modo, somente os artigos que atenderam aos requisitos foram mantidos. Ou seja, aquele nos quais o local de nascimento e o de trabalho do pesquisador coincidam.

À medida que os artigos eram encontrados e tinham sua autoria e origem confirmadas, eram gravados no formato “portable document file” (arquivo de documento portátil, ou pdf). Os artigos foram armazenados em subpastas das áreas de

85 estudo, dentro da respectiva pasta do país de origem do autor. Após a compilação dos 900 artigos em pdf, esses dados foram convertidos em artigos de texto (formato txt), que são arquivos de textos sem formatação. Isto é, há apenas os caracteres do teclado (letras, números e símbolos ortográficos). Os dados foram então armazenados em nove pastas, uma para cada país, com dez subpastas cada, referentes às dez áreas de conhecimento pesquisadas. As figuras abaixo mostram as pastas de organização e armazenamento do corpus em formato txt. Na primeira (Figura 2), denominada TXT

ONLY, estão as nove subpastas com os países.

86 Na Figura 3 abaixo, temos na pasta TXT ONLY, a subpasta BRAZIL, com a subpasta BRAZIL CHEMISTRY. Ainda para efeito de ilustração, na Figura 4, pode ser visto o primeiro dos dez artigos de química, em formato txt, da pasta BRAZIL

CHEMISTRY. Ele aparece com a anotação brazil_chemistry_1.

FIGURA 3: PASTA BRAZIL, COM SUBPASTA BRAZIL CHEMISTRY

87 Após a coleta e conversão dos artigos em textos sem formatação, iniciou-se o processo de limpeza do corpus, que aconteceu em duas etapas. A primeira foi realizada por meio de um script desenvolvido especialmente para esta pesquisa pelo orientador, que utilizou o programa Cygwin46.

Concluindo a primeira etapa, os 900 textos foram submetidos ao script. A Figura 5, abaixo, mostra um trecho do texto 5 da subpasta Linguística, Estados Unidos, após a limpeza automática. A tela mostrada é a do editor de texto Notepad++47, usado na segunda etapa da limpeza dos textos.

FIGURA 5: TEXTO US_SOC_SCIE_LINGUISTICS_5.TXT APÓS LIMPEZA AUTOMÁTICA

Posteriormente, todos os arquivos de texto foram revisados manualmente para a eliminação de itens restantes que deveriam ter sido eliminados na limpeza automática. Assim, por sugestão do orientador, foram retirados numerais, notas de rodapé e

46

Cygwin é um emulador gratuito do sistema operacional Unix para Windows, disponível online. Segundo Berber Sardinha (2004b, 54), “é uma ferramenta importante porque coloca à disposição do usuário de Windows um conjunto de utilitários fundamentais para a consecução de tarefas e pré- processamento de texto”.

47 Editor de texto versátil com suporte a várias linguagens de programação. Disponível gratuitamente no endereço: http://notepad-plus-plus.org/.

88 informações em cabeçalhos que não seriam computados para efeito de análise linguística.

Após as etapas de pré-processamento, como conversão em formato txt e a limpeza automática e manual, o corpus pôde ser processado por programas de análise linguística. O primeiro usado foi o WordSmith Tools, versão 6.0, cuja ferramenta

WordList gerou os dados que são apresentados no Quadro 13 abaixo.

ORIGEM OCORRÊNCIAS

(TOKENS) FORMAS (TYPES) TEXTOS

BRAZIL (Brasil) 529.223 25.104 100 CHINA (China) 447.951 20.441 100 INDIA (Índia) 368.788 19.805 100 CANADA (Canadá) 629.134 26.212 100 UK (Reino Unido) 621.160 25.304 100 US (Estados Unidos) 594.760 25.591 100 FRANCE (França) 667.420 25.113 100 GERMANY (Alemanha) 588.688 22.731 100 ITALY (Itália) 561.287 26.012 100 TOTAL 5.008.411 93.570 900

QUADRO 13: COMPOSIÇÃO DO CERA. CONTAGEM OBTIDA PELA FERRAMENTA WORDLIST, DO PROGRAMA WORDSMITH TOOLS 6.0.

Para a geração do número de types e tokens com a ferramenta WordList foram necessários os seguintes passos:

89 seguida, deve-se clicar em WordList, que é a terceira ferramenta na horizontal. Isso vai gerar uma nova tela em que os artigos em txt deverão ser inseridos.

90 A partir daí, clicar na palavra file (arquivo), no canto esquerdo da tela, e depois escolher a opção new (novo). O resultado é a tela mostrada na Figura 7 abaixo. Depois abrir a opção Choose Texts Now (tela abaixo), inserir o corpus para que ele seja processado e clicar na caixa OK, do lado direito. Na presente pesquisa, foi incluído o conteúdo da pasta CLEAN NOTEPAD, conforme aparece marcado na Figura 8.

FIGURA 7: TELA COM A OPÇÃO CHOOSE TEXTS NOW

91 Em seguida, clicar em OK, no canto direito da tela, e na opção Make a word

list now, que aparecerá na tela posterior. Dessa forma, o resultado é gerado, e aparece

como na tela abaixo (Figura 9). A partir daí, as palavras podem ser vistas listadas na ordem alfabética, quanto à frequência e estatisticamente. A terceira opção forneceu o número de types e tokens que foram mostrados no Quadro 13.

FIGURA 9: OUTPUT ESTATÍSTICO DA FERRAMENTA WORDLIST

92 3.2  PROCEDIMENTO  DE  ANÁLISE  

O procedimento de análise seguiu os preceitos metodológicos propostos por Biber para Análise Multidimensional. Berber Sardinha (2004a, p. 305) apresenta 13 itens que resumem os principais passos da AMD. Listamos aqui dez deles, que foram seguidos nesta pesquisa. Ressaltamos que o último item, referente à interpretação dos fatores e rotulação das dimensões, foi feito parcialmente.