• Nenhum resultado encontrado

2 BASES TEÓRICAS

3.1 Corpus de estudo

A Linguística de Corpus, conforme apontado anteriormente, é uma metodologia bastante útil para investigação linguística, porque oportuniza a análise de textos autênticos similares com a utilização do computador (TAGNIN, 2007).

Assim, os corpora, de modo geral, são classificados de acordo com sua composição em alguns tipos, dos quais dois destaco aqui: corpus comparável e corpus paralelo. Corpus comparável se refere ao conjunto de textos de um mesmo gênero ou tipo, escritos originalmente em idiomas diferentes. Considera-se como corpus paralelo o conjunto composto por textos originais e suas respectivas traduções. Corpus comparável se difere de corpus paralelo na composição e nos objetivos, conforme aponta Tagnin (2007):22

[...] um corpus comparável, composto de textos originalmente escritos nas duas línguas, inglês e português no caso em questão, fornecerá o termo

efetivamente usado por aquela comunidade. Em outras palavras, o corpus

fornecerá o termo mais provável de ocorrer no contexto que o tradutor estiver pesquisando, ou seja, o termo mais recorrente. Nem sempre, é óbvio, o tradutor deseja usar o termo mais recorrente, mas, mesmo nesse caso, o corpus lhe será de grande valia justamente para identificar o termo que não pretende usar (TAGNIN, 2007, p. 2, grifo meu).

Kenning também observou que uma coleção de textos (ou seja, os corpora) pode ser considerada comparável quando esses textos forem reunidos de acordo com os mesmos critérios, como tamanho, assunto e período (KENNING, 2010).

3.1.1 Descrição do corpus e critérios de construção dos subcorpora

O corpus de estudo desta pesquisa foi composto por dois subcorpora: um construído com textos autênticos e originais em português brasileiro, o qual denominamos RelSustenta_PT, e o outro por textos autênticos e originais em inglês estadunidense, denominado RelSustenta_EN, ambos compostos apenas por Relatórios de Sustentabilidade (RS). Os corpora de estudo são classificados, portanto, como comparáveis, pelas características de sua composição. O objetivo principal deste trabalho, conforme explicado anteriormente, é realizar o levantamento dos termos e fraseologias no corpus em português, buscando seus equivalentes funcionais em língua inglesa e analisando os contextos das ocorrências com a finalidade de apresentar uma proposta de glossário bilíngue.

Outro tipo de corpus que deve ser destacado aqui é o corpus de referência, que serve de comparação com o corpus de estudo, funcionando como um padrão de referência da língua. Os corpora de referência utilizados nesta pesquisa serão descritos na próxima seção, na qual serão também descritas as ferramentas utilizadas na análise.

Para compor os dois subcorpora desta pesquisa, os Relatórios de Sustentabilidade (RSs) foram selecionados a partir de duas publicações, da seguinte forma: os textos originalmente escritos em português foram extraídos da edição 2016 do Guia de Sustentabilidade da Revista Exame, o mais reconhecido do Brasil, e os textos escritos originalmente em inglês estadunidense foram retirados do ranking da Corporate Knights 2017, reconhecida publicação anual em que são eleitas as 100 empresas mais sustentáveis do mundo.23 Cada uma dessas publicações possui sua própria metodologia para avaliar as empresas participantes do ranking24, embora seus critérios tenham semelhanças, pois ambos se baseiam nas diretrizes da GRI.

Da lista das empresas constantes no ranking do Guia Exame de Sustentabilidade, foram escolhidos os RSs da Duratex, da Fibria, da Klabin, da Natura e da Votorantim Metais, eleitas as mais sustentáveis em seus respectivos setores, cujos relatórios estavam disponíveis para download nos sites institucionais das empresas, no formato PDF. Para os textos em inglês, foram escolhidos apenas os RSs de empresas norte-americanas, para evitar entrar no mérito da variação linguística, que não é o foco desta pesquisa. A partir do ranking da Corporate Knights25, foram selecionadas as empresas americanas com maior pontuação, privilegiando setores diferentes, conforme o critério de representatividade. O armazenamento dos textos seguiu as etapas detalhadas a seguir.

Primeiro, realizou-se o download de cada arquivo em PDF, seguido do salvamento e nomeação do arquivo de forma padronizada, conforme detalhado a seguir. Após essa padronização, todos os PDFs foram convertidos para o formato .txt, que é o mais aceito por diversos softwares e plataformas de análise textual (embora o programa utilizado para analisar os textos desta pesquisa, SE26, consiga fazer a leitura de arquivos no formato PDF, outros como AntConc e WordSmith27 não o fazem. Com vistas a disponibilizar os corpora para

23 Para conhecer melhor os rankings, acesse os sites: http://www.corporateknights.com/reports/2017-global-

100/2017-global-100-results-14846083 e https://exame.abril.com.br/edicoes/guia-de-sustentabilidade-2016/.

24 Os questionários do Guia Exame de Sustentabilidade estão disponíveis no link:

http://sustentabilidade.exame2.com.br/

25 O ranking está disponível no site: http://www.corporateknights.com/magazines/2018-global-100-issue/2018-

global-100-results-15166618/ e a metodologia adotada pela publicação está disponível em:

https://www.corporateknights.com/wp-content/uploads/2018/10/2019-Global-100_Methodology-Final.pdf.

26 O Sketch Engine será detalhado a seguir.

futuras pesquisas, optamos por fazer a conversão para a extensão .txt). Os nomes dos arquivos foram padronizados da seguinte forma: primeiro, identificou-se o idioma com o código “PT” para o português e “EN” para o inglês; na sequência, o código para o nome da empresa com três letras (DTX para Duratex, FBR para Fibria, KLB para Klabin, NTR para Natura, VTM para Votorantim Metais, ALL para Allergan, CGP para Colgate-Palmolive, CIS para Cisco, INT para Intel, e, finalmente, JNJ para Johnson & Johnson). Ao final, a identificação do texto e o ano do ranking, seguidos da extensão .txt; a seguir, apresenta-se um exemplo do nome completo de um dos arquivos: PT_VTM_RS2015.txt. Após realizada a conversão para o formato txt, procedeu-se à escolha do programa de análise para realizar os procedimentos.

Documentos relacionados