• Nenhum resultado encontrado

ground 1 see grind

5 AVALIAÇÃO DO GLOSSÁRIO TERMINOLÓGICO BILÍNGUE DESTINADO A ALUNOS DE AGROPECUÁRIA À LUZ DE

6.1 CORPUS DE ESTUDO

Uma vez que o referencial teórico-metodológico proposto faz uso de corpora e de ferramentas eletrônicas de auxílio ao uso de corpora, na presente investigação consideramos as características principais para a formação de um corpus, conforme vimos em Sardinha (2004):

A origem: Os dados devem ser autênticos.

O propósito: O corpus deve ter a finalidade de ser um objeto de estudo linguístico.

A composição: O conteúdo do corpus deve ser criteriosamente escolhido.

A representatividade: O corpus deve ser representativo de uma língua ou variedade.

A extensão: O corpus deve ser vasto para ser representativo. (SARDINHA, 2004:18-19)

Nessa direção, para a presente pesquisa, que se utiliza de corpus comparável, foram compilados dois corpora de estudo, um em língua portuguesa e outro em língua inglesa, sendo este composto com os mesmos temas e tamanho aproximado daquele em língua portuguesa. Tais corpora são formados por textos escritos autênticos, em linguagem natural, ou seja, não foram inventados com propósitos para pesquisas linguísticas e visam à elaboração de um glossário bilíngue destinado a estudantes ou profissionais

ligados à área da agropecuária. A seguir são apresentadas as características de nosso corpus de estudo.

a) Modo:

● Textos escritos. b) Conteúdo:

● Especializado: os textos são de tipos específicos, voltados ao domínio específico das ciências agrárias.

c) Temporalidade:

● Sincrônico: compreende um período de tempo específico – de 2000 a 20014 (contemporâneo).

d) Classificação:

● Comparáveis: formado por textos originais em inglês e textos originais da mesma área em língua portuguesa.

e) Número de línguas:

● Bilíngue: contem textos em inglês e português. f) Autoria:

● De língua nativa: Os textos são escritos por falantes nativos (inglês e português).

g) Direcionalidade:

● Unidirecional: do inglês para o português. h) Finalidade:

● De estudo.

6.1.1 Corpus de estudo: língua portuguesa

O corpus de estudo em língua portuguesa foi criado pelo autor dessa investigação a partir da busca específica de textos da área de agropecuária. A seleção e extração dos textos foi realizada a partir de uma busca no sistema de pesquisa do Google, onde foram coletados 218 arquivos em formato PDF para compor o referido corpus. Para a construção desse corpus realizamos consultas em vários sites, alguns dos quais ligados ao Ministério da Agricultura e também à Empresa Brasileira de Pesquisa Agropecuária (EMBRAPA).

O corpus em questão é composto por textos (artigos, revistas, periódicos) envolvendo a área de agropecuária, e cobre, de modo não exaustivo, as suas subáreas: olericultura, fruticultura, silvicultura, culturas anuais, pós-colheita, defesa sanitária vegetal, zootecnia geral, avicultura, cunicultura, apicultura, piscicultura, suinocultura, ovinocultura, caprinocultura, bovinocultura, equinocultura, bubalinocultura, defesa sanitária animal, agroindústria, associativismo, topografia, mecanização

agrícola, construções rurais, irrigação e drenagem, meio ambiente, paisagismo e gestão.

Após download dos arquivos PDF encontrados, os textos disponíveis online em formato de PDF foram convertidos e salvos em formato TXT, “Text Only”. Para esta tarefa de conversão dos textos foi utilizado o programa PDFTOTXT. O formato TXT é necessário para que o programa WordSmith Tools consiga processar as informações do texto.

O referido corpus em língua portuguesa contabiliza 1.835.531 tokens (total de palavras do corpus, o que se inclui as palavras repetidas) e 60.605 types (palavras diferentes, ou seja, que não se repetem no corpus). Pela classificação de tamanho de corpus proposta por Sardinha (2004), este corpus pode ser considerado como médio-grande. A imagem a seguir ilustra o desenho do corpus criado:

FIGURA 4 – Proposta de Corpus de Agropecuária – Português

6.1.2 O corpus de estudo: língua inglesa

O corpus em língua inglesa criado para essa pesquisa é composto por 218 textos. Para a construção do corpus em língua inglesa foi consultado o site da Biblioteca Nacional de Agricultura (National Agricultural Library - NAL)6 do Departamento de Agricultura dos Estados Unidos, entre várias outras páginas da web que tratam de temas relacionados à agricultura e pecuária, sendo todos os textos escritos em língua inglesa. Para a captura dos textos observamos as mesmas subáreas da agropecuária expressas no corpus de língua portuguesa, sendo organizadas por: vegetable-growing, fruit-growing, forestry, annual crops, post-harvest, plant health defence, environment, general zootechnics, poultry, rabbits farming, bee keeping, fish farming, swine farming, goat breeding, cattle raising, horse breeding, buffalo raising, animal health defence, agroindustry, associativism, topography, agricultural mechanization, rural constructions, irrigation and drainage, environment, landscaping and management.

O referido corpus em língua inglesa contabiliza 3.328.522 tokens e 70.715 types, pela classificação de tamanho de corpus proposta por Sardinha (2004), este corpus é considerado médio-grande.

Para sua composição, os mesmos procedimentos do corpus de agropecuária em língua portuguesa foram adotados, ou seja, foram pesquisados no site de busca Google e selecionados artigos, revistas científicas e periódicos relacionados as subáreas de domínio da agropecuária. Os corpora foram convertidos do formato pdf em txt para utilização no WordSmith. A figura 5 ilustra o desenho deste corpus:

6

FIGURA 5 – Proposta de Corpus de Agropecuária – Inglês

Fonte: do autor.

6.1.3 Justificando os corpora criados para a pesquisa

Uma vez que abarcam uma quantidade considerável de textos digitalizados, 218 arquivos em português e 218 em inglês, contando com 1.835.531 palavras em língua portuguesa e 3.328.522 em língua inglesa, acreditamos possuir um volume representativo de textos para o objetivo proposto.

Assim, decidimos criar os corpora de agropecuária pelas seguintes razões:

a) Ao fazer uma busca na web por corpora de agropecuária de português e inglês disponíveis para uso em pesquisas linguísticas verificamos a inexistência de corpora nesta área que contemplassem as subáreas supracitadas que interessam a este estudo.

b) As subáreas de agropecuária, cujos textos compõem os corpora em questão, advém da pesquisa na matriz curricular dos cursos de agropecuária oferecidos nos Campi do Instituto Federal Catarinense (IFC).

c) Acreditamos que o caráter representativo dos corpora desta pesquisa se dê por estes abarcarem as várias disciplinas do currículo de cursos de agropecuária ofertados em nosso país, como os desenvolvidos no IFC aqui explicitado, fazendo com que termos destas subáreas venham constar no glossário que se destina, prioritariamente, a estudantes e profissionais envolvidos nas áreas ligadas à agropecuária.

Tais razões refletem a possibilidade de oferta de material de referência que corresponda às necessidades de consulta de um público específico, como é o caso de estudantes de cursos técnicos agrícolas ou mesmo profissionais ligados ao setor.