• Nenhum resultado encontrado

3. METODOLOGIA

3.2 Compilação dos corpora

Os corpora utilizados para esta obra terminográfica foram compilados na área da Linguística Teórica, subáreas da Filologia, Etimologia e LH. O corpus do português compõe-se de teses, dissertações e artigos científicos, provenientes de sites de LH e Filologia, de acesso público. Dentre eles, citamos os sites da revista Philologus, disponível em <http://filologia.org.br/>, e Filologia e Linguística Portuguesa, disponível em <http://www.fflch.usp.br/dlcv/lport/flp/> para o corpus de língua portuguesa. Quanto às teses e dissertações, usamos a ferramenta de busca do Google, digitando a grande área, asterisco, teses ou dissertações, dois pontos, pdf. Dessa forma, focamos nossa busca em arquivos de cunho científico.

Figura 6. Visão parcial dos arquivos do corpus em português de LH. Fonte: autor.

Analisando a visão parcial de arquivos da Figura 6, observamos a presença de vários documentos, sendo a maioria deles artigos, depois teses e dissertações. Esse corpus foi coletado do fim de 2011 até o segundo semestre de 2013. Vale lembrar que todos são de cunho científico, primeiramente coletados em formato PDF, posteriormente salvos em formato de texto (.txt), para serem lidos pelo WST. O formato PDF permite pré-selecionar arquivos de cunho científico, já que esse formato impede a alteração de dados e o bloqueio do arquivo, caso seja opção do autor.

O corpus de inglês é formado por anais de eventos, artigos, teses, dissertações e um dicionário enciclopédico de Etimologia (devido à escassez de artigos/dissertações e teses nessa área). Os arquivos são de acesso público, baixados em formato pdf e salvos em formato txt a partir de sites específicos da internet, assim como os de português. No caso da língua inglesa, usamos a base de dados Jstor, disponível em: < http://www.jstor.org/ > e o site Library Genesis, disponível em < www.libgen.org >. Ressalvamos que o primeiro disponibiliza artigos ao ser acessado de um servidor público federal devido a acordos interinstitucionais. A desvantagem oferecida por esta base é que grande parte dos arquivos são obsoletos. Diferentemente do primeiro, o site Library Genesis é um site que oferece uma bibliografia acadêmica de acesso gratuito. Há obras completas como livro e anais de congressos, o que nos serviu para composição do corpus em inglês.

Figura 7. Visão parcial dos arquivos de corpus em inglês de LH. Fonte: autor.

Como pode ser observado na Figura 7, temos um grupo de arquivos composto de anais de congressos que discutem as perspectivas atuais para a Linguística Histórica, além de teses e dissertações na área da LH. Devido à ausência de artigos científicos na área de Etimologia, que fossem de acesso gratuito, excepcionalmente, para que esta área não ficasse sem ser contemplada, incluímos um dicionário de Etimologia, An Analytical Dictionary of English Etymology – an Introduction. O dicionário traz informações enciclopédicas sobre termos diversos da língua inglesa, discute as várais etimologias e

propõe a que seria a mais pertinente, de acordo com a aspectos metodológicos da Etimologia9

Os arquivos foram salvos em formato txt para possibilitar a leitura pelo WST. De acordo com a classificação proposta por Teixeira (2008), esse corpus classifica-se como: bilíngue, escrito, sincrônico, estático, especializado, de falantes nativos, de autoria individual/coletiva, comparável, de estudo (uso na pesquisa) e com cabeçalhos.

Abaixo, no Quadro 3, temos o dimensionamento dos corpora e suas especificações.

Quadro 3. Tamanho dos corpora de LH.

Língua Nº palavras Nº textos

Português 536.330 33

Inglês 521.794 8

Fonte: autor.

Observando e analisando os dados do Quadro 3, quanto ao balanceamento dos corpora, temos um número de palavras equilibrado, contudo o mesmo não ocorre quanto ao número de textos. Isso se deu devido ao fato que, dentre os arquivos em inglês, houve anais de encontros internacionais em Linguística Histórica (1999, 2001, 2003), mais extensos que os outros gêneros, que agregavam vários artigos nesta área. Outra razão que justifica este baixo número de artigos é a dificuldade de acesso a artigos científicos em inglês, de acesso gratuito na Internet.

Em contraposição, temos o corpus do português, composto em sua grande maioria por artigos, teses e dissertações. Nesse corpus, os arquivos maiores são constituídos de teses enquanto que os outros eram compostos pelos gêneros restantes. Observamos que no Brasil há uma maior facilidade de acesso a artigos científicos gratuitos. Pelo que observamos, pode ser que isto se justifique pelo interesse governamental em popularizar o conhecimento, logo há uma maior quantidade de artigos disponíveis.

Após a escolha dos artigos, fez-se a leitura dos resumos para a certificação de que tais produções científicas realmente se adequavam ao objetivo do projeto: coletar arquivos

9 Para conhecer melhor a obra e o trabalho desenvolvido pelo autor, acesse <

https://muse.jhu.edu/books/9780816654086 > e <

http://www.academia.edu/3191945/Review_of_Liberman_An_Analytical_Dictionary_of_English_Etymolo gy_2008_>.

nas áreas de Filologia, Etimologia, Linguística Histórica que servissem de corpora para análise linguística e fonte de contextos para construção de definições terminológicas.

Para assegurar o tamanho dos corpora, fizemos a leitura com o WST para verificação do número de palavras no intuito de balancear os corpora, chegando ao número aproximado de 500 mil palavras em cada subcorpus.

Na próxima seção, explicaremos como usamos o console do WST para fazermos as listas de palavras e as listas de palavras-chave dos corpora de português e inglês.