Coleta e critérios revisitados - Construção do corpus

3.3 O Corpus de Estudo

3.3.1 Construção do corpus

3.3.1.2 Coleta e critérios revisitados

Os textos foram, em grande parte, coletados na internet. Usamos o Google60 para encontrar instrumentos contratuais. Inicialmente, para encontrar contratos em inglês digitamos na janela de busca as palavras agreement whereas parties hereto therefore. Escolhemos essas palavras pois, segundo nossa experiência, estão sempre presentes nos contratos. O resultado oferecido pelo Google foi de, aproximadamente, três milhões de documentos entre os quais um grande número de contratos em espécie (Figura 1).

58_{Agreements and other obligations (guarantees, powers, etc) are among the most difficult} documents to translate (and to read).

Art. 8º Não são objeto de proteção como direitos autorais de que trata esta Lei: [...] III - os formulários em branco para serem preenchidos por qualquer tipo de informação, científica ou não, e suas instruções [...]. Lei n.º 9.610 de 1998.

MATERIAIS E MÉTODOS -69

Figura 1 - Página de resultados do Google para a busca agreement whereas parties

hereto therefore

Em seguida, após a verificação da idoneidade dos sites, passamos a fazer o download dos instrumentos encontrados. Como um dos critérios iniciais era compilar um corpus de um milhão de palavras, pretendíamos reunir 500 mil palavras em inglês e outras tantas em português. Dada a abundância de resultados, em um primeiro momento atingimos, rapidamente, 380 mil palavras em inglês.

Entretanto, ao realizarmos a pesquisa no Google para encontrar sites em português, o resultado foi substancialmente menor. Com a busca contrato partes portanto presente (Figura 2) obtivemos, aproximadamente, um milhão e meio de resultados. Porém, já nos primeiros resultados, foi possível notar que não havia apenas instrumentos contratuais entre eles. E, ao realizar o download, percebemos que, ao contrário do ocorrido na busca realizada em inglês, atingir as 500 mil palavras previamente estabelecidas não seria tarefa simples.

Figura 2 - Página de resultados do Google para a busca de contrato partes portanto

presente

Assim, enquanto o número de palavras nos contratos em inglês crescia substancialmente a cada novo documento encontrado, o mesmo não ocorria em relação aos documentos em português.

Com apenas 60 documentos em inglês, atingimos praticamente 380 mil palavras. Por outro lado, foram necessários 144 documentos para atingir apenas 225 mil palavras em português (Anexo B).

O quadro abaixo sintetiza as informações do corpus nesse estágio:

Quadro 26 - Número de textos, palavras, tipos de palavras e type/token ratio no corpus extraídos a partir do WordSmith Tools (Scott, 1996)

Subcorpora Inglês Português Total

Número de textos 60 144

Número de palavras (tokens) 379 481 223 578 603 059 Formas de palavras (types) 8 154 10 620

MATERIAIS E MÉTODOS -71

O subcorpus em inglês, maior em número de palavras, era muito menor em número de documentos e em tipos contratuais representados (Anexo B).

Por outro lado, o subcorpus em português, menor em número de palavras, era muito maior tanto em número de documentos quanto no de tipos contratuais.

Outras características dos subcorpora nesse estágio eram: um menor número de formas de palavras no corpus em inglês, apesar de ter um número muito maior de palavras-ocorrência (tokens), e maior repetição dessas formas de palavras refletida na menor type/token ratio.

Dadas as diferenças entre o número de palavras, o número de documentos e o de tipos contratuais, pudemos perceber que seria necessário rever alguns critérios para tentarmos compilar um corpus balanceado.

Para tanto, partindo da lista de contratos reunidos até aquele momento (Anexo B), agrupamos os contratos da mesma espécie e estabelecemos um novo critério para o corpus: o corpus seria composto pelo número máximo de tipos que pudéssemos encontrar na internet, sendo que seria 5 o número de amostra para cada tipo contratual em cada uma das línguas. Em outras palavras, reuniríamos cinco contratos de licença de software em inglês e cinco em português; cinco contratos de compra e venda em inglês e cinco em português e assim por diante. O número 5 foi escolhido aleatoriamente, mas no curso da compilação observamos que em diversas oportunidades não encontramos cinco contratos de cada espécie em ambas as línguas, tendo sido necessário recorrer a contratos impressos.

Assim, criamos uma planilha no Excel (Figura 3) inserindo os contratos que já havíamos reunido e, a partir dela, preenchemos os campos que estavam faltando. Devido à reformulação dos critérios de compilação, a busca no Google passou a ser feita a partir do nome do contrato, ou seja, se faltavam contratos de sigilo em inglês, buscávamos confidentiality agreement ou secrecy agreement diretamente; o mesmo se aplicou às buscas em português.

Figura 3 - Quadro usado para dar início ao balanceamento do corpus

Essa fase foi a mais laboriosa, pois conseguir reunir os mesmos tipos contratuais em ambas as línguas não foi tarefa fácil. Na realidade, não foi sequer possível reunir todos os tipos encontrados. Kwok (2000:2) atribui a dificuldade de se encontrar instrumentos contratuais ao fato de serem documentos celebrados entre particulares e serem, portanto, muito menos acessíveis para pesquisa que os textos legislativos, por exemplo.

No nosso caso, por se tratar de um corpus comparável, acreditamos, ainda, que a dificuldade em balancear o corpus tenha sido causada por dois principais motivos: há muito mais documentos disponíveis em inglês na internet e os tipos de contratos variam de acordo com o sistema jurídico em questão.

O primeiro motivo poderia ser atribuído ao fato de a internet ser predominantemente em língua inglesa. Porém, acreditamos que se deva também à dinamicidade e intensidade das relações jurídicas nos Estados Unidos. Do modelo econômico adotado naquele país, decorre a transparência exigida por sua legislação (e.g. Lei Sarbanes-Oxely de 2002).

MATERIAIS E MÉTODOS -73

Referida legislação visa garantir a divulgação dos negócios celebrados pelas empresas nos Estados-Unidos, pois muitas são de capital aberto e, nessa condição, devem satisfação a acionistas e ao mercado.

O segundo motivo pode estar ligado à diferença entre os sistemas jurídicos brasileiro e estadunidense. Isso se reflete no fato de certos tipos de contratos abundarem em uma língua, e serem raros ou inexistirem na outra. Em certos casos os contratos nem possuem correspondentes, como é o caso do de trust.

Por outro lado, houve casos em que por mais que os contratos existam em ambos os sistemas, não são encontrados na internet. Os contratos de hedging e swap, por exemplo, ambos existem e são usados no nosso sistema, todavia, não são encontrados na internet em português. Assim, temos cinco exemplos desses contratos em inglês, porém, por não termos os mesmos cinco em português, não pudemos incluí-los em nosso corpus. O mesmo ocorreu em relação aos contratos antenupciais. Há amostras em número suficiente em inglês, porém não em português o que, em princípio, poderia ter sido esperado, em virtude do fato de ser o nosso sistema jurídico regido por um Código Civil que estabelece regime de bens entre os cônjuges. Já o sistema da common law, em regra, não conta com lei subsidiária e deixa a critério das partes estabelecer suas relações patrimoniais.

Figura 4 - Em destaque alguns dos tipos contratuais não encontrados em número suficiente em português

Face às dificuldades encontradas, o possível foi obter 28 tipos contratuais que foram organizados na planilha ilustrada na figura abaixo e incluída em sua totalidade no Anexo C.

MATERIAIS E MÉTODOS -75

Figura 5 - Exemplos de tipos contratuais encontrados em número suficiente em ambas as línguas

No documento A tradução de binômios nos contratos de 'common law' à luz da lingüística de cor... (páginas 88-95)