• Nenhum resultado encontrado

CAPÍTULO I CÓRPUS E METODOLOGIA DA PESQUISA

1.2 Metodologia de Abordagem ao Córpus

1.2.3 Seleção de Amostras de Vocábulos para as Abordagens

Considerando, tanto a natureza descritiva, baseada em linguística de córpus, quanto à magnitude do Córpus da Pesquisa, necessariamente haver-se-ia de compor uma amostra de vocábulos, de modo a viabilizar as análises horizontais previstas para a checagem da Hipótese da Pesquisa. Entretanto, a amostra não poderia ser atrelada aos objetivos da pesquisa, pois, do contrário, o princípio da aleatoriedade na coleta seria ferido. De fato, sendo o Córpus da Pesquisa, tal qual todo e qualquer córpus por maior que seja (SINCLAIR(1), 2005), uma amostra de língua filtrada por parâmetros da pesquisa, se a composição da amostra de vocábulos fosse direcionada pelas relações gramático- coesivas, ela poderia qualitativamente apontar para tendências à confirmação da Hipótese da Pesquisa, sem, no entanto, ser estatisticamente representativa, quanto à checagem do Pressuposto da Pesquisa, o qual transcende a magnitude do Córpus da Pesquisa. Por exemplo, considerando que o vocábulo do, em suas formas verbais do, does e did, é o substituto verbal em relações de coesão textual em inglês (HALLIDAY e HASSAN, 1976), caso o segmento as does Pedro Bala’s heart, extraído do Córpus da Pesquisa, fosse tomado como base para análises quanto às relações de coesão, se concluiria que as relações coesivas presentes no segmento levaram à ocorrência de as. No entanto,

41

esta é a única ocorrência do colocado as does no Córpus da Pesquisa, o que poderia levar à minimização do peso do colocado nas investigações. Ou, ele talvez até fosse excluído das análises, considerando que não teria relevância quanto às frequências de repetições de vocábulos. Entretanto, numa pesquisa no BNC, foram encontradas 316 ocorrências deste colocado, sendo que, em todas as 50 sentenças fornecidas pela interface do BNC na WEB, o colocado estabelece relações de coesão. Considerando, então, que relações similares as que as does estabelecem, a depender da forma verbal que substituem, também ocorrem com do e did, a relevância do operador gramatical do para pesquisa se intensifica. Sobretudo, por no BNC constarem 382 ocorrências de as do e 692 de as did, enquanto que no Córpus da Pesquisa, constam somente duas ocorrências de as did. Porém, ainda assim, estes números não garantem que a única ocorrência do colocado as did possa ser tomada como base quantitativa para selecionar as e did como vocábulos de uma amostra estatisticamente representativa.

O que está em jogo neste exemplo é a questão da representatividade do Córpus da Pesquisa, pois sendo ele um córpus médio, tende a ter menor representatividade do que corpora extensos como o British National Corpus (BNC), Corpus of Contemporary American English (COCA). Entretanto, a menor representatividade do Córpus da Pesquisa, não significa que todas as frequências de ocorrências de vocábulos, necessariamente, não sejam estatisticamente representativas.

Segundo Sinclair, não é possível arbitrar quais frequências de vocábulos são representativas, via intuições de falantes das línguas (SINCLAIR(1), 2005). Assim o sendo, mesmo que se possa ser positivista e afirmar que as ocorrências repetidas dos operadores gramaticais (auxiliares) do, does e did, e etc. têm relevância à pesquisa, por estes inexistirem no português, não se tem noção quanto à representatividade das frequências destes operadores no Córpus da Pesquisa em relação ao sistema linguístico. Diante deste panorama, para obter-se uma amostra (mais) representativa da língua inglesa, foi escolhido o BNC como córpus referência para aplicação de algum método estatístico de coleta de amostragem.

Retomando as noções de TTR e TTRS, estas, ao, respectivamente, informarem as proporções das ocorrências de repetições vocábulos e da diversidade lexical em relação aos números de vocábulos dos textos, em termos estatísticos, estão expressando um modelo probabilístico teórico, no qual a probabilidade varia entre 0 >

42

P(v) > 1 (MORETTI e BUSSAB, 2004, p.106), onde P(v) indica a

probabilidade de um vocábulo de um universo menor (amostra) ocorrer dentro de um universo maior. Embora, não expressamente destacado, ao se propor contrastes entre as TTRs, que indicam as taxas de diversidade lexical, dos subcorpora nos direcionamentos português-inglês e inglês- português, o que, indiretamente, foi proposto foi a adoção deste modelo probabilístico, com base em dois universos, o dos textos em português e o dos textos em inglês. Por exemplo, com base no quadro II - 1, nas abordagens verticais, no subcórpus ST em português há uma probabilidade aproximada de ocorrer um vocábulo distinto (novo) a cada 9,65 (100/10,36) ocorrências de vocábulos, pois a TTR é 10,36 %. (P(v) = 0,1036) Mas, como a TTR do subcórpus TT em inglês é 6,37 (P(v)

= 0,0637) neste subcórpus há a probabilidade aproximada de ocorrer um vocábulo distinto (novo) a cada 15,7 (100/6,37) ocorrências de vocábulos. Ou seja, grosso modo, a probabilidade de ocorrerem vocábulos novos no subcórpus dos textos originais é 1,63 (15,7/9,65) vezes superior à probabilidade desse tipo de ocorrência no subcórpus das traduções em inglês.

Retomando a questão da seleção da amostra de vocábulos, o que se deve considerar é este modelo probabilístico teórico, no nível das frequências de vocábulos individualizados no subcórpus ST em inglês, em relação ao universo 311 (242.943/100.000.000) vezes superior dos dados do BNC. No entanto, diferentemente dos contrastes entre as TTRs, onde se buscava discrepâncias entre as frequências relativas nos subcorpora, no caso da seleção de vocábulos para compor a amostra, deve se considerar as similaridades, ou seja, buscar por probabilidades, nos dois universos, mais próximas entre si em qualquer ponto do intervalo estabelecido pela equação 0 > P(v) > 1, de modo a se evitar aleatoriedade, pois como aponta Berber Sardinha, as diferenças de frequências entre traços linguísticos não são aleatórias (2004, p.31).

Assim, caso, por exemplo, a probabilidade do vocábulo X ocorrer num córpus A seja 0,3 (3 a cada 10 vocábulos), mas a probabilidade deste vocábulo X ocorrer num córpus B seja de 0,1 (1 a cada 10 vocábulos), o vocábulo X não pode ser tomado como estatisticamente representativo do córpus B, a despeito de sua alta frequência no córpus A. Mas, se as probabilidades de o vocábulo Y ocorrer nos corpora A e B forem, respectivamente, 0,01 e 0,0134, por exemplo, a frequência de ocorrências do vocábulo Y no córpus A pode ser tomada como estatisticamente representativa em relação ao córpus B, independentemente, de as ocorrências dele serem bastante baixas em

43

ambos os corpora. Destaca-se que a diferença de 0,0034 entre as probabilidades está dentro do intervalo composto pelas margens de erro, estatisticamente convencionadas por 0,05, 0,01, 0,001 e 0,0001 (UCREL; MORETTI e BUSSAB, 2004).

Entretanto, probabilidades não são cartesianas, pois, dentro de um universo de vocábulos distintos, podem ocorrer repetições destes ou daqueles vocábulos, atuando nestas ou naquelas categorias morfossintáticas. Ou seja, o número de variáveis incontroláveis, i. e., variáveis da ordem da gramática, semântica, pragmática, coesão textual, estilística, etc., que interferem nas probabilidades de ocorrências de vocábulos é muito grande. E, esta grandeza cresce exponencialmente no caso de textos traduzidos, pois outras variáveis incontroláveis, tais como, força das “línguas dos textos fonte” (MCENERY e XIAO) e escolhas subjetivas de tradução, propósitos de tradução (VERMEER, 1986, 1996; NORD, 1991; REISS, 1996) também interferem nas probabilidades de ocorrências de vocábulos. Felizmente, com a ajuda de cálculos da Estatística, pode-se estimar relações entre probabilidades de ocorrências de vocábulos em dois corpora, em função das proximidades, ou distanciamentos, entre as frequências de vocábulos nos corpora.

No caso da seleção de vocábulos para as análises horizontais gramático-coesivas, dois procedimentos foram tomados, visando a: (i) minimização dos efeitos das variáveis incontroláveis da tradução; (ii) checagem da representatividade das frequências de ocorrências de vocábulos, no subcórpus TT em inglês, em relação ao BNC. O primeiro se deu via cruzamento das listas KeyWords fornecidas pelo software WordSmith, e o segundo, via testes estatísticos quanto à significância das diferenças entre as frequências de ocorrências de vocábulos no subcórpus TT em inglês e no BNC. Estes procedimentos são detalhados a seguir, porém, por ora, é importante se ter em mente que: (i) as listas KeyWords destacam os vocábulos cujas frequências num córpus sejam estatisticamente bastante distintas das frequências destes num outro córpus de magnitude aproximadamente 5 vezes superior à daquele (BERBER SARDINHA, 2004); (ii) em Linguística de Córpus, as significâncias estatísticas indicam as probabilidades de ocorrências de vocábulos se darem ao acaso; em outras palavras, as significâncias estatísticas, no campo da linguística, indicam as probabilidades de vocábulos não ocorrerem em função de relações gramaticais, semânticas, coesivas, etc., pois as variáveis, envolvidas nas ocorrências deles, são independentes entre si, visto que a probabilidade de as

44

ocorrências deles serem em função destas relações é extremamente baixa, tendendo à nulidade (UCREL).