• Nenhum resultado encontrado

CAPÍTULO I CÓRPUS E METODOLOGIA DA PESQUISA

1.2 Metodologia de Abordagem ao Córpus

1.2.2 Contrastes entre Frequências Gerais de Ocorrências

37

Para efeitos da checagem do Pressuposto da Pesquisa são apresentados alguns contrastes bidirecionais entre frequências de ocorrências de repetições de vocábulos nas duas línguas, com base em listas de vocábulos, fornecidas pela interface WordList do software WordSmith 6 (SCOTT, 2010). Estes contrastes bidirecionais, voltados, primordialmente, à checagem de tendências de frequências mais altas de repetições de vocábulos nos textos fonte e alvo, nas duas línguas, se deram nos níveis dos subcorpora e dos textos que os compõem. Estes contrastes tiveram como base duas taxas fornecidas pelo software WordSmith, i.e., Type/Token Ratio (TTR) e Standardised Type/Token Ratio (STTR), as quais calculam, respectivamente, as taxas de repetições de vocábulos e da diversidade lexical de textos ou corpora. A figura I - 1 é um recorte da janela Statistics da interface WordList, onde é possível consultar estas taxas.

Figura I - 1 – Janela Statistics da interface WordList.

A Type/Token Ratio TTR, onde type corresponde ao total de palavras não repetidas, distinct words, na figura, e token, ou running words, ao total de palavras do córpus, ou dos textos dele, listadas pelo software, indica a proporção entre estas, de modo a indicar a proporção de repetições de types em relação ao córpus (SCOTT, 2010, tradução nossa). Por exemplo, na linha Overall consta um total de 21.931 types, que dividido pelo total de 211.925 tokens, equivale à taxa de 0,1036, a qual em pontos percentuais é 10,36. Ou seja, há uma variação de tipos de vocábulos da ordem de 10,36% no córpus. Na leitura das TTRs, quanto menores forem elas, maiores serão as frequências de repetições de vocábulos. A STTR é uma variante da TTR, que é calculada por subdivisões do córpus com base em um número pré-estabelecido de

38

tokens, por exemplo, a cada 1.000 tokens, como foi adotado aqui. Na prática, o WordSmith calcula a TTR de cada bloco de 1.000 tokens e tira uma média das TTRs para obter a STTR do córpus [ou texto] (Ibid.). Isto permite que se compare corpora ou textos de tamanhos bastante distintos, pois o cálculo da STTR neutraliza os efeitos da repetição de palavras, visto que, textos grandes tendem a apresentar um maior número de repetições do que textos menores (BERBER SARDINHA, 2004, 95). Na leitura das STTRs, quanto maior for o percentual da STTR, maior será diversidade de vocábulos. Desse modo, as STTR apontam o percentual de riqueza do texto, como afirma Sardinha:

Na prática, a razão vocábulo / ocorrência indica a riqueza lexical do texto. Quanto maior o seu valor, mais palavras diferentes o texto conterá. Em contraposição, um valor baixo indicará um número alto de repetições, o que pode indicar um texto menos rico, ou variado, do ponto de vista de seu vocabulário. (SARDINHA, 2004 p.94) Para efetuar o contraste nas duas línguas, obteve-se as TTRs e as STTR de cada subcórpus, as quais foram contrastadas, com vistas à verificação de tendências a superioridades de repetições de vocábulos e inferioridades de variedades lexicais. As conclusões, a que se chegou a partir das análises destas taxas, estão dispostas no Capítulo II das Abordagens Verticais.

No entanto, Mike Scott, criador do WordSmith, chama a atenção para o fato de “a TTR e a STTR serem medidas brutas” (SCOTT, 2010, tradução nossa). Por esta razão, os contrastes bidirecionais foram estendidos até o nível dos vocábulos, pois quaisquer tendências, observadas pelos contrastes dessas taxas, com base nos subcorpora e textos nas duas línguas, poderiam estar concentradas nesta ou naquela categoria morfossintática, o que talvez demandasse uma revisão na Hipótese da Pesquisa. Em face desta possibilidade, algumas frequências de ocorrências de vocábulos agrupadas por categorias morfossintáticas foram contrastadas, com base em quantificações, obtidas na interface WordList do WordSmith, de frequências de ocorrências das etiquetas (tags) do TreeTagger. Deste modo, foi possível compor um panorama geral, mesmo que bastante rudimentar, de quais categorias morfossintáticas apresentaram tendências a frequências mais elevadas de repetições, nas duas línguas, para, a partir deste panorama, selecionar-se alguns vocábulos para dar continuidade à checagem do

39

Pressuposto da Pesquisa. É importante enfatizar que este procedimento contrastivo, é deliberadamente apresentado no formato de gráfico no Capítulo II das Abordagens Verticais, visto ter visado tão somente a obtenção de um norte inicial para as buscas posteriormente conduzidas.

As frequências de ocorrências das etiquetagens morfossintáticas dos vocábulos forneceram dados quantitativos que foram usados exclusivamente na geração do gráfico, no software Excell, visto elas, per si, não poderem ser utilizadas em contabilizações de frequências de vocábulos, dadas algumas limitações dos etiquetadores morfossintáticos, que causaram distorções, tais como nas leituras das formas clíticas do inglês, i. e., ‘m, ‘s, ‘re, n’t, ‘em, ‘ve, ‘d, e ‘ll, que afetaram as contabilizações. Porém, como também foram observadas distorções nas leituras dos etiquetadores de alguns vocábulos pertencentes a diferentes categorias morfossintáticas, considerou-se que as distorções de leitura de uma categoria morfossintática seriam neutralizadas pelas distorções de leitura de outras. Por exemplo, as ocorrências de ‘s, foram etiquetadas como substantivo plural (NNS), nomes próprios no singular (NP) e no plural (NPS), forma possessiva (POS), forma verbal do be (VBZ) ou do have (VHZ), adjetivo (JJ) e advérbio (RB). Assim, mesmo não tendo valor quantitativo, em função desta neutralização, os contrastes entre as frequências de etiquetas de categorias morfossintáticas teriam validade no sentido de se obter o referido norte para as investigações. A partir do gráfico em questão, selecionou-se as categorias morfossintáticas que foram submentidos a investigações contrastivas mais aprofundadas.

A priori os contrastes das frequências de ocorrências de repetições de vocábulos, até então descritos, seriam suficientes para a checagem do Pressuposto da Pesquisa. No entanto, considerando que a Hipótese da Pesquisa está diretamente atrelada às relações gramático- coesivas, decidiu-se também analisar, a partir deste ponto exclusivamente no direcionamento português-inglês, as ocorrências dos vocábulos terminados em -ing, dos vocábulos one e do/does, apostos as suas correspondências: (i) os primeiros em função de as derivações deverbais com o sufixo -ing gerarem vocábulos pertencentes a diferentes categorizações morfossintáticas; (ii) o segundo, por vocábulo one, conforme mencionado anteriormente, ser o substituto nominal inglês (HALLIDAY e HASAN, 1976), bem como, pelo fato de dois de seus correspondentes em português, i.e., ‘um’ e ‘uma’, poderem também corresponder a artigos indefinidos a e an; (iii) o último, por atuar como substituto verbal em inglês, (Ibid.), como operador gramatical (auxiliar)

40

em sentenças interrogativas e negativas, em construções enfáticas e em English Inversions.

Sumarizando, considerou-se suficiente, no que se refere à checagem do Pressuposto da Pesquisa, investigar, contrastivamente, as frequências de ocorrências de repetições de vocábulos nos textos fonte e alvo, nos dois direcionamentos, como base nas:

 Frequências totais de vocábulos nos subcorpora do Córpus da Pesquisa;

 Frequências totais de vocábulos em alguns de seus textos fonte e alvo;

 Frequências de alguns vocábulos de acordo com suas categorizações morfossintáticas.

E, ainda, acrescentou-se investigações no direcionamento português-inglês, dos vocábulos terminados em -ing e dos vocábulos one e do/does.

Os contrastes previstos nesta parte da metodologia estão dispostos no Capítulo II das Abordagens Verticais.

1.2.3 Seleção de Amostras de Vocábulos para as Abordagens