• Nenhum resultado encontrado

Corpus de estudo e metodologia

No documento Domínios de (páginas 144-147)

Identificação de unidades fraseológicas no vocabulário de Star Trek: abordagens corpus-driven e corpus-based

3. Corpus de estudo e metodologia

Este estudo buscou apresentar exemplos de UFs que ilustrem o vocabulário em questão, por meio da análise de um corpus de estudo composto pelas legendas de todos os episódios e filmes de Star Trek produzidos até o momento da redação deste texto. As legendas foram obtidas por meio de download em repositórios de legendas feitas por legendistas não profissionais, na internet. Esse tipo de legenda foi escolhido porque pode ser obtido de forma rápida e gratuita, o que é importante devido ao grande número de filmes e episódios que existem na série. O corpus de estudo possui 3.070.626 tokens, e é composto por porções de fala transcritas em legendas; é sincrônico (limita-se ao período de tempo durante o qual se deu a produção da série Star Trek: 1966 a 2013) e em língua inglesa. Os textos foram analisados pelo programa de análise lexical WordSmith Tools (SCOTT, 2008), em busca de informações sobre a frequência de ocorrência das UFs de interesse, e também em busca de contextos para

exemplificar o uso pragmático dessas UFs. Também foram analisadas informações advindas de corpora disponíveis on-line: o Corpus of Contemporary American English – COCA3

(DAVIES, 2014) e o Google Books4 por meio da ferramenta Google Ngram Viewer5

(MICHAEL, et al, 2010). Ao manusear esses corpora, foram usados dois caminhos diferentes: uma abordagem corpus-based (baseada em corpus) e outra corpus-driven (direcionada por corpus).

A abordagem corpus-based é tradicionalmente usada para “explicar, testar ou exemplificar teorias e descrições que foram formuladas antes de os grandes corpora terem se tornado disponíveis para informar o estudo da língua” (TOGNINI-BONELLI, 2001, p. 656).

Assim, o ponto inicial de uma análise corpus-based é a existência prévia de determinada formulação sobre a língua, que pode ser fruto de uma teoria anterior ou mesmo da reflexão intuitiva e da curiosidade. Partindo-se disso, usa-se a metodologia da LC para contrastar essa formulação prévia com dados empíricos provenientes de um corpus. Geralmente, a observação desses dados ratifica parcialmente a hipótese inicial e, ao mesmo tempo, costuma explicitar casos em que ela não se aplica. Cabe ao linguista escolher a melhor maneira de lidar com esses casos excepcionais. Tognini-Bonelli (2001) explica que, para isso, existem três caminhos possíveis, a saber: (i) isolamento, ou seja, manter a hipótese inicial intacta e isolar os casos não explicados, considerando-os exceções; (ii) padronização, ou seja, reformular parcialmente a hipótese inicial, tornando-a mais geral ou ampla para que abarque os novos casos encontrados, enriquecendo-a; e (iii) instanciação, ou seja, “inserir os dados em um sistema de possibilidades abstratas, um conjunto de escolhas paradigmáticas disponível em qualquer ponto, no texto” (TOGNINI-BONELLI, 2001, p. 747). Esses três caminhos não são mutuamente excludentes,

podendo ser usados em conjunto de forma complementar. A noção principal é a de que o uso de um corpus permite a verificação de evidências explícitas para confirmar, refutar ou aprimorar uma teoria ou formulação linguística ou uma simples indagação sobre determinado fenômeno linguístico.

3http://corpus.byu.edu/coca/ 4http://books.google.com/ 5https://books.google.com/ngrams

6 Todas as traduções são de minha autoria. No original: the term corpus-based is used […] mainly to expound, test or exemplify theories and descriptions that were formulated before large corpora became available to inform language study.

7 No original: […] building the data into a system of abstract possibilities, a set of paradigmatic choices available at any one point in the text.

A abordagem corpus-driven, por sua vez, “busca derivar categorias linguísticas sistematicamente a partir dos padrões recorrentes e das distribuições de frequência que emergem da língua em contexto” (TOGNINI-BONELLI, 2001, p. 878). O estudo direcionado

por corpus tem início com o próprio corpus, e não se baseia em formulações teóricas previamente construídas. São estudados os padrões que emergem das linhas de concordância do corpus com o objetivo de elaborar teorias que reflitam as evidências, seguindo as seguintes etapas: observação, hipótese, generalização, unificação. Nota-se que a hipótese não é a primeira etapa da abordagem; é formulada após a observação inicial. O foco em dados empíricos torna essa abordagem mais indutiva do que a corpus-based. No entanto, “não existe indução pura” (TOGNINI-BONELLI, 2001, p. 859), e a interpretação dos dados continua sujeita à percepção

individual do pesquisador, que “faz sua própria seleção e agrupamento dos fatos, determinados pelas suas atitudes e teorias e pela natureza da sua experiência de realidade da qual ele mesmo faz parte” (J. R. FIRTH, 1969, p. 29, apud TOGNINI-BONELLI, 2001, p. 8510).

Grande importância e ênfase são dadas à abordagem corpus-driven, por se tratar de um tipo de análise que, frequentemente, desafia teorias linguísticas baseadas na intuição individual. De acordo com Tognini-Bonelli (2001), John Sinclair chegou a denominar as formulações linguísticas baseadas somente na intuição como “crenças pré-corpus”. Nas palavras da própria autora, “as constatações inesperadas derivadas de evidências de corpus levam à conclusão que a intuição não é uma fonte absolutamente confiável de informações sobre a língua” (TOGNINI- BONELLI, 2001, p. 8611).

Neste trabalho, escolheu-se analisar o vocabulário de Star Trek sob a ótica de ambas as abordagens, cada uma em um momento. Considerando-se os objetivos da análise, tanto uma quanto a outra forneceram resultados relevantes e distintos, constituindo dois olhares complementares e direcionados ao mesmo objeto. Aqui, entende-se corpus-driven como uma forma de olhar para a linguagem de Star Trek partindo do que aparece no corpus de estudo, procurando identificar UFs por um procedimento que não pressupõe conhecimento prévio da série. Já o olhar corpus-based partiu de frases amplamente conhecidas por fãs da série,

8 No original: […] aims to derive linguistic categories systematically from the recurrent patterns and the frequency distributions that emerge from language in context.

9 No original: There is no such thing as pure induction.

10 No original: Each scholar makes his own selection and grouping of facts determined by his attitudes and theories and by the nature of his experience of reality of which he himself is part.

11 No original: The unexpectedness of the findings derived from corpus evidence leads to the conclusion that intuition is not comprehensively reliable as a source of information about language.

buscando constatar se essas frases são ou não UFs, e descrever o seu uso. As seções seguintes serão dedicadas a demonstrar esse processo e os resultados obtidos12.

No documento Domínios de (páginas 144-147)

Outline

Documentos relacionados