• Nenhum resultado encontrado

Seleção e Descrição dos Corpora utilizados nesta pesquisa

Foram utilizados dois tipos de corpora nesta pesquisa. O primeiro refere-se ao corpus de estudo, composto por 89 roteiros da série de televisão Friends, exibida no período de 22 de setembro de 1994 a 06 de maio de 2004 nos Estados Unidos. A série foi produzida por David Crane e Marta Kauffman, dirigida por Robby Benson e Peter Bonerz, dentre outros, e televisionada originalmente pelo canal NBC nos Estados Unidos. No Brasil, é exibida atualmente pelos canais Warner Channel e SBT. Seu elenco é composto pelos seguintes atores / atrizes:

Jennifer Aniston (Rachel Green), Courtney Cox Arquette (Monica Geller Bing), Lisa Kudrow (Phoebe Buffay – Hannigan / Ursula Buffay), Matt LeBlanc (Joey Tribbiani), Matthew Perry (Chandler Bing) e David Schwimmer (Ross Geller).

Esse corpus é um tipo de corpus especializado (Hunston, 2002:14), por conter textos de um mesmo tipo / gênero – ‘sit-com’ de TV. Todos os textos que compõem esse corpus foram extraídos / coletados e salvos um a um a partir de um endereço eletrônico, no site www.geocities.com/hollywood/9151/scripts.htm, disponível on-line na internet.

O segundo corpus adotado nesta pesquisa é o BNC (British National Corpus). Ele foi usado como corpus de referência nesta pesquisa. Trata-se de um corpus composto de aproximadamente 100 milhões de palavras do inglês britânico escrito e falado. Foi compilado entre os anos de 1991 e 1995, através da parceria entre o governo britânico, as universidades de Oxford e Lancaster e as editoras Oxford University Press, Longman Group (UK) Ltd., W. & R.

Chambers e The British Library (Kennedy, 1998:50).

O BNC foi coletado a partir de uma grande variedade de gêneros do inglês falado e escrito. A parte escrita possui 90 milhões de palavras e é composta por prosa informativa

(ciências puras e naturais, ciências aplicadas, textos sociais e sobre a comunidade, problemas mundiais, comércio, finanças, artes, crenças e lazer) e por textos chamados ‘imaginativos’, compostos por obras literárias, periódicos, brochuras, cartas e ensaios não publicados, peças e discursos (Bértoli-Dutra, 2002).

A parte representante do inglês falado, ou seja, as 10 milhões de palavras restantes, é composta por transcrições de gravações extraídas de palestras educativas e informativas, aulas, noticiários, eventos de negócios, entrevistas, sermões, discursos políticos, debates parlamentares e reuniões públicas, comentários esportivos, etc. Há também uma outra parte que é composta por gravações de voluntários britânicos representantes de todas as variedades de padrões de vida de 38 partes diferentes do Reino Unido, sendo que gravaram todas as suas conversas durantes dois dias (Bértoli-Dutra, 2002).

A seleção desse corpus como referência deve-se, principalmente, ao fato de ele ser amplamente utilizado nas pesquisas realizadas no programa de pós-graduação em LAEL (Lingüística Aplicada aos Estudos da Linguagem) da Pontifícia Universidade Católica de São Paulo e também por ser de fácil acesso e aquisição comercial. Esse corpus será descrito detalhadamente na subseção 2.2.4 a seguir.

2.2.1 Justificativa da seleção do Corpus de Estudo

Há três principais razões para a escolha do seriado Friends como corpus de estudo para esta pesquisa.

Primeiramente, devo esclarecer que, como professora de inglês, tive uma motivação maior que me levou a utilizar Friends como recurso pedagógico para o ensino de vocabulário por meio de metáforas: o aspecto lingüístico associa-se ao aspecto pedagógico, uma vez que o recurso áudio-visual é utilizado como meio de aprendizagem de uma língua estrangeira. Como professora de inglês, posso dizer que através da utilização de vídeo em sala-de-aula, o aluno pode se sentir mais motivado a aprender e pode ter um avanço acentuado em relação à compreensão e reprodução de um vocabulário novo.

Em segundo lugar, Friends é um seriado que tem grandes índices de audiência mundial.

Pode-se notar que muitas das situações apresentadas e vividas pelos seis jovens personagens dessa série de TV estão ligadas à vida, ao amor e à amizade de muitos jovens telespectadores.

Em terceiro lugar, como Friends é um seriado que reflete a sociedade e a cultura norte-americanas, podemos observar que a linguagem dos jovens personagens envolvidos nesse seriado tenta refletir aquela usada por integrantes dessa faixa etária (Quaglio, 2004). Isto é, muitos jovens parecem se identificar com a maneira pela qual os personagens se comunicam, pois isso ocorre como reflexo da linguagem cotidiana usada por esses jovens norte-americanos. Às vezes, há o uso de várias gírias, expressões idiomáticas e uma linguagem figurada que podem nos remeter a algumas metáforas que parecem ser utilizadas pelos norte-americanos em sua vida cotidiana.

2.2.2 Descrição do Corpus de Estudo utilizado nesta pesquisa

De acordo com o que foi dito no capítulo da fundamentação teórica desta investigação, uma pesquisa que se baseia em Lingüística de Corpus requer um corpus capaz de dar conta de seus propósitos (Hunston, 2002:02). Sendo assim, o corpus selecionado para esta pesquisa é composto por 89 episódios da série da televisão americana Friends.

Conforme Hunston (2002:14), um corpus especializado deve ser aquele que é composto por textos de um determinado tipo, como editoriais de um jornal, artigos acadêmicos de uma determinada área, palestras, conversas casuais, etc. O corpus especializado visa a investigar a linguagem presente em um determinado tipo de texto. Desse modo, os textos são coletados pelos pesquisadores de acordo com os propósitos de seus estudos. Buscam-se, assim, textos compatíveis com os objetivos das pesquisas. Nesta investigação, o corpus é especializado porque é composto por somente um tipo de texto, ou seja, por roteiros de série de TV, e seu estudo visa à análise da linguagem presente nesse tipo de texto.

A tabela abaixo mostra as características do corpus de estudo utilizado nesta pesquisa:

Total de Episódios selecionados nesta pesquisa 89

Ocorrências (Tokens) 321.039 Formas (Types) 10.943 Razão ocorrências/formas (Types/Token ratio) 3,41

Quadro 2: Descrição relativa ao Corpus de Estudo

Os 89 episódios que compõem o corpus de estudo desta pesquisa são transcrições dos textos (scripts) originais usados durante as gravações do seriado. Dessa forma, as transcrições apresentam todas as falas dos personagens, assim como as marcações de cena, que diminuíram em quantidade depois da limpeza dos roteiros.

A seguir, será descrita a maneira como foi realizada a limpeza dos textos que compõem o corpus de estudo desta pesquisa.

2.2.3 Limpeza dos textos do corpus de estudo

Devido à presença de comentários e marcações de cena nos roteiros, foi realizada a limpeza (vide descrição desse processo abaixo, a seguir) dos textos transcritos, visto que tais marcações não são relevantes para a análise lingüística proposta nesta pesquisa. Portanto, grande parte das marcações de cena e todos os códigos advindos da linguagem html foram retirados das transcrições dos episódios. Foram deixadas somente algumas marcações de cena como entered, cried, shouted e outras que permitiam uma leitura mais rica das falas e não impediam que os objetivos desta pesquisa fossem alcançados.

Assim, a limpeza de todos os textos que compõem o corpus deste estudo foi realizada de acordo com o que é descrito a seguir.

Primeiramente, foi aberta uma pasta de arquivos para que todas as transcrições fossem armazenadas em arquivo texto (.txt). Em seguida, foi selecionado e aberto um arquivo referente a um episódio de cada vez. A janela Editar foi selecionada, onde o comando Ctrl A foi pressionado para que todo o conteúdo dos textos fosse copiado. Feita a cópia de todo o texto, o

comando Ctrl C foi selecionado para que o conteúdo do texto fosse transportado para um arquivo em branco do bloco de notas. Após esses procedimentos, o comando Ctrl V foi acionado para que somente o texto com quebra de linha fosse salvo. Depois disso, foram retiradas inscrições como transcribed by e demais marcações e códigos de cada texto que não serviam aos propósitos desta pesquisa. Os episódios transcritos foram salvos em arquivos em formato texto (.txt), como por exemplo, no caso do episódio de número 27.txt, e foi pressionada a tecla F5 para que o texto fosse mostrado como .txt.

Finalmente, os textos estavam adequados à constituição do corpus de estudo desta pesquisa, bem como à utilização do programa utilitário WordSmith Tools, adotado neste estudo como ferramenta para levantamento e análise dos dados lingüísticos, e que será detalhado a seguir, na seção 2.3 deste capítulo.

2.2.4 Descrição do Corpus de Referência utilizado nesta pesquisa

Nesta pesquisa, foi utilizada a lista de palavras da versão falada do BNC como corpus de referência. Pelo fato de o corpus de estudo ser composto por textos falados, muito embora tenham sido escritos de antemão, achou-se mais coerente adotar a versão falada do corpus de referência – BNC.

O BNC falado é composto por 10.4 milhões de palavras. Conforme mencionado anteriormente neste capítulo, a parte falada do BNC é composta por gravações extraídas a partir de palestras educativas e informativas, aulas, noticiários, eventos de negócios, entrevistas, sermões, discursos políticos, debates parlamentares e reuniões públicas, comentários esportivos e gravações realizadas por voluntários britânicos de 38 partes diferentes do Reino Unido.

Nossa seleção de corpora está de acordo com Hunston (2002:15), pois segundo ela, um corpus de referência deve ser maior que um corpus de estudo, pois precisa abarcar uma grande variedade de sub-corpora provenientes de diversas fontes.

Assim sendo, o corpus de referência foi contrastado com o corpus de estudo desta pesquisa, por meio do programa KeyWords da suíte WordSmith Tools, versão 3.0 (Scott, 1998), que será descrito detalhadamente neste capítulo.

A seguir, serão apresentadas as ferramentas utilizadas nos procedimentos de análise dos dados desta pesquisa.