• Nenhum resultado encontrado

A Web como corpus (WaC)

No documento Eloísa Moriel Valença (páginas 63-67)

CAPÍTULO II O USO DA LINGUÍSTICA DE CORPUS NOS ESTUDOS

2.2. A Web como corpus (WaC)

Um dos possíveis problemas encontrados pelo fraseólogo na pesquisa baseada em corpus seria não dispor de dados suficientes para descrever a frequência ou o uso dos idiomatismos. Muitos autores, como Kilgarriff e Grefenstette (2003), Colson (2003,

2007), Fletcher (2005), Xatara (2008) e Rios (2010) defendem o uso da WaC como alternativa para o uso de corpora tradicionais. Apesar de não ser exatamente uma base de dados estritamente linguística, a web é concebida por alguns estudiosos como sendo uma fonte válida para a obtenção de dados que podem atestar o uso real da língua.

É importante ressaltar a diferença de se utilizar a web para a formação de um corpus e a Web como corpus, conforme sugerido por Schryver (2002). Utilizar a web para a formação de um corpus (WfC – web for corpus) significaria construir um corpus compilado a partir de páginas retiradas dela; em contrapartida, utilizá-la como corpus (WaC – web as corpus) significa analisar, como corpus, o conjunto de documentos disponível on-line, acessado de maneira direta e gratuita.

Fletcher, em seu artigo Concordancing the Web: Promise and Problems, Tools and Techniques (2005, p. 4), apresenta as vantagens da utilização da WaC:

1. Atualidade e espontaneidade: o conteúdo da web possui um número

abundante de textos com exemplos autênticos dos usos emergentes da linguagem não padrão. Enquanto o conteúdo dos corpora se desatualiza rapidamente, na rede o conteúdo é continuamente atualizado.

2. Completude e escopo: os corpora existentes podem não ter determinados

gêneros textuais ou que abranjam um domínio específico, como, por exemplo, os gêneros contemporâneos como blogs, twitters, fóruns de discussão que são encontrados apenas on-line. Além disso, nem sempre são encontrados em corpora tradicionais exemplos suficientes de um fraseologismo que atestem o seu uso.

3. Diversidade linguística: com o surgimento dos novos gêneros textuais da

modernidade, como citados anteriormente, ainda não existem corpora compilados para esse tipo de linguagem e suas variedades. Na web conseguimos encontrar textos em línguas ou variedades linguísticas que ainda não possuem corpora específicos para elas.

4. Custo e conveniência: o acesso à web é grátis e pode ser feito de qualquer

computador, o que facilita para os pesquisadores e estudantes.

5. Representatividade: na medida em que a informação, a comunicação e o

entretenimento encontrados na web crescem, a linguagem na e da web reflete e enriquece os idiomas.

De acordo com Kilgarriff e Grefenstette (2003), os cientistas da linguagem e tecnólogos estão se voltando cada vez mais ao uso da web como fonte de dados, seja por causa do seu tamanho, seja porque é a única fonte disponível para o tipo de linguagem em que eles estão interessados, ou simplesmente porque é gratuita e instantaneamente acessível. Esse crescimento pela busca na web de fonte de dados suscita um questionamento feito por estes autores: a Web é um corpus? Segundo Kilgarriff e Grefenstette (2003), se considerarmos corpus como sendo uma coleção de dados, a resposta seria sim, a Web é um corpus.

Pudemos observar, ao buscar respostas acerca do tamanho da Web, que além de ser uma informação difícil de localizar, são desencontradas. Uma possível explicação para este fato são os constantes acréscimos de informações que lhe são feitos diariamente, o que chega a tornar o tamanho da Web imensurável, por isso, os dados são apenas aproximativos.

Em levantamento feito em janeiro de 2003 pelos autores Kilgarriff e Grefenstette, existiam 172 milhões de endereços registrados na internet. Além de seu tamanho, a Web é claramente um corpus multilíngue. De acordo com Xu (2000 apud Kilgarriff e Grefenstette, 2003) o inglês é a língua predominante da web, com cerca de 70% de páginas indexadas, seguido pelo japonês (6,8%), alemão (5,1%), francês (1,8%), espanhol (1,1%) e italiano (0,9%).

No que se refere à língua italiana, objeto desta pesquisa, Kilgarriff e Grefenstette (2003), ao fazerem uma estimativa do tamanho da web em palavras, utilizando o motor de busca Alta Vista, chegaram à conclusão de que existiriam aproximadamente 2 bilhões de palavras em italiano. No caso desta nossa investigação, optou-se por trabalhar com o motor de busca Google, porque além de ser mais abrangente, oferece- nos alguns filtros de pesquisa úteis na verificação da frequência.

Para justificar o uso da WaC, observamos ainda os critérios apresentados por Sardinha quanto à extensão do corpus, divididos em três dimensões. A primeira é o número de palavras – critério este que serve para medir a representatividade do corpus, já que “quanto maior o número de palavras, maior será a chance de o corpus conter palavras de baixa frequência” (SARDINHA, 2000, p. 344). De acordo com o site Statistic Brain, (http://www.statisticbrain.com/total-number-of-pages-indexed-by- google/), em 2014, o Google possuía cerca de 67 bilhões de páginas indexadas. Se a web possui mais de 60 bilhões de páginas de internet, o número de palavras torna-se quase imensurável. A segunda dimensão é o número de textos, pois “um número de

textos maior garante que este tipo textual, gênero ou registro esteja mais adequadamente representado” (SARDINHA, 2000, p. 344). E a terceira dimensão seria o número de gêneros, registros ou tipos textuais. Na web há uma quantidade variada de gêneros: textos jornalísticos, blogs, textos de divulgação científica, contos, narrativas e tantos outros. Assim, o “número maior de textos de vários tipos permite uma maior abrangência do espectro genérico da língua” (SARDINHA, 2000, p. 344). Portanto, a web é de fato um corpus representativo da heterogeneidade da língua.

Para o estudo dos fraseologismos, sejam expressões idiomáticas, provérbios, colocações, frases feitas, entre outros, o uso da WaC é muito importante, já que em corpora tradicionais, de acordo com Colson (2007), a ocorrência de fraseologismos é muito baixa, menos de 1 ocorrência a cada milhão de palavra (1 PMW). Este autor afirma que os fraseologismos estão presentes tanto na língua falada como na escrita, mas ao procurar, por exemplo, a expressão em inglês, to spill the beans no corpus Bank of English (211 million words), a frequência foi de 0.56 por milhão de palavras. Isso indica que seriam necessários corpora gigantescos para conseguirmos estudar os fraseologismos e, obviamente, a World Wide Web (WWW) é a alternativa encontrada por ele e por outros autores para solucionar essa questão.

Segundo Colson (2007), existem algumas objeções em relação ao uso da web como corpus linguístico. Em geral, considera-se um bom corpus de pesquisa aquele que é reunido por um linguista, o qual deve levar em consideração a variação regional, o registro, o estilo, a linguagem falada e escrita, a diversidade das fontes, etc. Além disso, o linguista deve ter total controle sobre seu corpus - o que não é o caso da World Wide Web (www). Outra objeção que o autor traz para o uso da WaC, é a de que a escrita, nas páginas da web, envolve um uso bastante peculiar da língua, já que apresenta, muitas vezes, erros ortográficos, erros gramaticais, de vocabulário, dentre outros. Essas duas maiores objeções devem ser consideradas e a precaução e atenção do pesquisador tem que ser redobrada ao se escolher trabalhar com a WaC. Todavia, de acordo com Colson (2007), apesar de todas as limitações,

O tamanho do corpus é tão grande (a partir de 1 até 50 bilhões de palavras para as línguas europeias) que a probabilidade de se tirar conclusões erradas é muito limitada, embora não possa ser totalmente excluída. No caso da fraseologia, além disso, não existe corpus em

nenhum idioma que tenha a pretensão de incluir tantos idiomatismos como a World Wide Web. (COLSON, 2007, p.1072)29

Haja vista as vantagens e desvantagens do uso da WaC, considerou-se que as vantagens são muito maiores e justificam a sua utilização em nossa pesquisa. Outros autores, como Kilgarriff e Grefenstette (2003), Colson (2003, 2007), Xatara (2008), Fletcher (2005) e Rios (2010) também defendem o uso da WaC em pesquisas fraseológicas e fraseográficas. Apesar de não ser exatamente uma base de dados linguística, a web é uma fonte válida para a obtenção de dados que podem atestar o uso real da língua. E por compartilharmos deste mesmo posicionamento metodológico, utilizamos a WaC nesta investigação.

2.3. A PESQUISA DAS EIS NA WEB E O ESTABELECIMENTO DO LIMIAR

No documento Eloísa Moriel Valença (páginas 63-67)