• Nenhum resultado encontrado

Modernidade tardia e modernidade líquida

1.2. Linguísica de Corpus

O segundo pilar do recorte teórico-metodológico é a Linguísica de Corpus. A LC é “o estudo da língua com base em exemplos autênicos da língua em uso” (McEnery & Wilson, 1996, p. 1) e se ocupa “da coleta e da exploração de corpora, ou conjunto de dados linguísicos textuais coletados criteriosa- mente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguísica. Como tal dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador” Berber-Sardinha (2004, p. 3). A parir da deinição acima se destacam três elementos essenciais à LC: coleta criteriosa de textos, exploração da linguagem por meio de evidências empíricas com o propósito de realizar pesquisa linguísica e dados extraídos com o auxílio do computador.

A ‘coleta criteriosa’ diz respeito à seleção, composição e balanceamento do corpus. Um corpus é uma amostra grande ou relaivamente grande (milhares ou milhões de palavras) de linguagem autênica e representaiva de um determinado ipo de linguagem. Ao consituir um corpus o pesquisador estabe- lece critérios para a seleção de textos de forma que o conjunto possa ser considerado representaivo da linguagem que se propõe a estudar. O critério da representaividade é variável e revisitado durante a própria compilação do corpus, como veremos no Capítulo 5.

Em relação à ‘exploração da linguagem por meio de evidências empíricas’ podemos dizer que análises de corpora dependem da interpretação da frequência e da distribuição dos dados (Stubbs, 1993, p. 25). Os dados estaísicos permitem que o pesquisador extraia evidências empíricas capazes de permiir a descrição tanto de agrupamentos lexicais que formam padrões como de combinações consideradas aleatórias (Stubbs, 1993, p. 25), ou seja, é possível determinar a frequência das combinações lexicais que podem ocorrer com ou sem regularidade em um determinado corpus.

O terceiro elemento essencial à LC é o processamento por computador. O advento do computador e o de diversos sotwares de processamento da linguagem natural possibilitaram a análise de grandes quanidades de dados, que até pouco tempo não eram passíveis de observação, e, consequentemen- te, implicaram uma ruptura de paradigma nos estudos linguísicos. Dados antes impossíveis de serem observados pelo ser humano sem o auxílio da tecnologia como, por exemplo, a rápida e precisa iden- iicação de padrões linguísicos, inluenciaram a ideia que hoje temos de linguagem (Stubbs, 1993, p. 23) que é a de um sistema marcado por certa regularidade exteriorizada pela padronização de combi- nações de palavras. A introdução do computador nos estudos linguísicos é comparável à introdução do telescópio na astronomia Stubbs (2004, p. 107). O primeiro livro dedicado à LC foi escrito por Aarts e Meijs (1984). Recentemente, a LC tem se desenvolvido a passos largos18 devido às enormes possibili- dades oferecidas pelas formas de processamento da linguagem natural por computador e é ariculada com inúmeras áreas (e.g. lexicograia, tradução, terminologia, ensino e aprendizagem de línguas, lin- guísica forense), incluindo, como veremos no próximo item, a ACD.

Para Sinclair (1991, p. 100), o diferencial está na quanidade de dados disponíveis e como a língua ica diferente quando examinada em grandes quanidades e ao mesmo tempo. Por tudo isso, o processa- mento por computador é um elemento essencial da LC e foi o computador o grande responsável pelo

seu desenvolvimento, pois, hoje, o termo corpus é praicamente sinônimo do termo corpus processado por computador (McEnery & Wilson, 1996, p. 17).

A LC fulcrada na linguísica hallidayana que ‘descreve a probabilidade dos sistemas linguísicos, dados os contextos em que os falantes os empregam’ (Berber-Sardinha 2004, p. 30) pressupõe que os textos que compõem o corpus sejam autênicas representações da língua ou linguagem que se propõe estu- dar. Isso signiica dizer que o corpus “registra a linguagem natural realmente uilizada por falantes e escritores da língua e em situações reais” (Berber-Sardinha 2004, p. 32), pois a LC, “por deinição, trata da língua em uso” (Tognini-Bonelli, 2001, p. 54).

A LC vale-se de ferramentas computacionais e depende de análises quanitaivas e qualitaivas. As principais ferramentas de análise da LC são: listas de frequência, listas de palavras-chave e linhas de concordâncias. Tais ferramentas, abordadas indiretamente mais abaixo e detalhadamente no Capítulo 5, permitem: o processamento de dados naturais e autênicos, o processamento de grandes quani- dades de textos, a visualização simultânea de vários contextos de forma ordenada, o que permite a ideniicação de padrões linguísicos e a ideniicação imediata do arquivo de origem.

A principal vantagem da LC é o fato de um corpus ser uma fonte mais coniável em relação aos usos linguísicos se comparado à intuição humana Hunston (2011, p. 20), pois a intuição não é coniável quando se trata da frequência de padrões lexicais. Isso ocorre porque temos “a tendência de notar as ocorrências incomuns mais que ocorrências comuns e a frequência de palavras e/ou expressões não é passível de ser captada por meio da introspecção (Biber, Conrad & Reppen, 1998 e McEnery & Wilson, 2006). Assim, a intuição – tradicionalmente limitada por fatores individuais – encontra na LC uma importante aliada em termos de pesquisa linguísica, pois a distância entre intuir e comprovar foi reduzida a uma questão de segundos. O mesmo ocorreu com a distância entre o observar e o intuir. A parir de grandes quanidades de observações possíveis, o pesquisador é levado a intuir com base em muito mais input.

A seguir listaremos as principais fontes de dados eletrônicos disponibilizadas pelas ferramentas dos programas empregados em LC:

1) Lista de palavras: oferece uma lista de palavras com a contagem de todas as palavras de um determinado texto ou conjunto de textos. A frequência de certas palavras reve- la informações diferentes e uma análise comparaiva de palavras recorrentes em um corpus de relatos em português com as de um corpus em relatos em inglês, poderá sugerir, por exemplo, determinados aspectos culturais para invesigação. A lista de palavras pode ser ordenada pela maior/menor frequência das palavras, por ordem alfabéica e por terminação.

2) Lista de palavras-chave: permite a comparação de uma lista de palavras de um deter- minado corpus com uma lista de palavras de um corpus de controle. Possibilita deter- minar quais palavras ocorrem com maior frequência estaísica no corpus de estudo comparaivamente ao corpus de referência e/ou vice-versa. A lista de palavras-chave

é uma medida da relevância estaísica das palavras do corpus e, em geral, empregada para determinar os itens a serem invesigados.

3) Lista de colocados: é a lista produzida a parir de uma palavra de busca oferecendo as palavras que mais coocorrem com a palavra de busca dentro do corpus em uma janela de cinco palavras à direita e cinco palavras à esquerda.

4) Lista de padrões linguísicos: é a lista produzida a parir do corpus oferecendo os pa- drões linguísicos que mais ocorrem com a palavra de busca. É possível determinar o tamanho do padrão linguísico por número de elementos, frequência mínima de ocor- rência e frequência mínima em relação ao número de textos.

5) Dispersão no texto: exibição gráica (em barras) que permite uma visualização da loca- lização do termo de busca nos textos do corpus. É possível, portanto, visualizar se um determinado termo ou expressão ocorre no início ou ao inal do texto.

6) Visualização do arquivo: acesso imediato ao texto de origem, bem como é possível aumentar ou diminuir o contexto no qual o termo ou expressão de busca se encontra.

Os itens acima podem dar a impressão de que a pesquisa é conduzida com base em listas demais, listas descontextualizadas, elementos gráicos estáicos, porém, cada uma das fontes de elementos para a análise citada acima está a segundos de distância uma da outra, conferindo acesso rápido e dinâmico a palavras, padrões, cotexto e texto, podendo a invesigação parir das mesmas palavras, padrões, co- texto e texto e ser redirecionada por ela.

Cabe destacar a automaização de parte do processo de análise não implica um processo linear e/ ou pré-deinido, há espaço para diversos pontos de parida e duas principais abordagens. Segundo Tognini-Boneli (2001, p. 48), a pesquisa em LC divide-se em abordagem baseada em corpus (corpus- -based) e abordagem direcionada pelo corpus (corpus-driven). Na primeira, o corpus seria usado para validar hipóteses. Na segunda abordagem, mais induiva, a pesquisa não é alavancada pelo enfoque convencional baseado em hipóteses prévias, mas é guiada pelos resultados das informações obidas que possibilitam que aspectos linguísicos até então desconhecidos e não antecipados sejam revelados (Flowerdew, 2014, p. 174).

Esta tese faz uso das duas abordagens nos Capítulos 7 e 8 (‘Análise do Corpus BRA’ e ‘Análise do Corpus EUA’, respecivamente), estando a análise baseada em corpus, polvilhada de elementos da análise di- recionada pelo corpus. Em um primeiro momento, a parir da abordagem baseada em corpus, almeja responder as perguntas de pesquisa e veriicar suas respecivas hipóteses. Em segundo lugar, em uma abordagem direcionada pelo corpus, aproveitará alguns dos elementos que vieram à tona na fase de exploração do corpus para enriquecer o aspecto críico desta pesquisa.