• Nenhum resultado encontrado

Entre as in´umeras constru¸c˜oes com o infinitivo que apresentam varia¸c˜ao entre

as formas flexionada e n˜ao-flexionada, foram selecionadas para o estudo de

corpus as seguintes:4

Constru¸c˜ao 1 – Complemento adjetival Constru¸c˜ao 2 – Complemento nominal Constru¸c˜ao 3 – Per´ıfrases aspectuais/modais Constru¸c˜ao 4 – Ora¸c˜oes finais

Constru¸c˜ao 5 – Ora¸c˜oes causais Constru¸c˜ao 6 – Ora¸c˜oes relativas

Constru¸c˜ao 7 – Constru¸c˜oes com verbos de al¸camento Constru¸c˜ao 8 – Ora¸c˜oes completivas

Constru¸c˜ao 9 – Ora¸c˜oes temporais

Constru¸c˜ao 10 – ˆEnclise/Pr´oclise

4 ´

E importante ressaltar que a divis˜ao em ”categorias”inspiradas pelo estudo de Maurer Jr. foi apenas uma divis˜ao que viabilizou as buscas de ocorrˆencia ou n˜ao da flex˜ao no infinitivo em diferentes contextos sint´aticos.

Metodologia

Na medida em que a contagem de frequˆencia de ocorrˆencia de constru¸c˜oes torna poss´ıvel a identifica¸c˜ao de quais estruturas s˜ao supostamente mais arraigadas cognitivamente, estudos de corpus tˆem ganhado cada vez mais espa¸co na agenda de pesquisa da lingu´ıstica cognitiva. Ou seja, uma vez que – como sugerido pelo modelo de l´ıngua baseado no uso – h´a uma correla¸c˜ao entre a frequˆencia de ocorrˆencia das express˜oes lingu´ısticas e o grau de arraigamento dessas express˜oes nas gram´aticas dos falantes, a verifica¸c˜ao de flutua¸c˜oes na frequˆencia de ocorrˆencia ´e uma etapa importante na descri¸c˜ao e investiga¸c˜ao de fenˆomenos lingu´ısticos.

Por oferecer evidˆencias emp´ıricas que corroboram a hip´otese de que o conhecimento lingu´ıstico ´e resultado do uso efetivo da l´ıngua, o uso de corpora na lingu´ıstica cognitiva tem feito com que a lingu´ıstica de corpus seja utilizada como metodologia dentro dessa perspectiva te´orica, em uma esp´ecie de casamento te´orico-metodol´ogico que alguns rotulam de Cognitive

Corpus Linguistics (Arppe et al., 2010; Gries, 2009). ´E nesse ˆambito que este

estudo de corpus foi realizado: com o objetivo de quantificar a varia¸c˜ao no uso inst´avel do infinitivo flexionado nos contextos discutidos no cap´ıtulo 2, a

Cap´ıtulo 3. Metodologia

lingu´ıstica de corpus foi utilizada como metodologia.1 Para a manipula¸c˜ao

e extra¸c˜ao dos dados, neste estudo optei pela utiliza¸c˜ao do software livre R

(Team, 2011), apontado por Gries como o mais completo concordanceador

dispon´ıvel atualmente (Gries, 2009).

Ferramenta b´asica na Lingu´ıstica de corpus, um concordanceador ´e um programa utilizado para extrair dados de corpora eletrˆonicos. Especialmente em se tratando de corpora volumosos e n˜ao-etiquetados, ou seja, aqueles formados apenas por textos crus (raw texts), que n˜ao contˆem tipo algum de

anota¸c˜ao lingu´ıstica,2 a busca pelas constru¸c˜oes nas quais o pesquisador est´a

interessado depende fundamentalmente de programas capazes de filtrar esses textos. Por exemplo, como seria poss´ıvel procurar exemplos do uso do infinitivo flexionado em um corpus n˜ao-etiquetado como o utilizado neste estudo, que contˆem milh˜oes de sequˆencias de letras e palavras? Concordanceadores s˜ao programas que fazem exatamente isso: eles realizam buscas autom´aticas pelas palavras ou sequˆencias que s˜ao de interesse do pesquisador e recuperam os contextos nos quais as express˜oes de busca ocorrem. Supondo que o interesse seja na combina¸c˜ao “para fazermos”, por exemplo, ´e gerada uma lista de concordˆancias com a express˜ao de busca centralizada, com o contexto precedente `a esquerda e o contexto subsequente `a direita. Esses programas, por´em, n˜ao fazem a contagem dos dados, sendo que ´e tarefa do pesquisador filtrar e quantificar seus dados.

´

E importante notar, entretanto, que, embora esse tipo de busca autom´atica possa parecer tarefa de programadores, o linguista desempenha um papel fundamental na defini¸c˜ao de como as buscas devem ser realizadas, afinal ´e o linguista quem melhor pode descrever seu objeto. Al´em disso, o linguista tamb´em tem o importante papel de avaliar as listas de concordˆancias, o que pode eventualmente ter como resultado o levantamento de novas hip´oteses, que, por sua vez, podem acarretar novas estrat´egias de busca.

Com rela¸c˜ao aos concordanceadores dispon´ıveis, linguistas de corpus

1

SegundoGries(2009), a Lingu´ıstica de Corpus ´e uma metodologia que utiliza textos naturais e fer- ramentas inform´aticas para descrever a l´ıngua, podendo ser utilizada em diferentes linhas te´oricas da Lingu´ıstica. Ou seja, para o autor, assim como n˜ao faz sentido dizer que assim como experimentos psicolingu´ısticos s˜ao uma teoria, n˜ao faz sentido atribuir `a Lingu´ıstica de Corpus status te´orico.

2

Em corpora etiquetados ou anotados, os itens lexicais possuem etiquetas morfol´ogicas, gramaticais ou sint´aticas em cada item lexical, que facilitam as buscas.

tradicionalmente utilizam ferramentas comerciais que possuem interfaces

bastante amig´aveis.3 No entanto, em vez de fazer uso dessas ferramentas

tradicionais, a op¸c˜ao pelo uso do R neste estudo se deve ao fato de que, al´em de gratuito, atrav´es dele o pesquisador tem maior autonomia para definir

como suas buscas devem ser realizadas (Gries, 2009). Apesar de depender de

no¸c˜oes de programa¸c˜ao, o que, num primeiro momento pode vir a intimidar linguistas, os benef´ıcios trazidos pelo uso do R s˜ao inquestion´aveis e seu uso tem se difundido entre linguistas que realizam estudos quantitativos.

Neste cap´ıtulo, al´em de discutir quest˜oes relacionadas `a compila¸c˜ao do cor- pus utilizado para o estudo, s˜ao descritas as etapas envolvidas na manipula¸c˜ao e extra¸c˜ao dos dados a partir do software R. Para demonstrar como o processo de busca automatizada de dados com o R foi gradualmente avan¸cando, s˜ao apresentados os primeiros passos, em que apenas as fun¸c˜oes b´asicas foram utilizadas, bem como as solu¸c˜oes encontradas para os desafios que surgiram ao longo do caminho. Por fim, ap´os descrever o script final, s˜ao demonstrados os pequenos ajustes que foram feitos para realizar as buscas de cada uma das constru¸c˜oes investigadas. O objetivo geral deste cap´ıtulo ´e destacar a importante contribui¸c˜ao que o aprendizado metodol´ogico relacionado ao universo da programa¸c˜ao e da estat´ıstica, ainda que b´asico, tende a trazer para estudos lingu´ısticos.

3.1

O corpus

Para quantificar a frequˆencia de ocorrˆencia das variantes em um corpus de l´ıngua escrita culta, foi necess´ario compilar um corpus de portuguˆes padr˜ao escrito atual. Foram, ent˜ao, escolhidas as produ¸c˜oes escritas dos alunos de p´os- gradua¸c˜ao da ´area de Letras por se tratar de falantes altamente escolarizados dos quais se espera, especialmente na situa¸c˜ao comunicativa em quest˜ao – reda¸c˜ao de teses acadˆemicas, o uso da norma padr˜ao. Investigar o uso do infinitivo flexionado desse grupo de falantes, independentemente de qu˜ao diferente ele fosse do que ´e prescrito, poderia responder a seguinte pergunta:

3

O corpus

O que ´e que os alunos de p´os-gradua¸c˜ao de Letras na USP consideram o padr˜ao nos casos em que o emprego do infinitivo flexionado ´e facultativo?

O interesse espec´ıfico por falantes com alta escolaridade justifica, assim, a necessidade de compila¸c˜ao do corpus uma vez a utiliza¸c˜ao de outros corpora

j´a dispon´ıveis, tais como o NILC-S˜ao Carlos, por exemplo, n˜ao seria ´util

porque n˜ao haveria controle de quem escreveu o texto.4

O corpus compilado, formado por 180 teses e disserta¸c˜oes de alunos do

curso de Letras da Faculdade de Filosofia, Letras e Ciˆencias Sociais da USP5

recebeu o nome LLIC-P´osLetrasUsp6 e tem aproximadamente 11 milh˜oes de

palavras.

Utilizar um corpus de l´ıngua escrita para demonstrar que a mudan¸ca acontece atrav´es do uso pode parecer, num primeiro momento, contradit´orio. Entretanto, essa escolha metodol´ogica se justifica pelo fato de que a alta frequˆencia de ocorrˆencia de uma constru¸c˜ao em um corpus de l´ıngua escrita deve ser visto como um sintoma de que essa constru¸c˜ao est´a arraigada no

conhecimento lingu´ıstico dos falantes. Isto ´e, mesmo ap´os as in´umeras revis˜oes

que a modalidade escrita permite, a presen¸ca frequente de determinadas constru¸c˜oes em teses e disserta¸c˜oes redigidas por pessoas que, sup˜oe-se, tˆem um cuidado particular com o registro formal da l´ıngua sugere que tais constru¸c˜oes s˜ao o que tais falantes consideram correto gramaticalmente.

Visando a garantir o balan¸co e a representatividade do corpus, foram selecionados 30 textos de 6 diferentes ´areas: Literatura Portuguesa; Semi´otica e Lingu´ıstica Geral; Filologia; Letras Orientais (Estudos judeus, russos, japo- neses e ´arabes); Estudos Cl´assicos e Francˆes.

4

O corpus NILC – S˜ao Carlos cont´em textos brasileiros do registro jornal´ıstico, did´atico, epistolar e reda¸c˜oes de alunos, n˜ao sendo poss´ıvel controlar que tipo de falante produziu os textos porque os autores dos textos n˜ao s˜ao explicitados. Assim, mesmo que uma alta frequˆencia de ocorrˆencia do infinitivo flexionado fosse verificada nesse corpus, tal resultado n˜ao seria ´util para esclarecer quais as formas que falantes cultos est˜ao utilizando com maior frequˆencia.

5

As teses e disserta¸c˜oes est˜ao dispon´ıveis em formato .pdf no Banco de Teses da USP: http://www.teses.usp.br/

6

O LLIC – Laborat´orio L´ıngua, Intera¸c˜ao e Cogni¸c˜ao ´e o grupo de pesquisa da USP do qual sou membro e que ´e coordenado pelos professores Evani de Carvalho Viotti e Leland McCleary.

Tabela 3.1 Corpus LLIC-P´osLetrasUsp

´

Areas N´umero de textos N´umero de palavras

Literatura Portuguesa 30 1.675.619 Lingu´ıstica 30 1.370.015 Filologia 30 1.913.000 Estudos Cl´assicos 30 2.516.889 Letras Orientais 30 1.670.403 Francˆes 30 2.023.399 Total 180 11.169.325

Documentos relacionados