DESENHO DO CORPUS E REPRESENTATIVIDADE

2. FUNDAMENTAÇÃO TEÓRICA

2.1. LINGUÍSTICA DE CORPUS

2.1.4. DESENHO DO CORPUS E REPRESENTATIVIDADE

Quando tomamos por pressuposto que o corpus é o objeto de estudo da Linguística de Corpus, torna-se imperativo que falemos sobre o processo de sua construção. Assim, esta parte tem a finalidade de explanar sobre o desenho e a coleta do corpus utilizado na pesquisa. Também trataremos da representatividade do corpus, uma questão que, segundo Biber (1993, p. 243), abrange não apenas o tamanho da amostra estudada (em número de palavras ou de textos), mas o quanto a amostra inclui a gama completa de variabilidade em uma população10_{. Nesse sentido,} podemos dizer que a construção de um corpus deve estar calcada em bases sólidas, como condição imprescindível para que qualquer pesquisa da área de LC possa trazer

10_{Do inglês: “Representativeness refers to the extent to which a sample includes the full range of}

à tona resultados relevantes.

Ao se planejar um corpus de estudo, um equívoco comum entre muitos pesquisadores é a equiparação da representatividade de um corpus somente em relação a seu tamanho em palavras ou ao número de amostras (textos). Se a amostra não for representativa da população linguística ou do domínio que se deseja estudar, o tamanho da amostra não conseguirá compensar a má qualidade da construção do

corpus. Na pior das hipóteses, um corpus enorme, mas com falhas em sua construção,

poderá trazer a pesquisadores uma falsa confiança que pode, no limite, levá-los a fazer generalizações errôneas a respeito do uso da língua. Entretanto, vale ressaltar que, quando seguidas as devidas condições para a construção de um corpus representativo, quanto mais textos o pesquisador puder adicionar à sua amostra de estudo, mais expressivos serão os resultados de sua análise. Berber Sardinha (2004, p. 23) reforça a importância do tamanho do corpus, principalmente quando o objetivo é o de pesquisar a ocorrência de padrões menos frequentes no idioma:

A linguagem é um sistema probabilístico, no qual certos traços são mais frequentes que outros. No caso do léxico, pode-se diferenciar as palavras entre aquelas de maior frequência e as de menor frequência, sendo que a diferença entre elas é relativa. Assim, algumas palavras têm frequência de ocorrência muito rara e, para que haja probabilidade de ocorrerem no corpus, é necessário incorporar uma quantidade grande de palavras. Portanto, quanto maior a quantidade de palavras, maior a probabilidade de aparecerem palavras de baixa frequência.

Pode-se dizer, portanto, que a representatividade de um corpus de estudo seja medida por uma combinação de fatores e pode ser vista sob dois prismas diferentes (Egbert, 2019; Biber, 1993): um corpus pode ser representativo por apresentar uma grande variedade textual, de natureza situacional, ou uma grande variedade linguística, ou seja, a distribuição de elementos inerentes à linguagem, dentro do domínio estudado. Segundo Egbert (2019, p. 31), a representatividade de domínio determina o quão generalizável o corpus de amostragem é, em relação à população estudada. A representatividade linguística, por sua vez, determina se o corpus de estudo é apropriado para responder a perguntas de pesquisa de cunho linguístico.

Via de regra, todo o corpus que for representativo em relação ao domínio também será representativo linguisticamente, mas o oposto pode não acontecer. Também é interessante ressaltar que é mais frequente relacionar a representatividade linguística com o tamanho do corpus; enquanto a representatividade de domínio aproxima-se mais da variedade da amostragem de textos, isto é, a gama de tipos textuais presentes no corpus de estudo.

Há, entretanto, situações nas quais um corpus relativamente pequeno pode ser perfeitamente adequado para o estudo da variedade linguística ao qual se propõe. Tendo como premissa básica que sua elaboração tenha sido feita de modo adequado para representar a população estudada, há pelo menos dois casos nos quais um

corpus pequeno é considerado apropriado (GRIES, 2006, p.115): quando se estudam

as características linguísticas que apresentam uma alta frequência no registro representado no corpus de estudo e, como no caso da pesquisa descrita nesta dissertação, quando o corpus representa um domínio especializado. A justificativa para essa concessão, segundo o autor, é que “quando a definição da população se torna menor, a quantidade de variabilidade também diminui”. Assim, a representação de uma variedade textual ou característica torna-se possível mesmo com um corpus composto de poucos textos. Portanto, é possível dizer com convicção que o Sally Mann Corpus, contendo 555 textos e 764.776palavras, é representativo, por se tratar de um corpus especializado – sobre uma única fotógrafa e sua produção artística –, de cobertura ampla, uma vez que contém textos de diferentes registros, e diacrônico, abrangendo um período de mais de 30 anos.

Uma das maneiras que podem ser utilizadas para a descrição de um corpus é a sua classificação em relação ao modo como os textos que o compõe foram selecionados, de forma a revelar como a amostra de estudo se relaciona com a população total de interesse. Para que se consiga resultados relevantes, o corpus de estudo deve ser compilado de modo a representar o recorte de linguagem ao qual o pesquisador deseja dedicar seus estudos. Segundo Egbert (2019), a escolha dos textos que representarão esse recorte pode ser feita de maneira probabilística (aleatória) ou não-probabilística (por conveniência).

Quando um corpus é composto por amostragem probabilística, os textos componentes são escolhidos aleatoriamente entre a população estudada. Entretanto,

para que esse tipo de amostragem seja considerado eficiente de modo que o pesquisador consiga desenhar hipóteses a respeito do uso da linguagem em estudo, toda a população de dita variedade deve ser conhecida: todos os textos componentes da variedade textual estudada devem estar catalogados e disponíveis para consulta. Dessa forma, a porcentagem de textos escolhida aleatoriamente para compor o

corpus de estudo será, fundamentalmente, representativa desse corpus e permitirá

que o pesquisador elabore generalizações a respeito do uso da linguagem ou da variedade de texto estudada. A seleção da modalidade probabilística de amostragem pode apresentar certos desafios de ordem prática: são raros os casos em que se possa afirmar que toda a população estudada é conhecida; é possível citar como exemplo casos bem específicos, como a compilação de um corpus de estudo de todos os livros publicados por um só autor, ou todas as edições de uma revista publicadas em um período de dez anos. Para a maioria dos casos de utilização da linguagem natural, no entanto, traçar as delimitações definitivas de uma população torna-se tarefa impraticável: como conceber o todo domínio do português falado? Ou o de e- mails corporativos? Mesmo se o pesquisador estivesse disposto a compilar um imenso corpus com todas as conversas de alunos na cafeteria de uma universidade durante todo o semestre, as restrições temporais, espaciais e socioculturais fariam com que esse corpus, por maior que ele seja, ainda não fosse representativo da linguagem falada como um todo.

A segunda forma de seleção dos textos que podem compor o corpus de estudo é a por amostragem não-probabilística, ou por conveniência. Egbert (2019, p. 31-32) lembra que a palavra “conveniência” tem um significado específico no jargão dos estudos estatísticos – simplesmente, implica que a seleção de textos foi feita de modo não aleatório – e que, de maneira alguma, ela deveria apresentar qualquer conotação negativa de desleixo, ou falta de consistência, na compilação da amostra.

Forma mais apropriada ao estudo de variações do uso da linguagem cujos parâmetros de população não podem ser delimitados, a amostragem não- probabilística tem como premissa que sua representatividade se restringe à própria amostra, isto é, os resultados que emergirem do estudo do corpus compilado por amostragem não-probabilística, por mais relevantes que sejam, somente dizem respeito à própria amostra e não podem ser usados para se estabelecer

generalizações sobre a linguagem como um todo.

Para a seleção dos textos do SMC, foram levados em consideração tanto os fatores probabilísticos, quanto os não-probabilísticos: os textos componentes desse

corpus de estudo procedem de mais de 230 de fontes distintas, para que fosse

garantido que múltiplas narrativas sobre Sally Mann e sua obra fossem representadas no corpus. Entretanto, alguns limitadores, como a falta de disponibilidade de alguns artigos mais antigos em formato legível por computador, e o fato de que alguns de seus livros de fotografia não tivessem sido publicados no Brasil, fizeram com que a escolha sobre a inclusão de textos ao SMC também tivesse que passar, forçosamente, pelo crivo da conveniência e da disponibilidade do material para a análise.

No documento Pontifícia Universidade Católica de São Paulo PUC-SP (páginas 35-39)