Esquema 4: macroestrutura do espaço semântico das relações interssentenciais
3. ASPECTOS METODOLÓGICOS
3.1. Corpus
3.1.2. Representatividade
Segundo Kabatek (2013), um corpus verdadeiramente representativo é impossível. Embora a língua se manifeste por meio de textos, a soma dos textos não equivale à soma do falar. Isso é, não podemos medir tudo que já foi dito para calcularmos que porção seria representativa da produção linguística total. Ainda segundo o autor, os linguistas têm adotado o termo representatividade da sociologia e muitas vezes supõem que a linguagem é um fenômeno social como os demais. Entretanto isso não é verdade. Não podemos usar os mesmos parâmetros que usamos para uma pesquisa eleitoral na hora de fazer um levantamento linguístico.
Para responder de forma coerente às questões de representatividade no âmbito da linguística, Kabatek (2013) chama atenção para dois fatores essenciais: o objeto que chamamos história da língua e seus dados correspondentes, e a possibilidade que o corpus nos oferece.16
Em relação ao primeiro ponto, há certa unanimidade sobre o fato de que uma das únicas possibilidades de reconstruir a história de uma língua é através de dados de um corpus. Em relação ao segundo ponto, Kabatek (2013, p. 16) adverte que ―temos que estabelecer entre sistemas linguísticos bases para a generalização de textos, e textos já produzidos, com seus aspectos formais e tradicionais‖17. No item 9.1.1., pudemos ver alguns critérios que foram usados para o design do corpus. Agora nos dedicamos a encontrar parâmetros quantitativos que possam contribuir para a representatividade. Halliday (1991, 1992 apud SARDINHA, 2000, p. 342) alega que a linguagem é um sistema probabilístico. Dessa forma, certos traços são mais fáceis de aparecer do que outros e por isso um corpus muito pequeno pode não ser muito representativo por privilegiar traços mais recorrentes em detrimento de outros mais raros. Ou seja, a representatividade está ligada à questão da probabilidade.
Biber (1993 apud KOESTER, 2010), em estudos, descobriu que os recursos linguísticos mais comuns (como contrações de pronomes, tempos verbais do presente ou passado, ou preposições) são relativamente estáveis em ocorrências de textos com 1.000 palavras. Ele também observou quantos exemplares de textos seriam necessários
16
Original: “Para plantear coherentemente la cuestión de la representatividad de um corpus tenemos que preguntarnos por dos cosas esenciales: por un lado, por el objeto mismo que llamamos historia de la lengua y los datos correspondientes, y por otro lado, por las posibilidades que nos ofrecen los corpus”. (KABATEK, 2013, p. 15)
17
Original: “Tenemos que estabelecer entre sistemas linguísticos, bases para la generación de textos, y textos ya producidos, com sus aspectos formales y tradicionales”.
para representar adequadamente um gênero no corpus e descobriu que tendências linguísticas são parcialmente estáveis com dez (ou até cincos) exemplares de textos por gêneros (BIBER, 1990 apud KOESTER, 2010, p.70). Isso significa que não é necessário ter um corpus com milhões de palavras para que sele seja confiável.
Para além disso, Flowerdew (2004 apud KOESTER, 2010) assegura que é mais importante coletar textos completos do que se preocupar em controlar artificialmente seus tamanhos. O autor também afirma que um gênero ou subgênero particular é representado por pelo menos 1.000 palavras, mesmo que elas sejam separadas em diferentes textos e que cada subcorpus deve contar com, pelo menos cinco, mas se possível dez, exemplos diferentes.
Acreditamos que os juntores são recursos linguísticos extremamente comuns por serem fundamentais para a conexão das proposições. Assim sendo, adotamos o que foi apresentado para legitimar as escolhas feitas.
As notícias dos portais escolhidos para o presente corpus não chegam a ter 1.000 palavras por exemplar, por isso optamos por fazer algumas adaptações. Primeiramente calculamos a média de cada jornal. Percebemos, contudo, que algumas notícias isoladas tinham valores extremos, elevando a média de palavras, como é o caso de uma notícia de 2.354 palavras em um jornal cuja média é 426. Com isso, preferimos recorrer à mediana que estava menos sujeita a essa influência.
Apoiando-nos nisso, estipulamos uma margem de 25% de palavras a partir da mediana de cada jornal e recortamos somente as notícias desse âmbito. Isso nos ajudou a manter um corpus mais equilibrado. O resultado até então pode ser visto neste quadro:
Tabela 1: dados de representatividade do pré-corpus. Universo estimado (Num) Universo (Palavra) Mediana (pal/not) Média (pal/not) Notícias (+/-25%) da mediana** Repres (not)* Número de palavras analisadas Repres (pal) AGOR ARN 105 35.111 290 334 43 40.95% 11.733 33,41% TRIBU NA 313 118.464 357 378 110 35,14% 39.255 33,13% NOVO 95 45.107 431 474 30 31,57% 13.388 29,68%
PORT
AL 113 48.143 380 426 43 37,71% 16.271 33,79%
Fonte: autoria própria
* Valor representacional considerando o Universo como 100% ** +/-25% De 290 igual 217-362 (Agora RN)
** +/-25% De 357 igual 268-446 (Tribuna Do Norte) ** +/-25% De 431 igual 324-538 (Novo)
** +/-25% De 380 igual 285-475 (Portal No Ar)
A representatividade percentual do número de palavras de cada jornal se equipara, mas um olhar mais atento mostra que o número total de palavras diverge bastante. Por isso, o passo seguinte foi equilibrar esse número. Partimos, então, do Agora RN que apresentava o menor número total de palavras e diminuímos as outras fontes para alcançar uma variação máxima de 10% entre elas. A representatividade foi calculada levanto em conta o Universo de cada jornal como taxa de representatividade de 100%. O resultado pode ser mais bem compreendido na tabela 2:
Tabela 2: números oficiais do corpus de notícias
Jornal Universo estimado (notícias) Universo (Palavra) Notícias selecionadas Represent. (notícias) Número de palavras analisadas Represent. (palavras) Agora RN 105 35.111 43 40,95% 11.733 33,41% Tribuna do Norte 313 118.464 34 10,86% 12.252 10,34% Novo 95 45.107 28 29,47% 12.516 27,74% Portal no Ar 113 48.143 33 29,20% 12.447 25,85% TOTAL 626 246.825 138 48.948
Fonte: autoria própria
A divergência entre o número total de palavras analisadas ficou abaixo de 1.000, contribuindo para um corpus mais homogêneo. É possível perceber, contudo, que a representatividade dos outros jornais diminuiu bastante e em especial o da Tribuna do Norte. Isso se deve ao fato de que o número de notícias do universo era muito superior ao do Agora RN e, na busca de equilibrar o número total de palavras, muitas notícias ficaram de fora do corpus final.
Para sintetizar, resumimos um pouco do que foi apresentado nesta seção com os seguintes pontos principais:
Modalidade: escrita (digital)
Tempo: Sincrônico (período do Impeachment de Dilma) Gênero: Notícias de jornal
Recorte semântico: Impeachment de Dilma Origem: Cidade de Natal
Autoria: Institucional
Conteúdo: Especializado (recorte de um gênero) Extensão: Quatro principais jornais da cidade de Natal Número de notícias: 138
Número de palavras: 48.948