• Nenhum resultado encontrado

O número mínimo de ocorrências a ser colhido em cada texto foi determinado a partir da metodologia exposta em Woods, Fletcher & Hughes 1986 e em Te&s&itelová 1992, e leva a gráficos semelhantes a P5a; essa figura mostra ter-se atingido, próximo das 150 ocorrências, um patamar de estabilidade nas proporções relativas entre SVC (a ordem preferencial7) e as demais, considerando-se textos dos séculos XIII e XX – os extremos do

intervalo de amostragem: 0 10 20 30 40 50 60 70 80 90 0 50 100 150 200 250 XIII XX

Fig. PN.5a – Comportamento da base de dados em relação a um único traço sintático (número X porcentagem de ocorrências).

A metodologia empregada na confecção do gráfico acima diminui as diferenças individuais existentes entre os textos de um mesmo século, fazendo com que a cada século corresponda a média dos valores de cada texto; por outro lado, uma curva ajustada (cf. Vieira 1975) aos pontos deixa claro que, com base nos dados coletados até o momento e para o estilo de texto utilizado na amostragem e constituição do corpus, há uma mudança na ordem de colocação de constituintes. O procedimento mostra ainda que esse decréscimo

7 Testes feitos para o par de constituintes A e N sugerem uma tendência à horizontalização da curva entre 100 e 125

ocorrências/texto/século (Oc/TS); para os constituintes S-V-C, o patamar da curva é atingido em torno de 150 Oc/TS. Na coleta de ocorrências, buscou-se observar esse número como limite inferior, a fim de que se pudesse trabalhar com uma margem de segurança.

ultrapassa os limites da simples variação individual ou dialetal presente nos textos, refletindo, outrossim, um aspecto evolutivo do sistema. Observe-se, ainda, que essa evolução se dá segundo um perfil sigmoidal, que é justamente o esperado como representante da mudança não-catastrófica de um parâmetro (Lightfoot 1991; Shen 1991; Niyogi & Berwick 1994 1995; Goertzel 1995a 1995b; Kirby 1997) decorrente da competição gramatical entre variantes (Kroch 1994). O mesmo perfil é apresentado por Batali (1998), em simulações feitas com redes neurais, corroborando a viabilidade e a propriedade do tratamento numérico como elemento de análise das ocorrências reais.

Os motivos que levaram à construção das bases de dados no MS Excel foram a portabilidade dos arquivos .XLS e o grande número de funções que o programa oferece para o tratamento estatístico de dados. Procedeu-se à criação de um arquivo de ocorrências, codificações e tratamento para cada língua, separando-se em pastas individuais os dados de cada texto; depois dessas pastas, seguem as referentes ao tratamento estatístico – uma para cada fator e seus desdobramentos (como, por exemplo, o cruzamento com outros e os gráficos correspondentes aos resultados numéricos), na mesma seqüência em que constituem cada pasta: ordem de constituintes, peso de S e de C, ambiente oracional, regência do verbo, tempo do verbo, classe semântica do verbo, agentividade, conjugação verbal e item lexical.

Para a contagem de ocorrências, o MS Excel oferece duas alternativas principais, cada qual com suas vantagens e desvantagens – uma totalmente automática, que envolve uma fórmula simples de contagem num intervalo definido, e que é sensível a quaisquer retificações ou alterações na base original; e uma absolutamente manual, que se presta à busca de valores / atributos de forma mais livre (por exemplo, se se deseja apenas verificar, de maneira prospectiva, o comportamento de um conjunto de dados). A primeira exige a definição de um intervalo de células dentro do qual os valores (numéricos ou não) devem ser buscados e contados, e retorna unicamente o valor numérico igual ao total de tokens encontrados. Dessa forma, as células das tabelas de tratamento numérico são interligadas, e uma alteração numa delas resulta no ajuste das demais, até que toda a cadeia seja recalculada e, em última instância, todos os dados sejam lançados em gráfico (cf. Figs. PN.6a e PN.6c). É necessário, obviamente, ater-se ao formalismo imposto pelo programa e cuidar para que todas as etapas estejam corretamente definidas em termos de parâmetros e

de referências; contudo, o tempo dispendido nessa fase é compensado pela confiança que se ganha no tratamento dos dados e nos resultados. Em outras palavras, a obtenção de um perfil como o da Fig. PN.5b (idêntica à Fig. I1, para as proporções de AN em textos italianos), em que há um máximo local no século XVIII que 'quebra' a curva decrescente que vinha sendo construída desde o século XV, não é analisada como decorrência de erro de digitação, mas como o resultado de um comportamento excêntrico de um dos textos desse século em termos da relação AN/NA.

Italiano

evolução da freqüência relativa de AN

0 10 20 30 40 50 60

XV XVI XVII XVIII XIX XX

século

% % AN

Linear (% AN)

Fig. PN.5b – demonstração do resultado gráfico do tratamento automático de ocorrências: a dispersão de pontos diante de retas de regressão linear ou de curvas que indicam as tendências do conjunto é atribuída às peculiaridades de alguns textos.

A segunda alternativa implica a associação de um filtro (Data>Filter>AutoFilter) a um intervalo de células qualquer; esse filtro é acionado manualmente através da seleção de um dos valores compreendidos no intervalo de amostragem, e retorna o número de tokens que detêm a característica selecionada além de isolar as linhas que contém esses traços. Os filtros podem, por fim, ser concatenados, combinando-se os critérios de classificação das ocorrências (Fig. PN.6b).

fórmula que faz a contagem do número de ocorrências de AN na pasta referente ao texto Sermoni del divo Bernardo, do séc. XV, e retorna esse valor para a célula C4 da pasta corrente ('estatística geral').

Os valores de C4 (AN) e de C8 (NA) do mesmo texto

são contados

automaticamente. A soma desses valores dá o total de ocorrências colhidas no mesmo, que é utilizado no cálculo da porcentagem de AN encontrada no texto; esta, por sua vez, é usada para calcular a média dos valores de AN para cada

século, a qual é

imediatamente lançada no gráfico.

Fig. PN.6a – Descrição sumária do funcionamento do primeiro método de contagem e de cálculo de valores

utilizados na confecção dos gráficos com o MicroSoft Excel. As fórmulas relacionam as células de várias planilhas, interligando-as e diminuindo a probabilidade de erro graças à automatização dos procedimentos de cálculo e de plotagem.

parâmetros de classificação ocorrências

linhas que correspondem à combinação dos fatores VC / 3 / α para as ocorrências do texto Expositione del Reverendissimo(séc. XV).

Fig. PN.6b – Descrição sumária do funcionamento do segundo método de contagem e de cálculo de valores utilizados na confecção dos gráficos com o MS Excel. A seleção dos parâmetros definidos em colunas (assinala-se aqui, em azul, o cruzamento dos traços [ordem: VC], [ambiente oracional: subordinadas] e [tempo do verbo: finito]) mostra as ocorrências a que esses traços foram atribuídos em conjunto. O próprio programa conta essas ocorrências e informa, no mesmo campo, o total de ocorrências do texto.

Documentos relacionados