A Ferramenta Hyperbase 67 - – ESTILO E QUANTIFICAÇÃO 61

CAPÍTULO 3 – ESTILO E QUANTIFICAÇÃO 61

3.2 A Ferramenta Hyperbase 67

O programa Hyperbase para análise textual de corpus de grande extensão teve sua primeira versão disponível em 1997. Embora possa ser usado para o estudo de textos de qualquer natureza, a maior vantagem desse programa em relação aos demais é que ele foi concebido tendo como objeto específico o texto literário, enquanto a maioria dos programas de estatística textual é voltada para a chamada estatística linguística. Seu idealizador, Etienne Brunet, é Ph.D. em Literatura mas, para poder concretizar o projeto de programa que tinha em mente, tornou-se estatístico e programador autodidata. Cada função, seja documental ou estatística, colocada no Hyperbase foi pensada a partir dos problemas específicos da linguagem literária ou da pesquisa nessa área.

O primeiro passo para quem quer usar um programa de estatística textual é buscar fontes seguras de onde possa retirar uma versão eletrônica que seja fiel a sua matriz impressa. Em nosso caso optamos por duas fontes. A primeira é o sítio de nosso núcleo de pesquisa, o Nupill, que digitalizou e publicou gratuitamente na internete a versão eletrônica das Obras completas de Machado de Assis, publicadas pela Nova Aguilar. Como esses volumes, na realidade, não contêm toda a obra de Machado, tivemos que buscar outra fonte para completar os contos que faltavam àquela publicação – o sítio de Cláudio Weber Abramo, que se utilizou de várias fontes secundárias para poder reunir todos os contos do autor.

Embora ambas as fontes sejam confiáveis, coube à pesquisadora fazer uma revisão das versões eletrônicas a fim de verificar se restou algum problema de escaneamento que tenha escapado à revisão dos próprios sítios. Foi o início de uma longa e árdua tarefa: a preparação

157_{MULLER, Charles. Des participes, de leurs accords, et des inquiétudes qu’ils occasionnent. In: MELLET,} Sylvie et alii. Mots chiffrées et déchiffrées : mélanges offerts à Etienne Brunet. Paris: Honoré Champion, 1998, p. 288.

dos textos para que pudessem passar pelo tratamento inicial feito pelo Hyperbase. A primeira providência tomada foi a transformação dos arquivos. Em geral eles vêm das fontes (no nosso caso, dos sítios do Nupill e de Cláudio W. Abramo) em formatos específicos para sua colocação na rede, e o programa só consegue ler arquivos em formato somente texto. Feitas as devidas revisões e uma vez limpo de qualquer formatação ou edição, o corpus ficou pronto para ser submetido ao tratamento inicial do Hyperbase.

Na fase inicial de criação da base de dados, o programa segue uma série de 12 etapas, a fim de extrair do corpus toda a informação necessária para adequá-lo à exploração de todas as funções disponíveis158_.

3.2.1 Conceitos básicos

Inicialmente, apresentamos alguns conceitos básicos utilizados na estatística textual. Como o computador trabalha com séries de códigos numéricos, ele não é capaz de diferenciar uma palavra ou sinal gráfico de outra sequência qualquer de caracteres. Para que o programa “leia” um texto, é necessário que este passe por um processo de codificação. Quando um texto é escaneado, transformado num arquivo eletrônico e gravado no disco de um computador, ele já passou pela primeira fase dessa codificação. O momento seguinte é o tratamento feito pelo programa de análise textual, que vai transformar os textos que formam nosso corpus em uma base de dados textuais. Assim, o corpus está preparado para que possamos tirar todas as informações dele, a partir das funções do programa.

Para separar uma palavra de outra, ou uma forma gráfica de outra, o usuário deve lançar mão de alguns caracteres delimitadores, que serão pedidos pelo programa na fase inicial de tratamento do texto. Daí o conceito de forma. Forma é tudo o que aparece como unidade: pode ser um sinal de pontuação, pode ser uma palavra, seja ela com ou sem carga semântica (preposições, artigos, etc.). A maioria das palavras, principalmente em corpus de grande extensão, pode se repetir em um texto. O número de vezes que tal palavra se repete é sua frequência. Se ela aparece dez vezes no corpus, ela é uma palavra de frequência 10. A cada frequência, obviamente, corresponde o contexto de sua aparição; a este contexto em que podemos localizá-la chamamos concordância. Quando uma palavra é de frequência 1, ou seja,

só aparece uma vez em todo o corpus, ela ganha uma denominação especial: ela é um hápax, outro conceito importante para nosso programa. O número de hápax em um corpus pode denotar a riqueza ou a pobreza de seu vocabulário.

O Hyperbase tem suas funções divididas em dois tipos: as de natureza documental e as estatísticas. As funções documentais são as listas de palavras contidas no corpus ou dicionários que contêm todas as palavras que nele aparecem, seja por ordem de frequência, seja por ordem alfabética. Há também o index das palavras mais frequentes; em geral, a lista padrão contém as 100 primeiras formas mais repetidas, aí incluídos os sinais de pontuação. Esse índex também pode ser visualizado por ordem decrescente de frequência ou por ordem alfabética.

Ainda nas funções documentais, podemos fazer a leitura de qualquer texto do corpus em sua íntegra, ou ainda ler as partes que o programa seleciona a partir de critérios de probabilidade estatística como as mais significativas de cada parte do corpus. Outra função documental importante é a listagem de concordâncias. Basta selecionar uma palavra ou um lema (um radical de verbo, por exemplo), que podemos ter informação sobre o número de vezes que a forma ou o lema aparece no total do corpus e em cada parte, bem como acessar cada local em que eles ocorrem, ou seja, ver as concordâncias.

Quanto às funções estatísticas, elas permitem a produção de gráficos a partir dos números relativos dos principais dados documentais, como análise em árvore e os quadros resultantes de análise fatorial.

No documento A composição do estilo do contista Machado de Assis (páginas 67-69)