• Nenhum resultado encontrado

10 REPRESENTAÇÃO E RECUPERAÇÃO DA INFORMAÇÃO

10.3 Sistemas de recuperação da informação

10.3.2 PLN e humanidades digitais

Humanidades digitais é um termo que reúne na atualidade várias disciplinas de pesquisa sobre registros culturais, atual ou não (interessam particularmente os registros culturais produzidos nos séculos anteriores), seus conteúdos na forma digital e ferramentas de leitura e análise desse conteúdo. Acrescenta-se esse tema à revisão de literatura em função da análise documental levada a efeito mais adiante. Essa área fornece as teorias e conceitos que serão aplicados naquela análise.

No Brasil, a revista Texto Digital8 reúne trabalhos de vários pesquisadores brasileiros ou não com resultados de pesquisas em humanidades digitais. Há vários outros periódicos no mundo que trata de aspectos ou áreas específicas, conforme resumo da área preparado pelo grupo de pesquisas sobre humanidades digitais da Universidade de São Paulo9.

Um elemento específico no universo do que é chamado de humanidades digitais, de um ponto de vista de uma docente em linguística, que é particularmente importante, é o conceito de “texto digital” em contraste com o conceito de texto tradicional, tanto manuscrito como impresso mecanicamente:

No caso do “texto digital”, estaremos diante de algo inteiramente diverso Neste caso, não apenas a forma de levar a informação codificada é singular, mas – fundamentalmente – o processamento da informação a ser codificada e decodificada é outro, uma vez que envolve, além da correspondência “lógico-sensorial” humana, etapas de correspondência lógica artificial. (SOUZA, 2009, p. 162).

Um texto digital, no sentido acima definido, não se limita ao que é produzido originalmente em meio digital, mas também inclui o conteúdo cultural produzido no passado que – após os devidos tratamentos técnicos – pode ser pesquisado e analisado como se fosse originalmente produzido na forma digital. Um dos projetos mais importantes nesse sentido foi o tratamento de textos clássicos gregos, incluindo sua disponibilização para acesso público, através do projeto Thesaurus Linguae Graecae10 (TLG), iniciado na década de 1970 na

8Vide sítio da revista: <https://periodicos.ufsc.br/index.php/textodigital/about>. 9Vide sítio do grupo: <http://humanidadesdigitais.org/>.

10Vide sítio do projeto: <http://stephanus.tlg.uci.edu/history.php>.

universidade estadunidense da Califórnia. No Brasil, o projeto Brasiliana USP11 com a digitalização e tratamento da biblioteca pessoal de José Mindlin, também é um exemplo de projeto nesse sentido. Ambos os projetos tratam importantes documentos e seus conteúdos, amostras relevantes de elementos de nossa cultura e os disponibilizam.

Tais projetos ilustram tratamentos de textos antigos. As pesquisas sobre humanidades digitais não se limitam a esse tipo de texto, mas é ele que aqui interessa em função da já mencionada pesquisa documental. Nesse contexto, o processamento da linguagem natural (PLN) tem atuado conjuntamente com as pesquisas em humanidades digitais, inclusive com o que tem sido chamado de filologia digital, fornecendo várias ferramentas de software que permitem desenvolver pesquisas com mais eficiência, inclusive pesquisa no sentido de busca e recuperação da informação, já que um texto antigo apresenta vários problemas para a pesquisa em SRIs contemporâneos e, como é defendido nesta tese, também nos sistemas que serão utilizados nos próximos séculos.

De fato, as ferramentas de apoio às humanidades digitais permitem projetos ambiciosos como a centralização de vários tipos de documentos, em várias línguas e registros temporais, como no exemplo de tratamento dos registros num museu (KOOLEN et al., [200?]). Em função das especificidades de cada língua, ferramentas de software precisam ser produzidas, testadas e aprimoradas para cada vernáculo. Para o caso da língua portuguesa, tanto de Portugal como do Brasil, há iniciativas de projetos nesse sentido. Um projeto da Biblioteca de Évora em Portugal resgata uma amostra de registros do português antigo.

O plano de investigação, as tarefas, a metodologia e os resultados previstos visavam, pois, alcançar um maior conhecimento das fontes metalinguísticas do português, contribuir para o seu espaço na rede e para o avanço da investigação sobre a língua portuguesa e a sua memória (GONÇALVES; BANZA, 2013).

Para o estudo de textos na forma digital, o conceito de corpus é fundamental e se refere ao conjunto documental objeto de tratamento – através de ferramentas de software baseadas em PLN – para posterior pesquisa, sobre as etapas para construção:

A vida útil de um córpus pode ser dividida em quatro etapas: projeto, compilação, anotação e uso. A etapa de projeto consiste na definição dos objetivos do córpus e na tomada de decisões a respeito de sua constituição. A etapa de compilação envolve a estratégia de coleta de textos, conversão para o formato digital (caso ainda não estejam) e pré-processamento desses textos. Na etapa de anotação (opcional), os metadados dos textos (por exemplo, informações estruturais de parágrafos e capítulos ou informações lingüísticas nos níveis morfossintático e sintático) são identificados e anotados para uso em ferramentas de processamento de córpus. Por

11Vide sítio do projeto: <http://www.brasiliana.usp.br/>.

fim, o córpus é então usado para as pesquisas para as quais foi originalmente concebido. (CANDIDO JUNIOR, 2008, p. 18).

A partir da escolha e tratamento, obtém-se a versão digital do corpus, que não se limita apenas à uma versão digitalizada, mas sim na forma de texto digital, editável e tratado com editores comuns de texto ou também disponíveis em linguagens de marcação como HTML ou XML. Mas essas novas versões em texto digital também precisam de ferramentas de apoio para o tratamento adequado do vernáculo e de seu léxico (elementos linguísticos), como dicionários específicos adaptados a esse contexto. Sobre dicionários nesse contexto:

O léxico computacional, ou dicionário, é uma estrutura fundamental para a maioria dos sistemas e aplicações de PLN. Trata-se de uma estrutura de dados contendo os itens lexicais de uma língua e as informações correspondentes a estes itens. Esses itens podem ser palavras isoladas (como lua, mel, casa, modo) ou composições de palavras com um significado específico (por exemplo, lua de mel ou Casa de Cultura ou a grosso modo). (MUNIZ, 2004, p. 5).

O português brasileiro já possui dicionários para aplicações em PLN, um deles está integrado ao aplicativo UNITEX12 no padrão DELA (Dictionnaires ´electroniques du d’informatique documentaire et linguistique) da Universidade de Paris 7, na França. O processo de criação desse dicionário compreendeu três etapas, “ projeto e implementação dos dicionários DELAS e DELAF, o projeto e implementação do dicionário DELACF e o desenvolvimento da biblioteca para acesso e manipulação ao UNITEX-PB” (MUNIZ; NUNES; LAPORTE, 2008, p. 5).

Tanto a ferramenta de software UNITEX na versão português brasileiro (UNITEX-PB) como os dicionários na citação anterior serão utilizados na análise documental desta tese.

10.4 Considerações finais desta seção

Esta seção tratou do processo de representação da informação, do ponto de vista da ciência da informação e do processo de recuperação da informação do ponto de vista da ciência da computação. Tratou-se com mais profundidade de modelos para recuperação da informação, pois essa análise permite a compreensão adequada das relações com a teoria linguística da mudança linguística (ML) que será aplicada ao longo da pesquisa. Concluiu-se com uma breve análise das relações entre teorias linguísticas de maneira geral e os dois

12<http://www-igm.univ-mlv.fr/~unitex/>.

processos independentes e inter-relacionados aqui analisados: representação e recuperação da informação. Também foram incluídos nas análises desta seção técnicas de processamento de linguagem natural. Tanto o processo de representação, como também o processo de recuperação da informação apoiam a elaboração do objetivo específico um, o quadro sinóptico. As considerações sobre o processamento da linguagem natural serão aplicadas no objetivo específico da análise documental.

É importante esclarecer que ao abordar de maneira ampla o processo de recuperação da informação não pretendemos fazer um recorte sobre tecnologias específicas como a RI na Internet ou em sistemas do tipo desktop. Estamos pesquisando os efeitos da mudança linguística em futuros sistemas de RI e não é possível antever qual tecnologia atual será a mais utilizada no futuro, ou mesmo se qualquer uma delas, a exemplo da duas aqui citadas, ainda será utilizada. Assim, ao tratar do processo de recuperação da informação, objetivamos extrair noções conceituais gerais sobre este processo. Mas, principalmente, tanto ao tratar de recuperação da informação como também da representação da informação nosso objetivo foi explorar as relações entre esses processos e a língua, notadamente a relação de dependência com a língua. É com este intuito que estão nesta seção as subseções sobre linguística nos processos de representação e recuperação e a análise dos modelos de RI em sua relação com a língua e mudança linguística.