• Nenhum resultado encontrado

M a n u a l Corpus Histórico do Português Anotado Tycho Brahe

N/A
N/A
Protected

Academic year: 2022

Share "M a n u a l Corpus Histórico do Português Anotado Tycho Brahe"

Copied!
57
0
0

Texto

(1)

Corpus Histórico

do Português Anotado Tycho Brahe

M a n u a l

M ó d u l o d e P r e p a r a ç ã o d o s T e x t o s

V e r s ã o P r e l i m i n a r

j u n h o , 2 0 0 5

M a r i a C l a r a P a i x ã o d e S o u s a

P r o j e t o s R e l a c i o n a d o s :

Padrões Rítmicos, Fixação de Parâmetros e Mudança Lingüística Projeto Temático -

F A P E S P

04/03463-0

(2)

a p r e s e n t a ç ã o

Esta é a versão preliminar do Manual de Preparação dos Textos para o Corpus Histórico do Português Anotado Tycho Brahe, disponível em

<http://www.ime.usp.br/~tycho/corpus>

O sistema de prepração de textos aqui delineado resulta dos trabalhos desenvolvidos no projeto “Memórias do Texto: Aspectos tecnológicos na construção de um corpus histórico do português” (FAPESP 04/03462-4), junto à equipe técnica formada no âmbito do Projeto Temático “Padrões Rítmicos, Fixação de Parâmetros e Mudança Lingüística” (FAPESP 04/03463-0).

O Manual é composto de duas partes:

Na Parte I - Introdução, apresentam-se um histórico das atividades junto ao Projeto, uma visão geral do novo sistema de preparação, e um resumo do estado atual dos trabalhos e suas metas próximas .

Na Parte II - Procedimentos, apresenta-se um detalhamento do novo sistema de preparação dos textos em suas três etapas: Transcrição e Anotação; Edição;

Geração de Produtos.

Há ainda um Apêndice, com a versão impressa de alguns dos arquivos utilizados no processamento dos textos.

Adicionalmente, na Versão Eletrônica do Manual podem-se consultar os textos em rede e experimentar a versão-teste do Catálogo Dinâmico:

<http://www.ime.usp.br/~tycho/corpus/manual>

(3)

Corpus Histórico do Português, Módulo de Preparação dos Textos – Equipe Técnica:

Maria Clara Paixão de Sousa (coord. –

<mariaclara@gmail.com>

) Anna Carolina Garcia de Souza

Milene Ortega colaboradores:

Gilcélia Menezes

Cristiane Namiuti

Alexandre Pioli

Daniel Störbeck

Thorsten Trippel

(4)

Índice Geral

a p r e s e n t a ç ã o...2

I. I n t r o d u ç ã o...5

1. Histórico... 5

1.1 O sistema de preparação de textos na Fase I... 6

1.2 Concepção do sistema de preparação ampliado... 8

2. Visão geral do sistema de preparação ... 9

2.1 Resumo das Etapas... 9

2.2 Exemplo de um texto anotado e suas versões... 11

3. Estado da Arte e Perspectivas... 19

3.1 Seleção e Transcrição de Novos Textos... 19

3.2 Desenvolvimento do sistema de anotação e edição... 20

3.3 Testes para a geração de produtos e formas de acesso com base na nova anotação... 22

3.4 Adequação dos textos da Fase I ao novo sistema... 25

II. P r o c e d i m e n t o s...28

0. Informações Preliminares... 28

0.1 Estruturas de Diretório... 29

0.2 Sistema de nomeação dos arquivos... 30

0.3 Documentação de Anotação... 31

1. Transcrição e anotação da estrutura bruta ... 35

1.1 Procedimentos para a transcrição... 35

1.2 Procedimentos para a anotação da estrutura bruta ... 36

1.3 Procedimentos para a adaptação dos textos da Fase I... 40

2. O sistema de edição ... 41

2.1 Procedimentos para a Edição Completa – Textos da Fase II... 41

2.2 Diretrizes de Edição - esboço... 43

2.2 Procedimentos para a Edição Técnica – Textos da Fase I... 45

3. As transformações XLST... 46

3.1 Procedimentos de ativação... 46

3.2 Programações de Transformação atuais... 48

4. O Catálogo Dinâmico ... 49

4.1 Resumo... 49

4.2 Catalogação: cabeçalhos de <metadata>... 51

4.3 Buscas e Geração de versões... 56

(5)

I. I n t r o d u ç ã o

1 . H i s t ó r i c o

O Corpus Histórico do Português Anotado Tycho Brahe é composto atualmente por 42 textos escritos por autores portugueses nascidos entre os séculos 16 e 19, num total de 1.851.619 palavras.

Esses textos foram digitalizados, anotados e colocados à disposição na rede mundial de computadores ao longo da primeira fase do Projeto Temático Padrões Rítmicos, Fixação de Parâmetros e Mudança Lingüística (1998-2004) . O processo de trabalho com o material do Corpus nessa Fase I era um sistema constituido de três ciclos:

(1) Ciclos do Sistema de Anotação Tycho-Brahe na Fase I:

I. A codificação de material extra-lingüístico;

II. A etiquetação morfológica;

III.A anotação sintática.

Com base nesse primeiro sistema de anotação, o Corpus se desenvolveu como material para diversas pesquisas lingüísticas1.

Na segunda fase dos trabalhos junto ao Corpus, iniciada em 2005, temos como objetivo aprofundar os avanços obtidos quanto à anotação morfológica e sintática, e ainda aproveitar o valor potencial do Corpus em outros âmbitos. Para isso, estamos desenvolvendo um novo sistema de preparação dos textos, ou seja, de procedimentos que antecedem as análises automáticas (morfológica e sintática).

Na Fase II, o sistema de anotação está concebido em dois módulos:

(2) Módulos do Sitema de Anotação Atual:

I. Módulo de Preparação

1) Transcrição, Anotação e Edição 2) Geração de Produtos

II. Módulo de Análise Automática 1) Etiquetação morfológica;

2) Anotação sintática.

O objetivo central do processamento dos textos no Corpus na Fase I era o de fornecer com agilidade e precisão um grande volume de dados para a análise linguística. Na Fase II, queremos consolidar esse objetivo, e ainda potencializar o uso do Corpus para outras finalidades. Para isso, o ciclo que antecede a análise das ferramentas automáticas foi expandido, transformando-se no novo sistema de preparação descrito ao longo deste Manual.

O sistema de preparação da Fase I é resumido a seguir, para que se possa compreender as bases do sistema atualmente em desenvolvimento.

1 A produção científica desta fase está disponível via

<http://www.ime.usp.br/~tycho/papers/files/papers.html>

(6)

1. 1 O si ste m a de pr epara ção de tex tos na Fa se I

Os textos da Fase I do Corpus foram digitalizados a partir de edições impressas; na grande maioria, por escaneamento; em alguns casos, por digitação. Os textos escaneados passavam por um processo de “limpeza”, a chamada Primeira Revisão, durante a qual os eventuais erros de processamento da ferramenta do scanner (OCR) eram solucionados. Isso era realizado pelo trabalho de dupla leitura, com dois membros da equipe técnica comparando o texto original e o escaneado.

Nesta mesma etapa, aplicava-se a anotação de material “extra-lingüístico”. Em todo o processo, para cada texto de 50.000 palavras, eram necessárias 60 horas de trabalho com dois membros da equipe, sendo 50 horas para a limpeza e primeira revisão, e 10 horas para a revisão final. Estas etapas eram assim resumidas no Manual da Fase I2:

(3) Resumo da Etapa de Preparação na Fase I (cf. Manual 1998-2003):

“ T h e f o l l o w i n g s t e p s a r e n e c e s s a r y i n o r d e r t o p r e p a r e t h e d a t a t o b e s u b m i t t e d t o a u t o m a t i c m o r p h o l o g i c a l t a g g i n g :

t o s c a n t h e d a t a : w e a r e u s i n g a H e w l e t t P a c k a r d S c a n J e t 5 1 0 0 C s c a n n e r , a c c o m p a n i e d b y t h e H P P r e c i s i o n S c a n

s o f t w a r e w i t h H P i n t e l l i g e n t s c a n n i n g t e c h n o l o g y ( v e r s i o n 1 . 0 1 - 1 9 9 8 ) , w h i c h r u n s i n a I B M P e n t i u m 4 0 0 w i t h 1 2 8 M B o f R A M . T o s c a n 2 5 0 w o r d s ( = 1 p a g e ) , 3 m i n a p p r o x i m a t e l y a r e s p e n t ;

t o c l e a n t h e d a t a , i . e . t o m a k e a f i r s t r e v i s i o n o f t h e s c a n n e d t e x t b a s e d o n t h e o r i g i n a l o n e , a n d t o i s o l a t e f r o m t h e t e x t a l l t h e n o n - r e l e v a n t l i n g u i s t i c i n f o r m a t i o n , a s t e x t e d i t i o n , e d i t o r ' s c o m m e n t s , h e a d i n g s , p a g e

n u m b e r s , a n d s o o n , u s i n g a n a n n o t a t e d s y s t e m f o r e x t r a - l i n g u i s t i c m a t e r i a l ;

t o m a k e a f i n a l r e v i s i o n o f t e x t s ” .

A codificação do material “extra-lingüístico” mencionada em (3) acima tinha como objetivo central adaptar os textos às necessidades das ferramentas automáticas de análise (etiquetador e parser), como se reproduz a seguir ainda com base no Manual da Fase I:

(4) Detalhamento do sistema de preparação na Fase I (cf. Manual 1998-2003)::

“The Tycho Brahe Annotation System for Extra-linguistic Material

A s p r o p o s e d i n B r i t t o & F i n g e r ( 1 9 9 9 ) , a n a n n o t a t e d s y s t e m f o r e x t r a - l i n g u i s t i c m a t e r i a l c o d i f i c a t i o n e n c a p s u l a t e s i n f o r m a t i o n s a s t e x t e d i t i o n [ 1 a ] , e d i t o r ’ s c o m m e n t [ 1 b ] , r e s e a r c h e r ’ s

c o m m e n t [ 1 c ] , h e a d i n g s [ 1 d ] , p a g e n u m b e r [ 1 e ] , a n d t h e e n d o f a ( c o m p l e x ) s e n t e n c e , w h e n i t i s n o t i n d i c a t e d b y t h e e d i t o r

[ 1 f ] : [ 1 ] a .

< e d i t i o n > C h a g a s , F r . A n t ó n i o d a s ( 1 9 3 9 ) C a r t a s E s p i r i t u a i s

( s e l e ç ã o , p r e f á c i o e n o t a s p o r R o d r i g u e s L a p a ) . L i s b o a , L i v r a r i a S á d a C o s t a . < / e d i t i o n >

b .

< c o m m e n t > ( C a r t a s E s p i r i t u a i s , I I , 7 5 ) . < / c o m m e n t >

p r o u v e r a < c o m m e n t > p r o [ u ] v e r a < / c o m m e n t > a D e u s ( . . . ) c .

< c o m m e n t h . b r i t t o > v e r s i o n f r o m M a y , 1 8 1 9 9 9 < / c o m m e n t >

2 Ainda disponível em <http://www.ime.usp.br/~tycho/corpus/manual/introduction.html>

(7)

d .

< h e a d i n g > C A P Í T U L O I I - C o m o o A r c e b i s p o c h e g a a M a f r a

< / h e a d i n g >

e .

< P _ 1 2 >

f .

< n l ( n e w l i n e ) s i m b o l : " A c e i t e V . M . e s t a c o m o d e r r a d e i r o s a b r a ç o s , e p e r d ô e - m e s e m e n ã o l a r g o n a s l e t r a s , p o r q u e a s l á g r i m a s , q u e m e i m p e d e m o c o r r e r m a i s c o m e s t a p e n n a , é a p e n a q u e s ó m e o b r i g a a q u e n ã o c o r r a m m a i s q u e a s l á g r i m a s < n l > D e u s g u a r d e a V . M . c o m o d e s e j o . "

F o r c o m p u t a t i o n a l r e a s o n s , w o r d s w h o s e c h a r a c t e r s a r e n o t i n c l u d e d i n t h e L a t i n - 1 A l p h a b e t ( I S O 8 8 5 9 - 1 )

( s e e h t t p : / / w w w . f m i . u n i - p a s s a u . d e / ~ r a m s c h / i s o 8 8 5 9 - 1 . h t m l ) a r e t r a n s c r i p t e d b a s e d o n P o r t u g u e s e M o d e r n o r t h o g r a p h y . F o r t h e s a m e r e a s o n , p e r i o d s , q u e s t i o n m a r k s a n d e x c l a m a t i o n p o i n t t h a t d o n ' t i n d i c a t e t h e e n d o f c l a u s e s a r e e l i m i n a t e d f r o m t e x t s . A l l t h e s e m o d i f i c a t i o n s a r e p r o p e r l y c o d i f i e d , a s i n [ 2 ] .

[ 2 ] a .

s e m o b r a r a l g u m a < o r i g i n a l > a l g ~ u a < / o r i g i n a l > c o u s a b .

e s c r e v o a V o s s a E x c e l ê n c i a < o r i g i n a l > V . E x . a < / o r i g i n a l > d e P a r i s , ( . . . )

c .

p a r a s e c o m p r a r Z e l a n d a p o r 1 0 0 0 0 0 < o r i g i n a l > 1 0 0 . 0 0 0

< / o r i g i n a l > e s c u d o s , ( . . . ) d .

v i ú v a s , l a v r a d o r e s e t c < o r i g i n a l > e t c . < / o r i g i n a l > , e o m e s m o p o d e m f a z e r ( . . . )

e .

( . . . ) c o m v i ú v a s , l a v r a d o r e s , e t c < o r i g i n a l > e t c . < / o r i g i n a l >

< n l >

f .

( . . . ) p o r e i p o r v o s s a s c o u s a s a v i d a " . < o r i g i n a l > . " < / o r i g i n a l >

g .

( . . . ) o s d a d e s e s p e r a ç ã o : " N ã o e r a m e l h o r m o r r e r a f e r r o q u e d e c a u t e l a s " ? < o r i g i n a l > ? " < / o r i g i n a l >

h .

( . . . ) a B e l c h i o r F e r n a n d e s C o r r e a , ( q u e f o i c o m o p r o t e s t o a o V i l l a - L o b o s ) . < o r i g i n a l > . ) . < / o r i g i n a l > “

O sistema da Fase I atingia satisfatoriamente seus objetivos: possibilitava a produção de textos limpos de material sem relevância para a análise automática, como comentários de editores (cf. [1]

em (3) acima); e limpos de material de difícil processamento na análise automática, como os caracteres alheios ao Latin-1 Alphabet ISO8859-1 (cf. [2] em (3) acima).

Na Fase II, além desses objetivos, temos como meta reestruturar o Corpus de modo a otimizar os processamentos automáticos, e também potencializar o uso do Corpus – considerando-se o valor dos textos como fonte de pesquisa para outras áreas do conhecimento, e a importância da preservação e divulgação de um patrimônio histórico e cultural livremente disponível via rede mundial de computadores.

Para isso, foi concebido um novo sistema de preparação de textos, resumido a seguir.

(8)

1. 2 C on cepç ão do s is tem a de prep ara ção am p lia do

1.2.1 Contexto

O novo sistema de preparação dos textos se contextualiza na nova fase do Projeto Temático Padrões Rítmicos, Fixação de Parâmetros e Mudança Lingüística (FAPESP 04/03463-0)3, ao longo da qual os trabalhos de codificação linguística serão ainda intensificados, e o volume de informações a serem incluidas no corpus, bem como sua complexidade, serão potencializados. Com isto, tornar-se-há crucial estabelecer um sistema pelo qual seja possível “seguir o rastro” das sucessivas etapas de processamento dos textos, entre a digitalização de originais (impressos e manuscritos), sua edição, e transformação em estruturas computacionalmente analisáveis.

A extensão do Corpus, para além de uma ampliação quantitativa, pode ser concebida como uma transformação estrutural que multiplique o alcance e os objetivos desta reunião de textos. Ao se incorporarem importantes avanços nas tecnologias de texto, e por ser possível contar com os balanços da experiência na primeira fase de sua implantação, a nova etapa do Corpus pode significar a otimização dos investimentos de tempo, trabalho e recursos já a ele dedicados, potencializando a capacidade deste produto como gerador de conhecimento em diferentes campos e magnetizador de interesses variados da parte de diferentes tipos de usuários. Nesta nova fase, os textos, além de servirem aos propósitos de análise pelas ferramentas computacionais, podem passar a ser objetos de interesse em si mesmos, ampliando de fato os destinos do Corpus. Ao interesse linguístico- computacional intrínseco do Corpus, podem agregar-se interesses de outras áreas do conhecimento, como a teoria literária e a história; e ao tornar os textos mais confortáveis à leitura humana, o Corpus pode se tornar alvo de interesse para um público não-acadêmico, conferindo-lhe assim uma propriedade de preservação e difusão de documentos de grande valor histórico e cultural.

A proposta desse novo sistema se desenvolve atualmente no âmbito do projeto de pesquisa

“Memórias do Texto: Aspectos tecnológicos na construção de um corpus histórico do Português” (Pós-Doutorado - FAPESP 04/03462-4, Maria Clara Paixão de Sousa)4, a partir das diretrizes técnicas iniciais delineadas no artigo “Single source processing of Historic corpora for diverse uses”, (Trippel e Paixão de Sousa, 2004)5

1.2.2 Objetivos

O novo sistema de preparação de textos parte do desafio de fazer o Corpus funcionar em múltiplas dimensões, buscando prepará-lo tecnologicamente no sentido de combinar um controle rigoroso do processamento linguístico dos textos e a multiplicidade de alcances do produto final.

A aplicação das tecnologias de texto objetiva garantir o controle e a flexibilidade do processamento do material trabalhado. Esta estrutura será construida pela anotação em linguagem XML, que pode codificar um grande volume de informações, transformando-as em em estruturas eletronicamente legíveis que sirvam de base para a geração ágil e controlada de versões variadas dos documentos.

Na Seção 2 a seguir, apresenta-se uma visão geral desse novo sistema de preparação.

3 cf. Projeto completo em <http://www.ime.usp.br/~tycho/prfpml/index_2.html>

4 cf. Projeto completo em <http://www.ime.usp.br/~tycho/participants/psousa/memorias/index.html>

5 O artigo foi apresentado na ALLC/ACH 2004: Joint International Conference of the Association for Literary and Linguistic Computing and the Association for Computers and the Humanities, Universidade de Göteborg, Suécia, 11 a 16 de Junho de 2004.

(9)

2 . V i s ã o g e r a l d o s i s t e m a d e p r e p a r a ç ã o

2. 1 R es um o d a s E ta pa s

O processo de produção dos textos eletrônicos do Corpus Histórico envolve as seguintes etapas:

1) Transcrição e Anotação Inicial:

Os documentos-fonte (atualmente, materiais impressos ou digitalizados sob forma de figuras) são transcritos, e concomitantemente anotados quanto à estrutura bruta (cf. 3.2.1 a seguir);

2) Edição:

Os textos assim preparados são editados quanto à variação de grafia (cf. 3.2.2 ; essa etapa equivale também a uma revisão da transcrição);

3) Inclusão no Catálogo:

Os textos com anotação completa (estrutura bruta e edição) são gravados no servidor e listados em um documento-chave que unifica todos os arquivos do Corpus (cf. 3.3.2 a seguir).

4) Geração de Versões:

A partir de cada documento que passou pelos passos (1) a (3) acima, é possível gerar diferentes versões. Isso é realizado por um comando que ativa uma transformação via XLST, uma linguagem que consegue ler e re-estruturar documentos anotados com XML.

Os arquivos XLST estão também armazenados no servidor; o usuário final pode ativá-los através do Catálogo Dinâmico (cf. 3.3.1 a seguir);

5) Uso final:

As diferentes versões geradas via XLST podem ser acessadas por usuários finais externos (para leitura, armazenamento e pesquisa lingüística, etc.), e também pelos usuários internos (ou seja, podem alimentar as ferramentas de análise morfológica e sintática – cujos resultados, por sua vez serão a seu tempo disponibilizados externamente).

O diagrama a seguir explicita graficamente esse fluxo de operações:

(10)

Diagrama (1)

(11)

2. 2 Ex em pl o de um te x to a nota do e s u as vers ões

Tomando o texto-piloto (a “História da Província de Santa Cruz”, de Magalhães de Gandavo6), mostra- se a seguir a página 4v do original em em cinco etapas:

i. O texto original fac-similar:

Esta é a página de exemplo do texto original; trata-se de uma figura (arquivo .GIF) obtida por fotografia digital. O fac-simile foi colocado a público no sítio-web da Biblioteca Nacional de Lisboa: <http://purl.pt/121>

ii. A transcrição com a anotação XML completa:

Este é um exemplo de transcrição e a anotação original em XML7, com base na qual diferentes versões podem ser geradas (cf. iii, iv e v a seguir). O exemplo é parte do documento

<http://www.ime.usp.br/~tycho/corpus/texts/xml/g_008.xml>

iii. A versão que preserva as grafias originais:

Esta versão obtém-se pela aplicação de transformação XSLT sobre o arquivo XML exemplificado acima (cf. ii), gerando um novo documento (.html ou .txt) que contém apenas as grafias originais. O esquema neste caso está programado no arquivo:

<http://www.ime.usp.br/~tycho/cgi-bin/original.xslt>

iv. A versão com as grafias modernizadas:

Esta versão obtém-se pela aplicação de transformação XSLT sobre o arquivo XML exemplificado acima (cf. ii), gerando um novo documento (.html ou .txt), que contém apenas as grafias modernizadas. O esquema neste caso está programado no arquivo:

<http://www.ime.usp.br/~tycho/cgi-bin/edversion.xslt>

v. O léxico das edições realizadas:

Esta versão obtém-se pela aplicação de transformação XSLT sobre o arquivo XML exemplificado acima (cf. ii), gerando um novo documento (.html ou .txt), que contém apenas os pares de variação de grafia – ou seja, compondo um léxico das edições. O esquema neste caso está programado no arquivo:

<http://www.ime.usp.br/~tycho/cgi-bin/varietylex.xslt>

6 A fonte original do texto é a versão fac-similar trazida a público pela Biblioteca Nacional de Lisboa (cf. mais informações sobre este texto no Catálogo): História da prouincia Sãcta Cruz que vulgarme[n]te chamamos Brasil / feita por Pero Magalhäes de Gandauo. Em Lisboa : na officina de António Gonsaluez: vendense em casa de Ioão Lopez, 1576. - 48 f. : 1 est. ; 4º (18 cm) - Assin: A-F//8. - Anselmo 709. - Faria - BN Rio de Janeiro p. 38. - B.

MUseum 150 coln 204 <http://purl.pt/121>.

7 Interessa ressaltar que a transcrição e anotação dos documentos XML (bem como das folhas de XLST e X-Query) são realizados no processador de textos E-Macs, um software livre (GNU), que sustenta grandes arquivos, e evita problemas de codificação de caracteres. Este aplicativo oferece um modo SGML, com sistematizaçãopara inserção de etiquetas de anotação XML, o que confere segurança e consistência na anotação (cf. II. Procedimentos).

(12)

i. “História da Provincia de Santa Cruz” (P.M. Gandavo, 1576) - Texto original fac-similar (pg. 4v):

(13)

ii. “História da Provincia de Santa Cruz” (P.M. Gandavo, 1576) - Transcrição com a anotação XML completa:

<section type="prologue">

<section_title>

AO <variant><edited>MUITO</edited><original>MVITO</original> </variant>

<variant><edited>ILUSTRE</edited><original>ILLVSTRE</original> </variant> SENHOR <nl/>

DOM LIONIS PEREIRA, <nl/>

<variant><edited> Epístola</edited><original>Epiſtola</original></variant> de Pero de Magalhães. <nl/>

</section_title>

<paragraph>

<sentence>

<cap>N</cap> E S T E pequeno <variant><edited>serviço</edited><original>ſeruiço</original> </variant><nl/>

(muito <variant><edited>ilustre</edited><original>illuſtre</original> </variant>

<variant><edited>senhor</edited><original>ſenhor</original> </variant> ) que

<variant><edited>ofereço</edited><original>offere-<nl/>

ço </original></variant> a <variant><edited>Vossa Mercê</edited><original>V.M.</original></variant> das <variant><edited>premissas</edited><original>premicias</original></variant> de meu fra <nl/>

co entendimento, poderá <variant><edited>em alguma</edited><original>nalgũa</original></variant><nl/>

maneira conhecer os <variant><edited>desejos</edited><original>deſejos</original></variant> que <nl/>

tenho de pagar com minha <variant><edited>possibilidade</edited><original>poſsibi <nl/>

lidade </original></variant> <variant><edited>alguma</edited><original>algũa</original></variant> parte do muito <variant><edited>que se</edited><original>queſe</original></variant><nl/>

<variant><edited>deve</edited><original>deue</original></variant>

<variant><edited>à</edited><original>á</original></variant>

<variant><edited>ínclita</edited><original>inclita</original></variant> fama de <variant><edited>vosso</edited><original>voſſo</original></variant>

<variant><edited>heróico</edited><original>heroy- <nl/>

co </original></variant> nome.

</sentence>

<sentence>

E <variant><edited>isto assim</edited><original>iſtoaſsi</original></variant> pelo

<variant><edited>merecimento</edited><original>mereci- <nl/>

m~eto </original></variant> do <variant><edited>nobilíssimo</edited><original>nobiliſsimo</original></variant>

<variant><edited>sangue</edited><original>ſangue</original></variant>

<variant><edited>e</edited><original>&</original></variant> cla <nl/>

ra progenie donde traz <variant><edited>sua</edited><original>ſua</original></variant> origem, <nl/>

como pelos <variant><edited>troféus</edited><original>tropheos</original></variant> das grandes <nl/>

<variant><edited>vitórias</edited><original>victorias</original></variant> , <variant><edited>e</edited><original>&</original></variant>

<variant><edited>casos</edited><original>caſos</original></variant> bem afortunados que lhe hão <variant><edited>sucedido</edited><original>ſuccedido</original></variant>

<variant><edited>nessas</edited><original>neſſas</original></variant> par <nl/>

tes do Oriente em que <variant><edited>Deus</edited><original>Deos</original></variant> o quis <variant><edited>favorecer</edited><original>fauorecer</original></variant> com <variant><edited>tão</edited><original>tam</original></variant> larga mão, <nl/>

que <variant><edited>não</edited><original>nam</original></variant> cuido

<variant><edited>ser</edited><original>ſer</original></variant> toda minha vida <variant><edited>bastante</edited><original>baſtante</original></variant> pera <variant><edited>satisfazer</edited><original>ſatisfazer</original></variant>

<variant><edited>à</edited><original>á</original></variant> menor <nl/>

parte de <variant><edited>seus</edited><original>ſeus</original></variant>

<variant><edited>louvores</edited><original>louuores</original></variant>.

</sentence>

<sentence>

E como todas <variant><edited>estas</edited><original>eſtas</original></variant> razões me ponham em <nl/>

tanta <variant><edited>obrigação</edited><original>obrigaçam</original></variant>, <variant><edited>e</edited><original>&</original></variant> eu entenda que outra <variant><edited>nenhuma</edited><original>nenhũa</original></variant>

<variant><edited>cousa</edited><original>couſa</original></variant>

<variant><edited>deve</edited><original>deue</original></variant>

<variant><edited>ser</edited><original>ſer</original></variant><nl/>

mais aceita a <variant><edited>pessoas</edited><original>peſſoas</original></variant> de altos <variant><edited>ânimos</edited><original>animos</original></variant> que a <variant><edited>lição</edited><original>liçam</original></variant> das

<variant><edited>escrituras</edited><original>eſcrituras</original></variant>, per <nl/>

cujos <variant><edited>meios</edited><original>meyos</original></variant>

<variant><edited>se</edited><original>ſe</original></variant> alcançam os

<variant><edited>segredos</edited><original>ſegredos</original></variant> de todas as <variant><edited>ciências</edited><original>ſciencias</original></variant> ,

<variant><edited>e</edited><original>&</original></variant> os <variant><edited>homens</edited><original>ho- <nl/>

m~es </original></variant> <variant><edited>vêm</edited><original>vém</original></variant> a <variant><edited>ilustrar</edited><original>illuſtrar</original></variant>

(14)

<variant><edited>seus</edited><original>ſeus</original></variant> nomes

<variant><edited>e</edited><original>&</original></variant>

<variant><edited>perpetuá-los</edited><original>perpetualos</original></variant > na terra com fama

<variant><edited>imortal</edited><original>im <nl/>

mortal</original></variant>, <variant><edited>determinei</edited><original>determiney</original></variant> escolher a <variant><edited>Vossa Mercê</edited><original>V.M.</original></variant> entre os mais

<variant><edited>senhores</edited><original>ſenhores</original></variant> da ter <nl/>

ra, <variant><edited>e</edited><original>&</original></variant>

<variant><edited>dedicar-lhe</edited><original>dedicarlhe</original></variant>

<variant><edited>esta</edited><original>eſta</original></variant>

<variant><edited>breve</edited><original>breue</original></variant>

<variant><edited>história</edited><original>hiſtoria</original></variant>.

</sentence>

<sentence>

A qual <variant><edited>espero</edited><original>eſpero</original></variant> que folgue de <nl/>

ver <variant><edited>com</edited><original>cõ</original></variant>

<variant><edited>atenção</edited><original>attençam</original></variant>

<variant><edited>e</edited><original>&</original></variant>

<variant><edited>receber-ma</edited><original>receberma</original></variant> benignamente debaixo de <variant><edited>seu</edited><original>ſeu</original></variant> empa-<nl/>

ro: <variant><edited>assim</edited><original>aſsi</original></variant> por <variant><edited>ser</edited><original>ſer</original></variant>

<variant><edited>coisa</edited><original>couſa</original></variant>

<variant><edited>nova</edited><original>noua</original></variant>, <variant><edited>e</edited><original>&</original></variant> eu a

<variant><edited>escrever</edited><original>eſcreuer</original></variant> como <variant><edited>testemunha</edited><original>teſtemunha</original></variant> de <variant><edited>vista</edited><original>vi- <nl/>

ſta </original></variant> : como por <variant><edited>saber</edited><original>ſaber</original></variant>

<variant><edited>quão</edited><original>quam</original></variant> particular <variant><edited>afeição</edited><original>affeiçam</original></variant>

<variant><edited>Vossa Mercê</edited><original>V.M.</original></variant> tem <variant><edited>às</edited><original>ás</original></variant>

<variant><edited>coisas</edited><original>couſas</original></variant><nl/>

do <variant><edited>engenho</edited><original>ingenho</original></variant> , <variant><edited>e</edited><original>&</original></variant> que por <variant><edited>esta</edited><original>eſta</original></variant> causa lhe <variant><edited>não</edited><original>nam</original></variant>

<variant><edited>será</edited><original>ſera</original></variant> menos aceito o <variant><edited>exercício</edited><original>exer <nl/>

cicio</original></variant> das <variant><edited>escrituras</edited><original>eſcrituras</original></variant>, que o das armas.

</sentence>

<sentence>

<variant><edited>Por onde</edited><original>Poronde</original></variant> com muita <variant><edited>razão</edited><original>razam</original></variant><nl/>

<variant><edited>favorecido</edited><original>fauorecido</original></variant>

<variant><edited>desta</edited><original>deſta</original></variant> confiança <variant><edited>possa</edited><original>poſſa</original></variant>

<variant><edited>seguramente</edited><original>ſeguramente</original></variant>

<variant><edited>sair</edited><original>ſair</original></variant> a luz com <variant><edited>esta</edited><original>eſta</original></variant> pe <nl/>

quena <variant><edited>empresa</edited><original>empreſa</original></variant>

<variant><edited>e</edited><original>&</original></variant>

<variant><edited>divulgá-la</edited><original>divulgala</original></variant> pela terra <variant><edited>sem</edited><original>ſem</original></variant> nenhum

<variant><edited>receio</edited><original>receo</original></variant>, ten- <nl/>

do por <variant><edited>defensor</edited><original>defenſor</original></variant>

<variant><edited>dela</edited><original>della</original></variant> a <variant><edited>Vossa Mercê</edited><original>V.M.</original></variant>

</sentence>

<sentence>

Cuja muito <variant><edited>ilustre</edited><original>illuſtre</original></variant>

<variant><edited>pessoa</edited><original>peſ- <nl/>

ſoa</original></variant> <variant><edited>nosso</edited><original>noſſo</original></variant> Senhor guarde <variant><edited>e</edited><original>&</original></variant>

<variant><edited>acrescente</edited><original>acrec~ete</original></variant>

<variant><edited>sua</edited><original>ſua</original></variant><nl/>

vida <variant><edited>e</edited><original>&</original></variant> estado por longos <variant><edited>e</edited><original>&</original></variant><nl/>

<variant><edited>felizes</edited><original>felicis</original></variant>

<variant><edited>anos</edited><original>annos</original></variant>. <nl/>

</sentence>

</paragraph>

</section>

<page />

(15)

iii. “História da Provincia de Santa Cruz” (P.M. Gandavo, 1576) - Versão com as grafias originais:

A O M V IT O ILL VS T RE SENHO R DO M L IO N IS PER EI R A ,

Ep i ſt ol a de P ero de M a g a l h ã e s .

N

E S T E p e q u e n o ſ e r u i ç o ( m u i t o i l l u ſ t r e ſ e n h o r ) q u e o f f e r e - ç o a V . M . d a s p r e m i c i a s d e m e u f r a

c o e n t e n d i m e n t o , p o d e r á n a l g ũ a m a n e i r a c o n h e c e r o s d e ſ e j o s q u e t e n h o d e p a g a r c o m m i n h a p o ſ s i b i l i d a d e a l g ũ a p a r t e d o m u i t o q u e ſ e d e u e á i n c l i t a f a m a d e v o ſ ſ o h e r o y -

c o n o m e . E i ſ t o a ſ s i p e l o m e r e c i - m ~ e t o d o n o b i l i ſ s i m o ſ a n g u e & c l a r a p r o g e n i e d o n d e t r a z ſ u a o r i g e m ,

c o m o p e l o s t r o p h e o s d a s g r a n d e s

v i c t o r i a s , & c a ſ o s b e m a f o r t u n a d o s q u e l h e h ã o ſ u c c e d i d o n e ſ ſ a s p a r t e s d o O r i e n t e e m q u e D e o s o q u i s f a u o r e c e r c o m t a m l a r g a m ã o , q u e n a m c u i d o ſ e r t o d a m i n h a v i d a b a ſ t a n t e p e r a ſ a t i s f a z e r á m e n o r

p a r t e d e ſ e u s l o u u o r e s . E c o m o t o d a s e ſ t a s r a z õ e s m e p o n h a m e m t a n t a o b r i g a ç a m , & e u e n t e n d a q u e o u t r a n e n h ũ a c o u ſ a d e u e ſ e r m a i s a c e i t a a p e ſ ſ o a s d e a l t o s a n i m o s q u e a l i ç a m d a s e ſ c r i t u r a s , p e r

c u j o s m e y o s ſ e a l c a n ç a m o s ſ e g r e d o s d e t o d a s a s ſ c i e n c i a s , & o s h o - m ~ e s v é m a i l l u ſ t r a r ſ e u s n o m e s & p e r p e t u a l o s n a t e r r a c o m f a m a i m

m o r t a l , d e t e r m i n e y e s c o l h e r a V . M . e n t r e o s m a i s ſ e n h o r e s d a t e r r a , & d e d i c a r l h e e ſ t a b r e u e h i ſ t o r i a . A q u a l e ſ p e r o q u e f o l g u e d e v e r c õ a t t e n ç a m & r e c e b e r m a b e n i g n a m e n t e d e b a i x o d e ſ e u e m p a - r o : a ſ s i p o r ſ e r c o u ſ a n o u a , & e u a e ſ c r e u e r c o m o t e ſ t e m u n h a d e v i -

ſ t a : c o m o p o r ſ a b e r q u a m p a r t i c u l a r a f f e i ç a m V . M . t e m á s c o u ſ a s d o i n g e n h o , & q u e p o r e ſ t a c a u s a l h e n a m ſ e r a m e n o s a c e i t o o e x e r

c i c i o d a s e ſ c r i t u r a s , q u e o d a s a r m a s . P o r o n d e c o m m u i t a r a z a m f a u o r e c i d o d e ſ t a c o n f i a n ç a p o ſ ſ a ſ e g u r a m e n t e ſ a i r a l u z c o m e ſ t a p e

q u e n a e m p r e ſ a & d i v u l g a l a p e l a t e r r a ſ e m n e n h u m r e c e o , t e n - d o p o r d e f e n ſ o r d e l l a a V . M . C u j a m u i t o i l l u ſ t r e p e ſ -

ſ o a n o ſ ſ o S e n h o r g u a r d e & a c r e c ~ e t e ſ u a v i d a & e s t a d o p o r l o n g o s &

f e l i c i s a n n o s .

(16)

iv. “História da Provincia de Santa Cruz” (P.M. Gandavo, 1576) - Versão com as grafias modernizadas:

AO M UI T O I LUS TR E S ENHO R DO M L IO N IS PER EI R A ,

Ep ís t o l a de P er o d e M ag a l h ãe s.

N E S T E p e q u e n o s e r v i ç o

( m u i t o i l u s t r e s e n h o r ) q u e o f e r e - ç o a V o s s a M e r c ê d a s p r e m i s s a s d e m e u f r a -

c o e n t e n d i m e n t o , p o d e r á e m a l g u m a m a n e i r a c o n h e c e r o s d e s e j o s q u e t e n h o d e p a g a r c o m m i n h a p o s s i b i - l i d a d e a l g u m a p a r t e d o m u i t o q u e s e

d e v e à í n c l i t a f a m a d e v o s s o h e r ó i - c o n o m e . E i s t o a s s i m p e l o m e r e c i - m e n t o d o n o b i l í s s i m o s a n g u e e c l a - r a p r o g e n i e d o n d e t r a z s u a o r i g e m ,

c o m o p e l o s t r o f é u s d a s g r a n d e s

v i t ó r i a s , e c a s o s b e m a f o r t u n a d o s q u e l h e h ã o s u c e d i d o n e s s a s p a r - t e s d o O r i e n t e e m q u e D e u s o q u i s f a v o r e c e r c o m t ã o l a r g a m ã o , q u e n ã o c u i d o s e r t o d a m i n h a v i d a b a s t a n t e p e r a s a t i s f a z e r à m e n o r

p a r t e d e s e u s l o u v o r e s . E c o m o t o d a s e s t a s r a z õ e s m e p o n h a m e m t a n t a o b r i g a ç ã o , e e u e n t e n d a q u e o u t r a n e n h u m a c o u s a d e v e s e r m a i s a c e i t a a p e s s o a s d e a l t o s â n i m o s q u e a l i ç ã o d a s e s c r i t u r a s , p e r

c u j o s m e i o s s e a l c a n ç a m o s s e g r e d o s d e t o d a s a s c i ê n c i a s , e o s h o - m e n s v ê m a i l u s t r a r s e u s n o m e s e p e r p e t u á - l o s n a t e r r a c o m f a m a i - m o r t a l , d e t e r m i n e i e s c o l h e r a V o s s a M e r c ê e n t r e o s m a i s s e n h o r e s d a t e r -

r a , e d e d i c a r - l h e e s t a b r e v e h i s t ó r i a . A q u a l e s p e r o q u e f o l g u e d e v e r c o m a t e n ç ã o e r e c e b e r - m a b e n i g n a m e n t e d e b a i x o d e s e u e m p a - r o : a s s i m p o r s e r c o i s a n o v a , e e u a e s c r e v e r c o m o t e s t e m u n h a d e v i s - t a : c o m o p o r s a b e r q u ã o p a r t i c u l a r a f e i ç ã o V o s s a M e r c ê t e m à s c o i s a s d o e n g e n h o , e q u e p o r e s t a c a u s a l h e n ã o s e r á m e n o s a c e i t o o e x e r -

c í c i o d a s e s c r i t u r a s , q u e o d a s a r m a s . P o r o n d e c o m m u i t a r a z ã o f a v o r e c i d o d e s t a c o n f i a n ç a p o s s a s e g u r a m e n t e s a i r à l u z c o m e s t a p e -

q u e n a e m p r e s a e d i v u l g á - l a p e l a t e r r a s e m n e n h u m r e c e i o , t e n - d o p o r d e f e n s o r d e l a a V o s s a M e r c ê . C u j a m u i t o i l u s t r e p e s -

s o a n o s s o S e n h o r g u a r d e e a c r e s c e n t e s u a v i d a e e s t a d o p o r l o n g o s e

f e l i z e s a n o s .

(17)

v. “História da Provincia de Santa Cruz” (P.M. Gandavo, 1576) - Léxico das edições realizadas:

O r i g i n a l M o d e r n i z e d

& e

á à

a c r e c ~ e t e a c r e s c e n t e

a f f e i ç a m a f e i ç ã o

a l g ũ a a l g u m a

a n i m o s â n i m o s

a n n o s a n o s

á s à s

a ſ s i a s s i m

a t t e n ç a m a t e n ç ã o

b a ſ t a n t e b a s t a n t e

b r e u e b r e v e

c a ſ o s c a s o s

c õ c o m

c o u ſ a c o u s a

c o u ſ a s c o u s a s

d e d i c a r l h e d e d i c a r - l h e

d e f e n ſ o r d e f e n s o r

d e l l a d e l a

d e ſ e j o s d e s e j o s

d e ſ t a d e s t a

d e t e r m i n e y d e t e r m i n e i

D e o s D e u s

d e u e d e v e

d i v u l g a l a d i v u l g á - l a

e m p r e ſ a e m p r e s a

E p i ſ t o l a E p í s t o l a

e ſ c r e u e r e s c r e v e r

e ſ c r i t u r a s e s c r i t u r a s

e ſ p e r o e s p e r o

e ſ t a e s t a

e ſ t a s e s t a s

e x e r c i c i o e x e r c í c i o

f a u o r e c e r f a v o r e c e r

f a u o r e c i d o f a v o r e c i d o

f e l i c i s f e l i z e s

h e r o y c o h e r ó i c o

h i ſ t o r i a h i s t ó r i a

h o m ~ e s h o m e n s

i l l u ſ t r a r i l u s t r a r

i l l u ſ t r e i l u s t r e

I L L V S T R E I L U S T R E

i m m o r t a l i m o r t a l

i n c l i t a í n c l i t a

i n g e n h o e n g e n h o

i ſ t o a ſ s i i s t o a s s i m

l i ç a m l i ç ã o

l o u u o r e s l o u v o r e s

m e r e c i m ~ e t o m e r e c i m e n t o

(18)

m e y o s m e i o s

M V I T O M U I T O

n a l g ũ a e m a l g u m a

n a m n ã o

n e n h ũ a n e n h u m a

n e ſ ſ a s n e s s a s

n o b i l i ſ s i m o n o b i l í s s i m o

n o ſ o n o s s o

n o u a n o v a

o b r i g a ç a m o b r i g a ç ã o

o f f e r e ç o o f e r e ç o

p e r p e t u a l o s p e r p e t u á - l o s

p e ſ ſ o a p e s s o a

p e ſ ſ o a s p e s s o a s

P o r o n d e P o r o n d e

p o ſ ſ a p o s s a

p o ſ s i b i l i d a d e p o s s i b i l i d a d e

p r e m i c i a s p r e m i s s a s

q u a m q u ã o

q u e ſ e q u e s e

r a z a m r a z ã o

r e c e b e r m a r e c e b e r - m a

r e c e o r e c e i o

ſ a b e r s a b e r

ſ a i r s a i r

ſ a n g u e s a n g u e

ſ a t i s f a z e r s a t i s f a z e r

ſ c i e n c i a s c i ê n c i a s

ſ e s e

ſ e g r e d o s s e g r e d o s

ſ e g u r a m e n t e s e g u r a m e n t e

ſ e m s e m

ſ e n h o r s e n h o r

ſ e n h o r e s s e n h o r e s

ſ e r s e r

ſ e r a s e r á

ſ e r u i ç o s e r v i ç o

ſ e u s e u

ſ e u s s e u s

ſ u a s u a

ſ u c c e d i d o s u c e d i d o

t a m t ã o

t e ſ t e m u n h a t e s t e m u n h a

t r o p h e o s t r o f é u s

V . M . V o s s a M e r c ê

v é m v ê m

v i ſ t a v i s t a

v i c t o r i a s v i t ó r i a s

V o ſ o V V o s s o

(19)

3 . E s t a d o d a A r t e e P e r s p e c t i v a s

Os trabalhos de preparação dos textos encontram-se atualmente em fase de desenvolvimento e adaptação do novo sistema. Isso se dá em quatro frentes:

Seleção e transcrição de novos textos;

Desenvolvimento do sistema de anotação e edição;

Testes para a geração de produtos e formas de acesso com base na nova anotação;

A adequação dos textos da Fase I ao novo sistema de anotação.

3. 1 S el eçã o e T ran sc rição de N ov os Tex t o s

Quatro novos textos (todos eles, crônicas históricas, do acervo virtual da Biblioteca Nacional de Lisboa) estão sendo digitados e anotados pelo novo sistema:

Magalhães de Gandavo: Historia da prouincia de Sancta Cruz a que vulgarmente chamamos Brasil

H i s t ó r i a d a p r o u i n c i a S ã c t a C r u z q u e v u l g a r m e [ n ] t e c h a m a m o s B r a s i l / f e i t a p o r P e r o M a g a l h ä e s d e G a n d a u o . E m L i s b o a : n a o f f i c i n a d e A n t ó n i o G o n s a l u e z : v e n d e n s e e m c a s a d e I o ã o L o p e z , 1 5 7 6 . - 4 8 f . : 1 e s t . ; 4 º ( 1 8 c m ) - A s s i n : A - F / / 8 . - A n s e l m o 7 0 9 . - F a r i a - B N R i o d e J a n e i r o p . 3 8 . - B . M U s e u m 1 5 0 c o l n 2 0 4 < h t t p : / / p u r l . p t / 1 2 1 > .

c ó d i g o : G _ 0 0 8

Rui de Pina: Chronica do muito alto e muito esclarecido principe Dom Diniz, sexto rey de Portugal.

P I N A , R u i d e , 1 4 4 0 ? - 1 5 2 2 ? ( F e r r e i r a , 1 6 8 9 - 1 7 3 9 , e d . L i t ) .

C h r o n i c a d o m u i t o a l t o e m u i t o e s c l a r e c i d o p r i n c i p e D o m D i n i z , s e x t o r e y d e P o r t u g a l / c o m p o s t a p o r R u y d e P i n a . . . ; f i e l m e n t e c o p i a d a d o s e u o r i g i n a l p o r M i g u e l L o p e s F e r r e y r a . L i s b o a

O c c i d e n t a l : N a O f f . F e r r e y r i a n a , 1 7 2 9 . - [ 1 2 ] , 1 0 7 p . ; 3 1 c m B N H . G . 1 1 6 8 3 / / 6 V

c ó d i g o : p _ 0 0 2

Fernão Lopes: Chronica del Rey D. Ioam I de Boa Memoria e dos reys de Portugal o decimo.

L O P E S , F e r n ã o . C h r o n i c a d e l R e y D . I o a m I d e B o a M e m o r i a e d o s r e y s d e P o r t u g a l o d e c i m o / c o m p o s t a p o r F e r n a m L o p e z . E m L i s b o a : A n t o n i o A l v a r e z , 1 6 4 4 . - 2 v . ; 2 8 c m . B N H . G . 2 5 5 1 V . B N H . G . 2 5 5 2 V .

c ó d i g o : L _ 0 0 2

Duarte Galvão: Chronica do muito alto e muito esclarecido principe D. Affonso Henriques primeiro Rey de Portugal.

G A L V A O , D u a r t e , 1 4 3 5 - 1 5 1 7 . C h r o n i c a d o m u i t o a l t o e m u i t o e s c l a r e c i d o p r i n c i p e D . A f f o n s o H e n r i q u e s p r i m e i r o R e y d e P o r t u g a l / c o m p o s t a p o r D u a r t e G a l v ã o ; f i e l m e n t e c o p i a d a d o s e u o r i g i n a l , q u e s e c o n s e r v a n o A r c h i v o R e a l d a T o r r e d o T o m b o . . . p o r M i g u e l L o p e s F e r r e i r a . - L i s b o a O c c i d e n t a l : n a O f f i c i n a F e r r e y r i a n a , 1 7 2 6 . - [ 2 3 ] , 9 5 [ 1 ] p . ; 2 7 c m

< h t t p : / / p u r l . p t / 3 0 8 >

c ó d i g o : G _ 0 0 8

(20)

3. 2 D e senv ol vim en t o do sis tema de anot ação e edi ção

3.2.1 Anotação da estrutura bruta (cf. II.1 ) 3 . 2 . 1 . 1 r e s u m o

Chamamos de estrutura bruta a arquitetura ou composição gráfica dos textos quanto à paginação, divisão em seções ou capítulos, paragrafação, quebras de linha e de colunas etc. - em tradução livre do termo em inglês na literatura especializada, “gross structure”. A relevância da codificação desse tipo de estruturas remete a dois planos: o plano computacional e o plano lingüístico.

Quanto ao aspecto computacional, importa ressaltar que a arquitetura gráfica de um texto, que o olhar humano apreende visualmente, não é imediatamente traduzida para a leitura de uma máquina.

Assim, se um leitor humano compreende de imediato os limites de uma palavra, de uma linha ou de um parágrafo a partir da disposição visual dos caracteres em uma página, um programa de computador precisará contar com um código para poder captar esses mesmos limites. Ou seja, para ser lido por uma máquina, um elemento visual como:

( 1 )

p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a p a l a v r a

Precisa ser transformado por exemplo em:

( 2 )

< p a r á g r a f o >

p a l a v r a < e s p a ç o / > p a l a v r a < e s p a ç o / > p a l a v r a < q u e b r a d e l i n h a / >

p a l a v r a < e s p a ç o / > p a l a v r a < e s p a ç o / > p a l a v r a < q u e b r a d e l i n h a / >

p a l a v r a < e s p a ç o / > p a l a v r a < e s p a ç o / > p a l a v r a < q u e b r a d e l i n h a / >

< / p a r á g r a f o >

< p a r á g r a f o >

p a l a v r a < e s p a ç o / > p a l a v r a < e s p a ç o / > p a l a v r a < q u e b r a d e l i n h a / >

p a l a v r a < e s p a ç o / > p a l a v r a < e s p a ç o / > p a l a v r a < q u e b r a d e l i n h a / >

p a l a v r a < e s p a ç o / > p a l a v r a < e s p a ç o / > p a l a v r a < q u e b r a d e l i n h a / >

< / p a r á g r a f o >

Em resumo, toda a composição gráfica a partir de um conjunto de caracteres, para se tornar eletronicamente legível, precisa ser codificada; todo processador de textos trabalha com um sistema de códigos embutido capaz de “ler” e “produzir” informações desta natureza (limites entre palavras, quebras de linha, paragrafação, além de outras formatações como grifos ou ênfases indicados por alterações no corpo dos tipos gráficos, como negrito, itálico, etc.).

Isso significa que se queremos transcrever um texto original não-eletrônico (por exemplo, impresso tipograficamente ou manuscrito em papel) para o meio eletrônico sem perder as informações gráficas, precisamos codificá-las. No caso do trabalho no Corpus Histórico, não podemos contar para isso com os processadores de texto convencionais, embutidos nos computadores pessoais, uma vez que de um lado queremos garantir que a informação visual seja sempre consistente com o original (o que não se pode almejar com os processadores de texto comuns), e por outro lado (e crucialmente) queremos que os textos sejam lidos por ferramentas sofisticadas de análise lingüística, que não trabalham com processadores de texto normais. A solução, portanto, é codificar as informações gráficas.

(21)

3 . 2 . 1 . 2 r e s u l t a d o s :

Os novos textos estão sendo anotados quanto à estrutura bruta segundo os procedimentos detalhados em II.1.2;

A anotação da estrutura bruta foi parcialmente aplicada aos 42 textos da Fase I segundo os procedimentos detalhados em II.1.3.

3 . 2 . 1 . 3 m e t a s :

Desenvolvimento de um sistema de numeração automática para as partes do texto codificadas (seções, parágrafos, sentenças e linhas);

Totalização da anotação da estrutura bruta nos textos da Fase I.

3.2.2 Desenvolvimento do sistema de edição(cf. II.2) 3 . 2 . 2 . 1 r e s u m o

Um dos objetivos centrais do novo sistema de preparação dos textos é possibilitar uma edição completa, criteriosa, e plenamente recuperável de textos com grafia original.

A decisão de passarmos a fazer uso de edições originais, e de incluirmos textos manuscritos e medievais na nova fase do Corpus, traz desafios do ponto de vista técnico – principalmente em razão das dificuldades geradas pela variação de grafia para as ferramentas de análise lingüística automática.

Um dos objetivos do sistema de edição é minimizar ou até eliminar tais dificuldades, possibilitando assim o uso de materias originais, com ganhos na qualidade histórica e filológica do Corpus.

Desse modo, é uma meta primordial do novo sistema de anotação possibilitar um bom sistema de edição dos textos. Isto se aplica, fundamentalmente, aos novos textos selecionados para a Fase II (já que os textos da Fase I são, quase todos, transcrições de edições com grafia já modernizada).

3 . 2 . 2 . 2 r e s u l t a d o s :

O sistema de anotação para as edições dos textos tem como base a idéia inicial delineada em Trippel e Paixão de Sousa (2004). Seguindo essa proposta, a edição da variação de grafia está sendo realizada com o uso da anotação XML – permitindo assim alcançar o requisito da plena recuperabilidade das intervenções realizadas nas transcrições. O esquema básico da anotação XML para as edições é como segue:

( 1 ) E s q u e m a d e a n o t a ç ã o d a s v a r i a ç õ e s d e g r a f i a

< v a r i a n t >

< e d i t e d > i t e m e d i t a d o < / e d i t e d >

< o r i g i n a l > i t e m o r i g i n a l < / o r i g i n a l >

< / v a r i a n t >

Do ponto de vista técnico, o encapsulamento das categorias <edited> e <original> em uma categoria superior <variant> garante que os itens originais e os itens editados funcionem como um par, ou seja, remetam sempre um ao outro para fins de busca.

As programações de transformação XLST já concebidas e disponíveis no servidor trabalham sobre a a categoria <variant> selecionando apenas os elementos anotados como <original> (gerando uma versão como 1.2 (iii) acima); ou apenas os elementos anotados como <edited> (gerando 1.2 (iv) acima); ou selecionando do texto apenas as categorias <variant>, listando lado a lado <edited> e

(22)

<original> (gerando 1.2 (iv) acima) – cf. II.3 para detalhes deste processamento.

Por esse sistema, e em especial graças à possibilidade de se gerar rapidamente os glossários, o trabalho de edição poderá ser melhor desenvolvido do ponto de vista lingüístico se assim se julgar desejável. Com base nos glossários gerados para cada texto editado, será possível fazer uma revisão profunda com o intuito de verificar a consistência das intervenções em cada texto, eventuais erros de edição, etc. Assim, o aprimoramento do trabalho de edição poderá se dar ao longo do processo de trabalho com os novos textos (atualmente em fase de transcrição). Ao terminar a edição do texto-piloto, será possível incluir neste manual as diretrizes básicas de edição.

3 . 2 . 2 . 3 m e t a s :

Construção de um sistema de Diretrizes de Edição;

Sub-categorização dos diferentes tipos de edição realizados nos novos textos (codificação de caracteres; abertura de abreviaturas; resegmentação; outras variações), para potencializar o uso dos glossários e construir uma base para o desenvolvimento das Diretrizes. Para isso bastará aplicarmos uma anotação de atributo a cada elemento

<variant>, como por exemplo:

< v a r i a n t t y p e = ” c h a r a c t e r _ e n c o d i n g ” >

< e d i t e d >e< / e d i t e d > < o r i g i n a l >&< / o r i g i n a l >

< / v a r i a n t >

3. 3 T es te s p ara a g eraçã o de pr od utos e for m as de aces so c om bas e n a nov a an otaç ão

3.3.1 Elaboração de transformações .xlst para geração de versões 3 . 3 . 1 . 1 r e s u m o :

A anotação XML permite que se gerem diferentes versões para um mesmo documento, programando-se transformações em linguagem XSLT (conforme ilustrado no Diagrama 1 em 1.2 acima). As transformações atuam sobre as anotação XML de diferentes modos, podendo selecionar, re-ordenar ou formatar as estruturas anotadas; e geram documentos em diferentes formatos (no caso atual, .txt e .html). Para executar essas transformações, utilizamos o software Saxon (versão b8.3)8, armazenado no servidor do projeto (os detalhes dos procedimentos estão em II.3).

No momento, para cada texto do Corpus, é possível gerar a versão com grafia original, a versão com grafia editada, ou um léxico de edições (e ainda, a própria base anotada em XML) – cf. 1.2 acima. No sistema de testes, esta produção já se dá “on-line” através do Catálogo Dinâmico (cf. 3.3.2)9

As principais vantagens do sistema de geração de versões por XSLT são a flexibilidade e facilidade de armazenamento. Com esse sistema, armazenam-se no servidor apenas os documentos .xml de base (cf. (ii) em 1.2 acima); as diferentes versões (cf. (iii) a (iv) em 1.2 acima) são produzidas no momento do acesso do usuário ao catálogo, e não precisam portanto estar gravadas. O usuário,

8 Software livre, disponível em <http://www.saxon.net>

9 Os textos propriamente ditos serão armazenados apenas na versão de base XML, e nas versões com anotação lingüística (neste momento de transição, temos armazenadas as versões XML e as versões antigas, com a preparação da Fase I, para não interromper o uso do Corpus até que a anotação esteja completa).

Referências

Documentos relacionados

Em caso de ausência prolongada (ex.: Férias), pretendendo desligar o Refrigerador, remova todos os alimentos e limpe-o dei- xando a porta entreaberta para evitar mofo e

I- No caso de dispensa de licitação (passo 2, item I), a secretaria da DLC/CPL recebe os documentos com as respectivas cotações e os encaminha para o Departamento de

material não combustível e coloque em recipientes apropriados., Não toque no material derramado ou embalagens danificadas sem o uso de equipamento de proteção individual

 Projeto: Nanoemulsões à base de óleo de copaíba (Copaifera multijuga Hayne): Desenvolvimento tecnológico, estudo de permeação cutânea, avaliação da atividade

As listas de entradas constantes do anexo I da Decisão 2009/821/CE relativas a estes Estados-Membros devem, pois, ser alteradas em conformidade... (7) Na sequência

Resumo: Este trabalho foi desenvolvido para uma parte do centro histórico da cidade de Portalegre, sendo seu objetivos a classificação do estado de conservação

Durante anos foi povoado exclusivamente pelos ratos que aí atravessavam em corridas brincalhonas, que rolam a madeira das portas monumentais, que o habitavam

Direito Administrativo - Contrato - Prestação de serviços técinicos de Analise de Viabilidade Econômico-financeira de Projetos de Técnica de Projetos de Investimento e