• Nenhum resultado encontrado

PÚBLICA DE ÉVORA

3.2. PROCESSAMENTO DOS TEXTOS

O conjunto de textos das Gazetas Manuscritas (Lisboa et al, 2002; Lisboa et al, 2005), foi processado automaticamente, recorrendo ao analisador sintáctico PALAVRAS apresentado na secção anterior.

A título ilustrativo, veja-se o resultado da análise de uma frase16 do “Diário de 23 de Agosto de 1729”:

João de Saldanha cazou hum filho que daqui tinha hido, com hua filha herdeira de Martinho da Sylveira de Menezes.

Resultado do analisador PALAVRAS:

João=de=Saldanha [João=de=Saldanha] PROP M/F S/P cazou ALT cázou [cazar] <DERS> V PS 3S IND VFIN hum [um] <quant> <arti> DET M S

filho [filho] <Hfam> N M S que [que] <rel> SPEC M/F S/P de [de] <sam-> PRP

aqui [aqui] <-sam> ADV

tinha [ter] V IMPF 1/3S IND VFIN hido ALT xxxo [hido] N M S $,

com [com] PRP

hua ALT xxx [hua] N F S filha [filho] ADJ F S

herdeira [herdeira] <H> N F S de [de] PRP

Martinho=da=Sylveira=de=Menezes [Martinho=da=Sylveira=de=Menezes]PROP M/FS/P

Este exemplo permite ilustrar algumas das características do sistema, bem como algumas das dificuldades encontradas:

1. Identificação de nomes próprios (PROP) 1. João de Saldanha

2. Martinho de Sylveira de Menezes

16

150 2. Identificação de acções (verbos -- V)

1. Cazou

3. Anotação semântica de nomes comuns 1. filho – Hfam (humano, família)

4. Dificuldade em analisar palavras desconhecidas 1. hido

2. hua

Apesar de o analisador não ter sido desenvolvido para a Língua Portuguesa utilizada nas Gazetas Manuscritas – 1729-1754 – verifica-se ser possível identificar automaticamente nomes próprios e algumas acções e eventos. A identificação dos nomes próprios é um processo fundamental para a construção automática do índice onomástico.

Com base na análise anterior, é construída uma árvore sintáctica17: STA:fcl

=SUBJ:prop('João_de_Saldanha' M/F S) João_de_Saldanha =P:v-fin('cá' PS 3S IND <DERS>) cazou

=ACC:np

==>N:pron-det('um' M S <arti>) hum ==H:n('filho' M S <Hfam>) filho ==N<:fcl

===SUBJ:pron-indp('que' M/F S) que ===ADVL:pp

====H:prp('de' <sam->) de ====P<:adv('aqui' <-sam>) aqui ===P:v-fin('ter' IMPF 3S IND) tinha ===ACC:np ====H:n('hido' M S) hido ====N<PRED:pp =====H:prp('com') com =====P<:np ======H:n('hua' F S) hua ======N<:adj('filho' F S) filha ======N<:n('herdeira' F S <H>) herdeira ======N<:pp 17

151 =======H:prp('de') de

=======P:prop('Martinho_da_Sylveira_de_Menezes' M S) Martinho_da_Sylveira _de_Menezes =.

Esta árvore sintáctica permite verificar a capacidade de:

1. Identificar constituintes das frases 1. Sujeito (SUBJ) – João de Saldanha 2. Predicado (P) – cazou

3. Complemento directo (ACC) – hum filho... 1. “Head” do complemento directo (H:n) -- filho 4. Orações relativas (N<:fcl) – que de aqui tinha hido 5. Oblíquos (N<PRED) – com hua filha...

2. Extrair triplos sujeito-acção-objecto 1. João de Saldanha – cazou – hum filho

Este tipo de processamento foi efectuado sobre todos os textos, tendo-se obtido um conjunto de entidades e um conjunto de triplos “sujeito-acção-objecto”.

Cada entidade identificada como sendo um nome próprio deu origem a uma entrada no índice onomástico (após validação manual) e foram adicionadas etiquetas semânticas aos textos e links do índice para essas entidades. As etiquetas semânticas foram inseridas recorrendo à linguagem XML – eXtended Markup Language.

Um exemplo é:

… foi pela posta a Madrid, e ficou hum irmão seu em sua caza, donde se continuavão os particulares, e ainda se não comessarão os de casa de <io18 id=“39”>Andre Lopes</io>

De uma forma correspondente, no índice onomástico, é criado um link para a ocorrência em causa:

[39] André Lopes /fl.66/19

Com base nos triplos sujeito-acção-objecto iniciou-se o processo de construção de uma ontologia que representasse (parcialmente) a informação veiculada nas Gazetas Manuscritas.

18 “io” representa “índice onomástico 19

152 Sendo esta uma tarefa muito complexa, definiu-se como primeiro passo a identificação automática de relações entre pessoas e, de uma forma mais específica, a identificação de relações familiares.

Lígia Duarte, no âmbito do trabalho de doutoramento que está a realizar na Universidade de Évora, sob o tema O parentesco em fontes narrativas do séc. XVIII: ensaio de uma

representação semi-automática, identificou, numa análise preliminar, 878 relações de

parentesco nos textos relativos ao período 1729-1734.

Estas relações podem ser referidas de uma forma implícita: 1. Titulares, família real; Ex: “condeça moça”, “príncipe”

ou explícita:

 Simples: “filho de”

 Estruturadas: “neto de X, “mulher de Y”

 Compostas

Para melhor ilustrar a complexidade do processo de inferência das relações de parentesco, veja-se o seguinte exemplo:

Hontem bautisou o Conde da Ribeira e ainda que pelo nojo não convidou os parentes e parentas de ambas as familias, jantarão magnificamente. A minina se chamou Joanna, sendo sua madrinha a Sra. Condeça de Alvor sua avo, que deu a sua filha hua bolsa de moedas. Foy padrinho D. Luis da Camara irmão do Conde e a Sra. Condessa da Ribeira que tambem se achou na função, deu em nome de seu filho a sua nora hum cofre de charão com luvas e outros adereços e hum ramo de flores que tinha por remate hum prego de hum diamante brilhante de grande preço. (Diário, 1731, BPE, códice CIV/1-5d, fl. 100v).

Sendo certo que os triplos sujeito-acção-objecto representam um input importante para esta tarefa, a leitura do exemplo anterior demonstra que não é suficiente para permitir a extracção de todas as relações de parentesco.

Tendo em conta esta constatação, definiu-se a seguinte metodologia adicional:

 Identificar padrões “linguísticos” (lexicais + sintácticos) que indiciem relações de parentesco;

153

 Criar regras, com base nos padrões identificados;

 Aplicar as regras definidas à totalidade dos textos.

Vejamos dois exemplos para a relação de casamento:

Declarouse o cazamento de D. Bras da Silveira com a Sra. D. Maria Caetana de

Tavora Dama do Paço e irmã do Conde de Povolide. que de mais de alvará tem dezouto mil cruzados de legitima, ainda senão sabe se hirá para a Beira e não tem dispençação.

e

Deve tratar-se de D. Afonso de Noronha, filho terceiro dos 4os Condes dos Arcos, que, não tendo descendência do primeiro casamento, desposou D. Guiomar Bernarda de Lencastre, filha herdeira de D. Rodrigo de Lencastre

Uma análise detalhada das diversas formas de referir casamento, permitiu inferir as seguintes regras:

X desposou Y

cazamento de X com Y

cazou X com Y

caza X com Y

Estas regras foram aplicadas aos textos analisados sintacticamente e foram extraídas as relações correspondentes, criando-se uma base de conhecimentos do tipo:

casado(X,Y).

Pode-se verificar que a regra “cazamento de X com Y” é aplicável ao primeiro exemplo apresentado, obtendo-se X=“D. Bras da Silveira” e Y=“D. Maria Caetana de Tavora”, e que a regra “X desposou Y” é aplicável ao segundo exemplo, obtendo-se X=“D. Afonso de Noronha” e Y=“D. Guiomar Bernarda de Lencastre”. Neste sentido, a base de conhecimentos conterá os seguintes factos:

1. casado(“D. Bras da Silveira”, “D. Maria Caetana de Tavora”).

154 A metodologia descrita encontra-se em fase de aplicação à totalidade dos textos e será necessário estendê-la e aplicá-la a outras relações de parentesco consideradas pertinentes.