• Nenhum resultado encontrado

6   O USO DE INFORMAÇÕES SEMÂNTICAS DO PALAVRAS: EM BUSCA DO

6.4   Detalhamento do modelo proposto 64

Este novo modelo propõe que, agora, cada EDU escolhida para compor o sumário seja indicada pelas seguintes informações: sua classificação de saliência, sua ocorrência no acc de alguma EDU já escolhida e a satisfação de alguma heurística que envolva suas etiquetas semânticas.

A aplicação deste modelo de raciocínio parte, assim, de uma EDU saliente e leva, a cada análise de acc, à escolha das EDUs que apresentarem maior grau de similaridade semântica com a EDU saliente em foco. São as heurísticas de identificação de EDUs mais similares semanticamente a cada EDU saliente candidata a inclusão no sumário as responsáveis pelo novo raciocínio.

O novo modelo supõe que o sistema de SA recebe como entrada, além da árvore RST, o texto-fonte anotado previamente pelo PALAVRAS com as etiquetas semânticas (dado pelo

22

De fato, considerando-se a lógica do conjunto de premissas, se as etiquetas marcadas com ‘no’ nunca são correferentes, cada premissa desse tipo será tautológica e, assim, neutra na conjunção de premissas, podendo ser retirada por simplificação.

65 pontilhado na Figura 19). Porém, por se tratar de um trabalho teórico e, portanto, manual, foram considerados somente os SNs que estão em relação de correferência com outros SNs do texto; informação retirada da anotação de correferência do corpus Summ-it. Esse recorte do cenário ideal foi necessário já que, sem o modelo heurístico implementado, as combinações entre etiquetas seriam inúmeras para se fazer mentalmente, o que tornaria os resultados muito passíveis de erros. Assim, considera-se, além do TF anotado com informações semânticas, as CCRs anotadas manualmente. Porém, vale ressaltar que, caso o modelo heurístico seja implementado, não será necessária a utilização de informações de CCRs como entrada para o módulo de sumarização.

O novo componete heurístico de decisão para a filtragem de EDUS que contém antecedentes mais prováveis é incorporado ao módulo denominado Sumarização23.

Figura 19. Arquitetura do modelo proposto

Seja a classificação de saliência original de n EDUs de certo texto-fonte dada, por exemplo, por EDU1, EDU2 , EDU3 > EDU4 , EDU5 > ...> EDUj > EDUj+1 , EDUj+2 , EDUj+3

>...> EDUn24e seja a EDUj a próxima EDU escolhida para inclusão no sumário.

23

Compare essa arquitetura com a do VeinSum, na Figura 10.

24

Os subscritos, aqui, indicam somente a ordem de saliência e não o número da EDU, ou sua posição, no texto- fonte.

66 De modo geral, considera-se que o sumário em construção já tenha alguns segmentos textuais e, portanto, tenha um tamanho calculado T0. Esse sumário será identificado aqui por sumário anterior. Chegado o momento de incluir a EDUj, o procedimento a ser realizado para

se obter um sumário novo é o seguinte:

• Se a EDUj ou qualquer EDU de seu acc aparecer em uma relação de ATTRIBUTION

ou SAME-UNIT com outra EDU já incluída no sumário, ela deve ser incluída incondicionalmente, para que não se perca a autoria da mensagem proferida no primeiro caso e para que a proposição inteira seja preservada, no segundo.

• Busca-se o acc da EDUj, aqui denotado por acc(j). Como esse conjunto é composto

pelas EDUs na ordem em que elas aparecem no texto (e, portanto, ordenado crescentemente com base nos índices das EDUs), a EDUj é a última EDU do acc(j).

Sendo esta a EDU que pode conter uma anáfora, somente as EDUs que a antecedem no acc(j) (isto é, com índices menores que j) poderão ser candidatas à verificação de similaridade semântica.

• Verifica-se a similaridade semântica entre as etiquetas dos núcleos dos SNs da EDUj e

as etiquetas dos núcleos dos SNs de cada EDU de seu acc, de acordo com a seguinte sequência de decisões:

o Sob a hipótese de que um antecedente de uma possível anáfora ocorra próximo a ela (Mitkov, 2002) (Chaves, 2007), a primeira EDU analisada deve ser a mais próxima da EDUj no acc(j).

o A análise de cada EDU candidata recai sobre as EDUs do acc(j) que ainda não constam do sumário. Entretanto, se a EDUj, já estiver no sumário, não é

necessário considerar nenhuma outra EDU candidata.

o Aplica-se alguma das heurísticas do modelo proposto. Consideram-se, primeiramente, as regras de associação, pois elas cobrem os casos de classificação, exceto em 3 casos, dos 37 desse conjunto. Vale lembrar, porém, que, na associação de etiquetas, somente sua coocorrência é considerada, perdendo-se a informação dada pela implicação lógica, que indicaria a etiqueta mais adequada a considerar. As heurísticas em foco são as que envolvem as etiquetas de algum núcleo dos SNs da EDUj e da EDU candidata. Basta

contemplar ao menos um par de etiquetas da EDU sob análise e da EDUj para

67 ƒ Se nenhuma regra de associação se aplicar, buscar a coincidência direta

de etiquetas da EDUj e da EDU candidata.

ƒ Se não for possível encontrar etiquetas coincidentes, usar alguma regra de classificação que se aplique ao caso, ou seja, aquela com premissa que indique a etiqueta do N da EDUj em foco e com consequência

lógica que indique a etiqueta do possível antecedente. Essa etiqueta deve ser associada a um dos componentes da EDU candidata.

ƒ Recuperado o elenco de EDUs candidatas, as que forem consideradas semanticamente similares à EDU em foco devem ser incluídas no sumário. Porém caso a EDUj-1 apresentar um candidato a antecedente e

a EDUj-2 apresentar três candidatos para as 4 anáforas da EDUj, a

EDUj-2, em vez da EDUj-1, deve ser a escolhida.

o Se nenhum dos casos anteriores se aplicar, manter todo o acc da EDU saliente no sumário, isto é, incluir todas as suas EDUs que ainda não constam no sumário.

No caso geral, se durante a análise de EDUs do acc(j) a EDU em foco não for considerada semanticamente similar à EDUj pelas heurísticas anteriores, despreza-se essa

EDU e busca-se outra, repetindo todo o processo descrito. Determinada uma EDU candidata a compor o sumário, verifica-se se sua inclusão não irá corromper a TC ideal. Essa nova condição pode ser descrita pelos seguintes passos:

• Seja o tamanho do sumário novo denotado por T1 e o tamanho do sumário pretendido

(calculado pela TC) denotado por Tideal. Tem-se em mãos, até o momento, um sumário

anterior (tamanho T0), um sumário novo (tamanho T1) e o Tideal. A questão, aqui, é

decidir qual dos sumários mais se aproxima do desejado.

o Se T1 ultrapassar Tideal, comparar com T0 e escolher, entre o sumário anterior e o novo, aquele cujo tamanho se aproximar mais do ideal. Isso é feito calculando-se a distância entre os sumários, isto é, a diferença de tamanho dos sumários anterior e novo, em relação ao ideal, considerando-se o número de palavras que ultrapassam ou que faltam para atingir o tamanho ideal.

ƒ Se distância entre Tideal e T0 for menor que distância entre Tideal e T1,

68 sumário final prossegue com o sumário novo ou se a EDUj deve ser

rebaixada, seguindo o procedimento original do VeinSum, conforme explicitado no capítulo 6.

o Decidindo-se pelo rebaixamento, descarta-se a EDUj e as EDUs candidatas selecionadas pelo modelo heurístico de correferência, ou seja, volta-se a considerar o sumário anterior, para buscar a próxima EDU mais saliente e retomar os critérios de seleção. Essa nova EDU será a próxima EDUj a ser

incluída no sumário. Portanto, o processo se repete até que um sumário com a melhor aproximação do tamanho ideal seja obtido (podendo ter, apesar de raros os casos, o próprio tamanho ideal).

Tome-se como exemplo um texto-fonte de 100 palavras, com TC de 30%. Nesse caso, o tamanho do sumário ideal (Tideal) deve ser de 30 palavras. Suponha-se que o tamanho do

sumário anterior (T0) seja de 26 palavras e do sumário novo (T1), de 36 palavras25. Neste caso,

as respectivas distâncias desses sumários, para o sumário ideal, serão dadas pela diferença entre cada um dos seus tamanhos e o tamanho ideal, como explicado anteriormente. Nesse exemplo, a distância do sumário anterior é de 4 palavras e a do sumário novo é de 6 palavras. Logo, o sumário anterior deve ser mantido. No caso de distância igual entre T0 e T1, o

sumário anterior deve ser mantido.

• A cada nova EDU incluída, o processo acima deve ser repetido para buscar a clareza referencial também em relação a prováveis anáforas existentes nessa EDU. Ou seja, mesmo que ela não seja a EDU saliente da vez (isto é, mesmo que ela seja proveniente de algum acc), o processo deve ser integralmente repetido.

o Ao esgotar-se a escolha de uma EDU candidata a antecedente da EDUj dentre as EDUs do acc(j), volta-se à lista de EDUs salientes para escolher a próxima a incluir no sumário.

Vale destacar que ao utilizar as heurísticas, não houve a necessidade de uso de nenhuma regra C, pois as regras A e a coincidência de etiquetas foram suficientes para cobrir a totalidade dos casos, apesar de indicarem antecedentes equivocados, algumas vezes. Essas regras, após o processo de filtragem manual, são utilizadas já como heurísticas durante

25

69 o processo da construção do novo sumário. Certamente essa forma de defini-las pode acarretar problemas, porém é uma forma válida de se determinar meios de identificação e escolha de EDUs relevantes para um sumário.

O raciocínio geral desta seção é incorporado ao algoritmo descrito a seguir.

6.5 Algoritmo de aprimoramento de seleção de unidades correferentes na