• Nenhum resultado encontrado

7 EXPLORAÇÃO DE MÉTODOS DE SUMARIZAÇÃO AUTOMÁTICA COM BASE EM

7.1 DESENVOLVIMENTO DE MÉTODOS DE S A

7.1.2 Uso dos subtópicos na SA multidocumento

Para investigar a influência dos subtópicos em SA, formalizaram-se duas propostas, como se mostra resumidamente na Figura 7.8. O método Subtópico Denso seleciona uma sentença de cada subtópico e o método Maior Subtópico recupera somente sentenças do subtópico com mais sentenças. Nas duas propostas, considera-se que os textos foram segmentados e os subtópicos já estão agrupados. Essses métodos não há conhecimento sobre núcleos e satélites, portanto, selecionam-se sentenças completas.

Figura 7.8: Métodos de SA multidocumento baseados em subtópicos

Segundo Boros et al. (2001), os assuntos de uma coleção de textos devem ser vistos como um conjunto finito de subtópicos e um bom sumário deve cobrir o maior número de subtópicos, respeitando o limite da taxa de compressão. Alguns pesquisadores supõem que a primeira sentença de cada subtópico corresponde uma descrição geral do mesmo e, por isso, deve ser inserida no sumário (Boros et al., 2001; Ercan e Cicekli, 2008). Essas suposições serviram de base para o método Subtópico Denso, no qual pelo menos uma sentença de cada subtópico é selecionada. O método Subtópico Denso é ilustrado no Quadro 7.3. A fase de Síntese é similar à dos métodos já apresentados.

Subtópicos

Subtópico Denso

Uma sentença de cada subtópico

Maior Subtópico

124 TRAN SF ORMA ÇÃ O

1. Calcular a média interna de similaridade de cada subtópico do conjunto T.

2. Ordenar as sentenças de cada subtópico pela posição que aparecem nos textos-fonte. 3. Repetir até que a taxa de compressão seja preenchida.

A. Selecionar um subtópico do conjunto T.

B. Selecionar/Remover a primeira sentença (candidata) do subtópico atual. C. Se no conjunto Sum há alguma sentença do subtópico atual:

D. Então, Se a similaridade entre ela(s) e a sentença candidata for abaixo da média do subtópico atual (Sim[atual])

E. Adicionar a sentença candidata no conjunto Sum.

F. Senão, Buscar a próxima sentença candidata do subtópico atual e voltar em C. G. Senão, adicionar a sentença candidata no conjunto Sum.

H. Selecionar o próximo subtópico do conjunto T.

I. Se percorreu todos os subtópicos e não atingiu a taxa de compressão J. Então, Voltar para o início do conjunto T de subtópicos.

Quadro 7.3: Método de sumarização automática Subtópico Denso

Considera-se que há um conjunto de subtópicos T {t1, t2, ..., tn}, onde n é o tamanho do

conjunto T. Em cada subtópico do conjunto T, há um conjunto de sentenças S {s1, s2, ..., sm},

onde m é tamanho do conjunto S. As sentenças em cada subtópico podem pertencer ou não a documentos diferentes, dependendo do agrupamento. A saída Sum será um conjunto de sentenças de subtópicos diferentes, que formarão o sumário.

No passo 1 do método Subtópico Denso, calcula-se a média de similaridade de cada subtópico do conjunto T, ou seja, busca-se a média de similaridade entre as sentenças de um subtópico. Assim, será formado o conjunto Sim de médias de similaridades {simt1, simt2, ...,

simtn}, onde n é tamanho do conjunto. No passo 2, para cada subtópico, organiza-se suas

sentenças pela posição que elas aparecem nos textos.

O passo 3 é repetido até atingir a taxa de compressão. Inicialmente, seleciona-se o primeiro subtópico do conjunto T (passo A). Do subtópico (atual), seleciona-se a primeira sentença candidata (passo B). Se no conjunto Sum de sentenças já selecionadas para o sumário, houver alguma sentença do subtópico atual (passo C), deve-se verificar qual a similaridade entre elas. Se a similaridade entre a sentença candidata e as sentenças do subtópico atual que estão no conjunto Sum for abaixo da média (passo D), insere-se a sentença candidata no conjunto Sum (passo E). Caso a similaridade entre a sentença candidata e as sentenças do subtópico atual do conjunto Sum for alta, deve-se escolher a próxima sentença do subtópico atual e verificar novamente a similaridade (passo F). Após a seleção da sentença, deve-se passar para o próximo subtópico do conjunto T (passo H) e repetir o processo até atingir a taxa de compressão. Caso se tenha percorrido uma vez cada subtópico e

125 a taxa de compressão não tenha sido atingida (passo I), deve-se voltar ao início do conjunto T (passo J) e repetir o processo.

É importante ressaltar que o controle de similaridade é realizado em cada subtópico, mas não entre os subtópicos. Essa decisão deve-se ao fato de que os textos-fonte já foram segmentados e os subtópicos foram agrupados, reduzindo a redundância entre grupos. Para exemplificar o método Subtópico Denso, considera-se a Figura 7.9, que contém dois documentos, identificados por D1 e D2 (parte a).

Parte (a)

Organização em subtópicos Parte (b)

T1 D1_S1 D2_S1 D1_S2 D2_S2 D1_S3 T2 D2_S3 D1_S4 D2_S4 D1_S5 T3 D2_S5 D2_S6 D2_S7

Figura 7.9: Representação do método Subtópico Denso

Cada retângulo representa uma sentença, logo, D1 tem 5 sentenças e D2 tem 7 sentenças. Barras verticais entre sentenças indicam a segmentação topical. O documento D1 está segmentado em dois subtópicos, chamados de T1 e T2. T1 contém as sentenças de 1 a 3, e T2 as sentenças 4 e 5. O documento D2, por sua vez, está organizado em três subtópicos: T1 contendo as sentenças 1 e 2; T2, com as sentenças 3 e 4; e T3, com as sentenças de 5 a 7. Observa-se que os subtópicos T1 e T2 ocorrem nos dois textos, enquanto o subtópico T3 aparece somente no documento D2. Pelo método Subtópico Denso, as sentenças são organizadas em seus subtópicos na ordem em que aparecem nos textos, conforme se mostra na Figura 7.9 (parte b). Todas as sentenças que possuem o mesmo número identificador ficam próximas umas das outras. Após essa organização, o método selecionará a primeira sentença dos subtópicos T1, T2 e T3. No método Subtópico Denso não é verificado quais subtópicos são mais importantes. Os subtópicos são considerados independentes um do outro.

Na Figura 7.10, apresenta-se um exemplo de sumário obtido pelo método Subtópico Denso. O segundo valor nos colchetes é um identificador para o subtópico da sentença. O sumário descreve “Polícia prende desembargadores, juízes e parlamentares em Rondônia”.

D1 D2 S2 S3 S4 S5 S6 S7 Subtópicos T1 T2 T3

126

Figura 7.10: Exemplo de sumário pelo método Subtópico Denso Fonte: Córpus CSTNews, C9

Para o sumário da Figura 7.10, a coleção tinha 4 subtópicos e foi possível recuperar uma sentença de cada. Os subtópicos estão organizados como segue: 1) operação da PF e os presos, 2) motivo das prisões, 3) novas investigações e 4) detalhes da investigação. Um detalhe que chama atenção na sentença S3 é que não é possível identificar quem é Mesquita. A primeira ocorrência dessa entidade estava em uma sentença do subtópico 1, que não foi selecionada para o sumário devido à taxa de compressão. O método Subtópico Denso é similar ao Caminho Denso de Salton et al. (1997), descrito no Capítulo 4. Os autores utilizam um mapa de relacionamentos entre parágrafos de um texto e selecionam os parágrafos que receberam mais ligações. Apesar de os métodos Caminho Denso (Salton et al., 1997) e Subtópico Denso selecionarem um pouco de cada subtópico, formando sumários abrangentes, não há garantias de coesão nos extratos.

Segundo Ercan e Cicekli (2008), um subtópico relevante é aquele que possui mais sentenças que outros subtópicos, indicando que ele foi bem discutido entre as fontes. Salton et al. (1997) também selecionaram sentenças de um único subtópico pelo chamado Caminho Profundo: (i) localiza-se o parágrafo que tem mais ligações com os demais, e (ii) seleciona-se esse parágrafo para o sumário. O próximo parágrafo selecionado será aquele que tem mais ligações com o anteriormente selecionado. Pelo Caminho Profundo (descrito no Capítulo 4), o sumário final terá somente parágrafos semanticamente relacionados. Apoiando-se nos trabalhos de Ercan e Cicekli (2008) e Salton et al. (1997), elaborou-se o método Maior

Subtópico, que coleta sentenças do maior subtópico de uma coleção. Considerando os

subtópicos da Figura 7.9, pelo método Maior Subtópico, somente sentenças do subtópico T1

[S1, 1] A PF (Polícia Federal) prendeu na manhã desta sexta-feira 23 pessoas suspeitas de envolvimento em esquema da Assembléia Legislativa do Estado de Rondônia para desvio de recursos públicos e influência indevida sobre Poder Judiciário, Ministério Público, Tribunal de Contas e Poder Executivo do Estado.

[S2, 2] O grupo é acusado de lesar os cofres públicos em cerca de R$ 70 milhões, desde 2004.

[S3, 4] Essa investigação demonstra a existência de uma grande organização criminosa no estado de ‘o dô ia, ue te e i í io a ásse léia Legislati a e este deu seus te t ulos pa a pa te dos poderes do Estado, comprometendo e envolvendo pessoas do Tribunal de Justiça, do Tribunal de Contas, do Ministério Público e do Poder Executivo, resumiu Mesquita.

[S4, 3] As informações coletadas pela PF durante as investigações foram enviadas ao TJ (Tribunal de Justiça) do Estado de Rondônia e ao STJ (Superior Tribunal de Justiça).

127 seriam selecionadas. Ao final, o sumário estaria concentrado em informações de um único subtópico. No Quadro 7.4, apresenta-se o passo-a-passo do método Maior Subtópico.

TRAN

SF

ORMA

ÇÃ

O

1. Selecionar o subtópico mais relevante (mais sentenças). 2. Calcular a média de similaridade do subtópico escolhido.

3. Organizar as sentenças do subtópico escolhido pela posição que aparecem nos textos-fonte. 4. Repetir até que a taxa de compressão seja preenchida ou enquanto houver sentenças no subtópico:

A. Remover a primeira sentença (candidata) do subtópico escolhido.

B. Se a similaridade entre a sentença candidata e as sentenças já selecionadas para o conjunto Sum for abaixo da média de similaridades do subtópico escolhido:

C. Então, Adicionar a sentença candidata no conjunto Sum. D. Senão, voltar no passo A.

Quadro 7.4: Método de sumarização automática Maior Subtópico

No passo 1, seleciona-se o subtópico com mais sentenças. No passo 2, calcula-se a média de similaridade do subtópico escolhido. No passo 3, organizam-se as sentenças desse subtópico pela posição que aparecem nos textos-fonte. O passo 4 deve ser repetido até atingir a taxa de compressão ou enquanto houver sentenças no subtópico. Inicialmente, no passo A, remove-se a primeira sentença do subtópico. Se o conjunto Sum de sentenças selecionadas para o sumário não estiver vazio, deve-se verificar a similaridade entre a sentença candidata e as sentenças do conjunto Sum. Assim, se a similaridade entre a sentença candidata e o conjunto Sum for abaixo da média (passo B), adiciona-se a sentença candidata no conjunto Sum (passo C). Caso contrário, deve-se voltar no passo A e escolher a primeira sentença disponível. Por esse método, é possível que se esgotem as opções de sentenças do subtópico escolhido e que não haja conteúdo suficiente para formar o sumário, devido à alta similaridade. Se isso acontece, forma-se um sumário com tamanho menor ao que era esperado.

Na Figura 7.11, apresenta-se um exemplo de sumário pelo método Maior Subtópico, usando o mesmo conjunto de textos-fonte do sumário da Figura 7.10. No sumário, percebe-se que o subtópico selecionado (identificado como 1) descreve sobre a operação da Polícia Federal e os presos.

128

Figura 7.11: Exemplo de sumário pelo método Maior Subtópico Fonte: Córpus CSTNews, C9

Um problema do método Maior Subtópico é que outras informações relevantes são desprezadas. Por outro lado, poder-se ia pensar em sumarização com foco no interesse do usuário, na qual o usuário informa o subtópico de seu interesse e o sistema responde com um sumário relacionado.

Quanto aos métodos Subtópico Denso e Maior Subtópico apontam-se duas questões interessantes:

a) Se o foco for a representatividade dos subtópicos, deve-se selecionar um pouco de cada subtópico, respeitando a taxa de compressão. Embora o sumário final seja abrangente em relação ao conteúdo, ele poderá ser desconexo.

b) Se o foco for a produção de um sumário centrado em um subtópico, nesse caso devem-se estabelecer estratégias para encontrar o subtópico desejado.

A avaliação dos métodos Subtópico Denso e Maior Subtópico é discutida na Seção 7.2