• Nenhum resultado encontrado

Descrição do GEI Gerador de Extratos Ideais para o Português do Brasil

N/A
N/A
Protected

Academic year: 2021

Share "Descrição do GEI Gerador de Extratos Ideais para o Português do Brasil"

Copied!
10
0
0

Texto

(1)

Universidade de São Paulo - USP

Universidade Federal de São Carlos - UFSCar

Universidade Estadual Paulista - UNESP

Descrição do GEI – Gerador de Extratos

Ideais para o Português do Brasil

Thiago Alexandre Salgueiro Pardo

Lucia Helena Machado Rino

NILC-TR-04-07

Agosto 2004

Série de Relatórios do Núcleo Interinstitucional de Lingüística Computacional

NILC - ICMC-USP, Caixa Postal 668, 13560-970 São Carlos, SP, Brasil

(2)

Resumo

Apresenta-se, neste relatório, a descrição do GEI – um Gerador de Extratos Ideais para o português do Brasil. Dados um texto-fonte e seu sumário manual, construído por um humano, o GEI é capaz de produzir o extrato ideal correspondente, isto é, o sumário formado pelas sentenças do texto-fonte que mais se assemelham às sentenças do sumário manual. Extratos ideais são de grande importância para as pesquisas em Sumarização Automática de Textos, pois, basicamente, são utilizados para o treinamento de sumarizadores automáticos, quando este é o caso, e possibilitam a avaliação (teste) destes sistemas de forma completamente automática.

(3)

1 ÍNDICE 1. INTRODUÇÃO ...2 2. DESCRIÇÃO DO GEI...2 3. CONSIDERAÇÕES FINAIS...7 REFERÊNCIAS ...8

(4)

2

1. Introdução

Apresenta-se, neste relatório, a descrição do GEI – um Gerador de Extratos Ideais para o português do Brasil. Dados um texto-fonte e seu sumário manual, construído por um humano, o GEI é capaz de produzir o extrato ideal correspondente, isto é, o sumário formado pelas sentenças do texto-fonte que mais se assemelham às sentenças do sumário manual. Chama-se extrato pelo fato das sentenças que o compõem serem “extraídas” do texto-fonte e simplesmente justapostas, sem que sofram qualquer alteração (Mani, 2001). O resumo deste relatório é um exemplo de extrato, pois é formado pelas duas primeiras sentenças deste parágrafo e pela primeira sentença do próximo parágrafo. Um extrato é considerado “ideal” quando, supostamente, corresponde em conteúdo ao sumário manual. Tal nomenclatura foi cunhada por Teufel e Moens (1999) e tem sido amplamente utilizada na literatura especializada.

Extratos ideais são de grande importância para as pesquisas em Sumarização Automática de Textos, pois, basicamente, são utilizados para o treinamento de sumarizadores automáticos, quando este é o caso, e possibilitam a avaliação (teste) destes sistemas de forma completamente automática. Os extratos também podem servir de base para os mais variados estudos lingüísticos e lingüístico-computacionais, quer para o melhor entendimento de sua relação com seu texto-fonte e o sumário manual, da forma como são produzidos, ou mesmo da natureza do processo de sumarização, quer para o desenvolvimento de novas metodologias de sumarização automática.

Para o leitor interessado nas metodologias de pesquisa em sumarização automática, sugere-se a leitura de Martins et al. (2001), que apresentam uma introdução ao campo. Para o leitor interessado em avaliação de sumarizadores automáticos e em como os extratos ideais podem ser utilizados para isso, sugere-se a leitura de Rino e Pardo (2003). No restante deste relatório, apresenta-se a descrição do GEI e da metodologia na qual ele se baseia.

2. Descrição do GEI

O GEI foi implementado em C e tem aproximadamente 400 linhas de código1. Por ser implementado em C, o sistema é portável para qualquer plataforma, desde que seu código seja apropriadamente compilado na plataforma de destino.

A partir de um texto-fonte e de seu sumário manual, que são os dados de entrada, o sistema produz o extrato ideal como dado de saída. O GEI deve ser executado em linha de comando, observando a seguinte sintaxe:

GEI texto_fonte sumário_manual

onde texto_fonte é o arquivo em formato texto (plain text) que contém o texto-fonte e sumário_manual é o arquivo em formato texto (plain text) que contém o sumário manual. O extrato ideal será produzido e armazenado em um arquivo de mesmo nome do arquivo que contém o texto-fonte com o acréscimo da extensão ext. O arquivo com o extrato ideal conterá uma sentença por linha.

1

Também houve uma versão do sistema implementada em Borland Delphi. Entretanto, essa versão não está mais disponível para uso.

(5)

3

Como exemplo, as Figuras 1, 2, 3 e 4 mostram, respectivamente, um texto-fonte, seu sumário manual, uma janela (no sistema operacional Windows) com a linha de comando que executa o GEI e o extrato ideal produzido. O texto-fonte e o sumário manual mostrados fazem parte do TeMário (Pardo e Rino, 2003), um corpus voltado para tarefas de sumarização para o português do Brasil.

Sete pessoas foram assassinadas em Los Angeles num final de semana, número tão normal que nenhum deles mereceu destaque nos principais jornais da cidade.

Mas no Japão, onde assassinatos são um fenômeno quase desconhecido, dois deles provocaram comoção nacional.

Dois estudantes japoneses morreram com tiros na cabeça na semana passada no estacionamento de um supermercado próximo ao Marymount College (zona sul), onde eles estudavam.

O assassinato de Takuma Ito e Go Matsuura é o terceiro ataque fatal a japoneses em visita aos EUA em três anos.

Esses incidentes suscitaram temor numa nação que envia 50 mil estudantes e três milhões de outros viajantes aos EUA todos os anos. Só em LA, os turistas japoneses gastaram cerca de US$ 480 milhões em 93.

As autoridades qualificaram o crime de sequestro de automóvel. Os analistas de notícias de Tóquio tiveram que explicar o que isto significava.

No ano passado ocorreram apenas 100 homicídios em Tóquio, cidade com 13 milhões de habitantes e que durante o dia tem uma população de mais de 20 milhões.

Estima-se que no Japão inteiro não existam mais que 100 mil armas de fogo -só concedidas com licença especial. Nos EUA, há cerca de 200 milhões de armas. O índice de assalto nos EUA é cerca de 130 vezes superior ao do Japão.

Em 1992, de um rapaz de 16 anos em Baton Rouge, Louisiana, pelo dono de uma casa. O rapaz se confundiu com a casa em que estava sendo realizada uma festa de Halloween, para onde se dirigia.

O dono da casa foi absolvido, tendo sido considerado que ele agira em defesa própria. No ano passado, um japonês de 25 anos foi baleado e morto numa estação ferroviária de Concord, Califórnia, durante um assalto. O caso ainda não foi resolvido.

Desta vez o governo japonês aconselhou seus cidadãos que pretendem viajar aos EUA ter prudência na escolha dos lugares que pretendem visitar. Autoridades turísticas americanas prevêem queda no número de visitantes do Japão. Mas a maioria dos especialistas acha que a redução seria temporária; os EUA ofereceriam tantas atrações que alguns assassinatos não seriam o suficiente para afastar os turistas.

O cônsul-geral japonês Seiichiro Noboru diz que os assassinatos não vão "'mudar o amor que os japoneses sentem pela ensolarada Califórnia. Crimes acontecem em qualquer lugar do mundo".

Já as autoridades americanas estão pregando o perdão. "Mil policiais extras não teriam conseguido evitar algo tão brutal e sem sentido", disse o sargento Steve Foster, da polícia de Los Angeles.

"As autoridades americanas pedem desculpas e exortam os japoneses a não terem medo, mas a verdade é que eles deveriam ter medo, sim. Todos sabemos que há lugares onde jamais iríamos à noite, e talvez nem mesmo de dia. Está na hora de os EUA, de todos nós, enfrentarmos esse problema", disse Jimmy Takeshi, da Liga dos Cidadãos Nipo-Americanos em Los Angeles.

Ele encontrará apoio para suas posições no Japão. Depois do caso da Louisiana, muitos japoneses criticaram os EUA por suas leis permissivas referentes ao porte de armas. Os pais da vítima circularam um abaixo-assinado pela proibição do porte de armas nos EUA.

O incidente recente deve suscitar um clamor ainda maior. As duas vítimas, de 19 anos, eram muito populares na universidade. "Um cara fantástico e ótimo aluno", é como John Escandan descreveu Ito, seu colega de quarto.

Nenhum dos dois morreu instantaneamente. O Japão acompanhou a chegada de seus pais, que autorizaram os médicos a desligarem os aparelhos.

(6)

4

Figura 1 – Texto-fonte 1

Figura 2 – Sumário manual para o Texto-fonte 1

Figura 3 – Execução do GEI para o Texto-fonte 1

Figura 4 – Extrato ideal para o Texto-fonte 1

O nível de apreço à vida tem indicadores bem significativos: sete pessoas assassinadas em Los Angeles num fim de semana não mereceram destaque em nenhum dos principais jornais da cidade; dois estudantes japoneses, mortos perto do seu colégio, Marymount College, provocaram uma comoção no Japão.

Em todo o Japão, avalia-se que existem 100 mil armas; nos EUA, cerca de 200 milhões. O índice de assalto nos EUA é, aproximadamente, 130 vezes superior ao do Japão.

O Japão, que envia 50 mil estudantes e três milhões de turistas aos EUA, anualmente, está aconselhando-os a serem prudentes na escolha de lugares que vão visitar.

Autoridades turísticas americanas até acreditam na queda de visitantes; mas a maioria supõe que seja temporária, dada a variedade de maravilhas que o país pode oferecer.

As autoridades americanas pedem desculpas e continuam estimulando os japoneses a perder o medo, mas a prudência da Liga dos Cidadãos Nipo-Americanos em Los Angeles alerta para o problema.

Sete pessoas foram assassinadas em Los Angeles num final de semana, número tão normal que nenhum deles mereceu destaque nos principais jornais da cidade.

Esses incidentes suscitaram temor numa nação que envia 50 mil estudantes e três milhões de outros viajantes aos EUA todos os anos.

Nos EUA, há cerca de 200 milhões de armas.

O índice de assalto nos EUA é cerca de 130 vezes superior ao do Japão.

Autoridades turísticas americanas prevêem queda no número de visitantes do Japão.

"As autoridades americanas pedem desculpas e exortam os japoneses a não terem medo, mas a verdade é que eles deveriam ter medo, sim. Todos sabemos que há lugares onde jamais iríamos à noite, e talvez nem mesmo de dia. Está na hora de os EUA, de todos nós, enfrentarmos esse problema", disse Jimmy Takeshi, da Liga dos Cidadãos Nipo-Americanos em Los Angeles.

O prefeito de Los Angeles, Richard Reardon, sugere "folhetos descrevendo a hora mais segura para se sair de casa e os locais onde (os japoneses) não devem ir".

Mas é provável que o local onde foram assassinados os dois estudantes não constaria de uma lista desse tipo. A vizinhança de Marymount é agradável e tem baixo índice de criminalidade.

A faculdade diz que os alunos estão chocados com a tragédia. As bandeiras estão hasteadas a meio pau, em sinal de luto. Estudantes e amigos vêm colocando rosas e velas onde eles foram baleados.

(7)

5

O processamento do GEI é dividido em três etapas: segmentação textual, seleção de sentenças e produção do extrato ideal. A Figura 5 mostra a arquitetura do sistema.

Figura 5 – Arquitetura do GEI

A etapa de segmentação textual consiste em delimitar as sentenças do texto-fonte e do sumário manual. Para isso, o GEI utiliza regras simples que observam o uso de sinais de pontuação, como o ponto final, exclamação e interrogação, e uma lista de abreviaturas, para ser capaz de identificar quando um ponto é realmente um delimitador de sentença e não parte de uma abreviatura. A seleção de sentenças consiste em identificar as sentenças do texto-fonte que mais se assemelham às sentenças do sumário manual, conforme será explicado a seguir. A produção do extrato ideal consiste simplesmente na justaposição das sentenças selecionadas na ordem em que elas ocorrem no texto-fonte, formando, enfim, o extrato ideal.

A etapa de seleção de sentenças é a etapa principal do GEI e é realizada pelo uso do modelo do espaço vetorial e da medida do cosseno de Salton (1989). Durante essa etapa, o GEI também faz uso de um stemmer para o português do Brasil (Caldas Junior et al., 2001), isto é, um programa que identifica o radical das palavras (segundo o modelo de Porter, 1980), e de uma stoplist, isto é, uma lista de

stopwords, palavras muito comuns e, portanto, irrelevantes para o processamento. O

uso de um stemmer e de uma stoplist acarretam a produção de resultados mais precisos.

Pelo modelo do espaço vetorial, cada sentença é representada em um vetor, onde cada posição do vetor corresponde a uma palavra da sentença; a medida do cosseno, por sua vez, calcula a distância entre dois vetores. Dessa forma, quanto mais próximos dois vetores são, mais similares são as sentenças a que correspondem. No GEI, essa similaridade é calculada para todo par de sentenças formado por uma sentença do texto-fonte e outra do sumário manual. Segundo essa metodologia, para cada sentença do sumário manual, seleciona-se a sentença do texto-fonte mais similar a ela para representá-la no extrato ideal. Quanto mais palavras em comum e com iguais freqüências as sentenças tiverem, mais similares as sentenças serão.

A fórmula da medida do cosseno é mostrada abaixo:

= = =

=

n i n i i i n i i i

y

x

y

x

y

x

sim

1 1 2 2 1

)

(

)

(

)

(

)

,

(

Texto-fonte Sum. manual Segmentação textual Seleção de sentenças Produção do extrato ideal Extrato ideal Abreviaturas Stoplist Stemmer

(8)

6

onde x e y são os vetores, n é o tamanho dos vetores e xi é o conteúdo da posição i

do vetor x, sendo que, no GEI, cada posição do vetor contém a freqüência do radical da palavra correspondente (ignorando as stopwords) na sentença em questão. A fórmula da similaridade sempre produzirá um resultado entre 0 e 1.

A seguir, como exemplo, mostra-se passo a passo o cálculo da similaridade para um par de sentenças hipotéticas “O pai deu um brinquedo ao garoto.” (de um texto-fonte hipotético) e “O garoto ganhou um brinquedo.” (de um sumário manual hipotético para o texto-fonte hipotético).

Passo 1: representação das sentenças em vetores, referenciados como v1 e v2, com as freqüências associadas às respectivas palavras (entre parênteses). Neste exemplo simples, cada palavra ocorre somente uma vez dentro de sua sentença.

v1 O (1) pai (1) deu (1) um (1) brinquedo (1) ao (1) garoto (1) v2 O (1) garoto (1) ganhou (1) um (1) brinquedo (1)

Passo 2: eliminação das stopwords. v1 ∅ pai (1) deu (1) ∅ brinquedo (1) ∅ garoto (1) v2 ∅ garoto (1) ganhou (1) ∅ brinquedo (1) Passo 3: stemming. v1 ∅ pai (1) dar (1) ∅ brinqued (1) ∅ garot (1) v2 ∅ garot (1) ganh (1) ∅ brinqued (1)

Passo 4: re-estruturação dos vetores, de acordo com a ordenação alfabética dos radicais e o cruzamento dos radicais das sentenças. Note que os radicais “dar” e “pai” da primeira sentença não têm correspondentes na segunda sentença; por outro lado, o radical “ganh” da segunda sentença não tem correspondente na primeira sentença.

(9)

7 v1 brinqued (1) dar (1) garot (1) pai (1) ∅ v2 brinqued (1) ∅ garot (1) ∅ ganh (1)

Passo 5: cálculo da similaridade.

onde:

- o primeiro elemento do numerador é o produto da freqüência do radical “brinqued” na primeira sentença e da freqüência do radical “brinqued” na segunda sentença; o segundo elemento do numerador é o produto da freqüência do radical “dar” na primeira sentença e da freqüência do radical “dar” na segunda sentença (que, neste caso, é 0, pois não existe tal radical nesta sentença); etc.

- o primeiro elemento do primeiro fator do denominador (dentro da raiz quadrada) é a freqüência do radical “brinqued” na primeira sentença elevada ao quadrado; o segundo elemento do primeiro fator do denominador é a freqüência do radical “dar” na primeira sentença elevada ao quadrado; etc. (o mesmo raciocínio se aplica ao segundo fator do denominador, que corresponde à segunda sentença).

Como resultado, tem-se que a similaridade entre as duas sentenças hipotéticas é de 0.57.

Durante o processamento de textos e sumários reais, há casos em que a sentença do texto-fonte que mais se assemelhe a uma determinada sentença do sumário manual já tenha sido associada a outra sentença do sumário manual. Nestes casos, o GEI busca pela próxima sentença do texto-fonte com maior similaridade com a sentença do sumário manual em questão. Se essa outra sentença também já tiver sido selecionada, busca-se outra, e assim por diante.

Pelo fato de se selecionar uma sentença do texto-fonte para cada sentença do sumário manual, o extrato ideal conterá o mesmo número de sentenças do sumário manual.

A próxima seção apresenta algumas considerações finais sobre o GEI.

3. Considerações Finais

Apresentou-se, neste relatório, a descrição do GEI, um Gerador de Extratos Ideais para o português do Brasil. Até onde se sabe, este é o primeiro sistema deste tipo desenvolvido para tal língua, apesar de sua metodologia não ser original.

Dentre as diversas aplicações possíveis, o sistema já foi utilizado para gerar os extratos ideais que acompanham o TeMário, um corpus para o português voltado para tarefas de sumarização. Com base nesse mesmo corpus e nos extratos ideais, foi

57 . 0 )) 1 ( ) 0 ( ) 1 ( ) 0 ( ) 1 (( )) 0 ( ) 1 ( ) 1 ( ) 1 ( ) 1 (( ) 1 0 ( ) 0 1 ( ) 1 1 ( ) 0 1 ( ) 1 1 ( ) 2 , 1 ( 2 2 2 2 2 2 2 2 2 2 + + + + ⋅ + + + + ≈ ⋅ + ⋅ + ⋅ + ⋅ + ⋅ = v v sim

(10)

8

realizada uma avaliação abrangente de vários sumarizadores automáticos desenvolvidos para o português (Rino et al., 2004), produzindo o primeiro

benchmark de que se tem notícia para essa língua no que diz respeito à sumarização

automática.

Apesar de muito útil, o GEI ainda não foi avaliado sistematicamente e apresenta alguns pontos que devem ser mais bem investigados, a saber:

- não há garantias de que o extrato ideal produzido realmente seja um bom representante do sumário manual, dado que a medida do cosseno pode falhar na seleção das sentenças do texto-fonte por não apreender o significado das sentenças propriamente;

- não há garantias de que o extrato ideal seja coerente ou coeso;

- não é possível tratar redundância de informação no processo de geração do extrato ideal, o que pode acarretar a produção de extratos ideais com sentenças de mesmo conteúdo;

- devido às regras simples utilizadas para a segmentação textual, o sistema pode cometer erros ao delimitar as sentenças do texto-fonte e do sumário manual;

- no geral, os extratos ideais são maiores do que os sumários manuais, o que pode comprometer as tarefas que se baseiam em tais extratos (como a avaliação de sistemas, por exemplo).

Referências

Caldas Junior, J.; Imamura, C.Y.M.; Rezende, S.O. (2001). Avaliação de um Algoritmo de Stemming para o Língua Portuguesa. In the Proceedings of the 2nd

Congress of Logic Applied to Technology, Vol. 2, pp. 267–274.

Mani, I. (2001). Automatic Summarization. John Benjamins Publishing Co., Amsterdam.

Martins, C.B.; Pardo, T.A.S.; Espina, A.P.; Rino, L.H.M. (2001). Introdução à

Sumarização Automática. Relatório Técnico RT-DC 002/2001, Departamento de

Computação, Universidade Federal de São Carlos.

Pardo, T.A.S. e Rino, L.H.M. (2003). TeMário: Um Corpus para Sumarização

Automática de Textos. Série de Relatórios do NILC. NILC-TR-03-09.

Porter, M.F. (1980). An Algorithm for Suffix Stripping. Program, Vol. 14, N. 3, pp. 130-137.

Rino, L.H.M. e Pardo, T.A.S. (2003). A Sumarização Automática de Textos: Principais Características e Metodologias. In Anais do XXIII Congresso da

Sociedade Brasileira de Computação, Vol. VIII: III Jornada de Minicursos de Inteligência Artificial (III MCIA), pp. 203-245. Campinas-SP.

Rino, L.H.M.; Pardo, T.A.S.; Silla Jr., C.N.; Kaestner, C.A.; Pombo, M. (2004). A Comparison of Automatic Summarization Systems for Brazilian Portuguese Texts. In the Proceedings of the XVII Brazilian Symposium on Artificial Intelligence - SBIA2004. São Luís, Maranhão, Brazil.

Salton, G. (1989). Automatic Text Processing. The Transformation, Analysis and

Retrieval of Information by Computer. Addison-Wesley.

Teufel, S. and Moens, M. (1999). Argumentative Classification of Extracted Sentences as a First Step Towards Flexible Abstracting. In I. Mani and M.T. Maybury (eds.), Advances in Automatic Text Summarization, pp. 155-175. MIT Press, Cambridge, MA.

Referências

Documentos relacionados

Aos 7, 14 e 21 dias após a emergência (DAE), foi determinado o índice SPAD no folíolo terminal da quarta folha completamente expandida devido ser esta folha recomendada para verificar

O jacarandá (Dalbergia brasiliensis) mostrou crescimento em altura próximo à altura média entre as espécies ensaiadas (1,23m), destacando-se também como espécie alternativa para

A seleção portuguesa feminina de andebol de sub-20 perdeu hoje 21-20 com a Hungria, na terceira jornada do Grupo C do Mundial da categoria, a decorrer em Koprivnica, na

Entre as atividades, parte dos alunos é também conduzida a concertos entoados pela Orquestra Sinfônica de Santo André e OSESP (Orquestra Sinfônica do Estado de São

O conteúdo, inclusive, passou a ser, em alguns casos, produzido diretamente para a Internet e só depois publicado no papel, ou seja, essa inversão prova que o meio não pode ser

Desde logo, a nossa compreensão e interpretação da importância funcional e ritual das lamentações públicas das carpideiras e dos carpideiros egípcios é sublinhada pelo

Corograpliiu, Col de Estados de Geografia Humana e Regional; Instituto de A lta C ultura; Centro da Estudos Geográficos da Faculdade de Letras de Lisboa.. RODRIGUES,

Com o intuito de registrar tais alterações, anúncios de revistas premiados pelo 20º Anuário do Clube de Criação de São Paulo são apresentados de forma categórica como