• Nenhum resultado encontrado

Geração de extratos de documentos Web utilizando o ExtraWeb:

5 ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e

5.1 Arquitetura do ExtraWeb

5.2.5 Geração de extratos de documentos Web utilizando o ExtraWeb:

Nesta seção apresentaremos exemplos de extratos de documentos Web gerados pelo ExtraWeb e uma análise desses extratos. Cabe destacar que os documentos-fonte utilizados (identificados por DF1 e DF2) são os mesmos das Figuras 13 e 14 (da Seção 4.1.2.3) utilizados na geração de extratos pelo HTMLSUMM e pelo GEO (Seção 4.2.3.4) e por esse motivo eles não foram reproduzidos nessa seção. Os extratos automáticos (identificados por E1E e E2E) gerados pelo ExtraWeb, que correspondem aos documentos DF1 e DF2 são mostrados na seqüência.

ExtraWeb - Extrato Automático (90% de compressão): E1E

SE1 O pai da ficção científica escreveu livros que até hoje encantam leitores do mundo inteiro!

SE2 Júlio Verne escreveu essa história em 1873, quando não havia tecnologia para construir um submarino.

SE3 Foi o que Júlio Verne fez: em seus livros, criou inventos que, na época, eram impossíveis de produzir!

SE4 INÍCIO | O INSTITUTO | CH ON-LINE | REVISTA CH | CH DAS CRIANÇAS | APOIO À EDUCAÇÃO | CONTATO

Analisando o extrato E1E referente ao documento-fonte DF1 (Figura 13), cujas sentenças estão identificadas por SE1 a SE4, observamos que sentença SE3 introduz uma referência não resolvida no extrato, já que cita “Foi o que Júlio Verne fez”) que em DF1 refere-se a “dar-se o luxo de inventar coisas mirabolantes”, informação que foi omitida em E1E. A sentença SE1 poderia introduzir esse mesmo problema, se não houvesse a referência catafórica a Júlio Verne em SE2 e SE3.

Do mesmo modo que SE3, a sentença SE2 prejudica a coesão do texto, pois ela, ao citar “essa história”, exige o referente “Vinte mil léguas submarinas” que não pode ser encontrado no extrato.

Claramente o extrato apresenta problemas com relação à sua textualidade. Todas as sentenças incluídas em E1E são desconexas, e duas delas apresentam problemas de quebra de referência, prejudicando sua coerência e coesão. Se considerarmos que o tópico principal de DF1 é escritor Júlio Verne e as suas obras de ficção científica, SE1, SE2 e SE3 trazem em seu conteúdo alguma relação com este tópico, nesse caso, E1E consegue, de alguma forma, focar a temática principal. O que se observa pela Tabela 19, que traz os pesos atribuídos pelos ExtraWeb a cada sentença (normalizados em uma escala de 0 a 2), é que para as três primeiras sentenças, tanto as palavras-chave quanto os conceitos considerados têm relação com o tópico principal.

Tabela 19. Síntese das informações consideradas pelo ExtraWeb para DF1

E1E Etiquetas HTML consideradas Palavras da sentença relacionadas à etiqueta Conceitos considerados Palavras da sentença mapeadas no conceito Peso de cada sentença [0-2]

<TITLE> hoje Compras e Serviços>>Livros livros Artes e Cultura>>Literatura>>Gêneros

literários>>Ficção Científica

ficção científica SE1 <STRONG> pai, ficção, científica, escreveu, livros, hoje, encantam, leitores, mundo, inteiro

Sociedade>>Família>>Pais e Filhos pai

1.5

<STRONG> escreveu Ciência>>Ciências Humanas>>História história SE2 <A> história Artes e Cultura>>Literatura>>Autores>>Júlio Verne (1828-1905) júlio verne 0.99

Compras e Serviços>>Livros livros SE3 <STRONG> livros Artes e

Cultura>>Literatura>>Autores>>Júlio Verne (1828-1905) júlio verne 1.06 <A> início, instituto, ch, revista, apoio, educação Educação educação

Notícias e Mídia>>Revistas revista Sociedade>>Grupos e

Culturas>>Crianças crianças

Ciência>>Ciências Humanas>>Educação

e Formação educação

Educação>>Institutos, Faculdades instituto SE4

<TITLE> crianças

Ciência>>Institutos instituto

1.58

A inclusão da sentença SE4 em E1E, apesar de seu alto peso (79%) na escala normalizada de 0 a 2, claramente introduz informações irrelevantes já que seu conteúdo não tem nenhuma relação com a temática principal do documento. Observando os dados

da Tabela 20, a inclusão de SE4 pelo ExtraWeb deveu-se principalmente ao HTMLSUMM já que ela foi considerada a sentença mais relevante por esse sistema, obtendo o peso máximo (100%). A alta pontuação atribuída pelo HTMLSUMM é justificável já que, apesar de irrelevante para o extrato do ponto de vista da manutenção da informatividade, a sentença SH4 contém várias palavras-chave provenientes das etiquetas de título (<TITLE>) e links (<A>), conforme mostra a Tabela 19. Não se pode deixar de observar que esta mesma sentença também obteve um peso acima da média atribuído pelo GEO (58%), conforme indicado na Tabela 20. O problema, nesse caso, é que todos os conceitos associados a SE4 são marginais no documento e em nada contribuem para seleção do conteúdo mais informativo. No entanto, o GEO não a incluiu no extrato correspondente (E1G, mostrado na Seção 4.2.3.4). Isso indica que, de fato, a inclusão de SE4 pelo ExtraWeb se deve exclusivamente à influência do modelo de pesos do HTMLSUMM.

Tabela 20. Sentenças incluídas no ExtraWeb para DF1

Sentença do ExtraWeb

Correspondência com as sentenças dos outros

sistemas Peso no HTMLSUMM Peso no GEO Peso no EXTRAWEB SE1 SH1, SG1 0.67 0.83 1.5 SE2 - 0.27 0.72 0.99 SE3 SG3 0.06 1 1.06 SE4 SH4 1 0.58 1.58

Embora o extrato E1E apresente problemas de textualidade devido a presença de sentenças desconexas, ele inclui sentenças bastante informativas em relação ao agente e evento realizado.

ExtraWeb - Extrato Automático (90% de compressão): E2E SE1 Iraque condena cinco à morte e 35 à prisão por terrorismo.

SE2 Um tribunal iraquiano condenou nesta quarta-feira cinco pessoas à morte e outras 35 à prisão, entre elas oito estrangeiros, por atos terroristas, assassinatos, seqüestros e por entrar ilegalmente no país, informaram fontes judiciais locais.

SE3 As fontes judiciais informaram que, entre os 32 iraquianos, estão cinco que foram condenados à forca, 16 à prisão perpétua e 11 a penas de detenção que oscilam entre um e seis anos.

SE4 Na terça-feira o mesmo tribunal condenou 25 pessoas, entre elas cinco iraquianos, quatro sauditas, um sírio e um bengali a penas de morte e prisão, também por terrorismo, no caso dos iraquianos, e por entrada ilegal no Iraque, no caso dos estrangeiros.

Analisando o extrato E2E referente ao documento-fonte DF2 (Figura 14) observamos que ele não apresenta problemas com relação à textualidade. De fato, o texto apresentado está bastante coeso e coerente. A sentença SE3 que faz uma referência a “o mesmo tribunal” não tem sua interpretação prejudicada já que ela encontra seu referente em SE2.

Considerando que o tema principal do documento é “a condenação imposta pelo tribunal iraquiano”, todas as sentenças de E2E são bem informativas neste aspecto, já que permitem que o leitor tenha uma informação bastante clara sobre o tópico principal do documento.

Observando os dados da Tabela 21, vemos que tanto as palavras-chave quanto os conceitos associados às sentenças correspondem, em sua maioria, ao tópico principal do texto, o que as torna bastante relevantes.

Tabela 21. Síntese das informações consideradas pelo ExtraWeb para DF2 E2E Etiquetas consideradas Palavras da sentença relacionadas à etiqueta Conceitos considerados Palavras da sentença mapeadas no conceito Peso de cada sentença [0-2]

Regional>>Países>>Iraque Iraque Sociedade>>Crime>>Tipos de

Crime>>Terrorismo terrorismo

SE1

<TITLE>

iraque, condena, cinco, morte, prisão, terrorismo

Sociedade>>Morte morte

1.37 Regional>>Países>>Iraque iraquiano

Sociedade>>Morte morte Sociedade>>Crime>>Tipos de

Crime>>Terrorismo terroristas

Sociedade>>Crime>>Tipos de Crime seqüestros SE2 <TITLE> cinco, morte,

prisão

Regional>>Países país

1.31

Governo>>Brasil>>Poder Judiciário judiciais SE3 <TITLE> prisão

Regional>>Países>>Iraque iraquianos 1.2 Regional>>Países>>Iraque iraquianos,

Iraque Regional>>Países>>Arábia Saudita sauditas

Sociedade>>Morte morte Sociedade>>Crime>>Tipos de

Crime>>Terrorismo terrorismo

Regional>>Países>>Síria sírio SE4 <TITLE>

morte, cinco, prisão, terrorismo,

iraque

Entretenimento>>Ingressos entrada

1.73

A escolha de SE1 pelo ExtraWeb se deve ao peso derivado do título (“Iraque condena cinco à morte e 35 à prisão por terrorismo”), já que ela compartilha várias dessas palavras-chave, conforme vemos na Tabela 21. A inclusão do título, quando informativo como em SE1, ajuda na contextualização e no entendimento do conteúdo do documento. No entanto, sua omissão não parece prejudicial ao tópico principal, pois a segunda sentença (SE2) pode ser considerada sua paráfrase e, portanto, cobre a primeira sentença. Notadamente, conforme indica a Tabela 22, essa sentença foi incluída no ExtraWeb devido ao peso atribuído pelo HTMLSUMM (92%) já que seu peso no GEO é relativamente baixo (45%).

Tabela 22. Sentenças incluídas no ExtraWeb para DF2

Sentença do ExtraWeb

Correspondência com as sentenças dos outros

sistemas Peso no HTMLSUMM Peso no GEO Peso no EXTRAWEB SE1 SH1 0.92 0.45 1.37 SE2 - 0.46 0.85 1.31 SE3 - 0.3 0.9 1.2 SE4 SH2, SG2 0.76 0.97 1.73

5.2.6 Geração de extratos de documentos Web: comparação de