• Nenhum resultado encontrado

CAPÍTULO 4 MÉTODOS BASEADOS EM APRENDIZADO DE MÁQUINA

5.1 Desenvolvimento do SuPor-2

5.1.1 Proposta 1 – Aperfeiçoamento das Características

A primeira modificação feita no SuPor para combinar e ponderar melhor as características foi alterar sua representação binária. Por esse modelo de característica, a única informação resultante do método ou medida é uma indicação ou não para aquela sentença compor o sumário. Ou seja, a representação binária não informa o grau em que a indicação é feita. O uso de características mais significativas, que incorporem mais informação para o modelo de aprendizado de máquina, sugere a possibilidade de se tomar decisões de extração mais expressivas.

A abordagem que se utilizou para se especificar características mais significativas que as do SuPor considerou, basicamente:

1) A utilização dos dados numéricos que os métodos de sumarização usam para julgar a relevância das sentenças, quando possível (casos a-d listados a seguir);

2) A utilização de informações que refletem a forma como cada sentença foi selecionada, no caso de métodos que não utilizam números para julgar a relevância das sentenças (casos e-g listados a seguir).

No que segue, são especificadas, para cada método, as mudanças realizadas nas características:

a) Alteração na Característica associada ao Método de Frequência das Palavras

O método de Frequência das Palavras utiliza um dado numérico para julgar a relevância das sentenças — o somatório das frequências de suas palavras em todo o texto. No SuPor original, a saída binária da característica associada era obtida verificando se o somatório das frequências das palavras da sentença ultrapassa (valor True) ou não (valor False) um determinado valor de corte. Já no SuPor-2, a

característica (C) foi definida pelo próprio somatório das frequências das palavras da sentença.

Para evitar treinamento tendencioso, optou-se por relativizar o valor dessa característica em relação ao texto-fonte, normalizando-se seu valor no intervalo [0,1]. A normalização consistiu, simplesmente, em dividir-se o valor da característica de cada sentença pelo maior valor obtido em todo o texto, tanto na fase de treinamento quanto na de extração, conforme fórmula a seguir:

) ( ) ( ) ( C Máx i C i izada ticaNormal Caracterís = [19]

em que i é o número da sentença do texto processado.

b) Alteração no Uso da Característica de Tamanho da Sentença

Similarmente ao que foi feito para o método de frequência das palavras, o valor dessa característica foi definido como o número de palavras da sentença. Foi adotado, também, o mesmo procedimento de normalização da Equação [19].

c) Alteração no Uso da Característica de Nomes Próprios

Novamente, a mudança feita foi similar àquela feita para o método de frequência das palavras. Considerou-se a soma das frequências dos nomes próprios da sentença em todo o texto como o valor da característica. Da mesma forma, adotou-se o mesmo procedimento de normalização, conforme Equação [19].

d) Alteração no Uso do Método de Importância dos Tópicos

Pelo método de Importância dos Tópicos, a relevância de uma sentença está associada a dois valores numéricos no intervalo [0,1]:

• A importância do tópico (T) relacionado à sentença (S): Sim (T, S)

• A similaridade da sentença (S) com o centróide do tópico (C):

Sim (C, S)

Quanto maiores forem a importância do tópico relacionado à sentença e sua similaridade com o centróide do tópico, maior será a relevância dessa sentença para a composição do extrato.

) , ( ) , ( ) , ( ) , ( 2 S C Sim S T Sim S C Sim S T Sim CIT + × = [20]

Para preservar a noção de que as duas medidas são importantes, definiu-se o valor da característica de Importância dos Tópicos CIT como a média harmônica

entre elas, conforme Equação [20]. Note que não é necessário normalizar o resultado, pois as duas medidas já estão no intervalo [0,1].

e) Alteração no Uso da Característica de Posição

A característica de Posição, que não utiliza dados numéricos, permaneceu categórica. No entanto, para torná-la mais informativa, detalhou-se também, para cada categoria, a posição da sentença em seu parágrafo e a posição deste no próprio texto. Essa mudança é sintetizada na tabela a seguir:

Tabela 5-2 – Característica de Posição no SuPor-2

Rótulo Posição do parágrafo Posição da sentença no parágrafo

II Início do texto Início do parágrafo

IM Início do texto Meio do parágrafo

IF Início do texto Final do parágrafo

MI Meio do texto Início do parágrafo

MM Meio do texto Meio do parágrafo

MF Meio do texto Final do parágrafo

FI Final do texto Início do parágrafo

FM Final do texto Meio do parágrafo

FF Final do texto Final do parágrafo

Para a especificação dessa característica, cada sentença é rotulada de acordo com um dos códigos da primeira coluna da tabela anterior, conforme a posição de seu parágrafo e sua posição no próprio parágrafo. De maneira semelhante à versão original do SuPor, são considerados parágrafos iniciais somente aqueles que figuram entre os 10% do início do texto; são considerados finais somente os que estão nos 5% parágrafos do fim do texto.

f) Alteração no Uso do Método de Cadeias Lexicais

Como o método não faz uso de dados numéricos para julgar a relevância das sentenças, considerou-se:

• se alguma heurística do método recomendou a sentença; • quais heurísticas recomendaram a sentença.

Assim, a característica pode assumir oito rótulos distintos, conforme mostra a tabela a seguir.

Tabela 5-3 – Característica associada ao método de Cadeias Lexicais no SuPor-2

Rótulo Significado

False nenhuma heurística recomendou a sentença

H1 apenas a heurística 1 (primeira ocorrência) recomendou a sentença H2 apenas a heurística 2 (membro representativo) recomendou a sentença H3 apenas a heurística 3 (concentração no tópico) recomendou a sentença H1+H2 as heurísticas 1 e 2 recomendaram a sentença

H1+H3 as heurísticas 1 e 3 recomendaram a sentença H2+H3 as heurísticas 2 e 3 recomendaram a sentença H1+H2+H3 as heurísticas 1, 2 e 3 recomendaram a sentença

g) Alteração no Uso do Método de Mapa de Relacionamentos

De modo similar ao método das cadeias lexicais, esse método também não utiliza dados numéricos para julgar a relevância das sentenças, já que elas são selecionadas por três heurísticas que determinam o modo de percurso no mapa de relacionamentos entre os parágrafos. Assim, também foi considerado um conjunto de rótulos linguísticos para determinar o valor da característica para cada sentença, conforme a Tabela 5-4.

Tabela 5-4 – Característica associada ao Mapa de Relacionamentos no SuPor-2

Rótulo Significado

False nenhum caminho selecionou a sentença

C1 apenas o caminho 1 (profundo) selecionou a sentença C2 apenas o caminho 2 (segmentado) selecionou a sentença C3 apenas o caminho 3 (denso) selecionou a sentença C1+C2 os caminhos 1 e 2 selecionaram a sentença

C1+C3 os caminhos 1 e 3 selecionaram a sentença C2+C3 os caminhos 2 e 3 selecionaram a sentença C1+C2+C3 os caminhos 1, 2 e 3 selecionaram a sentença

Considerando-se as alterações descritas nos tópico anteriores, a tabela seguinte resume as características utilizadas no SuPor-2. Essa tabela apresenta os mesmos métodos do SuPor original (Tabela 3-1). A diferença básica existente é a utilização no SuPor-2 de características com domínio mais abrangente. No SuPor-2 as características podem assumir valores numéricos e multinomiais, em vez de apenas valores binários.

Tabela 5-5 – Quadro-resumo de características exploradas no SuPor-2

Característica Nome Domínio

C1

C2 Cadeias Lexicais {‘False’, ‘H1’, ‘H2’, ‘H3’, ‘H1H2’, ‘H1H3’, ‘H2H3’, ‘H1H2H3’}.

C3 Tamanho da Sentença [0, 1]

C4 Nomes Próprios [0,1]

C5 Posição da Sentença {‘II’,‘IM’,‘IF’,‘MI’,‘MM’,‘MF’,‘FI’,‘FM’,‘FF’} C6

C7 Frequência das Palavras [0, 1]

C8

C9 Mapa de Relacionamento {‘False,‘C1’,‘C2’,‘C3’, ‘C1C2’, ‘C1C3’, ‘C2C3’, ‘C1C2C3’}. C10

C11 Importância dos Tópicos [0, 1]

A justificativa para adotar o mesmo número de características do SuPor original (11) é consoante com a Hipótese 1 deste trabalho, no sentido que a utilização de características diversas é benéfica para a SA. Entretanto, no SuPor original a representação binária das características pode prejudicar esse beneficio e por isso as características foram alteradas conforme foi descrito.