• Nenhum resultado encontrado

Para identificar e segmentar um texto em subtópicos propõem-se quatro métodos baseline e seis métodos inéditos baseados em atributos discursivos.

Os métodos baseline segmentam o texto em parágrafos, sentenças, aleatoriamente e com base na reiteração de palavras. Sabe-se que o parágrafo é uma unidade constituída por um ou mais períodos, em que se desenvolve determinada ideia central. Por esse motivo, a segmentação em parágrafos é considerada um forte baseline e já foi preferida em outros trabalhos (Hearst, 1997; Salton et al., 1997; Kazantseva et al., 2012;). Igualmente, pode-se pensar que os subtópicos são organizados em sentenças, pois elas possuem sentido completo, e, portanto, indicam um forte baseline. Assim como o parágrafo, a sentença já foi adotada como unidade em outros trabalhos de segmentação em subtópicos (Chang et al., 2003; Riedl et al., 2012). O método que faz quebras aleatórias (a quantidade e locais de quebras são decididos aleatoriamente) é para fins de comparação. A motivação para essa estratégia é fornecer um limite inferior para o desempenho de qualquer outra estratégia, pois se espera que todas as outras apresentem resultados acima do aleatório. A estratégia de reiteração de palavras trata-se de uma adaptação do TextTiling (Hearst, 1997), um dos métodos mais conhecidos da área, portanto, outro forte baseline. Segundo Hearst, os parâmetros pseudosentenças (w = tamanho médio da sentença) e tamanho do bloco (k= aproximadamente o tamanho do parágrafo em número de sentenças) podem ser configurados para o tipo de texto de entrada. Neste trabalho, com base em análise do córpus empregado, adotou-se w=20 e k=2.

Hovy e Lin (1998) sugerem que conhecer a estrutura discursiva ajuda na identificação dos subtópicos de um texto. Segundo Pinheiro (2002), a organização tópica de diferentes gêneros textuais, falados e escritos, a noção de topicalicade se evidencia. Como anteriormente citado, a topicalidade funciona como um princípio organizador do discurso. Neste trabalho,

97 assume-se que bons textos possuem uma boa estrutura de subtópicos, que pode ser representada em uma estrutura discursiva, neste caso, uma árvore RST. Com isso em mente, foram elaborados seis métodos de segmentação em subtópicos que utilizam como atributos nuclearidade e as relações RST. O primeiro algoritmo, referenciado por Cosseno Simples, é baseado no trabalho de Marcu (1998b, 2000a) para medir a qualidade de uma árvore discursiva. O autor assume que uma árvore discursiva é melhor se ela exibe uma estrutura que se assemelha a estrutura de subtópicos do texto para o qual foi construída. Marcu associa uma pontuação de agrupamento para cada nó da árvore. Para as folhas, essa pontuação é zero; para os nós internos, a pontuação é dada pela similaridade lexical entre os filhos imediatos. A hipótese subjacente a essa medida é que as melhores árvores exibem alta similaridade entre seus nós. Neste trabalho, adotou-se essa mesma ideia usando a medida do cosseno (equação 5) e propõe-se que: 1) segmentos com vocabulário similar provavelmente fazem parte do mesmo subtópico e; 2) nós com notas abaixo da média supostamente indicam quebras de subtópicos.

Para exemplificar a aplicação do método Cosseno Simples e dos outros métodos de segmentação em subtópicos, considere o texto da Figura 6.1, já com a segmentação (anotação) de referência. O texto está organizado em três parágrafos e tem como tópico principal “parlamentares acusados de superfaturar ambulâncias”, que está estruturado em dois subtópicos: 1) sentenças de 1 a 3 descrevem a “abertura dos processos por quebra de decoro”; e 2) sentenças de 4 a 5 descrevem candidatos que possivelmente vão renunciar e outros que já o fizeram. Na Figura 6.2, representa-se a árvore retórica desse texto e cada nó-folha simboliza uma sentença. As linhas tracejadas representam as quebras de subtópicos atribuídas pelo método Cosseno Simples: uma quebra entre as sentenças 1 e 2 e outra entre as sentenças 4 e 5. Nesse exemplo, o método Cosseno Simples segmentou bem próximo da quebra de referência. O TextTiling não segmentou dentro do texto. Vale lembrar que a quebra de fim (após a última sentença) está implícita, independente do método que se aplica.

98

Parágrafo

P1

[1] Os parlamentares acusados de envolvimento com o esquema de superfaturamento das ambulâncias têm até a meia-noite desta segunda-feira, dia 21, para renunciar ao mandato, caso queiram escapar do julgamento por quebra de decoro.

[2] O prazo foi definido pela direção da Câmara.

[3] Na terça-feira, dia 22, o presidente do Conselho de Ética, Ricardo Izar (PTB-SP), deve começar a abrir processos contra os parlamentares acusados que permanecerem em seus cargos.

<label="abertura dos processos por quebra de decoro">

[4] Um membro da cúpula da Câmara que conversou com 30 acusados calcula que pelo menos sete podem renunciar, entre eles: Nilton Capixaba (PTB-RO), Marcelino Fraga (PMDB-ES), César Bandeira (PFL-MA), Benedito Dias (PP-AP) e Carlos Nader (PL-RJ).

[5] O pefelista Coriolano Sales (PFL) já apresentou sua renúncia desde a semana passada. <label="renúncias possíveis e concretizadas">

P2

P3

Figura 6.1: Texto “Parlamentares” com a segmentação de subtópicos de referência Fonte: Córpus CSTNews, C16_D3

Figura 6.2: Estrutura RST com segmentação de subtópicos pelo método Cosseno Simples

O segundo método, referenciado por Cosseno entre Núcleos, também se baseia em uma proposta de Marcu para identificar boas árvores discursivas (1998b, 2000a). Nessa formalização, assume-se que sempre que uma relação discursiva ocorre entre dois spans, ela acontece entre as unidades mais salientes (núcleos) associados com tais spans. No método Cosseno entre Núcleos, calcula-se a similaridade exclusivamente entre unidades salientes associadas a dois spans. Novamente, nós com pontuação abaixo da média supostamente indicam quebras topicais. Para o texto da Figura 6.1, a segmentação pelo método Cosseno entre Núcleos foi igual a do método Cosseno Simples (já representado na Figura 6.2).

Neste trabalho, buscou-se pelos grandes subtópicos de um texto que provavelmente ocorrem nos níveis mais altos de uma estrutura discursiva. Assim, os nós mais altos (posição na árvore) são mais fracamente conectados e podem melhor representar os limites topicais. Para simular isso, elaboraram-se dois métodos chamados de Cosseno Simples com Altura e

Cosseno dos Núcleos com Altura, ambos são variações dos métodos Cosseno Simples e SEQUENCE ELABORATION N S N N

3

CONTRAST N N

4

5

S N

1

2

99 Cosseno dos Núcleos com Altura. Nessas duas novas estratégias, a similaridade entre dois nós é dividida pela altura onde ocorre, percorrendo a árvore no sentido bottom-up (das folhas para a raiz: do nível zero para o topo da árvore). Novamente, nós com nota abaixo da média supostamente indicam as quebras topicais.

Na Figura 6.3, representa-se árvore do texto “Parlamentares” com as linhas tracejadas indicando as quebras de subtópicos, atribuídas pelo método Cosseno dos Núcleos com Altura. A nota de similaridade entre os nós 1 e 2 (o núcleo de uma folha é a própria folha) é dividida por 1 (estão no nível mais baixo); a similaridade entre o conjunto promocional de ELABORATION (nó 1) e o nó 3 é dividida por 2 (estão em um nível maior); a similaridade entre os nós 4 e 5 é dividida por 1; a nota entre o conjunto promocional de SEQUENCE (nós 1 e 3) e o conjunto promocional de CONTRAST (nós 4 e 5) é dividida por 3, que corresponde a altura da árvore. Diferentemente dos métodos anteriores, o método Cosseno dos Núcleos com Altura colocou uma quebra entre as sentenças 3 e 4, totalizando três quebras dentro do texto. No caso do método Cosseno Simples com Altura, a segmentação ficou igual a dos métodos Cosseno Simples e Cosseno entre Núcleos (já representada na Figura 6.2).

Figura 6.3: Estrutura RST do texto “Parlamentares” com segmentação em subtópicos pelo método Cosseno dos Núcleos com Altura

Além de medidas de similaridade entre segmentos, investigou-se a segmentação em subtópicos com base nas relações discursivas. Para isso, realizou-se análise do córpus anotado manualmente com RST e subtópicos a fim de encontrar relações que possivelmente indicariam mudança de subtópico. No córpus, existem 29 tipos de relações RST que podem conectar sentenças, as quais podem ser vistas na Figura 6.4, juntamente com suas frequências. Para esse estudo, desconsideram-se as relações PARENTHETICAL, ATTRIBUTION e SAME- UNIT, que normalmente ocorrem dentro de sentenças. Há um desbalanceamento de relações e é uma questão importante a ser considerada. Por exemplo, a relação ELABORATION tem quase

SEQUENCE ELABORATION N S N N

3

CONTRAST N N

4

5

S N

1

2

100 800 exemplos, enquanto outras relações têm menos de 10 amostras, tais como as relações JOINT e SOLUTIONHOOD.

Figura 6.4: Frequência das relações RST entre sentenças no córpus CSTNews

A partir da análise de córpus, observou-se que nas mudanças de subtópicos algumas relações foram mais frequentes enquanto outras nunca ocorreram. Na Figura 6.5, mostram-se somente as relaçoes RST com frequência acima de 3 nos locais de mudança de subtópico.

Figura 6.5: Frequência das relações RST nas mudanças de subtópicos encontradas no córpus CSTNews

Foram 12 relações RST mais frequentes. Como esperado, a relação ELABORATION foi a mais frequente, aparecendo em 191 casos (corresponde a 57% das mudanças de subtópicos). As relações LIST e NON-VOLITIONAL RESULT apareceram em 65 vezes (19%) e 17 vezes (5%), respectivamente. As relações EVIDENCE e SEQUENCE apareceram em 2% das quebras

4 4 5 5 5 5 5 7 8 17

65 191

101 topicais. BACKGROUND, CIRCUMSTANCE, COMPARISON, CONCESSION, CONTRAST, JUSTIFY, e VOLITIONAL-RESULT foram menos frequentes, cada relação apareceu somente em 1% das mudanças de subtópicos. As demais relações foram menos frequentes e totalizam 8%, são elas: ANTITHESIS, JOINT, MOTIVATION, PURPOSE, INTERPRETATION, NON- VOLITIONAL CAUSE, VOLITIONAL CAUSE e EXPLANATION. As relações RST que nunca apareceram nas mudanças de subtópicos foram 8: CONDITION, OTHERWISE, SOLUTIONHOOD, SUMMARY, EVALUATION, ENABLEMENT, CONCLUSION e RESTATEMENT.

Mesmo havendo uma diferença significativa entre as relações RST presentes no córpus e aquelas nas mudanças de subtópicos, buscou-se uma forma de utilizar essa informação sobre a frequência. Na literatura, encontram-se trabalhos que atribuíram pesos para as relações com base em alguma classificação. Por exemplo, O‟Donnell (1997) e Uzêda et al. (2010) desenvolveram métodos de SA que assumem que cada relação RST tem associada uma pontuação de relevância que indica quão importante os respectivos segmentos são para o sumário. Da mesma forma, neste trabalho atribuiu-se um peso associado com a possibilidade de uma relação RST indicar mudança de subtópico, de acordo com sua frequência na segmentação de referência e sua definição, descrita em Mann e Thompson, 1987. No Quadro 6.1, mostram-se como as 29 relações foram distribuídas e seus respectivos pesos, definidos empiricamente.

Classe Relações

Fraca (0.4) ELABORATION, CONTRAST, JOINT, LIST Média (0.6)

ANTITHESIS, COMPARISON, EVALUATION, MEANS, NON-VOLITIONAL CAUSE, NON-VOLITIONAL RESULT, SOLUTIONHOOD, VOLITIONAL CAUSE, VOLITIONAL RESULT, SEQUENCE

Forte (0.8)

BACKGROUND, CIRCUMSTANCE, CONCESSION, CONCLUSION, CONDITION, ENABLEMENT, EVIDENCE, EXPLANATION, INTERPRETATION, JUSTIFY, MOTIVATION, OTHERWISE, PURPOSE, RESTATEMENT, SUMMARY

Quadro 6.1: Classificação das relações RST para segmentação em subtópicos

Uma relação é classificada como fraca se ela geralmente indica uma quebra; neste caso, seu peso é 0.4. Uma relação é média porque ela pode indicar ou não uma quebra de subtópicos; portanto, seu peso é 0.6. Por outro lado, uma relação forte quase nunca indica mudança de subtópico; portanto, seu peso é 0.8. Uma observação que se faz é todas as relações intencionais foram classificadas como fortes, com exceção de ANTITHESIS. Isso está

102 relacionado à definição das relações intencionais, e ANTITHESIS foi encontrada na segmentação de referência, mesmo que com baixa frequência.

Apesar de essa classificação das relações RST ter sido baseada na análise do córpus e na definição da relação, já se esperava que relações indicadas como fracas pudessem indicar mudanças de subtópicos. A partir da classificação do Quadro 6.1, outras duas estratégias de segmentação em subtópicos foram criadas: Relação retórica com Altura e Cosseno dos

Núcleos com Relação retórica e Altura. O método Relação retórica com Altura associa uma

nota para os nós dividindo o peso da relação pela altura da árvore onde ele ocorre, percorrendo a árvore de forma bottom-up. Para a árvore da Figura 6.6, a nota entre os nós 1 e 2 é 0.4 (peso de ELABORATION) dividido por 1; a nota entre elaboration e 3 é 0.6 (peso de SEQUENCE) dividida por 2; a nota entre 4 e 5 é 0.4 (peso de CONTRAST) dividido por 1; a nota entre a subárvore sequence e contrast é 0.4 dividido por 3. Em seguida, somam-se as notas e calcula-se a média entre elas. Assim como nas outras estratégias, também foi considerado que nós abaixo da média são pouco similares.

Figura 6.6: Estrutura RST do texto “Parlamentares” com segmentação em subtópicos pelo método Relação retórica com Altura

Observou-se que alguma melhoria era alcançada sempre que a nuclearidade era considerada. Dessa forma, tentou-se combinar a melhor estratégia que considera os núcleos com a que utiliza pesos para relações. Assim, selecionou-se a pontuação do método Cosseno dos Núcleos com Altura, multiplicada pelo peso das relações onde ocorriam. Esta estratégia é referenciada por Cosseno dos Núcleos com Relação e Altura. Para o texto da Figura 6.1, a segmentação pelo método Cosseno dos Núcleos com Relação retórica e Altura foi idêntica à segmentação pelo método Cosseno dos Núcleos com Altura, já representada na Figura 6.3. Nesse caso, diz-se que esse último método enriquece o método original Cosseno dos Núcleos com Altura. SEQUENCE ELABORATION N S N N

3

CONTRAST N N

4

5

S N

1

2

103 Os métodos TextTiling, Cosseno Simples, Cosseno entre Núcleos, Cosseno Simples com Altura, Cosseno dos Núcleos com Altura e Cosseno dos Núcleos com Relação retórica e Altura realizam uma etapa de pré-processamento das unidades textuais, que inclui remoção de

stopwords e uso de stemmer (utilizou-se o projeto SnowBall24).