• Nenhum resultado encontrado

Complexidade textual

No documento Classificação de textos com redes complexas (páginas 195-200)

O processo de simplificação textual é definido como o conjunto de operações aplicadas a um texto para desacentuar a sua complexidade linguística através da redução do léxico e atenuação de construções sintáticas complexas, com nenhuma ou pouca perda da informação principal. Trata-se, portanto, de uma tarefa relevante tanto para pessoas quanto para máquinas. No primeiro caso, pessoas com baixo nível de letramento, com deficiências cognitivas (p.e. afasia e dislexia), crianças e aprendizes de línguas estrangeiras são beneficiadas pela apresentação simples de um texto. Já no segundo caso, a simplificação textual pode ser utilizada como um pré-processamento para outras tarefas a fim de simplificar uma etapa posterior cuja eficiência é dependente do grau de complexidade da entrada.

Existem vários tipos de simplificação, desde a sumarização (para diminuir o tamanho do texto) até o aumento da inteligibilidade (eliminação de palavras pouco frequentes e estru- turação sintática pouco complexa) e da legibilidade (estrutura de apresentação do texto). Neste capítulo, avaliamos o uso de redes complexas para caracterizar a complexidade de um texto. Em especial, esta tarefa pode ser útil não apenas para quantificar a complexidade da escrita humana, mas também pode ser útil para identificar automaticamente textos que necessitem de simplificação na Web a fim de aumentar a acessibilidade. Também, neste capítulo, criamos um método para simplificação textual que é baseadoem sumarização extrativa.

10.1 Abordagens tradicionais

A quantificação da complexidade textual representa uma tarefa desafiadora para linguistas e estudiosos da área, já que o grau de complexidade de um texto pode depender de inúmeros fatores. Provavelmete não existe uma regra simples capaz de estabelecer uma relação direta e infalível entre a percepção de complexidade e métricas quantitativas.

Apesar disso, muitas facetas da complexidade podem ser avaliadas satisfatoriamente quando avaliadas isoladamente. Aspectos específicos da complexidade têm sido avaliados na literatura, com destaque para as características léxicas, sintáticas e estruturais, como discutidas brevemente a seguir.

Com relação à dimensão léxica, o uso de palavras de baixa frequência faz com que a complexidade dos textos aumente (153), especialmente para textos em uma língua não-nativa do leitor. Por esta razão, a manipulação de termos linguísticos incomuns (p.e. palavras raras) tem sido utilizada como uma das estratégias de simplificação (154). No entanto, esta manipulação nem sempre garante uma maior facilidade na leitura, já que esta característica tipicamente depende também de outros fatores (155). As técnicas e metodologias provenientes da teoria da informação também têm sido utilizadas para estimar a complexidade em análises léxicas, onde textos são tratados como sinais conduzindo alguma informação. A complexidade textual, segundo esta teoria, está associada com a quantidade de informação transmitida. Matematicamente, um dado manuscrito é representado como um sinal transportando palavras que ocorrem com uma certa probabilidade, que por sua vez é utilizada para calcular a entropia de Shannon.

Para estimar a complexidade de acordo com atributos sintáticos, as estruturas lin- guísticas que são intuitivamente mais complexas são ponderadas com maior peso na análise. Entre as principais medidas da análise sintática estão o comprimento da sen- tença (110, 156, 157) e o número de nós na árvore de parsing (158). De acordo com esta última medida, árvores envolvendo muitos vértices demandam um tempo de processamento maior. De fato, estudos similares indicaram que ambas as medidas sintáticas (comprimento da sentença e número de nós na árvore de parsing) estão diretamente correlacionadas com a percepção humana de complexidade. Uma estratégia alternativa considera a complexi- dade segundo a ordem de aparecimento das palavras nas sentenças. Esta complexidade estrutural é diretamente proporcional à raridade das ordenações de classes gramaticais empregadas.

Talvez as medidas mais conhecidas para estimar a complexidade em textos sejam os índices de legibilidade, que estão detalhados na Tabela 10.1. As fórmulas empregadas para calcular estes índices normalmente empregam os mesmos atributos, tais como número de palavras, sentenças e sílabas. De acordo com (158), este é um sinal de que a percepção de complexidade é compartilhada por vários autores, já que estes propuseram medidas similares de forma independente.

Todas as métricas de quantificação de complexidade apresentadas na Tabela 10.1 consideram palavras ou sentenças. O relacionamento global das palavras nos textos não é levado em consideração. Até onde sabemos, a estrutura global dos textos ainda não foi utilizada para quantificar complexidade, apesar dos vários trabalhos sugerindo que fenômenos linguísticos e cognitivos podem ser identificados pela análise da estrutura das redes. Por este motivo, nesta tese estudamos como os textos podem ser classificados com

10.2. Projeto PorSimples 195

Tabela 10.1– Índices de legibilidade. (a) R: índice de legibilidade (0-100); (b) G: nível de estudo (0-12) necessário para responder 50% das questões a respeito do texto; e (c) ML: nível de estudo (0-12) necessário para responder a 100% das questões sobre o texto. Os atributos utilizados nas fórmulas são: (a) W: número de palavras; (b) T: número de sentenças; (c) D: número da palavras na lista Dale Long (159); (d) S: número de sílabas; (e) M: número de palavras monossílabas; e (f) P: número de palavras com três sílabas ou mais.

Autor Equação Referência

Flesch R = 206,835 - 84,6 S/W + 1,015 W/T (160) Coleman R = -37,95 + 116 M/W + 148 T/W (161) Dale, Chall G = 19,4265 - 15,79 D/W + 0,0496 W/T (159) Holquist G = 14,862 - 11,42 D/W + 0,0512 W/T (162) Gunning G = 3,0680 + 9,84 P/W + 0,0877 W/T (163) McLaughlin ML = 3,1291 + 5,7127 q P/T (164)

relação à sua complexidade usando medidas que emergem da análise topológica de redes.

10.2 Projeto PorSimples

O banco de dados utilizado no estudo de quantificação dos índices de complexidade consiste num conjunto de 339 textos compilados pelo projeto Projeto PorSimples (165). Os textos são classificados em textos originais, simplificações naturais e fortes. A diferença entre as simplificações refere-se à quantidade de operações de simplificações aplicadas. As possíveis operações de simplificação são fornecidas na Tabela 10.2, enquanto que as estatísticas do banco de dados são mostradas na Tabela 10.3. Um exemplo ilustrando os dois tipos de simplificações é mostrado na Figura 10.1.

Tabela 10.2– Operações de simplificação em função do número de sentenças antes (A) e depois (D) da

operação correspondente. O símbolo (+) representa uma ou mais sentenças.

Operação A D Reescrita 1 1 Sujeito-Verbo-Objeto 1 1 Mudança de voz 1 1 Inversão de ordem 1 1 Divisão 1 + Junção + 1 Remoção 1 0 Remoção parcial 1 1 Substituição léxica 1 1

Tabela 10.3 – Estatística do corpus de simplificação, incluindo o número médio de palavras, parágrafos e caracteres nos textos originais e simplificados (simplificação natural ou forte).

Corpus Palavras Parágrafos Caracteres

Original 350,47 8,01 1.725,16 Natural 362,18 8,36 1.774,47 Forte 366,79 8,42 1.802,81

EUA enfrentam nova denúncia de massacre

Para complicar ainda mais a situação dos militares dos EUA no Iraque, uma nova denúncia de massacre de civis por suas tropas veio à tona ontem. Um vídeo gravado após uma operação militar dos EUA em 15 de março na vila de Ishaqi, 80 quilômetros ao norte de Bagdá, mostra o resultado da operação: corpos de crianças e adultos iraquianos crivados de balas, alguns com tiros na cabeça.

EUA enfrentam nova denúncia de massacre

Uma nova denúncia de matança de civis por tropas dos EUAsurgiu ontem, para complicar ainda mais a situação dos militares americanos no Iraque. Um vídeo gravado após uma operação militar dos EUA em 15 de março na vila de Ishaqi mostra o resultado da operação: corpos de crianças e adultos iraquianos todos furados de balas. Alguns corpos têm tiros na cabeça. A vila de Ishaqi fica 80 quilômetros ao norte de Bagdá.

EUA enfrentam nova denúncia de massacre

Uma nova denúncia de matança de civis por tropas dos EUAsurgiu ontem. A nova denúncia complica ainda mais a situação dos militares americanos no Iraque.

Um vídeo gravado após uma operação militar dos EUA em 15 de março na vila de Ishaqi mostra o resultado da operação: corpos de crianças e adultos iraquianos todos furados de balas. Alguns corpos têm tiros na cabeça. A vila de Ishaqi fica a 80 quilômetros ao norte de Bagdá.

(A) (B) (C)

Figura 10.1– Exemplo de um extrato de texto (a) original; e suas respectivas simplificações (b) natural e (c) forte. Note que a diferença entre a simplificação natural e forte se concentra no nível de simplificação aplicado ao texto.

10.3 Diferenças entre textos originais e simplificados

Para averiguar a mudança na topologia induzida pelo processo de simplificação, cal- culamos várias medidas para as redes dirigidas e ponderadas. Para cada medida X, computamos a diferença relativa dX = (X(s)− X(o))/X(o) entre os valores obtidos para

o texto simplificado (X(s)) e os valores obtidos para o texto original (X(o)). Significa-

tivamente, verificamos que o strength de saída apresenta uma tendência em aumentar seu valor quando um texto é simplificado, enquanto que os caminhos mínimos tendem a diminuir, conforme ilustra a Figura 10.2. As mudanças locais na topologia da rede foram analisadas graficando-se as medidas locais extraídas dos textos originais e das versões simplificadas correspondentes, vértice a vértice, de forma que cada medida distinta fosse representada em um scatter plot. Em outras palavras, para uma dada métrica X do vértice

v, X(o)

v é o valor de X obtido para v na rede original e Xv(s) é o valor de X para o mesmo

vértice na rede do texto simplificado. Neste caso, o ponto (X(o)

v , Xv(s)) pertence ao gráfico

analisado. Dois descritores foram extraídos de cada scatter plot: o coeficiente angular e o coeficiente de correlação de Pearson, obtidos da melhor reta aproximando os dados. Estes descritores são importantes para fornecer informação a respeito da possível preservação de topologia. Por exemplo, se uma medida tende a se preservar os gráficos de dispersão se

10.3. Diferenças entre textos originais e simplificados 197

DIFERENÇA RELATIVA DIFERENÇA RELATIVA

DIFERENÇA RELATIVA DIFERENÇA RELATIVA DIFERENÇA RELATIVA

-10 -5 0 5 10 15 20 25 30 35 10 20 30 40 50 60 -1000 -50 0 50 10 20 30 40 50 60 -150 -100 -50 0 50 0 10 20 30 40 50 60 -10 -5 0 5 10 15 20 25 30 35 0 10 20 30 40 50 60 -1000 -50 0 50 10 20 30 40 50 60 DIFERENÇA RELATIVA -120 -80 -40 0 40 0 10 20 30 40 50 60 (A) (B) (C) (D) (E) (F)

Figura 10.2– Distribuição da diferença relativa dX para (a) X = s; (b) X = L; e (c) X = L (calculado com pesos complementares); para simplificações naturais e (d) X = s; (e) X = L; e (f) X = L (calculado com pesos complementares); para simplificações fortes. Enquanto s tende a aumetar, o comprimento médio dos caminhos mínimos tendem a diminuir quando textos são simplificados.

aproximarão de uma linha rede com ambos os coeficientes próximos de 1 (ver exemplo na Figura 10.3). A partir da análise da distribuição destes coeficientes, foi possível identificar um padrão similar ao padrão encontrado para a análise de métricas globais. Para as medidas X = {s, L}, a correlação se distribui ao redor do valor unitário. Portanto, a distribuição de pontos no gráfico de dispersão se aproxima de uma linha reta. Com relação ao coeficiente angular, X = s mostrou uma correlação predominantemente acima do valor unitário, enquanto que X = L apresentou um histograma com valores predominantemente abaixo de 1, conforme ilustra a Figura 10.4. Portanto, o processo de simplificação tende a aumentar o strength local. Consequentemente, as distâncias geodésicas diminuem.

Os padrões encontrados nas mudanças globais e locais de redes complexas indicam que quanto maior o nível de simplificação, maior é a tendência de conectividade dos conceitos. Além disso, em textos simplificados, as distâncias separando conceitos é menor. Estas descobertas são consistentes com a expectativa de que em um texto simplificado as mesmas palavras devem aparecer mais vezes, pois menos palavras intermediárias são utilizadas

0 5 10 15 20 25 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 0 5 10 15 (SIMPLIFICAÇÃO) (SIMPLIFICAÇÃO)

CAMINHOS MÍNIMOS CAMINHOS MÍNIMOS (SIMPLIFICAÇÃO)

CAMINHOS MÍNIMOS (ORIGINAL) CAMINHOS MÍNIMOS (ORIGINAL)

(A) (B) (C) 0 2 4 6 8 10 12 14 16 18 20 0 5 10 15

CAMINHOS MÍNIMOS (ORIGINAL)

CAMINHOS MÍNIMOS

Figura 10.3– Correlação de métricas locais para a medida de comprimento médio de caminhos mínimos. Os três gráficos de dispersão indicam que X = L é preservado pois há um mapeamento um a um entre vértices correspondentes de redes distintas. O coeficiente de correlação de Pearson r e o coeficiente angular m obtido em cada caso foram: (a) r = 0,988 e m = 1,013; (b) r = 0,998 e m = 1,003; (c) r = 0,998 e m = 1,001. Note que, nos três casos, ambos os coeficientes assumem valores próximos do valor unitário.

0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 0 10 20 30 40 50 60 COEFICIENTE ANGULAR (A) -0.5 0.0 0.5 1.0 1.5 2.0 2.5 0 10 20 30 40 50 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 0 10 20 30 40 50 60 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 0 5 10 15 20 25 30 35 40 45 50 COEFICIENTE ANGULAR (B) COEFICIENTE ANGULAR (C) COEFICIENTE ANGULAR(D)

Figura 10.4– Histograma do coeficiente angular para (a) strength (simplificação natural); (b) caminhos

mínimos (simplificação natural); (c) strength (simplificação forte); (d) caminhos mínimos (simplificação forte). Enquanto o strength tende a aumentar conforme os textos sofrem

No documento Classificação de textos com redes complexas (páginas 195-200)