7.4 Possíveis Trabalhos Futuros

7.4.2 Possíveis Trabalhos Futuros Teóricos

Na geração do treinamento segundo a abordagem de Kupiec et al. (1995), o sistema obtém a classe a partir da comparação com o extrato de referência. Se os extratos de referência têm, em média, 30% do tamanho dos textos-fonte, espera-se que, em média, 30% das tuplas (sentenças rotuladas) tenham a classe True. Ou seja, há um desbalanceamento, em que a classe dominante é a False (as sentenças não pertencem ao extrato). Muitos classificadores têm seu desempenho prejudicado em função desse desbalanceamento (Liu 2004)

Larocca Neto et al. (2000) também identificaram o problema, com o classificador C4.5, e comprovaram que os resultados são bastante prejudicados quando não há nenhum mecanismo para balancear o treinamento. Sugerem, para isso, a abordagem mais comum na literatura que é eliminar parte das tuplas da classe dominante ou replicar aleatoriamente tuplas da classe de menor ocorrência.

No caso dos modelos de SA baseados em AM e propostos aqui, as técnicas de tratamento de classes desbalanceadas poderiam ser investigadas também.

b) Redes Bayesianas

Neste trabalho, sugeriu-se que os classificadores mais adequados para SA baseada em AM devem ser os que são capazes de gerar bons rankings. Nesse quesito, os classificadores probabilísticos parecem ter vantagem.

Uma possibilidade de trabalho futuro é explorar Redes Bayesianas (e.g., Cooper e Herskovits 1992) que, embora ainda sigam a mesma ideia do aprendizado Bayesiano, envolvem técnicas mais sofisticadas para superar algumas desvantagens do Naïve-Bayes, como a da independência condicional que impõe a necessidade de todas as características serem estatisticamente independentes.

c) Ensembles de Rankings

A questão principal na SA baseada em AM é como gerar adequadamente o ranking de sentenças. Prati (2006) discute modelos de geração de ensembles de rankings. Ou seja, agregar a contribuição de vários classificadores num modelo de votação para produzir um único ranking, que pode ser útil na seleção das sentenças mais relevantes.

d) Método de Seleção Automática de Características

Pelo nosso conhecimento, o CFS tem sido o método filter de seleção de subconjuntos de características mais utilizado recentemente. Dada a influência que o processo de seleção de características pode representar para a SA e o fato de a Hipótese 2 proposta neste trabalho não ter sido verificada em vários modelos, outros métodos de seleção de características poderiam ser avaliados. Como exemplo, Prassad et al. (2004) propõe o método FSS_ICA com resultados próximos e em alguns casos superiores ao CFS. Além disso, segundo os autores, o FSS_ICA busca selecionar características estatisticamente independentes entre si, o que gera um desempenho melhor quando usado com o classificador Naïve-Bayes, dada a premissa de independência desse classificador. Outro método mais recente é o

INTERACT31 (Zhao e Liu 2007) que também apresentou na avaliação dos autores desempenho ligeiramente superior ao CFS.

e) Regras de Classificação

Em substituição aos classificadores tradicionais explorados, como o Bayesiano, poderiam-se explorar modelos de ranking de sentenças baseados em regras de classificação (e.g., Witten e Frank 2005). A vantagem da utilização de modelos desse tipo é que poderiam permitir mais facialmente a compreensão dos critérios de decisão delineados por meio do Aprendizado de Máquina.

f) Refinamento do Cálculo da Similaridade entre Sentenças nos Métodos Baseados em Grafos

As variações do TextRank produzidas neste trabalho refinaram o modo como as similaridades entre as sentenças são calculadas e obtiveram desempenho superior ao método original. Particularmente, a variação TextRank+Thesaurus foi a mais promissora.

Como continuidade dessa linha, poderia-se em vez de utilizar um thesaurus, dependente de língua, buscar de forma automática essas relações da Internet. Para isso, poderia-se partir do trabalho de Turney (2001), que propõe a utilização dos resultados de pesquisas feitas em algum buscado como fonte de informações. Outra possibilidade seria explorar conjuntos de palavras relacionadas providos pela ferramenta GoogleSets (labs.google.com/sets). Essa ferramenta gera conjuntos de palavras relacionadas a partir de conjuntos menores.


