• Nenhum resultado encontrado

4.5 Avaliação automática da aprendizagem

4.5.1 Avaliação automática de textos

A pesquisa seminal sobre a avaliação automática de textos é devida a Ellis Page e foi publicada em 1968 (Page, 1968). Reconhecendo a pesada carga de trabalho do professor e a possibilidade de usar programas de computador para avaliar textos escritos por estudantes, Page desenvolveu um sistema de correção e pontuação automática de ensaios chamado de Project Essay Grade - PEG. O objetivo de Page era demonstrar a possibilidade de construir um sistema automático de correção da escrita que pudesse fazer o mesmo trabalho que um professor. Partindo de um conjunto de ensaios que professores já tinham corrigido e pontuado, ele experimentou uma va- riedade de características textuais que pudessem ser automaticamente extraídas destes ensaios corrigidos7 e aplicou regressão linear múltipla a estas características para determinar a combi- nação de pesos que melhor predicesse o valor das pontuações atribuidas pelos professores. As notas atribuídas pelo PEG alcançaram correlação múltipla r de 0.78 com aquelas atribuídas pe- los professores8. A despeito do sucesso em predizer o resultado da pontuação dos professores,

a versão inicial do PEG teve aceitação bastante limitada na comunidade educacional por causa do uso de medidas indiretas de qualidade da escrita.

Na década de 1990, avanços nas áreas de PLN e RI encorajaram pesquisadores a aplicar novas ferramentas e técnicas computacionais para extrair de textos medidas mais diretas de qualidade da escrita. Seguindo a linha de pensamento de Page, Burstein e seus colegas do ETS9(Burstein, 1998) desenvolveram o e-rater, uma ferramenta capaz de avaliar analiticamente um texto com base em medidas mais diretas derivadas de qualidades gerais como variedade

sintática, estruturação e conteúdo de tópicos e organização de idéias10. A idéia de Burstein era

7Devido principalmente à limitação da pesquisa em PLN na década de 1960, as características experimentadas

por Page se resumiram a medidas indiretas da qualidade da escrita: comprimento médio de palavras, quantidade de palarvas do texto, quantidade de vírgulas, quantidade de preposições e quantidade de palavras incomuns

8Este é um resultado impressionante porque a correlação múltipla entre dois ou mais professores no conjunto

de ensaios que Page trabalhou não passou de 0.85 (Kukich, 2000)

9Educational Testing Service

10Estas qualidades gerais são as recomendações do Graduate Management Admissions Tests para a avaliação

testar características linguísticas que representassem mais diretamente estas qualidades gerais e que pudessem ser automaticamente extraidas do texto usando técnicas de PLN e RI. Por exemplo, a variedade sintática poderia ser medida pela quantificação de tipos de sentenças e cláusulas encontradas nos ensaios e o conteúdo de tópico pela análise do conteúdo vocabular. Usando a análise de regressão para a determinar a aprendizagem do e-rater, o sistema foi testado com um número substancial de ensaios pré-corrigidos por professores. Os resultados dos testes confirmaram a validade psicométrica das notas do e-rater em termos de medidas da qualidade da escrita, das diferenças culturais e aprendizagem da segunda língua e da aprendizagem de assuntos específicos tais como História da América e literatura inglesa11.

A pesquisa de Landauer e seus colegas (Landauer et al., 2000) resultou no desenvolvimento do Intelligent Essay Assessor (IEA), um sistema para análise de ensaios, pontuação e realimen- tação tutorial, uma aplicação baseada em Análise de Semântica Latente (ASL). ASL é uma técnica de aprendizagem de máquina que serve para simular o significado de palavras e de pas- sagens de texto (Berry et al., 1995; Deerwester, 1990; Landauer & Dumais, 1997; Landauer et al., 1998). A idéia fundamental é que o agregado de todos os contextos nos quais as palavras aparecem forma um sistema de equações lineares simultâneas que determina a similaridade de significado de palavras e passagens entre si. ASL usa a técnica de decomposição de matrizes singulares para analisar um corpo de texto de mesmo tamanho e conteúdo do que aquele que os estudantes vão usar para aprender vocabulário, conceitos e outros conhecimentos necessários para escrever um ensaio. ASL representa cada palavra e cada passagem como um ponto num

espaço semântico multidimensional. A posição relativa neste espaço estima a similaridade semântica entre duas palavras ou passagens quaisquer. Muitos experimentos feitos com ASL provaram que a técnica simula com alta precisão as corresponentes similaridades semânticas dos humanos (Foltz et al., 1998; Rehder, 1998; Wolfe, 1998). É baseando-se neste poder de análise semântica da ASL que o IEA consegue:

• receber treinamento a partir de um texto representativo do domínio de conhecimento dos

ensaios que ele vai analisar;

• representar os significados contidos nos ensaios recebidos e compará-los com textos alta-

mente similares e de qualidade reconhecida (análise de conteúdo);

• calcular estatísticas sobre estilos de escrita (julgamento sobre a coerência do texto);

• identificar erros classificados como mecânicos (erros de ortografia);

• validar um ensaio do ponto de vista da língua em que ele foi escrito (Português ou Inglês);

• detectar plágio ou outra tentativa de enganar o sistema (traduções automáticas, por exem- plo);

• prover realimentação tutorial12.

Adicionalmente ao trabalho pioneiro de Page (1968) e de MacDonald (1982), este o primeiro a tratar de correção ortográfica, estilo e legibilidade, a partir da segunda metade da década de 1990 surgem várias contribuições para o avanço da avaliação automática de textos. Exemplos destas contribuições podem ser encontradas nos trabalhos de Lahan (2000), Chodorow & Lea- cock (2000), Miltsakaki & Kukich (2000), Burstein & Marcu (2000) e Bennet & Bejar (1998). Apesar destes avanços, todas as tecnologias atuais para avaliação automática de ensaios deixam considerável espaço para melhorias. Mais especificamente, espera-se que métodos possam avaliar, dar feedback crítico e sugestões para melhoria do texto em termos de detalhes da lógica, da sintaxe e da semântica ao nível da construção de sentenças; e da clareza, da compreensibili- dade e das qualidades afetivas (humor, suspense, evocatividade) ao nível da sentença, do pará- grafo e da organização do texto. A pesquisa com sucesso nesta linha contribuirá para melhorar os processos automáticos atuais de simulação de entendimento e modelagem da linguagem hu- mana.