• Nenhum resultado encontrado

Parâmetros Adotados na Validação

5. Avaliação

5.2 Parâmetros Adotados na Validação

Dividimos os documentos do corpus em 3 conjuntos: 1. Treino: 716 documentos, para realizar o agrupamento; 2. Teste: 238 documentos, para a primeira classificação; 3. Operação: 238 documentos, para a classificação final;

O procedimento adotado, como critério de divisão, consistiu em selecionar, seqüencial- mente, 3 documentos para o conjunto de treino, 1 para o conjunto de teste e um para o conjunto de operação, reiniciando o processo até que se esgotassem os documentos. Desta maneira, a divisão dos codcumentos ficou ligada à ordem em que os documentos ingressaram no corpus. Essa, por sua vez, seguiu a ordem em que foram realizados os downloads dos documentos. Conforme descrito na Seção 4.4.1, foram buscados os docu- mentos através de pesquisa por data no site do Tribunal Regional Federal da 4a Região,

compreendendo o período de 9 de janeiro de 2.006 a 27 de maio de 2.009. Foram, inicial- mente, baixados em ordem cronológica crescente, os documentos do ano de 2.009. Em seguida os documentos do ano de 2.008. Após, os de 2.007 e, finalmente, os de 2.006.

Foram selecionados os 716 documentos do conjunto de treino para agrupar e gerar as classes. Foram extraídos, ao todo, 1.255.266 tokens destes documentos. Cada documento apresenta uma média de 1.753,16 tokens. Após a extração dos atributos, obteve-se, por documento, uma média de 138,54 atributos (62,9 atributos distintos, em média). O parsing e a desambigüação levaram em torno de 1h 30min e a detecção de atributos consumiu em torno de 15 minutos. Assim, o tempo médio de pré-processamento é de menos de 9s por documento.

Tabela 5.1 – Variações empregadas em cada execução do agrupamento Execução Opções

1 Algoritmo original, sem alterações 2 Desabilitado o descarte de grupos 3 Desabilitado o descarte de documentos 4 Habilitado o passo de divisão

5 Desabilitados todos os descartes e habilitado o passo de divisão 6 Desabilitados todos os descartes e habilitada a divisão implícita

Obtidos os atributos, foram determinados os grupos/classes iniciais. Para tanto, o pri- meiro atributo obtido da ementa de cada documento foi usado como rótulo de classe. No Apêndice B, vemos a Tabela B.2 que apresenta um resumo dos grupos iniciais obtidos e a quantidade de documentos associada a cada um.

Descartaram-se, então, os atributos via Índice Normalizado Gini, listados na Tabela D.1, no Apêndice D. Decidiu-se pelo descarte dos 50 atributos com o maior Índice Normaliza- do Gini. Não foi possível descartar mais atributos devido a alguns documentos e grupos ficarem com poucos atributos. Foram descartados, também, todos os atributos que ocor- riam somente em um documento. A Tabela B.1, encontrada no Apêndice B, apresenta as dimensionalidades iniciais dos grupos.

Para melhor observar o efeito das alterações propostas, executamos o algoritmo de agrupamento várias vezes, ativando, seletivamente, cada alteração proposta e, posterior- mente, ativando-as em conjunto, conforme indicado na Tabela 5.1. O limiar de similaridade utilizado foi de 50%. O limiar de descarte de grupos foi de 4 documentos. Limiares de simi- laridade e descarte superiores a estes resultavam em descarte de todos os documentos no algoritmo original de Aggarwal, Gates e Yu [AGY04], pois a exigência de maior similaridade aumentava o descarte de documentos e diminuia a quantidade de documentos no grupos, fazendo com que os grupos atingissem o limiar de descarte e fossem, tambem, descarta- dos. As iterações iniciaram com, no máximo, 200 atributos nos centróides e encerraram-se com, no mínimo, 24 atributos. Cada algoritmo de agrupamento levou entre 30min e 1h 30min de execução, exceto pelo algoritmo que implementou o passo de divisão de grupos, que levou em torno de 3h 30min para executar. O algoritmo de categorização classificou, em média, um documento a cada 2,02s.

Depois de executados os agrupamentos, foram calculados dois índices internos de qua- lidade dos agrupamentos de cada um dos conjuntos de grupos gerados, detalhados na Seção 5.3.1.

Selecionou-se, então, o conjunto gerado pelo algoritmo evoluído sem descartes de docu- mentos ou grupos e com divisão implícita de grupos, por apresentar a melhor performance média dos índices internos para prover as classes utilizadas em todos exemplos de uso de classificação, descritos na Seção 5.3.2.

Os 238 documentos do conjunto de teste foram categorizados em 161 das 465 classes correspondentes ao grupos obtidos no agrupamento realizado através do algoritmo evoluído selecionado. Os resultados da categorização foram submetidos a validação por especialista humano.

Após a validação por especialista humano, conforme descrito na Seção 5.3.2, anali- saram-se os resultados obtidos, verificando que obteve-se uma precisão de, aproximada- mente, 57%. Analisou-se, também, a relação entre os verdadeiros/falsos positivos e diver- sos parâmetros, tais como quantidade de documentos no grupo, quantidade de atributos no centróide e no documento categorizado, quantidade de palavras nos atributos origina- dos de termos jurídicos, etc. Desta análise não se identificou qualquer relação entre estes parâmetros e o sucesso/insucesso na categorização. Por esta razão, suspeitando de que tal relação não tivesse raízes nestes parâmetros, procedeu-se a uma análise mais detalha- da, nas Seções 5.4.1 e 5.5, dos casos extremos: os falsos positivos categorizados com alta similaridade e os verdadeiros positivos com baixa similaridade.

Nesta análise, percebeu-se que, em muitos centróides os atributos de maior peso tinham semântica muito genérica e, assim, formulou-se a hipótese de que poder-se-ia minimizar este problema dando pesos proporcionais à semântica dos atributos, conforme detalhado na Seção 5.6. Também percebeu-se que o passo de projeção, onde se faz o recálculo dos centróides, não reconhecia a presença de novos atributos não nulos decorrentes da inclusão de novos documentos.

Procedeu-se à implementação de novo exemplo de uso, retornando ao ponto da de- tecção dos atributos nos documentos. Desta vez, atribuiu-se pesos proporcionais à especi- ficidade dos atributos. A informação do grau de especificidade dos termos foi obtida a partir dos tesauros, e as referências legislativas receberam pesos arbitrados, conforme critérios detalhados na Seção 5.7. Os demais procedimentos de pré-processamento seguiram o mesmo rito, descartando-se os 50 atributos com o maior Índice Normalizado Gini e os atri- butos que ocorriam em somente um documento.

Repetiu-se a execução dos algoritmos de agrupamento, descrito na Seção 5.8, con- forme o algoritmo original e as cinco variações do algoritmo evoluído. O passo de projeção foi alterado, permitindo que novos atributos não nulos ingressem no centróide em decor- rência da inclusão dos atributos dos novos documentos no centróide. No Apêndice C, vemos a Tabela C.2 que apresenta um resumo dos grupos finais obtidos e a quantidade de documentos associada a cada um.

Foi realizado novo cálculo dos índices de qualidade dos agrupamentos e, desta vez, o algoritmo que descarta documentos e não descarta grupos apresentou a melhor per- formance média. No entanto sua performance média superou a performance média do algoritmo de divisão implícita em, apenas, 2% e, sendo tão pequena a diferença e por não realizar descartes, preferimos selecionar o conjunto de grupos gerado por este último para prover as classes usadas na fase de categorização.

Não foi possível utilizar os 238 documentos do conjunto de operação devido à indisponi- bilidade de tempo para validação por especialista humano. No tempo que dispúnhamos, a única maneira que encontramos de avaliar ao menos 100 categorizações foi o emprego de dois especialistas humanos. Cada especialista humano avaliou um conjunto de 55 catego- rizações, composto de um conjunto de 50 categorizações distinto do conjunto recebido pelo outro avaliador, e de um conjunto de 5 categorizações iguais às do conjunto de 5 catego- rizações recebido pelo outro avaliador. Totalizando, assim, 105 categorizações distintas.

Os 105 documentos selecionados aleatoriamente do conjunto de operação, foram ca- tegorizados em 74 das 453 classes correspondentes ao grupos obtidos no agrupamento realizado através do algoritmo evoluído selecionado.

Após a validação pelos especialistas humanos, conforme descrito na Seção 5.9, ana- lisou-se os resultados obtidos, verificando que obteve-se uma precisão de, aproximada- mente, 50,5%. Também repetiu-se a análise da relação entre os verdadeiros/falsos posi- tivos e os diversos parâmetros analisados anteriormente. Desta vez, pôde-se identificar que alguns destes parâmetros mantêm um razoável grau de relação com o sucesso na categorização.