5. Avaliação
5.4 Informação Não Extraída dos Documentos
Após avaliação dos dados obtidos pelos após a execução dos exemplos de uso, percebeu- se que o grau de similaridade dos documentos categorizados com os centróides dos grupos geradores das classes apresenta algum nível de relação com o sucesso/falha da classifi- cação. No entanto, esta relação é insuficiente para explicar satisfatoriamente os resultados da classificação.
Assim, procedemos a uma revisão mais detalhada dos casos extremos. Analisamos, então, os 11 documentos erroneamente classificados cuja similaridade com os centróides supera 45%. Analisamos, também, os 14 documentos corretamente classificados cuja sim- ilaridade com os centróides é inferior a 25%.
5.4.1 Falsos Positivos com Alta Similaridade
Percebe-se que uma combinação de dois fatores muito contribuiu para a incidência dos falsos positivos estudados: atributos com alta freqüência e atributos com semântica demasi- adamente genérica.
O documento 554, por exemplo, foi classificado na classe correspondente ao grupo 15449, rotulado como “crime”. Tem como atributos os listados na Tabela 5.5. Percebe- se a predominância do atributo “crime”: quase o triplo do segundo atributo mais freqüente e
mais que o triplo do terceiro atributo. Além deste, os atributos “código penal”, “justiça de o trabalho”, “multa”, “legislação penal” e “circunstância atenuante” são, também, demasiada- mente genéricos. Nota-se, também, que não há atributos originados de referências legisla- tivas. O grupo é composto de 5 documentos, cujos temas podem ser vistos na Tabela 5.6. Percebe-se que, em verdade, não há identificação de temas entre quaisquer dois docu- mentos do grupo. Além disto, não se pode falar em sanar este problema aumentando a quantidade de iterações do algoritmo na expectativa de que o passo de projeção elimine mais atributos do centróide, pois os atributos eliminados seriam os de maior especificidade semântica.
Tabela 5.5 – Atributos do Grupo “Crime”
Atr. Peso Atr. Peso
crime 0,546 sanção 0,205
código penal 0,173 salário mínimo 0,171
servidor público 0,169 prestação de serviço a o comunidade 0,157
peculato 0,117 caixa econômico 0,116
justiça de o trabalho 0,101 multa 0,090
liberdade 0,089 passaporte 0,075
correspondência 0,075 falsidade ideológico 0,072
polícia federal 0,065 vítima 0,064
legislação penal 0,063 falsificação 0,060
órgão público 0,054 empregado 0,054
certidão de nascimento 0,054 circunstância atenuante 0,053 decreto executivo 0,049 administração público 0,046 A título de comparação, o oposto ocorre com a classificação do documento 1039 no grupo 15447, rotulado como “estação de rádio”. A classificação ocorreu com similaridade de 72%, a mais alta dentre as classificações em nosso exemplo de uso. Tanto o documento classificado como os 3 documentos agrupados versam sobre atraso na autorização para operação de emissora de rádio. Ao observar-se os atributos do centróide, percebe-se que os atributos de maior peso têm alta especificidade semântica. Além disto, tanto os docu- mentos agrupados, como o documento classificado têm pelo menos um atributo não nulo em comum com o centróide originado de referência legislativa não genérica4.
O grupo 19018, rotulado como “dano && indenização”, é resultante de uma divisão im- plícita, que iniciou-se com o documento 61 na segunda iteração, recebendo mais 3 docu- mentos nas duas última iterações. Este grupo tem como tema a indenização por danos morais. Durante o teste de classificação, 5 documentos foram categorizados na classe cor- respondente a este grupo. Destes, 3 documentos são verdadeiros positivos, 2 são falsos positivos. Dos falsos positivos, um foi categorizado com baixa similaridade, 29,57%, tendo apenas um atributo não nulo em comum com o centróide, “indenização”; o outro documento
4Por referência legislativa genérica, entenda-se uma referência a uma legislação ampla, como a Constitu-
Tabela 5.6 – Temas do Grupo “Crime” Principais Atributos Tema
crime, peculato, prestação de serviço a o comu- nidade, código penal, sanção, administração público.
Abuso dos poderes do cargo para trocar bem de sua propriedade por outro, de qualidade supe- rior, pertencente ao patrimônio de órgão público. crime, sanção, salário
mínimo, legislação pe- nal, multa, vítima, código penal.
Correção da dosimetria da pena por fragilidade de provas.
crime, falsidade ide- ológico, justiça de o trabalho, falsificação, prestação de serviço a o comunidade, salário mínimo, sanção, código penal.
Falsificação de documentos para eximir-se de obrigações trabalhistas.
servidor público, caixa econômico, correspondên- cia, crime, justiça de o trabalho.
Ocultação de documento público com prejuízo de parte contrária em ação trabalhista.
crime, passaporte, polícia federal, certidão de nasci- mento, circunstância aten- uante, sanção.
Falsificação de documentos para a obtenção de passaporte.
foi categorizado com similaridade mais alta, 48,3%, apesar de ter somente dois atributos não nulos em comum com o centróide. Estes dois atributos, “dano” e “indenização”, con- forme a Tabela 5.8, que apresenta os atributos do centróide, são decisivos na determinação da similaridade com o centróide. O documento foi mal classificado, embora com maior simi- laridade, porque tratava-se de um recurso acerca da discussão do valor da causa. Causa esta que clamava danos morais. A presença de trechos de texto da ação que originou este recurso, que não versa sobre danos morais e sim sobre valor da causa originária, acabou por determinar a similaridade com este centróide.
Já o documento 979 foi erroneamente categorizado, com similaridade de 53,3%, na classe correspondente ao grupo 19116, rotulado como "crédito tributário && multa", re- sultante de divisão implícita. Este grupo contêm apenas um documento e somente três atributos em seu centróide, listados na Tabela 5.9. Dos atributos não nulos do documento, somente “multa” e “crédito tributário” também não são nulos no centróide. A escassez de atributos, agravada pelo fato de o atributo “multa” ser demasiadamente genérico, acabou por determinar a errônea categorização deste documento.
Tabela 5.7 – Atributos do Grupo “estação de rádio”
Atr. Peso Atr. Peso
estação de rádio 0,529 radiodifusão 0,415 processo administrativo 0,276 poder judiciário 0,179
risco 0,136 administração 0,131
mora 0,126 associação 0,092
l9612/1998 0,086 poder executivo 0,086
estupro 0,076 direito e garantia individual 0,074 administração público 0,072 ec45/2004 0,057
abuso de poder 0,049 l9472/1997 0,046
empresa público 0,046 cf/1988 0,034
decreto executivo 0,032 porto 0,030
tutela 0,030 crime por omissão 0,019
ação ordinário 0,019 l9784/1999 0,019
Tabela 5.8 – Atributos do Grupo “dano && indenização”
Atr. Peso Atr. Peso
dano 0,882 indenização 0,344
reparação de dano 0,071 má-fé 0,046
vítima 0,044 responsabilidade civil 0,036 direito humano 0,025 princípio da razoabilidade 0,021 processo administrativo 0,021