• Nenhum resultado encontrado

Informação Não Extraída dos Documentos

5. Avaliação

5.4 Informação Não Extraída dos Documentos

Após avaliação dos dados obtidos pelos após a execução dos exemplos de uso, percebeu- se que o grau de similaridade dos documentos categorizados com os centróides dos grupos geradores das classes apresenta algum nível de relação com o sucesso/falha da classifi- cação. No entanto, esta relação é insuficiente para explicar satisfatoriamente os resultados da classificação.

Assim, procedemos a uma revisão mais detalhada dos casos extremos. Analisamos, então, os 11 documentos erroneamente classificados cuja similaridade com os centróides supera 45%. Analisamos, também, os 14 documentos corretamente classificados cuja sim- ilaridade com os centróides é inferior a 25%.

5.4.1 Falsos Positivos com Alta Similaridade

Percebe-se que uma combinação de dois fatores muito contribuiu para a incidência dos falsos positivos estudados: atributos com alta freqüência e atributos com semântica demasi- adamente genérica.

O documento 554, por exemplo, foi classificado na classe correspondente ao grupo 15449, rotulado como “crime”. Tem como atributos os listados na Tabela 5.5. Percebe- se a predominância do atributo “crime”: quase o triplo do segundo atributo mais freqüente e

mais que o triplo do terceiro atributo. Além deste, os atributos “código penal”, “justiça de o trabalho”, “multa”, “legislação penal” e “circunstância atenuante” são, também, demasiada- mente genéricos. Nota-se, também, que não há atributos originados de referências legisla- tivas. O grupo é composto de 5 documentos, cujos temas podem ser vistos na Tabela 5.6. Percebe-se que, em verdade, não há identificação de temas entre quaisquer dois docu- mentos do grupo. Além disto, não se pode falar em sanar este problema aumentando a quantidade de iterações do algoritmo na expectativa de que o passo de projeção elimine mais atributos do centróide, pois os atributos eliminados seriam os de maior especificidade semântica.

Tabela 5.5 – Atributos do Grupo “Crime”

Atr. Peso Atr. Peso

crime 0,546 sanção 0,205

código penal 0,173 salário mínimo 0,171

servidor público 0,169 prestação de serviço a o comunidade 0,157

peculato 0,117 caixa econômico 0,116

justiça de o trabalho 0,101 multa 0,090

liberdade 0,089 passaporte 0,075

correspondência 0,075 falsidade ideológico 0,072

polícia federal 0,065 vítima 0,064

legislação penal 0,063 falsificação 0,060

órgão público 0,054 empregado 0,054

certidão de nascimento 0,054 circunstância atenuante 0,053 decreto executivo 0,049 administração público 0,046 A título de comparação, o oposto ocorre com a classificação do documento 1039 no grupo 15447, rotulado como “estação de rádio”. A classificação ocorreu com similaridade de 72%, a mais alta dentre as classificações em nosso exemplo de uso. Tanto o documento classificado como os 3 documentos agrupados versam sobre atraso na autorização para operação de emissora de rádio. Ao observar-se os atributos do centróide, percebe-se que os atributos de maior peso têm alta especificidade semântica. Além disto, tanto os docu- mentos agrupados, como o documento classificado têm pelo menos um atributo não nulo em comum com o centróide originado de referência legislativa não genérica4.

O grupo 19018, rotulado como “dano && indenização”, é resultante de uma divisão im- plícita, que iniciou-se com o documento 61 na segunda iteração, recebendo mais 3 docu- mentos nas duas última iterações. Este grupo tem como tema a indenização por danos morais. Durante o teste de classificação, 5 documentos foram categorizados na classe cor- respondente a este grupo. Destes, 3 documentos são verdadeiros positivos, 2 são falsos positivos. Dos falsos positivos, um foi categorizado com baixa similaridade, 29,57%, tendo apenas um atributo não nulo em comum com o centróide, “indenização”; o outro documento

4Por referência legislativa genérica, entenda-se uma referência a uma legislação ampla, como a Constitu-

Tabela 5.6 – Temas do Grupo “Crime” Principais Atributos Tema

crime, peculato, prestação de serviço a o comu- nidade, código penal, sanção, administração público.

Abuso dos poderes do cargo para trocar bem de sua propriedade por outro, de qualidade supe- rior, pertencente ao patrimônio de órgão público. crime, sanção, salário

mínimo, legislação pe- nal, multa, vítima, código penal.

Correção da dosimetria da pena por fragilidade de provas.

crime, falsidade ide- ológico, justiça de o trabalho, falsificação, prestação de serviço a o comunidade, salário mínimo, sanção, código penal.

Falsificação de documentos para eximir-se de obrigações trabalhistas.

servidor público, caixa econômico, correspondên- cia, crime, justiça de o trabalho.

Ocultação de documento público com prejuízo de parte contrária em ação trabalhista.

crime, passaporte, polícia federal, certidão de nasci- mento, circunstância aten- uante, sanção.

Falsificação de documentos para a obtenção de passaporte.

foi categorizado com similaridade mais alta, 48,3%, apesar de ter somente dois atributos não nulos em comum com o centróide. Estes dois atributos, “dano” e “indenização”, con- forme a Tabela 5.8, que apresenta os atributos do centróide, são decisivos na determinação da similaridade com o centróide. O documento foi mal classificado, embora com maior simi- laridade, porque tratava-se de um recurso acerca da discussão do valor da causa. Causa esta que clamava danos morais. A presença de trechos de texto da ação que originou este recurso, que não versa sobre danos morais e sim sobre valor da causa originária, acabou por determinar a similaridade com este centróide.

Já o documento 979 foi erroneamente categorizado, com similaridade de 53,3%, na classe correspondente ao grupo 19116, rotulado como "crédito tributário && multa", re- sultante de divisão implícita. Este grupo contêm apenas um documento e somente três atributos em seu centróide, listados na Tabela 5.9. Dos atributos não nulos do documento, somente “multa” e “crédito tributário” também não são nulos no centróide. A escassez de atributos, agravada pelo fato de o atributo “multa” ser demasiadamente genérico, acabou por determinar a errônea categorização deste documento.

Tabela 5.7 – Atributos do Grupo “estação de rádio”

Atr. Peso Atr. Peso

estação de rádio 0,529 radiodifusão 0,415 processo administrativo 0,276 poder judiciário 0,179

risco 0,136 administração 0,131

mora 0,126 associação 0,092

l9612/1998 0,086 poder executivo 0,086

estupro 0,076 direito e garantia individual 0,074 administração público 0,072 ec45/2004 0,057

abuso de poder 0,049 l9472/1997 0,046

empresa público 0,046 cf/1988 0,034

decreto executivo 0,032 porto 0,030

tutela 0,030 crime por omissão 0,019

ação ordinário 0,019 l9784/1999 0,019

Tabela 5.8 – Atributos do Grupo “dano && indenização”

Atr. Peso Atr. Peso

dano 0,882 indenização 0,344

reparação de dano 0,071 má-fé 0,046

vítima 0,044 responsabilidade civil 0,036 direito humano 0,025 princípio da razoabilidade 0,021 processo administrativo 0,021