Parsing, Lematização, Reconhecimento de Termos e Descarte de Atri-

4. Classificação de Textos Jurídicos usando Classes Geradas por Agrupamento Par-

4.4 Detalhamento da Solução Adotada

4.4.3 Parsing, Lematização, Reconhecimento de Termos e Descarte de Atri-

Para construir os vetores de atributos, que são compostos de termos dos documentos, foram eliminados metadados e extraídos parágrafos dos documentos em HTML, usando ex- pressões regulares que buscaram as tags com classes CSS indicando seu conteúdo. Isto resultou em um array de parágrafos com texto puro, exceto pela presença de tags “B”, “I”, “U” e “DD”. As três primeiras são indicadores de negrito, itálico e sublinhado; a última é indi- cadora de itemização. Embora não sejam utilizadas neste estudo, sendo descartadas após a extração de termos, optou-se por não excluí-las para que, em futuros trabalhos, sejam mais uma alternativa à disposição para o pré-processamento. As tags de negrito e sublinhado indicam que o autor do documento confere maior relevância ao trecho em destaque. Isto poderia ser levado em consideração para dar maior peso aos atributos gerados. O itálico poderia auxiliar o tagger a, por exemplo, delimitar um termo.

Tabela 4.4 – Normalização de referências legislativas

“artigo 34 do decreto-lei n◦_{8192 de fevereiro de 1972”} “dl 8192/1972”,

“dl 8192/1972 art. 34” “decreto-lei n◦_{8192 de fevereiro de 72, por meio dos artigos 34, 35 e 36”}

“dl 8192/1972”, “dl 8192/1972 art. 34”, “dl 8192/1972 art. 35”, “dl 8192/1972 art. 36”

4.4.3.1 Parser

O parser desenvolvido extrai tokens usando expressões regulares que reconhecem palavras, números, pontuação, URLs, e-mails, datas, números de processo e referências legislativas. A Tabela 4.4 apresenta exemplos de normalização de referências legislativas produzidas, mostrando que referências a um ou mais artigos de uma norma, resultam num token para a norma, além de um token para cada par norma-artigo. O processo visa aumentar mais a similaridade entre os documentos que abordem o mesmo par artigo-norma e aumentar um pouco a similaridade aqueles que referenciarem artigos diferentes de uma mesma norma. Evita, ainda, aumento de similaridade indesejado entre documentos que façam referência a artigos de mesmo número em normas distintas.

4.4.3.2 Lematizador

O lematizador pesquisa na base lexical os tokens identificados como palavras, recu- perando os respectivos lemmata. Os tokens não encontrados na base são descartados. Havendo mais de um lemma relacionado a um token, faz-se a desambiguação lexical. As únicas alternativas de desambiguação são os lemmata obtidos da base lexical11_{. O desam-}

biguador itera entre dois desambiguadores não gulosos. Um baseado em regras e o outro probabilístico. Ambos desambiguadores podem decidir 1) pela desambiguação, 2) eliminar uma das ambigüidades ou 3) não realizar nenhuma operação. A eliminação de uma das alternativas, proporciona ao próximo desambiguador melhores condições de decisão.

Na primeira iteração, o desambiguador probabilístico assume comportamento não guloso, desambiguando somente ante grandes diferenças de probabilidades entre as alternativas de desambiguação. Na segunda invocação, o desambiguador probabilístico se torna guloso, selecionando a alternativa de maior probabilidade.

Para o desambiguador baseado em regras importou-se 69 regras do ELAG (Elimination of Lexical Ambiguities by Grammars) providas por Muniz12 _{[MN04]. Foram acrescentadas}

mais 271 novas regras inspiradas nas regras gramaticais apresentadas por Ricardo Sérgio

11_{Por exemplo: o token “par”, em função do sufixo “ar”, poderia ser etiquetado como verbo por um desam-}

biguador guiado pelo sufixo. No entanto, não há um lemma etiquetado como verbo para este token na base lexical.

Figura 4.8 – Exemplo de vetor de atributos no site “Recanto das Letras”13_.

O desambiguador probabilístico usa tabela de probabilidades do tagger denominado FORMA de Gonzalez [Gon05], que decide com base em sufixos do token. Neste estudo, seu algoritmo sofreu duas modificações: 1) são considerados apenas os lemmata presentes na base lexical, e, 2) na primeira iteração, assume um comportamento não guloso.

4.4.3.3 Reconhecimento de Termos

Após a lematização, identificam-se os termos dos tesauros. A Figura 4.8 apresenta um modelo de vetor de atributos, gerado ao fim do pré-processamento, resultante do seguinte texto: “1. Trata-se de Ação Ordinária proposta pela empresa Porto de Cima Rádio e Televisão Ltda, objetivando a desclassificação das empresas Rádio e Televisão Rotioner Ltda (ROTIONER) e Rádio e Televisão Canal 29 do Paraná Ltda (SESAL) da Concorrência Pública no _{150j97-SSRjMC,}

promovida pelo Ministério da Comunicações, destinada a outorgar a concessão do serviço de radio- difusão de sons e imagens na localidade de Curitiba, Paraná.(...) É que a Constituição Federal/88, em seu artigo 5◦_{, assevera que (...)}_”.

4.4.3.4 Descarte de atributos

Além disto, implementou-se, também, uma variação no pré-processamento dos documentos. A seleção de atributos empregada pelos autores baseou-se no índice Gini, descartando as palavras que tinham distribuição muito homogênea entre as classes e, também, descartando palavras que ocorriam em poucos documentos.

Neste estudo avaliou-se, alternativamente, uma combinação da solução dos autores com a proposta de Feinerer e Hornik [FH08], que apresenta o Keyword Based Clustering. No entanto, em [FH08], definem-se manualmente os termos que compõem os centróides dos clusters. Em nosso exemplo de uso, a alternativa de pré-processamento que se propõe é a mudança da representação dos documentos no modelo de espaço vetorial de bag of words para bag of terms and law references utilizando o índice Gini para eleger os termos e

13 _{http://recantodasletras.uol.com.br/gramatica/638792 http://recantodasletras.uol.com.br/gramatica/88821}

referências legislativas com a distribuição mais desigual ou que tenham ocorrido em apenas um documento.

Para tanto, foram utilizados tanto os termos do TJF quanto do VCB. Note-se que o documento com a decisão judicial, embora seja redigido por um juiz, contém citações de textos produzidos pelas partes do processo, que podem adotar o VCB. O Ministério Público Fede- ral, por exemplo, adota, oficialmente, o VCB. Considerando-se que não é incomum que o juiz transcreva diversos parágrafos da argumentação do Ministério Público, acrescentando, ao final, frases como “é a minha decisão” ou “decido de acordo com o Ministério Público”, percebe-se que, nestes casos, os termos relevantes para o pré-processamento serão, ne- cessariamente, oriundos do VCB.

4.5 Processo de Agrupamento e Classificação

No documento Agrupamento e categorização de documentos jurídicos (páginas 83-86)