2.7 DESCOBERTA DE CONHECIMENTO E DATA MINING
3.1.3 Aquisição dos dados
Os acórdãos são decisões de segunda instância, e como tais, devem ser devidamente publicadas. A Justiça Federal da 4ª Região mantém disponíveis esses documentos em meio digital, publicamente acessíveis por meio da internet através de uma ferramenta de consulta jurisprudencial 3.
Uma vez que esses documentos representam um ativo potencialmente útil para alimentar o modelo de conhecimento, surgiu a necessidade de se obter um conjunto de acórdãos para tal finalidade. A obtenção de um conjunto significativo desses documentos de forma manual demandaria muito tempo e esforço, então optou-se pela criação de um processo automatizado para consulta e aquisição dos documentos. O processo completo é apresentado na figura 13.
Figura 13 – Aquisição dos dados para compor o modelo de tópicos.
Consulta a especialistas de domínio Montagem e configuração do processo para aquisição dos dados Diretrizes para recuperação de acórdãos para alimentar o modelo de conhecimento
Aquisição dos resumos e URL’s para o inteiro teor
dos acórdãos Montagem e
configuração do processo para aquisição dos dados
Aquisição da lista de acórdãos contendo os resumos e as URL’s para o inteiro teor.
Aquisição dos acórdãos completos, em
formato bruto Aquisição dos acórdãos completos, em formato bruto (html)
Serialização dos dados em arquivo JSON e incorporação de Metadados de controle Processo CRISP-DM Fonte: O autor, (2019).
Com vista à aquisição dos dados, foram consultados especialistas de domínio para estabelecimento de parâmetros de forma a compor umcorpusde acórdãos que fosse heterogêneo e com boa cobertura, mas que representasse um conjunto de processos com mesmo rito processual. Após análise das estatísticas processuais 4 e conversa com especialistas de domínio, surgiram oito termos de consulta que ofereceriam uma boa cobertura no portal de consulta processual. Os especialistas também recomendaram que fosse efetuada a busca somente em acórdãos originados 3 Consulta jurisprudencial disponível em: https://jurisprudencia.trf4.jus.br/pesquisa/pesquisa.php?tipo=1
4 Especialistas de domínio como magistrados, analistas e outros operadores de direito possuem acesso à relatórios estatísticos customizados na ferramenta de processo eletrônico eProc.
Capítulo 3. Proposta de modelo de conhecimento baseado em tópicos 74
a partir de apelações cíveis, de forma a se estabelecer um padrão de rito processual mais homogêneo possível. Os parâmetros utilizados são apresentados oportunamente no quadro 6.
Quadro 6 – Parâmetros utilizados para aquisição dos dados.
Campo Valor
Origem TRF4
Campo para pesquisa Inteiro Teor
Texto para pesquisa
Ação Anulatória Auxílio Doença Consignação em Pagamento Danos Morais Financiamento Imobiliário Imposto de Renda
Pensão por Morte Universidade Federal
Acórdãos SIM
Decisões Monocráticas NÃO
Somente Jurisprudência Selecionada SIM
Data Entre 01/01/2009 e 01/01/2019
Classe Processual Apelação Cível (AC)
Número de Registros por Página 50
Fonte: O autor, (2019).
Estabelecidos os parâmetros de consulta ao sistema de busca jurisprudencial, foi cons-truído um artefato de software para automatizar esse processo, que baseou-se na composição de duas técnicas bastante utilizadas para obtenção automática de dados: a navegação não assistida por hyperlinks, processo comumente associado a “web crawling”, e a aquisição oudownload
automatizado dos dados obtidos a partir da navegação por esteshyperlinks, ou “web scrapping”. Os algoritmos utilizados foram construídos em sua maior parte em linguagem de programação “Python®”.
Esse primeiro artefato integra o conjunto de artefatos desenvolvidos para criação do modelo de conhecimento, e sob ponto de vista da metodologia de pesquisa DSR, está associado às fases abdutivas e dedutivas (conforme ilustrado na Figura 1), que se estendem até a criação do modelo de conhecimento.
A aquisição desses dados foi dividida em duas etapas, de forma a proporcionar maior con-trole sobre o processo. Na primeira etapa, foi utilizado oframework Selenium5 6para automatizar o processo de consulta processual. Para isto, foi construído um algoritmo computacional (robô de pesquisa), em linguagempython®, que efetuou a submissão dos parâmetros pré-selecionados
(tabela 6) ao sistema de consulta jurisprudencial do TRF4. Como resultado do processo de 5 O Selenium é um projeto que contém um conjunto de tecnologias para automação debrowsers. A documentação
do projeto está disponível em https://selenium.dev/documentation/en/
Capítulo 3. Proposta de modelo de conhecimento baseado em tópicos 75
Tabela 2 – Total de acórdãos obtidos por palavra chave
Palavra Chave Nº Acórdãos Acórdãos de SC
Ação anulatória 359 96 Auxílio Doença 660 138 Consignação em Pagamento 115 13 Danos Morais 819 154 Financiamento Imobiliário 158 14 Imposto de Renda 952 179
Pensão por Morte 619 120
Universidade Federal 368 74
Total 4050 788
Fonte: O autor, (2019).
aquisição, foram obtidos 4050 acórdãos, dos quais 788 eram relativos a processos originários de Santa Catarina, distribuídos conforme apresentado na tabela 2.
Após a realização deste processo (web Crawling), obteve-se uma estrutura de dados (dataset) em formato JSON contendo um conjunto dehyperlinksque apontavam para endereços onde estavam disponíveis os acórdãos em seu inteiro teor. Na estrutura de dados criada foram armazenados também alguns metadados dos registros, contendo a data de publicação do acórdão, a Seção Judiciária de origem, o relator, um resumo da decisão e a ementa. Foi gerado também um conjunto de metadados de controle sobre a execução do algoritmo utilizado, contendo os parâmetros de pesquisa, data e hora da consulta, além da quantidade de acórdãos recuperados. Neste processo não foi realizado nenhum tratamento adicional dos dados, que mantiveram sua forma original preservada.
A partir do dataset montado, foi executada uma nova etapa de processamento, desta
vez sobre os hyperlinks obtidos, de forma a adquirir os acórdãos em seu inteiro teor. Nesta segunda etapa, foram preservados metadados referentes ao número do processo judicial,Uniform Resource Locator(URL) do documento e classe do acórdão (relativa à palavra chave utilizada na pesquisa), de forma a preservar a rastreabilidade e identificação dos registros obtidos.
Os acórdãos foram adquiridos em sua íntegra, em formato HTML, preservando-se a estrutura da página, de forma a possibilitar a extração de elementos específicos (caput, ementa, relatório, voto, voto divergente, acórdão), como será apresentado mais adiante. Este novo
processamento deu origem a um novo dataset, contendo os acórdãos mapeados no processo
anterior (web crawling) em sua íntegra, serializados também no formato JSON.
A construção do artefato para a aquisição dos dados foi fundamental para a construção do modelo, uma vez que a Justiça Federal da 4ª região não disponibiliza os dados dos acórdãos em formato de dados abertos, na contramão do movimento mundial para publicação de dados
Capítulo 3. Proposta de modelo de conhecimento baseado em tópicos 76
públicos em formato aberto e conectado7,8 (HEATH; BIZER, 2011), , tampouco disponibiliza umdataset de acórdãos paradownload ou interface por meio de uma API ou um serviçoweb
para tal finalidade.