Aquisição dos dados - DESCOBERTA DE CONHECIMENTO E DATA MINING

2.7 DESCOBERTA DE CONHECIMENTO E DATA MINING

3.1.3 Aquisição dos dados

Os acórdãos são decisões de segunda instância, e como tais, devem ser devidamente publicadas. A Justiça Federal da 4ª Região mantém disponíveis esses documentos em meio digital, publicamente acessíveis por meio da internet através de uma ferramenta de consulta jurisprudencial 3.

Uma vez que esses documentos representam um ativo potencialmente útil para alimentar o modelo de conhecimento, surgiu a necessidade de se obter um conjunto de acórdãos para tal finalidade. A obtenção de um conjunto significativo desses documentos de forma manual demandaria muito tempo e esforço, então optou-se pela criação de um processo automatizado para consulta e aquisição dos documentos. O processo completo é apresentado na figura 13.

Figura 13 – Aquisição dos dados para compor o modelo de tópicos.

Consulta a especialistas de domínio Montagem e configuração do processo para aquisição dos dados Diretrizes para recuperação de acórdãos para alimentar o modelo de conhecimento

Aquisição dos resumos e URL’s para o inteiro teor

dos acórdãos Montagem e

configuração do processo para aquisição dos dados

Aquisição da lista de acórdãos contendo os resumos e as URL’s para o inteiro teor.

Aquisição dos acórdãos completos, em

formato bruto Aquisição dos acórdãos completos, em formato bruto (html)

Serialização dos dados em arquivo JSON e incorporação de Metadados de controle Processo CRISP-DM Fonte: O autor, (2019).

Com vista à aquisição dos dados, foram consultados especialistas de domínio para estabelecimento de parâmetros de forma a compor umcorpusde acórdãos que fosse heterogêneo e com boa cobertura, mas que representasse um conjunto de processos com mesmo rito processual. Após análise das estatísticas processuais 4 e conversa com especialistas de domínio, surgiram oito termos de consulta que ofereceriam uma boa cobertura no portal de consulta processual. Os especialistas também recomendaram que fosse efetuada a busca somente em acórdãos originados 3 Consulta jurisprudencial disponível em: https://jurisprudencia.trf4.jus.br/pesquisa/pesquisa.php?tipo=1

4 Especialistas de domínio como magistrados, analistas e outros operadores de direito possuem acesso à relatórios estatísticos customizados na ferramenta de processo eletrônico eProc.

Capítulo 3. Proposta de modelo de conhecimento baseado em tópicos 74

a partir de apelações cíveis, de forma a se estabelecer um padrão de rito processual mais homogêneo possível. Os parâmetros utilizados são apresentados oportunamente no quadro 6.

Quadro 6 – Parâmetros utilizados para aquisição dos dados.

Campo Valor

Origem TRF4

Campo para pesquisa Inteiro Teor

Texto para pesquisa

Ação Anulatória Auxílio Doença Consignação em Pagamento Danos Morais Financiamento Imobiliário Imposto de Renda

Pensão por Morte Universidade Federal

Acórdãos SIM

Decisões Monocráticas NÃO

Somente Jurisprudência Selecionada SIM

Data Entre 01/01/2009 e 01/01/2019

Classe Processual Apelação Cível (AC)

Número de Registros por Página 50

Fonte: O autor, (2019).

Estabelecidos os parâmetros de consulta ao sistema de busca jurisprudencial, foi cons-truído um artefato de software para automatizar esse processo, que baseou-se na composição de duas técnicas bastante utilizadas para obtenção automática de dados: a navegação não assistida por hyperlinks, processo comumente associado a “web crawling”, e a aquisição oudownload

automatizado dos dados obtidos a partir da navegação por esteshyperlinks, ou “web scrapping”. Os algoritmos utilizados foram construídos em sua maior parte em linguagem de programação “Python®”.

Esse primeiro artefato integra o conjunto de artefatos desenvolvidos para criação do modelo de conhecimento, e sob ponto de vista da metodologia de pesquisa DSR, está associado às fases abdutivas e dedutivas (conforme ilustrado na Figura 1), que se estendem até a criação do modelo de conhecimento.

A aquisição desses dados foi dividida em duas etapas, de forma a proporcionar maior con-trole sobre o processo. Na primeira etapa, foi utilizado oframework Selenium5 6para automatizar o processo de consulta processual. Para isto, foi construído um algoritmo computacional (robô de pesquisa), em linguagempython®, que efetuou a submissão dos parâmetros pré-selecionados

(tabela 6) ao sistema de consulta jurisprudencial do TRF4. Como resultado do processo de 5 O Selenium é um projeto que contém um conjunto de tecnologias para automação debrowsers. A documentação

do projeto está disponível em https://selenium.dev/documentation/en/

Capítulo 3. Proposta de modelo de conhecimento baseado em tópicos 75

Tabela 2 – Total de acórdãos obtidos por palavra chave

Palavra Chave Nº Acórdãos Acórdãos de SC

Ação anulatória 359 96 Auxílio Doença 660 138 Consignação em Pagamento 115 13 Danos Morais 819 154 Financiamento Imobiliário 158 14 Imposto de Renda 952 179

Pensão por Morte 619 120

Universidade Federal 368 74

Total 4050 788

Fonte: O autor, (2019).

aquisição, foram obtidos 4050 acórdãos, dos quais 788 eram relativos a processos originários de Santa Catarina, distribuídos conforme apresentado na tabela 2.

Após a realização deste processo (web Crawling), obteve-se uma estrutura de dados (dataset) em formato JSON contendo um conjunto dehyperlinksque apontavam para endereços onde estavam disponíveis os acórdãos em seu inteiro teor. Na estrutura de dados criada foram armazenados também alguns metadados dos registros, contendo a data de publicação do acórdão, a Seção Judiciária de origem, o relator, um resumo da decisão e a ementa. Foi gerado também um conjunto de metadados de controle sobre a execução do algoritmo utilizado, contendo os parâmetros de pesquisa, data e hora da consulta, além da quantidade de acórdãos recuperados. Neste processo não foi realizado nenhum tratamento adicional dos dados, que mantiveram sua forma original preservada.

A partir do dataset montado, foi executada uma nova etapa de processamento, desta

vez sobre os hyperlinks obtidos, de forma a adquirir os acórdãos em seu inteiro teor. Nesta segunda etapa, foram preservados metadados referentes ao número do processo judicial,Uniform Resource Locator(URL) do documento e classe do acórdão (relativa à palavra chave utilizada na pesquisa), de forma a preservar a rastreabilidade e identificação dos registros obtidos.

Os acórdãos foram adquiridos em sua íntegra, em formato HTML, preservando-se a estrutura da página, de forma a possibilitar a extração de elementos específicos (caput, ementa, relatório, voto, voto divergente, acórdão), como será apresentado mais adiante. Este novo

processamento deu origem a um novo dataset, contendo os acórdãos mapeados no processo

anterior (web crawling) em sua íntegra, serializados também no formato JSON.

A construção do artefato para a aquisição dos dados foi fundamental para a construção do modelo, uma vez que a Justiça Federal da 4ª região não disponibiliza os dados dos acórdãos em formato de dados abertos, na contramão do movimento mundial para publicação de dados

Capítulo 3. Proposta de modelo de conhecimento baseado em tópicos 76

públicos em formato aberto e conectado7^,8 (HEATH; BIZER, 2011), , tampouco disponibiliza umdataset de acórdãos paradownload ou interface por meio de uma API ou um serviçoweb

para tal finalidade.

No documento UNIVERSIDADE FEDERAL DE SANTA CATARINA CAMPUS UNIVERSITÁRIO REITOR JOÃO DAVID FERREIRA LIMA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO Fernando Melo Faraco (páginas 74-77)