• Nenhum resultado encontrado

5- Experimentos Computacionais

5.4.2 Detecc¸ ˜ao de comunidades: m ´etodo do CMN

O Algoritmo 7, da metodologia descrita na Sec¸ ˜ao 4.1.2 para identificar comuni- dades no grafo G2, foi aplicado na base de dados. Cabe destacar que esse algoritmo

retorna somente uma partic¸ ˜ao denominada pcnm.O m ´etodo CNM identificou 903 comu-

nidades para o grafo G2. A modularidade dessa partic¸ ˜ao ´e de aproximadamente 0, 036.

pmax, resultado do m ´etodo GN. Diferentemente, do m ´etodo GN que n ˜ao terminou de

processar em tempo h ´abil, o m ´etodo CNM terminou o processamento em menos de dez minutos no mesmo equipamento. A Figura 22 apresenta o grafo G2com as comunidades

da partic¸ ˜ao em pcnm.

Figura 22 – Grafo G2 com as comunidades detectadas pelo m ´etodo CNM

Entre as linhas 2 e 5 do Algoritmo 7, s ˜ao calculadas a raz ˜ao entre o peso e o n ´umero das arestas que conectam os v ´ertices de cada comunidade da partic¸ ˜ao pcnm, cujo

resultado das 20 (vinte) comunidades com maiores valores podem ser observados na Tabela 13. A coluna “dCi (densidade)” apresenta a densidade da comunidade identificada que foi apresentada na Sec¸ ˜ao 2.2 e ´e denotada pela express ˜ao dCi = 2e/v(v − 1). A coluna “N ´umero de arestas” apresenta o n ´umero de arestas que ligam os v ´ertices da comunidade Ci. A coluna “N ´umero de v ´ertices” apresenta o n ´umero de v ´ertices das

comunidade Ci. A coluna “Soma dos pesos das arestas” apresenta a soma dos pesos

das arestas que ligam os v ´ertices da comunidade Ci. A coluna “Raz ˜ao” apresenta a raz ˜ao

da soma dos pesos das arestas que ligam os v ´ertices da Cisob o n ´umero de arestas que

ligam os v ´ertices da comunidade Ci. A coluna “V´ınculos em Ci” apresenta a quantidade

por tipo de v´ınculo descritos na Sec¸ ˜ao 4.1.2 para cada comunidade Ci.

Entre as comunidades detectadas por esse algoritmo, a comunidade C233apre-

senta a maior coes ˜ao. Essa comunidade tem densidade igual a 1 (um), ela possui 1 (uma) aresta e 2 (dois) v ´ertices. A soma dos pesos das arestas ´e de 4.045 (quatro mil e quarenta e cinco), a raz ˜ao do peso sob o n ´umero de arestas ´e de 4.045 (quatro mil e quarenta e cinco). As duas empresas dessa comunidade participaram de 1 (uma) licitac¸ ˜ao disputando pelo mesmo lote. Essas empresas tem 2 (dois) s ´ocios em comum e 8 (oito) empregados em comum.

Tamb ´em se destaca a comunidade C92que ´e a mesma comunidade C19identifi-

cada pelo Algoritmo 6, na Sec¸ ˜ao 4.1.1. Essa comunidade ´e a comunidade em clique com o maior n ´umero de v ´ertices dessa relac¸ ˜ao. Essa comunidade tem densidade igual a 1, ela possui 10 (dez) arestas e 5 (cinco) v ´ertices. A soma dos pesos das arestas ´e de 6.190 (seis mil cento e noventa), a raz ˜ao do peso sob o n ´umero de arestas ´e de 619 (seiscentos e dezenove). Nesta comunidade, h ´a 19 (dezenove) v´ınculos por lotes de licitac¸ ˜ao, 3 (tr ˆes) v´ınculos entre empresas com os mesmos s ´ocios e 30 (trinta) v´ınculos entre empresas com os mesmos empregados.

Todas as 4 (quatro) empresas para as quais se tinha r ´otulo indicando irregularidade foram agrupadas na comunidade C127. Essa comunidade tem densidade igual a 1, ela

possui 6 arestas e 4 v ´ertices. A soma dos pesos das arestas ´e de 8.215, a raz ˜ao do peso sob o n ´umero de arestas ´e de 1.369. O m ´etodo GN manteve esses v ´ertices na maior comunidade da partic¸ ˜ao. Diferentemente do m ´etodo GN, o m ´etodo CNM agrupou essas empresas dentro de uma comunidade com um tamanho em que ´e poss´ıvel uma an ´alise pormenorizada por um auditor. O v´ınculo dessas empresas era esperado, j ´a que o relat ´orio de auditoria que indicou as irregularidades encontradas nas licitac¸ ˜oes que estas empresas participaram j ´a apontava os v´ınculos de parentescos dos s ´ocios das empresas e o emprego dos mesmos funcion ´arios.

A Figura 23 apresenta o grafo G2, mas somente com os v ´ertices das comunidades

Figura 23 – Grafo G2 somente com os v ´ertices das comunidades relacionadas na Ta-

bela 13 vis´ıveis

Tabela 13 – Raz ˜ao dos pesos das arestas sob o o n ´umero de arestas das comunidades em pcnm Ci dCi (densidade) N ´umero de arestas N ´umero de v ´ertices Soma dos pesos das arestas

Raz ˜ao Vinculos em Ci

233 1 1 2 4045 4.045 nbij= 1; npij= 2; neij= 8 294 1 1 2 4021 4.021 nbij= 1; npij= 2; neij= 4 239 1 1 2 3997 3.997 nbij= 1; npij= 2 267 1 1 2 2732 2.732 nbij= 1; nrij= 4; neij= 2 246 1 1 2 2727 2.727 nbij= 8; nrij= 4 147 1 3 3 7149 2.383 nbij= 21; ncij= 1; neij= 4 170 0,66 2 3 4727 2.364 nbij= 4; npij= 1; nrij= 4; neij= 1 154 1 3 3 6270 2.090 nbij= 4; npij= 3; neij= 46 254 1 1 2 2032 2.032 nbij= 10; npij= 1; neij= 4 212 1 1 2 2000 2000 nbij= 2; npij= 1 280 1 1 2 1999 1999 nbij= 1; npij= 1 151 1 3 3 4782 1594 nbij= 5; npij= 1; nrij= 4; neij= 10 119 0,66 4 4 6176 1544 nbij= 22; npij= 1; nrij= 6; neij= 13 127 1 6 4 8215 1369,16 nbij= 9; nrij= 12; neij= 8 135 1 6 4 7234 1205,66 nbij= 130; ncij= 1 116 0,5 3 4 2607 869 nbij= 609; npij= 1 125 0,5 3 4 2032 677,33 nbij= 5; npij= 1; neij= 5 180 1 3 3 2003 667,66 nbij= 5; npij= 1 171 1 3 3 2001 667 nbij= 3; npij= 1 92 1 10 5 6190 619 nbij= 19; npij= 3; neij= 30

Comparando os resultados dos algoritmos GN e CNM, os resultados encontrados tem diferenc¸as importantes, como o tempo de processamento e a quantidade de comuni- dades descobertas.Quanto a qualidade, o valor da modularidade da partic¸ ˜ao resultado do m ´etodo CNM foi de 0,036. O resultado da melhor partic¸ ˜ao quanto a modularidade do m ´etodo GN foi de 0,042, a partic¸ ˜ao p21. Isso ´e cerca de 16% superior a modularidade da

partic¸ ˜ao resultado do m ´etodo CNM.

O tempo de execuc¸ ˜ao dos dois algoritmos ´e a diferenc¸a mais marcante. Foram ne- cess ´arios mais de duas semanas de processamento para que o algoritmo GN produzisse resultados parciais com 22 partic¸ ˜oes. Considerando que o limite do n ´umero de partic¸ ˜oes ´e o n ´umero de v ´ertices do grafo. Considerando que o algoritmo mantivesse a taxa de performance at ´e o final de sua execuc¸ ˜ao, seria necess ´ario pouco mais de 11 anos de processamento para que o algoritmo terminasse o processamento completo. ´E poss´ıvel supor que a taxa de processamento por partic¸ ˜ao aumentasse e o tempo diminu´ısse, j ´a que a medida que as arestas s ˜ao removidas, processar a pr ´oxima aresta com maior valor de intermediac¸ ˜ao para remov ˆe-la se tornaria uma tarefa mais r ´apida em grafos esparsos. Contudo, a velocidade de processamento do algoritmo CNM foi de 10 (dez) minutos. Sua Performance foi muito superior ao do algoritmo GN.

Apesar de o m ´etodo GN ter produzido um resultado com maior qualidade traduzido no valor de modularidade, seu tempo de processamento ´e impeditivo para processar tantas informac¸ ˜oes. Cabe destacar que os dados trabalhados nesta pesquisa s ˜ao oriundos de 84 ´org ˜aos. O TCE-RJ possui quase 800 ( oitocentos) ´org ˜aos jurisdicionados. Uma an ´alise sobre as licitac¸ ˜oes desse total de ´org ˜aos, certamente aumentaria o tamanho dos grafos e por conseguinte o tempo de execuc¸ ˜ao dos algoritmos. O que, na pr ´atica, torna imposs´ıvel a adoc¸ ˜ao do m ´etodo GN para o uso pretendido.

Cabe destacar que os auditores selecionam exclusivamente ´org ˜aos e seus con- tratos a serem auditados e n ˜ao podem abordar diretamente empresas privadas. Tendo em vista a necessidade explicitar os ´org ˜aos conexos as comunidades identificadas neste cen ´ario, na pr ´oxima Sec¸ ˜ao, Sec¸ ˜ao 5.5, propomos uma nova modelagem em grafos reu- nindo informac¸ ˜oes a cerca das licitac¸ ˜oes das empresas, dos ´org ˜aos e os resultados das abordagens do Cen ´ario 1 e do Cen ´ario 2.

5.5- Resultados das abordagens dos Cen ´ario 1 e 2

Geramos um novo Grafo G3. O grafo G3 ´e formado pelos v ´ertices de empresas

das comunidades com maior coes ˜ao da partic¸ ˜ao p21, Tabela 12, e por ´org ˜aos cujas

licitac¸ ˜oes aquelas empresas tenha participado. Al ´em das arestas oriundas do grafo G2,

haver ´a aresta entre um v ´ertice de empresa e um v ´ertice de ´org ˜ao quando a empresa tiver participado de uma licitac¸ ˜ao naquele ´org ˜ao. O peso dessa aresta ´e dado pela quantidade de vezes em que uma empresa participou de licitac¸ ˜oes naquele ´org ˜ao. O grafo da Figura 24 apresenta o grafo G3.

Os v ´ertices maiores na cor azul representam o conjunto de ´org ˜aos. Os demais v ´ertices representam o conjunto das empresas. Cada cor distinta representa uma co- munidade detectada da Tabela 12. O label dos v ´ertices do conjunto de ´org ˜aos tem a informac¸ ˜ao do r ´otulo do ´org ˜ao e do menor valor de entropia para aquele ´org ˜ao dentre todas os Grafos formados no Cen ´ario 1. O tamanho dos v ´ertices do conjunto de ´org ˜aos ´e inversamente proporcional ao seu valor de entropia. Usamos o Yifan Hu, um layout baseado em f´ısica, para revelar empresas e ´org ˜aos mais fortemente relacionados entre si.

Figura 24 – Grafo G3reunindo informac¸ ˜oes a cerca dos resultados das duas abordagens:

os v ´ertices na cor azul representando os valores de entropia e os demais v ´ertices empresas. Cada cor destaca a qual comunidade o v ´ertice pertence

Analisando o grafo formado, podemos destacar alguns ´org ˜aos que foram marcados na Figura. O ´org ˜ao “AP” com valor de entropia de 0.81 e fortemente conexo a todos os v ´ertices de empresas da comunidade 19. Como j ´a tratado anteriormente na Sec¸ ˜ao 4.1.2, a comunidade 19 ´e a maior das comunidades em clique detectadas. A comunidade 19 tamb ´em foi uma das que foi detectadas pelos dois algoritmos, GN e CNM.

O ´org ˜ao “Q” tamb ´em merece destaque por ter o menor valor de entropia entre todos os ´org ˜aos e estar conexo a tr ˆes comunidades distintas, as comunidades “16”, “31” e “40”. Esse ´org ˜ao mant ´em relac¸ ˜ao com todos as empresas da comunidade “31”. A comunidade “31” ´e tamb ´em uma clique, tem 49 v´ınculos de participac¸ ˜ao de licitac¸ ˜ao e 135 v´ınculos de empregados.

O ´org ˜ao “AG”, tamb ´em merece destaque por estar conexo a todos as empresas da comunidade “31” e a 5 das 6 empresas da comunidade “33”. Das comunidades da Tabela 12, a comunidade “33” ´e a que apresenta o maior n ´umero de v´ınculos distintos. Al ´em dos 22 v´ınculos pela participac¸ ˜ao em licitac¸ ˜oes, ela tamb ´em apresenta 3 v´ınculos de s ´ocios em comum, 1 v´ınculo pelo mesmo n ´umero de telefone, 1 v´ınculo pelo mesmo enderec¸o de e-mail, 3 v´ınculos por familiares em comum e 432 v´ınculos de empregados em comum.

Pelo manual de auditoria e de selec¸ ˜ao essa an ´alise preliminar via grafos permite elevar o n´ıvel de risco das licitac¸ ˜oes desses 3 (tr ˆes) ´org ˜aos e j ´a fornece ind´ıcios suficientes para justificar verificac¸ ˜oes adicionais nas suas licitac¸ ˜oes e contratos, especialmente as licitac¸ ˜oes e contratac¸ ˜oes em que essas empresas participam [TCU, 2016; TCE-RJ, 2010].

6- Conclus ˜ao

Neste trabalho, apresentamos duas abordagens n ˜ao supervisionadas para minerac¸ ˜ao de grafos. Desenvolvemos as duas abordagens e as aplicamos aos dados reais de licitac¸ ˜oes p ´ublicas realizadas por diversos ´org ˜aos do estado do Rio de Janeiro entre 2010 e 2018. O objetivo das duas abordagens ´e identificar irregularidades em licitac¸ ˜oes p ´ublicas. A primeira abordagem ´e centrada no valor de entropia dos v ´ertices de um grafo bipartido formado por ´org ˜aos e empresas licitantes. A segunda abordagem ´e centrada na detecc¸ ˜ao de comunidades em um grafo formado exclusivamente por empresas licitantes.

Na primeira abordagem, desenvolvemos uma metodologia que compreendeu as etapas de modelar as licitac¸ ˜oes p ´ublicas, os ´org ˜ao p ´ublicos e as empresas em um grafo bipartido. Calculamos a entropia de cada n ´o que representa um ´org ˜ao p ´ublico e com base nisso propusemos valores de corte de entropia centradas na capacidade operacional de fiscalizac¸ ˜ao do pr ´oprio ´org ˜ao de controle.

Na segunda abordagem, constru´ımos um grafo em que os n ´os representam empresas licitantes e as arestas conectam empresas que tenham participado da mesma licitac¸ ˜ao. Os pesos das arestas representam algum v´ınculo como s ´ocios em comum, mesma sede e mesmo telefone. Usamos os algoritmos GN e CNM para detectar as comunidades no grafo. As comunidades com coes ˜ao alta podem indicar empresas que agem em conluio para simular concorr ˆencia em licitac¸ ˜oes p ´ublicas.

Um grafo reunindo os resultados das duas abordagens anteriores ´e produzido e uma indicac¸ ˜ao de ´org ˜aos com ind´ıcios de irregularidades e de empresas que provavel- mente possam agir em conluio ´e apresentada para o ´org ˜ao fiscalizador.

Os resultados alcanc¸ados, nas indicac¸ ˜oes de risco de irregularidades, ainda que necessitem de comprovac¸ ˜ao, podem ser um importante subs´ıdio no apoio as auditorias de licitac¸ ˜oes p ´ublicas. Como j ´a afirmado anteriormente, os resultados obtidos precisam ser validados para que se verifique a necessidade de se aperfeic¸oar os m ´etodos utilizados. Esta validac¸ ˜ao poder ´a ser feita mediante a realizac¸ ˜ao de futuras auditorias nos ´org ˜aos apontados.

6.1- Analise retrospectiva

Implementamos todos os algoritmos desta pesquisa em Python. Usamos o pacote networkx e seus m ´etodos para criar e manipular os grafos trabalhados. O uso desse pacote nos poupou a implementac¸ ˜ao de algoritmos corriqueiros, no entanto a performance quanto ao tempo de execuc¸ ˜ao e ao consumo de mem ´oria de alguns m ´etodos foi pior do que o esperado. Os m ´etodos de detecc¸ ˜ao de comunidades tiveram um pior desempenho.

O pacote networkx tamb ´em n ˜ao apresenta boas soluc¸ ˜oes para a visualizac¸ ˜ao dos grafos criados. A gerac¸ ˜ao de layouts em alguns caso tinha o tempo de execuc¸ ˜ao proibitivo para grafos grandes. Esse ´e o caso do layout usando a func¸ ˜ao de custo de comprimento de caminho Kamada-Kawai que tinha tempo de execuc¸ ˜ao proibitivo para grafos densos com mais de mil v ´ertices e demasiadamente alto at ´e em pequenos grafos.

Usamos o Gephi para desenhar os grafos trabalhados. O Gephi ´e um pacote de software de an ´alise e visualizac¸ ˜ao de grafos. Se comparado ao networkx, ele tem diversas opc¸ ˜oes de layout, permite customizar a visualizac¸ ˜ao dos grafos e apresenta um tempo de execuc¸ ˜ao satisfat ´orio.

6.2- Trabalhos Futuros

H ´a ac¸ ˜oes planejadas para continuidade do desenvolvimento do presente trabalho. Entre elas, o aperfeic¸oamento da etapa de classificac¸ ˜ao dos lotes de licitac¸ ˜ao pelo CNAE. A baixa quantidade de lotes classificados pelo Algoritmo 2, somente 20,68% dos lotes, revela a necessidade de ser aperfeic¸oar esse procedimento. J ´a h ´a uma pesquisa em andamento para usar os dados das notas fiscais eletr ˆonica para classificar os bens e servic¸os das licitac¸ ˜oes p ´ublicas. Isso vai aperfeic¸oar o processo de agrupamento das licitac¸ ˜oes e permitir uma comparac¸ ˜ao mais efetiva entre licitac¸ ˜oes dirigidas ao mesmo setor econ ˆomico. A maior parte dos grafos formados no Cen ´ario 1 foram relativamente pequenos. Com um novo procedimento de classificar os lotes de licitac¸ ˜ao em que n ˜ao se descartasse tantos dados, talvez fosse poss´ıvel observar padr ˜oes nos grafos do cen ´ario 1.

´

mundo real. ´E poss´ıvel que o tamanho pequeno dos grafos tenha impedido a formac¸ ˜ao desse padr ˜ao.

Usar um grafo dirigido em que os v ´ertices das empresas perdedoras tenham arestas apontando para os v ´ertices que ganharam as licitac¸ ˜oes pode ter como resultado comunidades com uma coes ˜ao maior. Seria necess ´ario alterar a modelagem dos grafos e os m ´etodos de detecc¸ ˜ao de comunidades.

Documentos relacionados