• Nenhum resultado encontrado

Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE

N/A
N/A
Protected

Academic year: 2021

Share "Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE"

Copied!
5
0
0

Texto

(1)

Aplicação de Data Warehousing

no Cadastro de Ficha Limpa do TSE

Mateus Ferreira Silva, Luís Gustavo Corrêa Lira, Marcelo Fernandes Antunes, Tatiana Escovedo, Rubens N. Melo mateusferreiras@gmail.com, gustavolira@ymail.com, marceloinfo2010@gmail.com,

{tatiana,rubens}@inf.puc-rio.br Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio) Rua Marquês de São Vicente, 225, Rio de Janeiro, RJ, 22453-900, Brasil

Resumo - Este trabalho apresenta uma solução de Data Warehousing para o cadastro de ficha limpa dos candidatos a cargos públicos eletivos. A solução propõe disponibilizar dados modelados de forma multidimensional para análise através de ferramenta OLAP ou de um dashboard, com a finalidade do eleitor ter mais informações sobre os candidatos ou partidos em que irá votar.

Palavras-Chave: Data Warehousing; Eleição; Ficha Limpa; OLAP; Voto.

Abstract - This paper presents a solution of Data Warehousing for the registration of clean form of candidates for elective public office. A solution is proposed to provide multidimensional data modeled so through OLAP analysis tool or a dashboard, with a purpose of the voter to have more information about candidates or political parties will vote.

Keywords: Data Warehousing; Election; Clean Form; OLAP; Vote. (Keywords)

I. INTRODUÇÃO

As escolhas eleitorais da maior parte da população brasileira são definidas por critérios emocionais e poucas vezes objetivos, baseadas na imagem que os candidatos passam através dos meios de comunicação, onde a confiança e a simpatia influenciam diretamente na escolha do voto [2].

A internet pode servir como meio para o eleitor pesquisar e analisar o perfil dos candidatos de forma mais objetiva e imparcial. Entretanto, segundo pesquisa do Tribunal Superior Eleitoral (TSE) realizada em 2010, somente 9,9% dos entrevistados utilizam a internet como fonte de informação para a escolha dos candidatos [3].

O TSE possui um cadastro sobre os candidatos, informando o status de elegibilidade, o resultado da eleição, além de outros dados, como: partido, escolaridade, sexo, cargo político, etc. Estas informações são apresentadas no seu sítio, através de um front-end web, sem permitir que o usuário realize uma análise crítica e apurada. Apesar desta iniciativa, ainda existe uma carência de ferramentas que possibilitem a consolidação e o cruzamento destes dados para uma melhor análise do perfil dos candidatos.

Este artigo está dividido em cinco seções, a seção I apresenta a introdução, motivação e objetivo do trabalho. Na

seção II será apresentada a proposta da solução, como foi realizado levantamento de requisitos e visão geral da solução. Enquanto na seção III será detalhada a solução, como foi realizado o projeto do Data Warehouse. A seção IV apresentará a implementação e resultados, como foram executados os processos de: Extração, Transformação e Carga dos dados (ETL), geração dos relatórios e construção do dashboard. Por fim, na seção V serão apresentadas as considerações finais sobre o trabalho de pesquisa realizado e sugestões para trabalhos futuros.

A. Motivação

Há muito tempo a população brasileira necessita de maiores informações dos candidatos e partidos nos quais ela irá votar. Atualmente, existe uma dificuldade de apresentação destas informações para uma análise crítica. Em 2010, a partir da sanção da lei complementar n° 135, foi concretizado um projeto iniciado em 2009 através de uma iniciativa da sociedade civil brasileira que veio para ajudar a dirimir a falta destas informações. Esta lei, conhecida pela expressão “Ficha Limpa”, estabelece de acordo com o § 9o do art. 14 da Constituição Federal, casos de inelegibilidade e prazos de cessação.

Uma das formas de solucionar a dificuldade supracitada é a utilização de Business Intelligence (BI), que pode ser utilizado para realizar o processo de transformação e consolidação de dados para as análises.

BI é uma estratégia que abrange pessoas, processos e ferramentas para organizar as informações, permitindo o acesso e análise para melhoria no processo de decisão e para gerir melhor o desempenho das organizações [1].

Existem vários processos e tecnologias que suportam BI nas organizações, entre eles: Data Warehouse (DW); ETL; Online Analytical Processing (OLAP), Dashboard, etc.

Um dos elementos mais importante da arquitetura BI é o DW, que é um grande banco de dados com a função de disponibilizar informações de forma rápida, fácil, consistente e segura. A arquitetura implementada precisa ser adaptável às mudanças nas regras de negócios e devem impactar minimamente as aplicações existentes [4]. Outro elemento importante são as ferramentas ETL que automatizam o

(2)

processo de conversão, formatação e integração dos dados oriundos de múltiplas fontes de dados legadas [5].

OLAP é um processo interativo capaz de criar, manipular e analisar dados em um DW. Através de geração de relatórios, estes dados são transformados em informações. A representação dos dados analisados é semelhante a um array de dados em múltiplas dimensões que é chamado de cubo OLAP [6]. Além da utilização de recursos para a análise dos dados como o OLAP, podemos também utilizar o dashboard, que são painéis de indicadores com o objetivo de fornecer uma visualização gráfica e dinâmica do desempenho do negócio através de dados agregados e indicadores.

O uso de BI nos dados do cadastro de Ficha Limpa permitirá a população brasileira conhecer melhor o perfil dos candidatos a cargos eletivos de forma mais transparente, ajudando o eleitor a decidir melhor em quem votar, e assim, interferindo positivamente no processo político do país. B. Objetivo

Este trabalho tem como objetivo criar um ambiente de BI para a análise multidimensional dos dados do cadastro Ficha Limpa. Será criado um Data Warehouse, onde através de um processo ETL serão carregados os dados. Os resultados serão apresentados através de gráficos e relatórios gerados pelas ferramentas SQL Server Analysis Service (SSAS) e Qlik View.

II. PROPOSTA DA SOLUÇÃO

A solução proposta é criar um Data Warehouse, com um modelo de dados multidimensional, implementado em um banco de dados relacional Oracle, utilizando ferramentas para criação e visualização do cubo e implementação de um dashboard.

Com o objetivo de determinar os dados necessários para alimentar o DW e as análises para o eleitor, realizamos um brainstorm para levantar os requisitos de informação. Na qualidade de eleitores podemos identificar que os requisitos necessários são: dados dos candidatos, como: nome, sexo, profissão, escolaridade, etc.; cargos políticos; partidos políticos; situação de candidatura, como: elegibilidade e resultado da eleição; ano e local da eleição. E também foram levantadas as necessidades das medidas: total de fichas, quantidade e percentual de fichas aptas e inaptas e o valor da campanha. Na tabela I estão listados os requisitos levantados e validados.

TABELA I – Lista de requisitos de informação Requisitos de Informação

1 Informações do candidato (Nome, Estado Civil, Grau de Instrução, Profissão, Sexo, Idade, Faixa Etária, Naturalidade e Nacionalidade). 2 Local da eleição (Município, Estado e Região).

3 Ano da eleição 4 Partidos políticos 5 Cargos políticos

6 Informações sobre a candidatura (Elegibilidade, Descrição da Elegibilidade, Resultado da Eleição e Prestação de Contas).

7 Informações sobre as fichas do candidato (Total de Fichas, Quantidade e Percentual de Fichas Aptas e Inaptas). 8 Valor da Campanha

9 Percentual de fichas Inaptas por Grau de Instrução, Faixa Etária e Estado Civil.

10 Percentual de Fichas Inaptas por Região e Estado. 11 Percentual de Fichas Inaptas por Partido Político. 12 Percentual de Fichas Inaptas por Cargo Político. 13 Candidatos Inaptos que foram Eleitos. 14 Painel com indicadores.

A partir dos requisitos foram selecionados os dados

extraídos do sítio do TSE

<http://divulgacand2010.tse.jus.br/divulgacand2010> em formato de arquivo com valores separados por vírgula (csv) e carregados no banco de dados através de uma ferramenta ETL. Estes dados possuem informações públicas sobre os candidatos a cargos eletivos.

III. DETALHAMENTO DA SOLUÇÃO

Para facilitar o processo de Data Warehousing desta solução, os dados dos arquivos csv são carregados em um esquema de banco de dados, passando por um processo ETL e carregados em uma área de tratamento (staging area), em seguida ocorre a carga de dados para o modelo multidimensional proposto e a partir dele será gerado um cubo multidimensional, que pode ser acessado através de drivers ODBC (Open Data Base Connectivity) ou por serviço de dados disponibilizados por ferramentas como o SQL Server Analysis Services. Através das ferramentas escolhidas são gerados os relatórios analíticos e os gráficos. A Figura 7 ilustra a arquitetura da solução proposta, demonstrando o fluxo de dados dentro do processo.

(3)

Figura 1 – Arquitetura da Solução

A modelagem de dados escolhida para o Data Warehouse foi do tipo esquema-estrela, com a tabela fato exibindo a quantidade de fichas, o valor de campanhas e quantidade de fichas aptas e inaptas relativas às seis dimensões: Campanha, Candidato, Cargo Político, Partido, Tempo e Local.

A figura 3 representa o modelo lógico de dados construído, que possui seis tabelas dimensão e uma tabela fato. A tabela fato (FATO_PERFIL_CANDIDATO) possui as medidas de número de fichas de candidatos, número de fichas aptas e inaptas e valor das campanhas. O número de fichas aptas e inaptas servirá para calcular a porcentagem destas fichas sobre o total. Os dados sobre o valor da campanha não estão disponíveis no site do TSE.

Figura 3 - Modelo Multidimensional

Os dados sobre os candidatos como nome, estado civil, sexo, profissão, idade, naturalidade e nacionalidade foram representadas na tabela dimensão DIME_CANDIDATO. Para facilitar as análises foi adicionado um atributo com a faixa etária de 10 em 10 anos.

A tabela dimensão DIME_CAMPANHA possui dados sobre a candidatura dos candidatos, como: resultado da eleição, situação do registro e prestação de contas.

As tabelas dimensão DIME_PARTIDO,

DIME_CARGO_POLITICO, DIME_LOCAL e

DIME_TEMPO referem-se aos dados do partido, cargo político, local da eleição e ano da eleição, respectivamente.

Para as tabelas de dimensão DIME_LOCAL,

DIME_CAMPANHA, DIME_TEMPO,

DIME_CARGO_POLITICO foram utilizadas chaves surrogates, devido à ausência das chaves naturais na origem, somente a tabela DIME_PARTIDO foi utilizado uma chave natural. Apesar de o candidato possuir código, havia repetição de códigos para candidatos diferentes, logo, foi utilizada também uma chave surrogate como chave primária da tabela DIME_CANDIDATO. A chave primária da tabela fato é composta pelas chaves estrangeiras das tabelas dimensão.

IV. IMPLEMENTAÇÃO E RESULTADOS

Para extração de dados foi utilizada a ferramenta SQL Server Integration Service (SSIS). Os arquivos csv foram carregados por esta ferramenta para uma tabela desnormalizada que possui todos os atributos existentes nos arquivos de origem dos dados.

(4)

Houve necessidade de correção de dados de forma manual e automatizada, pois havia duplicidade de registros e não existiam informações das regiões, além de haver informações incorretas, como por exemplo: formato errado da data de nascimento do candidato.

Para criar o cubo OLAP foi utilizada a ferramenta SQL Server Analysis Services (SSAS), que a partir de uma conexão ODBC com o banco de dados foram selecionadas todas as tabelas dimensão e a tabela fato do modelo de dados proposto. Das tabelas dimensão foram escolhidos os atributos que compõem o cubo como: cidade, ano da eleição, idade, etc. Também foram criadas hierarquias da dimensão de local, como: município, estado e região. A porcentagem dos candidatos aptos e inaptos foi calculada através de uma função do SSAS.

Para visualizar o cubo e gerar gráficos e relatórios dinâmicos foi utilizado o Microsoft Excel, que apresenta as medidas contidas no fato: número de fichas, valor da(s) campanha(s), porcentagem de fichas aptas e inaptas, de acordo com as dimensões escolhidas de forma dinâmica. Algumas análises que podem ser feitas de acordo com alguns requisitos de informação identificados são ilustrados na tabela II.

TABELA II - Requisitos de Informação x Análises Requisitos de Informação Análises Percentual de fichas Inaptas por Grau

de Instrução, Faixa Etária e Estado Civil.

Gráficos por grau de instrução, faixa etária e estado civil.

Percentual de Fichas Inaptas por

Região e Estado. Gráficos por região e estado. Percentual de Fichas Inaptas por

Partido Político. Gráfico por partido político. Percentual de Fichas Inaptas por

Cargo Político. Gráfico por cargo político. Histórico do candidato

Relatório com histórico do candidato com candidaturas e elegibilidade

Candidatos Inaptos que foram Eleitos. Relatório com candidatos inaptos e eleitos.

Outra forma de visualização dos dados pode ser feita pelo dashboard, que foi criado através da ferramenta QlikView. Esta ferramenta se conecta com o banco de dados e em seguida mapeia as tabelas para a carga de dados, onde são escolhidos os atributos das dimensões selecionadas, como: partido, tempo, ano da eleição, etc. Logo após, é possível ver os dados apresentados em um painel através de indicadores gráficos dos tipos: mostrador e de barras, utilizando o recurso de lista, que permite a mudança dos gráficos de forma dinâmica. Além disso, foram criados indicadores de percentual de candidatos aptos e inaptos, que podem ser analisados de acordo com as dimensões escolhidas pelo usuário.

A partir das ferramentas escolhidas foram gerados relatórios e dashboard para que o eleitor possa analisar o perfil do candidato e do partido que estão concorrendo a cargos eletivos. Entretanto, apesar das ferramentas SSAS e QlikView serem bastante ricas para a análise das informações, é necessário disponibilizar estes dados através de uma interface mais acessível, como por exemplo: uma aplicação na web. Outro problema é encontrar uma forma de fazer com que

os eleitores entendam como utilizar as ferramentas e as informações, uma vez que que nem toda população brasileira possui um perfil educacional mínimo necessário. Uma alternativa para este problema seria que o usuário da solução fosse alguma entidade independente ou os meios de comunicação existentes, de forma a realizar as análises dos dados para disponibilizar aos eleitores.

Uma análise muito importante que pode ser realizada através da dimensão Partido é que em 2010 o PCO teve um alto índice (70%) de candidatos que foram considerados inaptos (Figura 3).

Figura 3 – Gráfico por partido político

A figura 4 ilustra a distribuição dos candidatos inaptos por grau de instrução, onde o eleitor pode observar que os candidatos com maior escolaridade (superior completo) possuem o menor índice de inaptos (14%). Entretanto, neste caso não houve como estabelecer uma razão direta das variáveis: escolaridade e percentual de ficha inapta, visto que os candidatos analfabetos (20%) possuem menor índice de inaptos em relação aos que possuem o ensino médio completo (20,54%), e os que possuem o ensino fundamental incompleto (21,64%) tem uma menor incidência em relação aos que possuem o ensino fundamental completo (22,20%).

(5)

Figura 4 – Gráfico por grau de instrução do candidato

V. CONCLUSÃO

O uso de técnicas de BI para análise de dados pode ser utilizado em diversas áreas de negócios, inclusive em áreas governamentais, como pôde ser constatado durante a construção deste trabalho. O uso de Data Warehousing no cadastro de ficha limpa do TSE fornece um importante mecanismo para a tomada de decisão na escolha do candidato pelo eleitor, contribuindo de forma positiva no processo eleitoral brasileiro.

Podemos ainda perceber, que a falta de dados referentes aos anos anteriores a 2010 impossibilitou a análise histórica anual dos perfis das fichas dos candidatos, além da falta de informações com o valor das campanhas que não nos permitiram fazer uma análise mais detalhada. Foram detectados vários problemas de qualidade de dados, como: a indisponibilidade, a falta de acurácia e de completeza dos dados. Seria interessante, que outras fontes de dados fossem inseridas na solução proposta, como: dados do imposto de renda, histórico de projeto do parlamentar, seus gastos, etc.

Apesar de BI possuir ferramentas para análise de dados, o seu acesso e entendimento pelo eleitor ainda não é uma realidade, devido ao perfil educacional da população brasileira não ser adequado para tal propósito. Entretanto, para validar tal afirmação seria necessário disponibilizar a solução para o público e realizar uma pesquisa para verificar a eficácia da utilização da(s) ferramenta(s). Além disso, o uso dessas

ferramentas é pouco difundido, sendo necessário obter mecanismos para que essas análises sejam disponibilizadas para todos os eleitores brasileiros de uma forma mais simples, como por exemplo, alguma entidade independente realizar estas análises e divulgá-las através dos meios de comunicação. Para complementar este trabalho, o cubo gerado pode ser disponibilizado numa ferramenta web para acesso pela internet, e pode-se também utilizar técnicas de mineração de dados para identificar padrões do perfil do candidato. Além disso, outras fontes de dados podem ser adicionadas para o cruzamento das informações, conforme citado anteriormente.

Não conseguimos identificar trabalhos correlatos sobre o assunto abordado neste artigo, talvez pelo fato da sanção da lei Ficha Limpa ter ocorrido somente em 2010.

Este trabalho apresentou a aplicação de Data Warehousing no cadastro de Ficha Limpa do TSE, a seção II descreveu a proposta da solução utilizando Data Warehouse em um modelo multidimensional. Além disso, foi apresentada a análise de requisitos realizada. Da mesma forma na seção III foi detalhada a implementação da solução: processo ETL, modelagem de dados e acesso aos dados; a arquitetura da solução foi ilustrada na figura 1 e o modelo de dados proposto é apresentado na figura 2. Na seção IV foram apresentadas as ferramentas de BI utilizadas para os processos de ETL, cubo OLAP e dashboard e também a ilustração de alguns requisitos na tabela I e alguns resultados através de gráficos nas figuras 3 e 4, os resultados apresentados apenas ilustram as potencialidades da solução, mas outras análises mais complexas poderão ser realizadas

REFERÊNCIAS

[1] Gartner Business Intelligence (BI). Disponível em: < http://www.gartner.com/technology/it-glossary/business-intelligence.jsp>. Acessado em: outubro/2011.

[2] E. Radmann. O Eleitor Brasileiro: uma análise do comportamento eleitoral. Porto Alegre: Universidade Federal do Rio Grande do Sul, 2001. [3] TSE. Tribunal Superior Eleitoral. Disponível em: <http://www.tse.jus.br >. Acessado em: outubro/2011.

[4] R. Kimball, R. Margy. Data Warehouse Toolkit: Pratical Techniques for Building Dimensional Data Warehouses. 2ª ed. New York: John Wiley & Sons, 2002.

[5] W. Inmon. Building the Data Warehouse. New York: John Wiley & Sons, 2002.

[6] C. J. Date. Introdução a Sistema de Banco de Dados. 8ª ed. Rio de Janeiro: Campos, 2003.

Referências

Documentos relacionados

Ocorre que foi o fornecimento de outra tabela, associado ao interesse em observar o céu, de pelo menos usar a tabela, que fez o participante se interessar em saber interpretar o

As principais indicações para a realização foram a suspeita de tuberculose (458 pacientes) e uso de imunobiológicos (380 pacientes).. A maior prevalência de resultado positivo

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças

Quando os dados são analisados categorizando as respostas por tempo de trabalho no SERPRO, é possível observar que os respondentes com menor tempo de trabalho concordam menos que

ITIL, biblioteca de infraestrutura de tecnologia da informação, é um framework que surgiu na década de mil novecentos e oitenta pela necessidade do governo

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

10.1 - O candidato classificado, nas formas definidas pelo presente Edital, será chamado para admissão, ficando obrigado a declarar, no prazo de 48 (quarenta

Contudo, não é possível imaginar que essas formas de pensar e agir, tanto a orientada à Sustentabilidade quanto a tradicional cartesiana, se fomentariam nos indivíduos