• Nenhum resultado encontrado

4. APRESENTAÇÃO E ANÁLISE DOS DADOS

4.7. ACESSO POR OUTROS SISTEMAS

O item “acesso por outros sistemas” especifica que o Portal de Transparência Pública deve possibilitar o acesso automatizado por sistemas externos em formatos abertos, estruturados e legíveis por máquina. Para compreender melhor cada item deste enunciado, vamos primeiro entender o que significa um dado exibido em formato aberto, cuja definição apresentamos abaixo (BRASIL, 2013):

Um formato aberto é uma especificação publicada para armazenar dados digitais, mantida geralmente por uma organização de padrões não proprietária, e livre de limitações legais no uso. Um formato aberto deve ser implementável tanto em software proprietário como em software livre, usando as licenças típicas de cada um. Em contraste o formato proprietário é controlado e defendido por interesses particulares da empresa detentora de seus direitos. Os formatos abertos são um subconjunto do padrão aberto. O objetivo principal dos formatos abertos é garantir o acesso à longo prazo aos dados sem incertezas atuais ou futuras no que diz respeito às direitas legais ou à especificação técnica. Um objetivo secundário dos formatos abertos é permitir a competição, em vez de permitir que o controle de um distribuidor sobre um formato proprietário iniba o uso de um produto de competição.

Também é conveniente destacar aqui a definição de dados abertos adotada atualmente pelo próprio Governo Federal (Brasil, 2014):

Segundo a definição da Open Knowledge Foundation, em suma, dados são abertos quando qualquer pessoa pode livremente usá-los, reutilizá-los e redistribuí-los, estando sujeito a, no máximo, a exigência de creditar a sua autoria e compartilhar pela mesma licença. Isso geralmente é satisfeito pela publicação dos dados em formato aberto e sob uma licença aberta.

Os dados também precisam estar estruturados, ou seja, precisam ter algum tipo de organização mínima que permita à sistema automatizados classificá-los, diferenciá-los e ordená-los. Também precisam ser automaticamente legíveis por máquinas, independente da ação humana.

Dos 27 Portais de Transparência Pública avaliados, 20 foram classificados como “em conformidade” com o critério de acesso aberto recomendado pela CGU, totalizando 74%

dos portais. Os outros 7 portais avaliados, representando 26% do total, não obtiveram a conformidade necessária. A não conformidade foi caracterizada por dois motivos principais: o formato de disponibilização dos dados e a capacidade de leitura automática das informações.

Os portais de Mato Grosso, Pará e Sergipe disponibilizam dados em formato PDF, que não iremos considerar neste estudo como um formato aberto. Essa decisão pode criar alguma polêmica, e vamos entender o motivo. O formato PDF (Portable Document Format) é um formato de arquivo desenvolvido pela Adobe Systems em 1993, cujas especificações técnicas já foram publicadas. Dessa forma, o formato PDF pode ser escrito e lido por softwares de companhias diferentes daquela que o desenvolveu. Isso o tornaria, em essência, um formato aberto. Contudo, existem algumas peculiaridades no formato PDF que desvirtuam o conceito de formato aberto. A primeira diz respeito à edição de arquivos em PDF. Apesar da criação e leitura ser uma atividade realizável por qualquer tipo de software específico, em qualquer tipo de sistema operacional e hardware, independente do fabricante, a edição de um arquivo PDF só é possível, em essência, através de um editor proprietário da Adobe Systems, chamado Adobe Reader. Outros softwares, de outros desenvolvedores, se propõe a fazer a edição de um arquivo em formato PDF, e eventualmente conseguem realizar esta edição, mas podem apresentar resultados bastante insatisfatórios, caso recursos extras do formato (como a inserção de senhas e níveis de acesso) estiverem implementadas na documentação original criada no PDF nativo. Atividades rotineiras em arquivos de texto livre, como busca, indexação ou diagramação, também são bem mais complicadas em arquivos no formato PDF. Isso dificulta, por exemplo, a organização de dados muito extensos que sejam disponibilizados em formato PDF. Formatos livres e simplesmente tabulados, como o formato CSV, representam muito melhor o conceito de formato aberto neste contexto.

A outra peculiaridade diz respeito à licença de uso. Apesar do formato PDF ter suas especificações publicadas, o que possibilita o desenvolvimento de softwares por terceiros, a patente do formato ainda é de exclusividade da Adobe Systems, e essa patente pode proibir, em qualquer momento, o livre uso do formato. A patente também permite que o desenvolvedor realize a cobrança financeira em determinadas situações. Não existem garantias futuras de que novas versões do PDF continuarão com acesso livre, pois o licenciamento do formato não é baseado em uma licença livre. A concepção da licença livre é diferente, pois apesar dela também possibilitar a existência de exigências para uso do conteúdo, como a citação obrigatória da fonte, ela é um tipo de licença, por definição, livre para todos os fins. Por estes motivos, apesar de ser um conceito polêmico, e ainda objeto de questionamentos técnicos e jurídicos, não consideraremos o formato PDF como um formato aberto. Sobre isso podemos também citar o entendimento do governo federal, que

no modelo de acessibilidade ao governo eletrônico (e-MAG) versão 3.1, no que diz respeito ao conteúdo da informação, recomenda que documentos e informações devem sempre ser disponibilizados em formatos acessíveis, como HTML e ODF, e que, se um arquivo for disponibilizado em PDF, deve também ser obrigatoriamente disponibilizado em HTML ou ODF. O governo também volta a tratar essa questão no seu portal de dados abertos

(http://dadosabertos.gov.br/dados-abertos), onde apresenta os oito princípios dos dados

abertos governamentais (Brasil, 2014):

Em 2007, um grupo de trabalho de 30 pessoas reuniu-se na Califórnia, Estados Unidos da América, para definir os princípios dos Dados Abertos Governamentais. Chegaram num consenso sobre os seguintes 8 princípios:

1. Completos: Todos os dados públicos são disponibilizados. Dados são informações eletronicamente gravadas, incluindo, mas não se limitando a, documentos, bancos de dados, transcrições e gravações audiovisuais. Dados públicos são dados que não estão sujeitos a limitações válidas de privacidade, segurança ou controle de acesso, reguladas por estatutos.

2. Primários: Os dados são publicados na forma coletada na fonte, com a mais fina granularidade possível, e não de forma agregada ou transformada.

3. Atuais: Os dados são disponibilizados o quão rapidamente seja necessário para preservar o seu valor.

4. Acessíveis: Os dados são disponibilizados para o público mais amplo possível e para os propósitos mais variados possíveis.

5. Processáveis por máquina: Os dados são razoavelmente estruturados para possibilitar o seu processamento automatizado.

6. Acesso não discriminatório: Os dados estão disponíveis a todos, sem que seja necessária identificação ou registro.

7. Formatos não proprietários: Os dados estão disponíveis em um formato sobre o qual nenhum ente tenha controle exclusivo.

8. Livres de licenças: Os dados não estão sujeitos a regulações de direitos autorais, marcas, patentes ou segredo industrial. Restrições razoáveis de privacidade, segurança e controle de acesso podem ser permitidas na forma regulada por estatutos.

Não existe um consenso entre a efetiva qualidade do formato PDF como um formato aberto, sendo que este consenso não existe inclusive na interpretação do governo federal, principalmente no que diz respeito à existência de licenças de uso.

Os 4 estados em não conformidade restantes foram Paraná, Rio de Janeiro, Roraima e Santa Catarina, e todos pelo mesmo motivo: não possibilitam o acesso automático por máquinas, exigindo a intervenção humana para a obtenção dos dados. Essa exigência é

feita com a necessidade de uso de CAPTCHA para obtenção dos dados. O CAPTCHA é definido como (CARNEGIE MELLON UNIVERSITY, 2014):

CAPTCHA é um acrônimo da expressão "Completely Automated Public Turing test to tell Computers and Humans Apart" (teste de Turing público completamente automatizado para diferenciação entre computadores e humanos): um teste de desafio cognitivo, utilizado como ferramenta anti-spam, desenvolvido pioneiramente na universidade de Carnegie-Mellon. Como o teste é administrado por um computador, em contraste ao teste de Turing padrão que é administrado por um ser humano, este teste é na realidade corretamente descrito como um teste de Turing reverso. Um CAPTCHA usual envolve um computador (um servidor) que pede que um usuário termine um teste. Como os computadores são incapazes de resolver o CAPTCHA, todo usuário que incorpora uma solução correta é presumidamente humano. O termo foi inventado em 2000 por Luis von Ahn, por Manuel Blum, Nicholas J. Hopper (todos da universidade do Carnegie-Mellon), e por John Langford (da IBM). Um tipo comum de CAPTCHA requer que o usuário identifique as letras de uma imagem distorcida, às vezes com a adição de uma sequência obscurecida das letras ou dos dígitos que apareça na tela.

O tipo de CAPTCHA adotado por estes portais é exatamente aquele que solicita ao usuário que identifique letras distorcidas sobre um painel. Como essa identificação é impossível de ser feita por softwares automatizados, é sempre necessária a intervenção humana nessa etapa do processo, o que dificulta a realização do mesmo em blocos. No estado do Paraná, por exemplo, a pesquisa sobre a remuneração de servidores públicos só retorna resultados se o usuário inserir um termo-chave de pesquisa (uma parte do nome do servidor) e completar o CAPTCHA correspondente. Isso gera, para o usuário, a necessidade da intervenção contínua no sistema.

Documentos relacionados