Constituindo ou trabalhando a partir de bases de dados

4. ANALISANDO OS DADOS COLETADOS: O QUE OS PROFISSIONAIS DE

4.7 APROXIMANDO OS CAMPOS DE PESQUISA

4.7.2 Constituindo ou trabalhando a partir de bases de dados

Grande parte do trabalho desenvolvido por profissionais de inteligência e ciência de dados envolve lidar com bancos de dados. Estes são oriundos de quatro fontes principais: empresas clientes que disponibilizam seus bancos internos; dados captados por robôs de captura; dados capturados manualmente por colaboradores; cruzamentos de bases de clientes com os dados capturados automática ou manualmente.

A decisão pela coleta automatizada ou manual é afetada por: fator tempo, pois o desenvolvimento de um robô de captura pode ser um processo demorado; locais para busca, que podem possuir captcha, uma tecnologia que impede a atuação do robô; quantidade de dados disponíveis para coleta, que pode ser muito grande, tornando inviável a busca manual.

Os dados disponibilizados pelos clientes são, em geral, entendidos como menos problemáticos do ponto de vista ético, pois a empresa os dispõe por vontade própria. Por questões de sigilo e receio de vazamento de informações, os clientes podem disponibilizar seus bancos de dados parcialmente, reduzindo a possibilidade de obter conhecimento útil através deles. Outro desafio encontrado é lidar com arquivos enviados por clientes que apresentam informações conflitantes.

Ao lidar com estes dados, os praticantes relacionam-se com os sistemas, as pessoas e/ou outros meios da empresa cliente que alimentaram estas bases de dados (ALCADIPANI; TURETA, 2009b). Embora eles não estejam ‘presentes’ fisicamente, fazem parte da história das bases e, geralmente, são lembrados quando há erros nos arquivos ou estes estão corrompidos.

A equipe da Omicron encontrou dificuldades deste tipo, ao trabalhar com dois arquivos enviados por uma empresa cliente, referentes a um projeto da área de agronegócios (Diário de Campo, 10/5/2018). Ao analisar os arquivos, Davi percebeu que o nome de uma fazenda constava em um arquivo, mas não estava presente em outro. Um dos arquivos continha dados de ensaios realizados e o outro, dados de fazendas. Para solucionar a dúvida, Davi pediu a opinião de Arthur sobre entrar em contato com o cliente, porém Arthur sugeriu que primeiro ele abrisse os arquivos novamente e conferisse. Davi ponderou que já havia feito isso.

Antes de entrar em contato com o cliente, eles ainda verificaram se não houvera erros no momento em que os dados foram extraídos dos arquivos por Arthur, para a criação do data table – uma tabela de dados – pois a importação fora manual. Arthur refez o caminho que percorrera para criar os códigos das fazendas, alicerçado nos arquivos enviados pelo cliente. Na falta de identificação de erro por parte da empresa, Davi enviou e-mail ao cliente para solucionar a questão. A forma como as informações haviam sido disponibilizadas afetaram o processo de constituição da base de dados, impondo a necessidade de conferências e de retorno do contato com o cliente.

Os contratantes dos serviços das empresas também podem solicitar a combinação de suas bases com outros dados, visando ampliar as informações

disponíveis, processo que pode requerer o desenvolvimento de robôs de captura. No caso de produtos como o Sigma ou o Omega, os robôs também podem ser utilizados, porém costumam ser a principal fonte de coleta de dados e não um complemento.

Jason explica que os robôs de captura são “programas que entram em alguns sites, para o que eles foram programados, simulam a navegação, como se fosse uma pessoa mesmo, navegando no site e capturam as informações que a gente monitora”. O papel deles é agir como se fossem humanos para capturar dados. Meliodas vai um pouco além em sua definição, relacionando esse papel com o conceito de web scraping:

Seria o termo em português pra... ahn... programas que executam a tarefa de web scraping, dentro da terminologia oficial o que a gente faz é web scraping. Quando a gente pega informações da web de maneira estruturada ou até desestruturada, depende de cada caso. Mas dentro dos nossos projetos, a gente tenta exatamente pegar e entender a informação que tá desestruturada e criar uma estrutura nela, né. Então a gente faz pequenos programas que fazem web scraping em fontes de dados da internet em geral. É isso que são os robôs de captura.

Lúcio Machado explica que ‘robô’ é uma tradução do termo inglês bot, “um programa que vai executar um conjunto de etapas”. É um robô digital e não um robô físico, como geralmente se imagina. A parte de desenvolvimento por detrás do bot é um algoritmo. O algoritmo, na concepção de Lúcio Machado, está incluso em qualquer ‘coisa’ metodológica que se faça. Para exemplificar o conceito, ele explica que a entrevista que realizamos é ‘algoritmificada’:

No momento que tu tem uma ordem de questões que tu quer fazer, porque tem um conjunto de informações que tu quer. Tu tem um input e um output propriamente dito, isso é um algoritmo. Qualquer coisa que funcione deste, nesta formuleta digamos assim é, em natureza um algoritmo, incluindo fazer bolo, incluindo, os procedimentos pra desenvolvimento de relatórios aqui, todos eles tem um fluxograma de etapas e o fluxograma é uma representação de um algoritmo.

Ao ser repassado para um computador, o algoritmo pode se transformar em bot, quando passa a executar uma série de etapas. Ele pode coletar dados ou executar o mesmo procedimento múltiplas vezes. A ‘natureza’ do algoritmo emergiu como algo questionado, especialmente na Omicron. Gabriel explica que muitas pessoas acham que os algoritmos são caixas-pretas, no sentido de eles gerarem certos resultados, sem se saber ao certo porque eles funcionam. No entanto, ele explica que, caso se busque o código-fonte, é possível entender a lógica por detrás deles e, por consequência, compreender por que eles funcionam. Segundo Gabriel, é trabalhoso buscar, mas é possível.

A existência destes robôs pode gerar questionamentos sobre uma navegação ser realizada por um bot ou por um humano, como aconteceu na Omicron. Marcelo verificou e compartilhou com a equipe a informação de que alguém estava realizando várias pesquisas no Sigma ao mesmo tempo (Diário de Campo, 9/8/2018). Analisando as pesquisas realizadas, eles perceberam que estava sendo usada a modalidade gratuita e que o tempo entre uma pesquisa e outra seguia um padrão, sugerindo a atuação de um robô. A equipe identificou o número do IP da máquina que estava sendo utilizada para fazer as pesquisas e tentaram localizar sua procedência.

Após este acontecimento, diversos questionamentos foram levantados pela equipe, especialmente em relação à segurança do Sigma e às formas de impedir a ação de robôs. Apesar de incomodados com os fatos, refletiram sobre os meios empregados para burlar sistemas e capturar dados. Os dados por eles capturados são públicos, abertos, assim como os dados advindos das pesquisas gratuitas do Sigma. Nesse sentido, eles estavam incomodados com uma ação que eles mesmos, de certa forma, realizam.

Após algum tempo, as pesquisas cessaram. A equipe não conseguiu concluir se aquela fora a ação de um robô ou não, mas, independente disso, decidiram que precisariam de mais segurança no Sigma. Por serem praticantes de ciência de dados, eles entendem que têm o duplo papel de hackear – termo adotado como referência à prática de capturar/coletar dados – e de proteger seus dados.

Os dados capturados por humanos e robôs, que não são bases de cliente, são considerados dados abertos, ou seja, estão disponíveis publicamente na internet. Por exemplo, notícias, posts de redes sociais, dados governamentais como os da receita federal. Por causa da disponibilidade, os praticantes, de modo geral, entendem que podem utilizá-los sem questionamentos éticos.

Apesar de abertos, em ambos os campos, uma pessoa ou uma equipe, como a comercial ou a jurídica, são tidas como responsáveis por analisar as questões éticas envolvidas em uma solicitação de captura. Quando a solicitação chega aos desenvolvedores e demais profissionais, ela, a princípio, já foi analisada e considerada não problemática e os profissionais podem realizar seu trabalho sem maiores preocupações.

Em alguns momentos pontuais, a discussão ética se fez presente na Omicron, como no dia em que Marcelo relembrou o vazamento de dados do Facebook e como eles foram utilizados para manipular as escolhas eleitorais de usuários americanos

(Diário de Campo, 24/5/2018). Na entrevista, Alan Poe mencionou que muitas pessoas deixam de usar dados por restrições tecnológicas ou por falta de conhecimento, e que isso traz um risco, pois, ao ficarem concentrados nas mãos de poucos, os dados podem se tornar fonte de poder. Na visão dele, quanto mais informações estiverem disponíveis para toda a população, menor será a chance de as pessoas serem manipuladas devido ao desconhecimento. As preocupações com o uso de dados, levantadas em campo, remetem aos questionamentos realizados pelos estudos críticos de dados (BOYD; CRAWFORD, 2014; ILIADIS; RUSSO, 2016; NEFF et al., 2017) quanto à ética de uso e às relações de poder.

Os dados, mesmo os abertos, podem ter seu uso restringido pelas tecnologias, as quais determinam o que é possível ou não fazer com eles, tornando-se agentes importantes em processos políticos (SAYES, 2014). Um exemplo desta agência foi relatado por Meliodas na entrevista: uma controvérsia identificada no processo de coleta de dados, resultando em um dossiê que estava sendo desenvolvido pela equipe de um website denominado “Operação Serenata de Amor”38:

Tem alguma base aí que eu não me lembro o nome, daonde tu pode capturar as informações das empresas de todo o Brasil. Receita Federal ou um subsistema da receita federal. Pela lei, eles têm até um regime jurídico nisso, pela lei, deveria ser dado aberto, deveria ser consultável por máquina, tá escrito na lei, supostamente. Só que eles botaram um captcha e o captcha do Google serve exatamente pra impedir que tu consulte isso de maneira automática. E a resposta da Receita Federal foi, nós não vamos tirar o captcha e se vocês quiserem, peçam esses dados pra Serpro, que eles têm esses dados. Só que a Serpro, cobra. Então, cada vez que tu quisesse atualizar a informação de todas as empresas do Brasil, iria custar meio milhão de reais.

Na visão de Meliodas, esta situação configura uma controvérsia entre a legislação e os praticantes, pois dados abertos não poderiam ser cobrados, tampouco a ação de robôs deveria ser proibida. A preocupação com questões éticas, de uso e de privacidade dos dados, culminou na criação da Lei Geral de Proteção de Dados – LGPD no Brasil (BRASIL, 2018), sancionada no ano de 2018. Os praticantes não se mostraram muito esclarecidos sobre os efeitos desta lei em suas práticas cotidianas, pois, no entendimento de Marcelo, vários itens ainda serão modificados até sua vigência oficial.

38_{Site que utiliza ciência de dados para fiscalizar gastos públicos e compartilhar estas informações para o}

Constituídas ou disponibilizadas as bases de dados e discutidas ou não as questões éticas envolvidas, os praticantes combinam metodologias e ferramentas de trabalho para lidar com elas, as quais são apresentadas na próxima seção.

No documento Práticas e saberes de profissionais que trabalham com dados à luz da teoria ator-rede (páginas 108-113)