Mineração de dados - INTERVENÇÃO: PROCESSO DE BUSCA INTELIGENTE (ARTEFATO 2)

2.3 INTERVENÇÃO: PROCESSO DE BUSCA INTELIGENTE (ARTEFATO 2)

2.3.2.1 Mineração de dados

Para desenvolvimento da ferramenta de busca, serão analisadas bases de dados pelo processo de mineração de dados (data mining), nome atribuído ao conjunto de técnicas e procedimentos utilizados para a extração de informações em grandes volumes de dados a fim de gerar conhecimento (SANTOS, 2009). A mineração de dados propicia a descoberta de informações importantes e ocultas em conjuntos de dados, pois funciona como um sistema que inclui “etapas de teste no gerenciamento de informações, armazenamento em cluster, consultas lógicas ou matemáticas, resumo, separação, armazenamento, distribuição, acesso e encaminhamento” (BAYER et al., 2017, p. 27, tradução nossa).

Ao longo do tempo, diversas nomenclaturas foram atribuídas à tentativa de encontrar padrões úteis em dados, dentre as quais estão extração de conhecimento, descoberta de informações, coleta de informações, arqueologia de dados e processamento de padrões de dados. O termo “mineração de dados” se difundiu principalmente em grupos de sistemas de informações gerenciais (SIGs), estatísticos e analistas de dados (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

A mineração de dados é parte do processo de descoberta de conhecimento em bases de dados – knowledge discovery in databases (KDD) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). Esse processo, apresentado na Figura 3, consiste na aplicação de algoritmos⁶ específicos para extrair padrões de dados, etapa que possibilita a comunicação entre usuário e banco de dados para que, após essa etapa, as relações entre os dados sejam revistas com o objetivo de obtenção de informações específicas (BAYER et al., 2017).

O processo de descoberta de conhecimento em bases de dados é interativo e iterativo, e nele inúmeras decisões são tomadas pelo pesquisador, que, a partir do conhecimento prévio do processo, cria um conjunto de dados alvo, conjuntos de variáveis ou amostras de dados para investigação. Na sequência, é feita a limpeza e o processamento dos dados, a redução dimensional dos dados e a transformação de variáveis para, a partir dos dados transformados,

6 Procedimento sistemático que produz, em um número finito de etapas, a resposta a uma pergunta ou a solução de um problema (ENCYCLOPEDIA BRITANNICA, 2019).

aplicar uma tarefa de mineração específica com a finalidade de responder aos objetivos iniciais (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Figura 3. Visão geral das etapas do processo de descoberta de conhecimento em bases de dados.

Fonte: Fayyad, Piatetsky-Shapiro e Smyth (1996, p. 41, tradução nossa).

Na parte final do processo, são aplicados os algoritmos e a seleção do método ou métodos, incluindo regras de classificação ou árvores, regressão e agrupamento para a busca de padrões específicos, a interpretação dos padrões minerados e a extração do conhecimento (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

A fase da mineração de dados é a mais importante no processo da descoberta do conhecimento, pois é nela que as principais informações serão extraídas. Portanto, é importante a escolha de técnica de mineração mais adequada considerando a área de aplicação e o tipo de dados disponíveis a serem utilizados (KAMPFF, 2009).

Nesse processo, será utilizada a técnica de mineração de dados por agrupamentos (clusters). Em mineração de dados, o agrupamento (clustering) é considerado fundamental e de grande importância, pois envolve o “agrupamento automático de pontos semelhantes em dados complexos e amplamente utilizados em análise exploratória na descoberta de conhecimento” (KARUNARATNE; KARUNASEKERA; HARWOOD, 2017, p. 1, tradução nossa).

Apesar do agrupamento de fluxos de dados de alta dimensão em tempo real ser de grande complexidade, exigindo amplas aplicações e, por consequência, a entrada de grandes volumes de dados em tempo real, pesquisas nesta área são executadas para aprender como armazenar, consultar e analisar esses conjuntos. A análise de agrupamentos de fluxos de dados causa grandes dificuldades aos algoritmos tradicionais de agrupamento, como, por exemplo, o fato de os dados somente poderem ser analisados uma única vez, ou passagem, e a falta de

capacidade de aplicativos de análise para fluxos muitos longos de dados (CHEN; TU, 2007). Nesta etapa, tem-se como saída a opção por utilizar a plataforma do CiCarne ao invés de desenvolver uma ferramenta nova, já que a utilização da plataforma CiCarne está consolidada entre os usuários do projeto, favorecendo, dessa maneira, sua aplicabilidade.

2.3.3 Etapa 3: desenvolvimento

O desenvolvimento da ferramenta ficou a cargo da equipe da empresa fornecedora do

software de business intelligence e da Supervisão de Análise e Prospecção Mercadológica - PAM da Secretaria de Inovação e Negócios - SIN.

O processo iniciou-se em dezembro de 2018, com as primeiras reuniões entre o representante da PAM da Embrapa, o grupo de desenvolvimento de projetos da fornecedora, o pesquisador da Embrapa Gado de Corte, o gestor do CiCarne e o pesquisador doutorando.

O desenvolvimento das alterações ocorreu durante os meses de janeiro e fevereiro de 2019 e o protótipo foi liberado para testes e avaliações no mês de março do mesmo ano. Durante o período de desenvolvimento, foram realizadas reuniões via Skype para ajustes do modelo. Como saída, nesta etapa, tem-se o produto final (ferramenta) liberada para a avaliação.

2.3.4 Etapa 4: avaliação

O desenvolvimento de soluções inovadoras para Big Data tem como desafios a representação dos dados, redundâncias, a vida útil (ciclo de vida dos dados), os mecanismos de análises, a confidencialidade de dados, o dispêndio energético, a dispensabilidade e a escalabilidade, e a cooperação (CHAUDHURI; DAYAL; NARASAYYA, 2011; LABRINIDIS; JAGADISH, 2012; AGRAWAL et al., 2011; CHEN; MAO; LIU, 2014).

Por questões de segurança e privacidade do projeto do desenvolvedor do software de

business intelligence do CiCarne, as avaliações e os procedimentos referentes aos desafios expostos no parágrafo anterior não serão apresentados, cabendo ao desenvolvedor acompanhar e solucionar tais desafios para a entrega do produto final.

Todavia, para a avaliação da ferramenta, são considerados os aspectos da “busca inteligente” mais o contexto de “valor” de utilidade do processo integrado de busca de Big Data conforme apresentado na Figura 4.

Figura 4. Elementos de avaliação do artefato 2.

Fonte: Elaborado pelo autor.

A busca inteligente abarca os elementos inseridos por Brummer, Badenhorst e Neuland (2006) como preparatórios para a fase 1, planejamento e direção, no modelo de Bernhardt (1994a): usuários de inteligência e tomadores de decisão, outros usuários; necessidade de dados e os tópicos chave de inteligência (KITs) desenvolvidos por Herring (1999).

Para a avaliação da ferramenta, foram utilizados esses elementos a partir da descrição da operacionalização de cada um deles como proposto no capítulo 5 – modelo teórico de

framework. Entretanto, a ordem dos elementos foi alterada e a necessidade de dados foi excluída. Essas alterações se justificam pelo fato de os elementos originais serem oriundos do processo de inteligência competitiva, no qual primeiramente se escolhe um alvo em potencial e, na sequência, se identifica quais são os dados necessários para a análise, a definição dos tópicos (palavras-chave) de procura e em quais bases de dados isso ocorrerá (HERRING, 1999). Nesse protótipo do processo de busca, foi utilizada uma busca automática de dados na

web não para um alvo específico — a intenção é com a busca localizar possíveis alvos ou pontos de interesse —, mas para novas fontes e tópicos geradores de dados. Inverte-se o processo “de dentro para fora” da organização para “de fora para dentro”, ou seja, do universo da web para o foco da análise. Por fim, inclui-se a avaliação de valor do PIBBD para a qualificação dos resultados encontrados, validando, desse modo, a busca ou reformulando as diretrizes de procura, definidas da seguinte maneira:

1)Definição de tópicos-chave de procura:utilizar a busca de dados para monitorar

exposição dos principais tópicos pela análise de Big Data, principalmente de dados não estruturados, ou seja, análise de data ou text mining por exemplo. Nesta avaliação, os resultados validarão ou não os descritores de busca;

2) Fontes geradoras e de disponibilidade de dados: verificar as alternativas de

fontes de dados e a disponibilidade de dados gerados (não estruturados ou semiestruturados). No protótipo, esta avaliação se dará em termos de quantidade e qualidade das bases e dados;

3) Principais alvos potenciais, influenciadores e tomadores de decisão: utilizar a

busca para identificar, no ambiente externo à organização, atuais ou possíveis tomadores de decisão, usuários ou influenciadores em um determinado ambiente de negócios. Será avaliado em termos de quantidade e tipo de informação que a busca trará;

4) Avaliação de valor de utilidade: esta avaliação contemplará a quantidade de

retornos de dados, a quantidade de bases cadastradas, a performance de tempo, a redundância e a qualidade dos retornos.

Como saída, nesta etapa, tem-se a liberação do produto final (ferramenta) como parte integrante da plataforma de business intelligence do CiCarne. Assim, após os testes e ajustes necessários, a ferramenta será liberada para o uso dos pesquisadores e analistas.

No documento UNIVERSIDADE FEDERAL DE MATO GROSSO DO SUL (UFMS) ESCOLA DE ADMINISTRAÇÃO E NEGÓCIOS (ESAN) PROGRAMA DE PÓS-GRADUAÇÃO EM ADMINISTRAÇÃO (PPGAd) DOUTORADO EM ADMINISTRAÇÃO (páginas 40-44)