• Nenhum resultado encontrado

Comparativo dos métodos da literatura

No documento UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL (páginas 35-39)

Em busca de compreender as diferenças entre os métodos analisados, foi criada uma tabela comparativa, baseada nas etapas dos métodos descritos (Tabela 1). Para tal, a autora assume que as etapas dos métodos são equivalentes e por isso podem ser comparados.

Tabela 1 - Comparativo entre os métodos

Métodos KDD Process (KDD-P) CRISP-DM SEMMA Data Analitics Lifecycle (DAL) SAS Analitical Life Cycle (SAS- ALC) Nº etapas 5 6 5 6 7 E tap as Entendimento

de negócio Descoberta Perguntar

Seleção Entendimento dos dados

Amostra

Preparação

dos dados Preparar

Processamento Explorar

Transformação Preparação

dos dados Modificar Mineração de

dados Modelagem Modelar

Planejamento

do modelo Explorar Construindo o

modelo Modelar Interpretação e

avaliação Avaliação Avaliar

Comunicar resultados Utilização e

aplicação Operacionalizar Implementar Agir Avaliar Fonte: elaborado pela autora

CRISP-DM, DAL e SAS-ALC possuem uma etapa inicial focada na compreensão do negócio, já o KDD-P, ainda que Fayyad, Piatetsky-Shapiro e Smyth (1996) falem sobre uma etapa inicial de compreensão de negócio, ela não está evidenciada no processo como um todo. KDD-P e SEMMA podem ser diretamente comparados com as três seguintes etapas (seleção, processamento e transformação),

já o CRISP-DM de acordo com as descrições, agrupa na etapa (entendimento dos dados) duas das etapas do KDD-P e SEMMA, assim como DAL e SAS-ALC agrupam as três etapas correspondentes.

Seguindo com o comparativo, as próximas etapas são relacionadas a mineração de dados, onde KDD-P, CRISP-DM e SEMMA são correspondentes. No que diz respeito a DAL e SAS-ALC, essa etapa foi dividida em duas partes (explorar e modelar), esse é um ponto importante na diferenciação dos métodos na literatura, a etapa de exploração/planejamento é uma fase anterior a criação dos modelos de análise e tem por objetivo compreender a base de dados, muitas vezes aplicando técnicas de aprendizado de máquina. Segundo Witten et al. (2016) o aprendizado de máquina fornece a base técnica da mineração de dados, é usado para extrair informações dos dados brutos em bancos de dados.

A parte de validação dos resultados está presente em quase todos os métodos, com exceção do SAS-ALC que possui a etapa de avaliar após a implementação do modelo. Outro ponto importante de diferenciação é a característica de ir e vir entre as etapas evidenciada nos métodos KDD-P, CRISP-DM, DAL e SAS-ALC, porém, a etapa de validação e retomada do modelo fica mais clara nos métodos KDD-P e DAL. Por fim e não menos importante a implementação do projeto, que coloca a prova todo o processo desenvolvido, explicitamente presentes nos métodos CRISP- DM, DAL e SAS-ALC. Ainda temos as etapas (agir e avaliar) da SAS-ALC que não encontram equivalência com os outros métodos.

3

MÉTODO

Para o desenvolvimento deste trabalho realizou-se uma pesquisa qualitativa de caráter exploratória, buscando compreender a temática que envolve o problema proposto e os métodos descritos na literatura.

“Este tipo de pesquisa tem como objetivo proporcionar maior familiaridade com o problema, com vistas a torná-lo mais explícito ou a construir hipóteses. A grande maioria dessas pesquisas envolve: (a) levantamento bibliográfico; (b) entrevistas com pessoas que tiveram experiências práticas com o problema pesquisado; e (c) análise de exemplos que estimulem a compreensão”. (GIL, 2007).

Em via de atender a problemática levantada por este trabalho, a descoberta dos principais métodos utilizados pelas equipes de Data Science, foi utilizado o método estudo de caso coletivo (multi-caso).

“O estudo de caso único envolve a estratégia de pesquisa aplicada à compreensão de várias dimensões do fenômeno com foco em um caso singular como espaço amostral enquanto o estudo de caso coletivo (multi- casos) envolve o estudo das mesmas dimensões do fenômeno em mais de um caso simultaneamente com objetivo posterior de comparação de resultados.” (BARBOSA, 2008, p.3)

A primeira fase do projeto tratou-se de um levantamento bibliográfico, descrição e comparação dos métodos encontrados. As buscas pelos artigos foram feitas com as seguintes palavras-chave: “knowledge discovery process”; "Data Science process"; "Data Science methodology”; "Data Science analytics”; “Big Data analytics”. Não foi utilizado um processo exaustivo de busca.

Os dados foram coletados através de um questionário online e entrevistas em profundidade. O questionário foi utilizado como contextualização e complemento de análise e teve como objetivo compreender se as empresas, de forma geral, realizam algum tipo de análise de dados. Como orientação para os respondentes, foi utilizado um dos métodos da literatura, o KDD Process, por ser considerado como um dos mais antigos, cunhado em 1989 no primeiro congresso do KDD (FAYYAD et al., 1996). A estrutura das perguntas foi de caráter: abertas, fechadas e de múltipla escolha (Anexo A).

Para as entrevistas foi criado um roteiro com perguntas semiestruturadas (Anexo B) e escolhido o método mais difundido entre as empresas (MARBÁN, MARISCAL e SEGOVIA, 2009), o CRISP-DM, como forma de orientar as perguntas e as informações que não poderiam faltar durante a realização das entrevistas. Este

método também foi utilizado como base para o desenvolvimento do Data Analytics Lifecycle (DIETRICH et al., 2015), escolhido como base para a comparação dos resultados neste trabalho.

O questionário online foi compartilhado em mais de vinte grupos com foco em análise de dados, mineração de dados, aprendizado de máquina, inteligência artificial etc. As redes sociais onde o questionário online foi compartilhado foram as seguintes: Facebook, LinkedIn, WhatsApp, Slack, Google+. O formulário online ficou aberto pelo período de um mês.

Para as entrevistas em profundidade foram convidadas oito empresas da região de Porto Alegre e Grande Porto Alegre que trabalham com projetos de análise de dados. Das oito empresas convidadas, sete aceitaram participar da pesquisa. Os convites para participação foram enviados por e-mail direcionados aos responsáveis das empresas ou pelas áreas focadas em análise de dados. As entrevistas ocorreram no local indicado pelos gestores das empresas, durante o mês de setembro, com duração de 30 min a 60 min.

A análise foi feita através do método indutivo, que:

“Considera que o conhecimento é fundamentado na experiência, não levando em conta princípios preestabelecidos. No raciocínio indutivo a generalização deriva de observações de casos da realidade concreta. As constatações particulares levam à elaboração de generalizações.” (SILVA; MENEZES, 2005, p. 26)

Desta forma, os processos das empresas foram descritos e subdivididos de acordo com a compreensão da autora. Também foi feita uma classificação das empresas entrevistadas levando em conta a forma de desenvolvimento dos projetos de análise de dados. O comparativo entre os métodos da literatura foi utilizado como forma de qualificar o método escolhido para as comparações e análises com os processos das empresas. Mais detalhes sobre como as inferências foram feitas se encontram nas próximas seções deste trabalho.

4 APRESENTAÇÃO DA PESQUISA E ANÁLISE DOS RESULTADOS

A apresentação da pesquisa se dá através da descrição dos métodos das empresas entrevistadas seguido da análise dos resultados obtidos através do questionário online e do comparativo entre os métodos das empresas.

Como um dos resultados deste trabalho, também é apresentada uma proposta de Canvas Analytical oriundo de uma necessidade evidenciada no desenvolver deste projeto.

No documento UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL (páginas 35-39)

Documentos relacionados