• Nenhum resultado encontrado

Visualização de Dados e sua Importância para a Tomada de Decisão: Uma Aplicação Usando o Conjunto de Dados de E-Commerce da Olist

N/A
N/A
Protected

Academic year: 2021

Share "Visualização de Dados e sua Importância para a Tomada de Decisão: Uma Aplicação Usando o Conjunto de Dados de E-Commerce da Olist"

Copied!
43
0
0

Texto

(1)

UNIVERSIDADEFEDERAL DEOUROPRETO

INSTITUTO DECIÊNCIAS EXATAS EBIOLÓGICAS

DEPARTAMENTO DEESTATÍSTICA

Visualização de Dados e sua Importância para a

Tomada de Decisão: Uma Aplicação Usando o

Conjunto de Dados de E-Commerce da Olist

Marcos Vinícius de Alvarenga

Ouro Preto - MG Abril de 2021

(2)

Marcos Vinícius de Alvarenga

Visualização de Dados e sua Importância para a

Tomada de Decisão: Uma Aplicação Usando o

Conjunto de Dados de E-Commerce da Olist

Trabalho de Conclusão de Curso apresentado ao Departamento de Estatística da Universidade Federal de Ouro Preto como requisito parcial para a obtenção do grau de bacharelado em Estatística.

Orientador:

Prof. Dr. Tiago Martins Pereira

UNIVERSIDADE FEDERAL DE OURO PRETO - UFOP DEPARTAMENTO DE ESTATÍSTICA - DEEST

Ouro Preto - MG Abril de 2021

(3)

Alvarenga, Marcos Vinicius de .

AlvVisualizacao de dados e sua importancia para a tomada de decisao [manuscrito]: uma aplicacao usando o conjunto de dados de e-commerce da Olist. / Marcos Vinicius de Alvarenga. - 2021.

Alv41 f.: il.: color., gráf., mapa.

AlvOrientador: Prof. Dr. Tiago Martins Pereira.

AlvMonografia (Bacharelado). Universidade Federal de Ouro Preto. Instituto de Ciências Exatas e Biológicas. Graduação em Estatística . Alv1. Marketplaces. 2. E-commerce. 3. Armazenamento de dados. I. Pereira, Tiago Martins. II. Universidade Federal de Ouro Preto. III. Título.

Bibliotecário(a) Responsável: Celina Brasil Luiz - CRB6-1589 SISBIN - SISTEMA DE BIBLIOTECAS E INFORMAÇÃO

A473v

(4)

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE OURO PRETO

REITORIA

INSTITUTO DE CIENCIAS EXATAS E BIOLOGICAS COLEGIADO DO CURSO DE ESTATISTICA

FOLHA DE APROVAÇÃO

Marcos Vinicius de Alvarenga

Visualização de dados e sua importância para a tomada de decisão: Uma aplicação usando o conjunto de dados de e-commerce da Olist

Monografia apresentada ao Curso de Esta s ca da Universidade Federal de Ouro Preto como requisito parcial para obtenção do tulo de Bacharel em Esta s ca

Aprovada em 16 de abril de 2021

Membros da banca

Dr. Tiago Mar ns Pereira - Orientador - Universidade Federal de Ouro Preto Dra. Diana Campos de Oliveira - Universidade Federal de Ouro Preto

Dr. Marcelo Carlos Ribeiro - Universidade Federal de Ouro Preto

Professor Dr. Tiago Martins Pereira, orientador do trabalho, aprovou a versão final e autorizou seu depósito na Biblioteca Digital de Trabalhos de Conclusão de Curso da UFOP em 16/04/2021.

Documento assinado eletronicamente por Tiago Mar ns Pereira, COORDENADOR(A) DE CURSO DE ESTATÍSTICA, em 16/04/2021, às 19:57, conforme horário oficial de Brasília, com fundamento no art. 6º, § 1º, do Decreto nº 8.539, de 8 de outubro de 2015.

Documento assinado eletronicamente por Diana Campos de Oliveira, PROFESSOR DE MAGISTERIO SUPERIOR, em 22/04/2021, às 15:16, conforme horário oficial de Brasília, com fundamento no art. 6º, § 1º, do Decreto nº 8.539, de 8 de outubro de 2015.

Documento assinado eletronicamente por Marcelo Carlos Ribeiro, PROFESSOR DE MAGISTERIO SUPERIOR, em 22/04/2021, às 15:40, conforme horário oficial de Brasília, com fundamento no art. 6º, § 1º, do Decreto nº 8.539, de 8 de outubro de 2015.

A auten cidade deste documento pode ser conferida no site h p://sei.ufop.br/sei/controlador_externo.php?

(5)

Este trabalho é dedicado a minha mãe Dona Terezinha e a minha namorada Déborah, que nos momentos mais difíceis sempre estiveram ao meu lado me apoiando e motivando durante minha trajetória acadêmica. Muito obrigado.

(6)

AGRADECIMENTOS

Agradeço primieramente a Deus pelas oportunidades na minha vida e por me dar força e saúde para correr atrás dos meus objetivos.

Agradeço a UFOP pelo ensino de qualidade e por permitir minha formação. A todos os professores do Departamento do curso de Estatística, em especial ao professor Tiago Martins Pereira pela orientação durante todo este trabalho.

À minha mãe que sempre foi minha maior icentivadora e que nunca mediu esforços para me ajudar. Você é meu maior orgulho!

À minha irmã , que mesmo de longe se faz presente e está sempre torcendo por mim e também a minha namorada e amiga Déborah Vicm, por toda parceria e incentivo durante minha trajetória.

Por fim, agradeço também aos meus companheiros(as) por todos os momentos vividos nessa jornada, Denis DJ, Leylane, Gabi, Danielzin (William), Little P (Pedrinho), 7x1 (Guilherme) Pombo (Thiago) e Andressa.

(7)

"A arte de ser ora audacioso, ora prudente, é a arte de vencer." Napoleão Bonaparte

(8)

Visualização de Dados e sua Importância para a Tomada de

Decisão: Uma Aplicação Usando o Conjunto de Dados de

E-Commerce da Olist

Autor: Marcos Vinícius de Alvarenga Orientador: Prof. Dr. Tiago Martins Pereira

R

ESUMO

O Comércio Eletrônico (e-commerce) cada vez mais tem ganhado notoriedade e aumentado sua presença no mercado. Com a constante evolução da Tecnologia da Informação (TI), surgem novas tendências viabilizando o armazenamento de um grande volume de dados, caracterizando o que chamamos de big data, fazendo com que as empresas busquem soluções capazes de alterar o seu cenário e agregar ainda mais valor às suas operações. A rapidez na obtenção dos dados supera a velocidade e até mesmo, as análises destes dados, ocasionando uma adversidade para as empresas que possuem uma extensa quantidade de dados armazenados que carecem de análises eficientes e ágeis. Devido a essa grande quantidade de dados, torna - se difícil vizualizá - los, uma vez que é de extrema importância comunicar essas informações às pessoas de forma eficiente e eficaz. Diante disto, este trabalho apresenta uma avaliação de técnicas de visualização de dados por meio do pacote flexdashboardque tem a capacidade de gerar visualizações interativas facilitando o entendimento das informações ali representadas e seu uso no Software R. A análise exploratória dos dados foi utilizada como método de visualização para gerar as informações obtidas através do banco de dados da Olist, plataforma de marketplace do comércio eletrônico do varejo brasileiro.

(9)

Data Visualization and its Importance for Decision Making: An

Application Using Olist’s E-Commerce Dataset

Author: Marcos Vinícius de Alvarenga Advisor: PhD. Tiago Martins Pereira

A

BSTRACT

Electronic Commerce (e-commerce) has increasingly gained notoriety and increased its presence in the market. With the constant evolution of Information Technology (IT), new trends emerge enabling the storage of a large volume of data, characterizing what we call big data, making companies search for solutions capable of changing their scenario and adding even more value to your operations. The speed in obtaining the data exceeds the speed and even, the analysis of these data, causing an adversity for the companies that have an extensive amount of stored data that lack efficient and agile analyzes. Due to this large amount of data, it is difficult to visualize them, since it is extremely important to communicate this information to people efficiently and effectively. In view of this, this work presents an evaluation of data visualization techniques through the flexdashboard package, which has the ability to generate interactive visualizations facilitating the understanding of the information represented there and its use in Software R. Exploratory data analysis was used as a visualization method to generate the information obtained through the Olist database, the Brazilian retail e-commerce marketplace platform.

(10)

Lista de figuras

1 Pilares do Big Data. . . 16

2 Processo de Visualização de Dados. . . 23

3 Conjunto de Dados Olist. . . 27

4 Transações Diárias de Pedidos por Dia. . . 29

5 Tipo de pagamento Realizado. . . 30

6 Número de Parcelas Selecionadas. . . 31

7 Número de Clientes por Estado. . . 32

8 Número de Clientes por Cidade. . . 33

9 Total de Vendedores e Clientes por Estado. . . 34

10 Número de Pedidios Diários - Minas Gerais. . . 35

11 Tipo de Pagamento Utilizado. . . 35

12 Número de Parcelas. . . 36

13 Produtos Mais Vendidos - Minas Gerais. . . 36

14 Número de Clientes por Cidade - Minas Gerais. . . 37

(11)

Lista de abreviaturas e siglas

UFOP - Universidade Federal de Ouro Preto DEEST - Departamento de Estatística MD - Mineração de Dados

TI - Tecnologia da Informação

KDD - Knowledge Discovery in Databases AI - Inteligência Artificial

(12)

Sumário

1 INTRODUÇÃO 12

2 REFERENCIAL TEÓRICO 13

2.1 MARKETPLACE NOBRASIL . . . 13

2.2 BIGDATA . . . 15

2.3 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS(KDD) . . . 17

2.3.1 PRÉ-PROCESSAMENTO . . . 18 2.3.2 MINERAÇÃO DE DADOS. . . 20 2.3.3 PÓS-PROCESSAMENTO . . . 21 2.4 VISUALIZAÇÃO DEDADOS . . . 23 2.5 CONCEITOS DEINTERAÇÃO . . . 24 3 METODOLOGIA 25 4 RESULTADOS E DISCUSSÕES 28 4.1 VISÃOGERAL PAINELINTERATIVO . . . 28

4.1.1 TRANSAÇÕES(NACIONAL) . . . 29

4.1.2 TRANSAÇÕES(ESTADUAL) . . . 34

4.2 VISÃOESPACIAL . . . 37

5 CONSIDERAÇÕES FINAIS 38

(13)

12

1 INTRODUÇÃO

Com o crescimento da tecnologia, o Comércio Eletrônico (e-commerce) tem ganhado notoriedade e aumentado sua presença no mercado, sendo responsável por uma parte significativa da economia brasileira, faturando bilhões anualmente, tendo como principais fatores, a representati-vidade na internet e a sua disseminação e adequação de variadas plataformas (WEBSHOPPERS, 2018). Dentro do Comércio Eletrônico, têm-se o E-commerce e o Marketplace, onde o primeiro trata-se de uma transação comercial realizada por uma plataforma eletrônica. Já o segundo, que é o foco desta pesquisa, trata-se de um espaço disponível por grandes organizações varejistas online, onde é comercializado diferentes produtos sob a concessão de um determinado percentual sob as vendas. Como exemplos de marketplace no Brasil, a Amazon, o Mercado Livre e a Olist, dentre outras, se destacam no mercado.

Na era do big data, tem-se o grande volume de inúmeras informações que são armaze-nadas em diversos bancos de dados. A rapidez na obtenção dos dados supera a velocidade e até mesmo, as análises destes dados, ocasionando uma adversidade para as empresas que possuem uma extensa quantidade de dados armazenados que carecem de análises eficientes e ágeis (CARDOSO; MACHADO, 2008).

As informações armazenadas podem ser classificadas por meio da habilidade de extrair entendimento detalhistas que ajudem na tomada de decisão. Os elementos contidos em um banco de dados, contêm paradigmas que quando explorados se tornam imprescindíveis nos processos de tomada de decisão. Desta forma, é necessário saber utilizar as informações ali contidas e analisar a quantidade de dados armazenados. Assim, tem-se a necessidade da aplicação de técnicas de pré-processamento no dataset para posteriormente identificar formas de visualizar os dados, oferecendo uma maior qualidade durante o processo de análise das informações, descobrindo novos conhecimentos, identificando estruturas, padrões tendências e relacionamentos (MATTHEW; GRINSTEIN; KEIM, 2010).

Nesse sentido, este estudo busca apresentar a utilização do mecanismo de visualização de dados. O banco de dados escolhido para esta pesquisa, foi extraído de uma base de dados públicos da Olist disponível no Kaggle, que é uma plataforma online de competições de Data Science,

(14)

13

Machine Learning e treinamentos fundada no ano de 2010. Nela é possível explorar diversos tipos de repositórios contendo fonte de dados para os mais variados tipos de problemas, além de se conectar com outros grupos de usuários em qualquer lugar do mundo. A Olist é considerada uma das maiores lojas de departamentos nos marketplaces, tendo como foco, lojistas que almejam comercializar seus produtos nos principais e-commerces brasileiros e consecutivamente, maximizar seus lucros. Como objetivo secundário, o estudo busca cruzar informações que devem ser analisadas através de técnicas da mineração de dados, permitindo obter alguns insights a respeito do dataset. Entretanto, é importante destacar que o pré-processamento, é a fase mais importante para o trabalho de extração das informações. Nada mais é que a descrição detalhada dos dados do dataset, analisando e verificando a sua qualidade, padronizando, analisando e tratando as variáveis que serão úteis para o processo e excluindo as que não serão utilizadas de forma que estejam adequadas com a tarefa que será realizada. De forma a compreender melhor as técnicas acima relatadas, o próximo capítulo, apresentará uma breve revisão de literatura contendo definições e exposição das técnicas mais utilizadas para o dataset analisado.

2 REFERENCIAL TEÓRICO 2.1 MARKETPLACE NOBRASIL

A internet começou a ser utilizada no Brasil em meados dos anos 80, sendo utilizada inicialmente apenas para pesquisas e por algumas instituições de ensino, sendo ofertada para um maior número de pessoas a partir de 1994 com a empresa de Telecomunicação Embratel (CARVALHO, 2006). Já em 1995, o Ministério das Telecomunicações juntamente com o Ministério da Ciência e Tecnologia iniciaram atividades capaz de permitir a disponibilidade à internet para a população brasileira, bem como a abertura do comércio para que organizações disponibilizassem serviços de provedores de internet que até então era disponibilizado apenas pela Embratel. Em 1996, diante do oferecimento de novas organizações provedoras de internet e da propagação dos computadores no país, é que de fato iniciou a expansão da internet para a população (CARVALHO, 2006).

(15)

14

final dos anos 90, o comércio eletrônico, por meio do advento de grandes sites de e-commerce, como o Mercado Livre, Submarino e as Lojas Americanas, tendo iniciado suas operações em 1999. Segundo Albertin (2016), o comércio eletrônico - e-commerce - é toda a cadeia de valor e técnicas relativa a uma transação em um meio eletrônico. Cameron (1997), contribui dizendo que insere todo comércio transacionado no meio eletrônico e que essas operações decorrem entre dois membros de negócio ou entre um membro de negócio e um cliente final.

Dentro do exposto acima, tem-se destacado o marketplace que pode ser conceituado como um shopping virtual, que reúne em seu site diversos produtos de diferentes vendedores com foco para o consumidor final. O cliente quando acessa ao site, tem a opção de escolha do mesmo produto de diferentes vendedores e possui a segurança, que todo o processo de compra e pagamento, é realizado no mesmo meio de eletrônico, como o Mercado Livre, a Amazon e a Olist (EUROMONITOR, 2018).

Conforme aponta Rosa (2019) em seus estudos, existem três tipos de marketplace (EUROMONITOR, 2018):

• Puro: onde somente os vendedores dos produtos anunciam e vendem no site de e-commerce e o site não comercializa nenhum tipo de produto aos clientes, como o Mercado Livre e a Olist; Híbrido: são e-commerce oferecem produtos e serviços de vendedores e vendem seus próprios produtos e serviços, como a Amazon e a Americanas.com, sendo este o modelo mais comum de e-commerce e marketplace; e,

• Híbrido + lojas físicas: entende-se neste modelo, o modelo híbrido mais as lojas físicas que realizam as vendas através de marketplace, como a Magazine Luiza, Walmart (EUA) e Via Varejo (Brasil).

Os diferentes tipos de marketplace se desenvolvem em maiores extensões que os tipos tradicionais de varejo online e, em 2017, foram responsáveis por 41% do total de transações concretizadas no e-commerce mundial, sendo que em 2008, essa participação era apenas de 17% (EUROMONITOR, 2018). Esta ascensão se dá pelo tipo de negócio, pois o serviço ofertado para o cliente expande com o maior número de vendedores ofertando seus produtos e serviços neste site. O marketplace atrai uma base extensa de clientes para o seu site devido a gigantesca variedade de

(16)

15

produtos ali ofertados.

O marketplace integra mais produtos ao e-commerce, com isso, constitui uma receita complementar para o varejista, porém este tipo pode conciliar outras fontes de receitas além da venda. O varejista pode disponibilizar maior visibilidade dos vendedores em sua plataforma, comercializando planos de mídia e propaganda para ele, o que fará expandir a visibilidade dos produtos destes vendedores no site, fazendo com seus produtos e serviços se tornem mais pertinentes e, para a organização varejista, é mais uma condição de receita, além da transação adicional que o vendedor realizará tendo seus produtos e serviços com um destaque maior na plataforma (EUROMONITOR, 2018).

Com a grande expansão do marketplace em países como os Estados Unidos e a China, considerados percursores na utilização deste meio de venda, salienta-se algumas predisposições da plataforma para o futuro, como a redução do prazo de entrega e a maximização do padrão de serviço. Alguns marketplaces híbridos, como as Lojas Americanas, oferecem aos seus clientes, a opção de comprar na internet e retirar seu produto em uma loja mais próxima da sua residência, minimizando assim o prazo de entrega para algumas horas e excluindo o custo do frete. Uma outra opção é alocar pontos estratégicos de retirada em grandes cidades e realizar parcerias com empresas do setor de distribuição e entrega (ROSA, 2019).

Uma vantagem do marketplace é o aproveitamento deste modelo em multicanais, com agregação entre offline, online, logística e fluxo de dados, como ganho para a produtividade, expansão de vendas e maximização de padrão de serviço para os clientes (ROSA, 2019).

2.2 BIGDATA

A era do big data é vista como um dos pilares tecnológicos da atualidade. Com o volume gigantesco de dados estruturados e não estruturados coletados através de diversas fontes e armazenados em diferentes mídias ou banco de dados, as empresas buscam cada vez mais trabalhar esses dados para obterem insights pra tomada de decisão nos negócios.

Antes do início da era do big data, as empresas atribuíam um valor relativamente baixo aos dados que estavam coletando e que não tinham valor imediato. Quando a era do big data

(17)

16

começou, esse investimento na coleta e armazenamento de dados para seu valor futuro potencial mudou e as organizações fizeram um esforço consciente para manter cada bit de dados em potencial. Essa mudança de comportamento criou um círculo virtuoso em que os dados eram armazenados e, como os dados estavam disponíveis, as pessoas foram designadas para encontrar valor neles para a organização (JARED DEAN, 2014).

A quantidade de dados coletados e armazenados cresceu a uma taxa tremenda devido a vários fatores. Para Russom (2011), as definições de big data não se concentram somente no volume de dados armazenados, mas também em outros dois fatores importantes: variedade que chegam às informações com uma velocidade cada vez maior. Veja na Figura 1:

Figura 1 – Pilares do Big Data.

• Volume de dados: O volume de dados armazenados é o principal atributo. Na era do big data tem – se o processamento de dados estruturados e não estruturados e muitas vezes podendo ser dados de valores desconhecidos. Para algumas empresas, a dimensão de tamanho desses dados pode chegar à dezena de terabytes e para outras, podendo ser cerca de centenas de petabytes.

• Velocidade dos dados: Hoje na era do big data a frequência de geração dos dados é muito grande, tendo sua coleta processada em tempo real, o que exige uma ação e um entendimento muito rápido.

(18)

17

• Variedade dos dados: O grande volume de dados que compõe o big data é devido ao seus tipos de variedades disponível, podendo eles ser estruturados, semiestruturados ou não estruturados exigindo um pré-processamento adicional para obter algum significado.

2.3 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS(KDD)

Knowledge Discovery Databases (KDD)ou Descoberta de Conhecimento em Bancos de Dados é o método global de alteração de dados para informações. Assim, matemática, banco de dados, estatística, inteligência artificial (AI), padrões de dados e o reconhecimento de padrões, são algumas das áreas de conhecimentos relacionadas ao KDD (FAYYAD et. al., 1996).

O KDD é constituído por um método constituído por diversas etapas operacionais. O nível de dificuldade deste procedimento concentra-se no entendimento e deciframento de modo a escolher quais ações necessitam ser realizadas em cada caso. Fica sob responsabilidade do indivíduo a atribuição de direcionar a efetivação do processo de KDD (GOLDSCHMIDT; PASSOS, 2017).

Para se trabalhar com KDD é primordial conhecer os dados que irá trabalhar e analisar. Uma base de dados (dataset) é um conjunto de objetos de dados contendo atributos que descrevem objetos (amostras, instâncias, . . . ). Os atributos podem ser qualitativos ou quantitativos. Sendo o primeiro classificado como categóricos nominal ou ordinal e o segundo de numéricos que são subdivididos em intervalo e razão.

Conforme aponta os autores Goldschmidt e Passos (2017), a primeira coisa a ser realizada em um banco de dados, é a seleção dos dados que devem ser considerados para o processo de KDD. O primeiro passo quando se deseja trabalhar com KDD é a seleção de dados, que é fase onde é realizada a escolha dos dados que serão utilizadas durante a pesquisa. Em seguida, têm-se a limpeza dos dados, pois quanto maior o banco de dados, maior a chance de encontrar dados duplicados, inexistentes, por isso emprega-se a limpeza dos dados. Esta técnica tem por objetivo eliminar todas as inconsistências encontradas em um banco de dados. São inconsistências mais comuns os:

• Ruídos que são classificados como erros eventuais na alteração de valores ou acréscimo de objetos falso (TAN; STEIBACH; KUMAR, 2009);

(19)

18

• Outliers que são objetos de dados com características diferentes dos demais objetos que compõem o mesmo grupo de dados ou valores irregulares de um atributo (BARNETT; LEWIS, 1974);

• Valores ausentes que podem ocorrer por diversas razões, como campos não obrigatórios em um questionário. Entretanto, os dados faltantes devem ser considerados na análise de dados, conforme aponta Tan, Steinbach e Kumar (2009). Em se tratando de dados faltantes, pode-se eliminar a linha onde estes dados estão incluídos, mesmo não sendo muito indicada por especialistas, pois pode ocorrer uma diminuição considerável de linhas dentro do banco de dados; ignorar os valores ausentes ou imputar valores ausentes;

• Duplicação de dados que pode ocorrer nos bancos de dados com informações duplicadas. É necessário fazer uma correção para que estes dados não sejam considerados em duplicidade durante a análise.

2.3.1 PRÉ-PROCESSAMENTO

Nesta etapa, os dados são modificados para serem trabalhados. O principal objetivo desta etapa é alterar os dados iniciais para um formato mais propício aos objetivos e análises da mineração de dados (TAN; STEIBANCH; KUMAR, 2019).

Ressalta-se que a baixa qualidade dos dados ocasiona em uma qualidade precária dos resultados na Mineração dos Dados. Por isso, o Pré-processamento é constituído de algumas técnicas de modo a melhorar a eficiência da Mineração dos Dados. Como a agregação, amostragem, redução da dimensionalidade, seleção de subconjunto de atributos, criação de características, discretização e binarização e a transformação dos atributos.

A Agregação é a junção de duas ou mais operações em uma única operação, pois minimiza o tempo de processamento e exige uma quantidade menor de memória, proporcionando a utilização de algoritmos de Mineração de Dados mais profundos. Os atributos quantitativos são em sua maioria, agrupados concedendo uma soma dos valores ou a média, enquanto os atributos qualitativos são permitidos a omissão ou o resumo como um grupo de todos os atributos daquele meio. Entretanto, têm-se a desvantagem da perda de detalhes de dados, conforme aponta Tan,

(20)

19

Steimbach e Kumar (2009). A Amostragem é um processo utilizado para selecionar subconjuntos aleatórios dos objetos de dados a serem analisados. A amostragem minimiza o custo e o tempo de processamento de dados quando relacionado ao conjunto total de dados, desde que esta amostra seja significativa. Uma amostra é correspondente se possuir aproximadamente a mesma propriedade da base inicial (BAOHUA; FEIFANG; HUAN, 2000). Tem também o particionamento, que divide o datasetem seções e trabalha com cada uma individualmente e funciona apenas como o algoritmo é desenvolvimento para esta técnica.

Quanto a técnica de redução de dimensionalidade, ela é aplicada quanto existe um número muito grande de atributos, que pode ser eliminado as características desnecessárias e reduzir o ruído, além de trazer a um modo mais claro, possibilitando a visualização dos dados (TAN; STEINBACH; KUMAR, 2009).

Outra forma de reduzir a dimensionalidade dos atributos é aplicando a técnica de seleção de subconjunto de atributos, entretanto um conjunto de dados pode englobar atributos repetitivos ou desnecessários. Os atributos repetitivos aparecem em um ou mais atributos e os desnecessários, não possuem informações relevantes para a análise prevista. Entretanto, mesmo que alguns dos atributos repetitivos ou desnecessários possam ser descartáveis, bom senso ou conhecimento do domínio, selecionar o melhor subconjunto de atributos carece de uma perspectiva sistemática (TAN; STEINBACH; KUMAR, 2009).

Com base nos atributos originais do dataset, têm-se a possibilidade de criação de um novo conjunto de atributos que abrange as informações relevantes e reduz a quantidade de atributos, permitindo adquirir uma diminuição de dimensionalidade (TAN; STEINBACH; KUMAR, 2009). Pode ser realizada por três metodologias: extração de atributo, mapeamento dos dados para um novo atributo e construção de atributos que é a junção de atributos.

A discretização é o processo que transforma um atributo contínuo em categórico. Mendes (2011) expõe que para efetuar está transformação é necessário determinar a quantidade de categorias a serem utilizadas e determinar como constituir os valores contínuos deste atributo para essas categorias. Discretização pode ser definida como a técnica de alterar um atributo numérico em um atributo categórico. Já a binarização é o processo que modifica atributos contínuos ou diretos em binários. Um exemplo é o campo sexo, que está representado por F de feminino e M de

(21)

20

masculino. Na binarização seria atribuído o valor de 1 para F e 2 para M.

Por fim, a última técnica do pré-processamento, é a transformação do atributo que é uma função que estrutura todo o conjunto de valores de um atributo para um novo grupo de modo que o valor antigo pode ser apontado com um dos novos valores. É considerada uma das etapas mais importantes do pré-processamento, pois é por meio dela que se cria um padrão para os dados, possibilitando o emprego das técnicas computacionais de análises. Para isso, alguns procedimentos poder ser empregados conforme os objetivos almejados. Na eliminação de valores equivocados dos dados, pode-se aplicar a suavização ou a generalização que modifica valores muito específicos em valores mais comum, a regularização que dispõe as variáveis em uma mesma escala, a criação de novas características (TEIXEIRA, 2019).

2.3.2 MINERAÇÃO DE DADOS

A Mineração de Dados (MD) pode ser conceituada como a análise de grandes quantida-des de dados, de modo automático ou semiautomático, com o objetivo de expor padrões e regras pertinentes (BERRY; LINOFF, 1997). Tan, Steinbach e Kumar (2009), complementam dizendo que a MD representa na técnica de exploração automática de conhecimentos benéficos em grandes repositórios de dados. As técnicas utilizadas em MD são empregadas em grandes bancos de dados com o intuito de encontrar padrões úteis, os quais por outros tipos de observações poderiam não serem constatado.

Neste sentido, a etapa de MD exige escolha de procedimentos e algoritmos que serão empregados na análise proposta. Após ter realizado a escolha, é fundamental desenvolver o algoritmo, adequando-o ao problema proposto e então realiza-lo para alcançar os efeitos que serão explorados no pós-processamento (CASTANHEIRA, 2008). São técnicas da MD: classificação, regressão, predição, associação e agrupamento.

A classificação é uma das técnicas mais comuns de MD que tem por objetivo, caracteri-zar a qual classe um determinado registro se refere. Nesta técnica, o modelo verifica o grupo de registros fornecidos, com cada registro já compreendendo a indicação à qual classe se enquadra, de modo a assimilar como categorizar um novo registro. Cita-se como exemplo, identificar uma turma dentro de uma instituição de ensino que é melhor para uma determinada criança (TEIXEIRA,

(22)

21

2019).

Já a Regressão diferencia-se da classificação, quanto tem um atributo numérico e não categórico, realizando assim o valor de uma determinada variável observando-se os valores anteriores. Como exemplo, pode-se destacar o a estimativa do dinheiro a ser gasto após o período pós-pandemia (TEIXEIRA, 2019).

A Predição é a técnica similar as relatadas anteriormente, tendo como objetivo criar o valor futuro de um específico atributo. Como exemplo, pode-se estimar a quantidade de assaltos a ônibus nos transportes coletivos do Rio de Janeiro, no último ano (TEIXEIRA, 2019).

Agrupamento ou Clusterização, tem por objetivo classificar e associar dados similares. Um cluster é um conjunto de registros semelhantes entre si e diferenciado dos outros registros em outros agrupamentos. Está técnica é diferente da classificação pois não carece que os registros sejam preliminarmente categorizados. Ademais, ela não possui a intenção de classificar, estimar ou predizer o valor de uma determinada variável, realizando apenas a identificação dos grupos de dados dissemelhantes. Suas aplicações em dataset, são inúmeras, como uma pesquisa de mercado, o reconhecimento de padrões, tratamento de imagens, observação de dados, entre outras. Usualmente, a técnica de agrupamento é planejada com outras técnicas, além de ser utilizadas na fase de elaboração dos dados (TEIXEIRA, 2019).

Regras de Associação é uma técnica empregada para identificar padrões que descrevam qualidades bastante relacionadas nos dados. Os padrões descobertos são usualmente expostos na forma de subconjuntos de características ou regras de implicação. A análise de associação tem como finalidade retirar padrões relevantes de forma eficiente, isso acontece em razão do tamanho imenso de seu local de busca. O reconhecimento de sites acessados coincidentemente e a descoberta de genes que disponham de funcionalidade relacionada, são exemplos de emprego de regras de associação (TAN; STEINBACH; KUMAR, 2009).

2.3.3 PÓS-PROCESSAMENTO

O Pós-Processamento integra a análise do conhecimento assimilado na etapa de MD. Uma das principais funções desta etapa é a criação e estruturação do conhecimento adquirido,

(23)

po-22

dendo abranger a simplificação de gráficos, relatórios e diagramas, além da prática de representação em conhecimento adquirido (GOLDSCHMIDT; BEZERRA; PASSOS, 2015).

O pós-processamento de dados, nada mais é que transformar os dados obtidos na MD padrões observáveis e que possuem fácil entendimento. Esta terceira etapa pode ser fragmentada em duas partes, sendo a primeira responsável pela seleção de padrões que são efetivamente intrigantes para o domínio dos dados, chamada de preparação de padrões, e apresentar estes padrões em forma de conhecimento. Conforme técnica que se deseja empregar para realizar a MD, muitos padrões podem ser vistos, sendo que apenas alguns deles são realmente significativos ou atuais. Então, a seleção destes padrões é imprescindível (CARVALHO, 2014).

Uma maneira de se escolher padrões conforme a sua relevância para o usuário final, seria o início de suporte e confidência vistos no procedimento de Regras de Associação. Ao definir um limite mínimo para os dois parâmetros, a quantidade de Regras alcançado pode ser definitivamente mínimo, além de filtrar para que somente padrões que respondem uma parte considerável de solicitações sejam alcançados. Outra técnica conhecida é a seleção de padrões através da “poda” de árvores de decisão, que quando constituídas podem ser muito confusas, sendo fundamental a poda de alguns galhos (nós) e folhas, de modo a contribuir para a sua compreensão e evitar o problema de overfitting (CARVALHO, 2014).

Ao definir quais os padrões que são mais relevantes, estes padrões devem ser exibidos de uma forma em que o indivíduo final seja capaz de apreciá-los de modo simples. Esta etapa é conhecida como geradora do conhecimento. Aqui, o conhecimento assimilado através dos padrões adquiridos é apresentado, através de gráficos, redes, grafos, entre outros, a depender do tipo de padrões que foram expostos no decorrer da atividade de MD (CARVALHO, 2014).

Ao definir quais os padrões que são mais relevantes, estes padrões devem ser exibidos de uma forma em que o indivíduo final seja capaz de apreciá-los de modo simples. Esta etapa é conhecida como geradora do conhecimento. Aqui, o conhecimento assimilado através dos padrões adquiridos é apresentado, através de gráficos, redes, grafos, entre outros, a depender do tipo de padrões que foram expostos no decorrer da atividade de MD (CARVALHO, 2014).

(24)

23

2.4 VISUALIZAÇÃO DEDADOS

Em um mundo hoje em que as empresas estão em constantes transformações digitais e tecnológicas gerando dados de uma maneira ágil e absurda todos os dias com uma capacidade gigantesca de armazenamento, faz – se necessário que estes dados gerados sejam bem interpretados para que as pessoas tenham acesso às informações que os dados apresentam.

Nesse contexto, a visualização de dados surge como ferramenta para analisar, interpretar e compreender melhor esse grande volume de informações , o qual chamamos de big data, de forma a entender melhor o que está acontecendo para uma tomada de decisão mais específica.

Para Hal Varian (2009), não basta só obter os dados, é de extrema importância ter a capacidade e habilidade para entender, processar, extrair valores e visualizar, pois os dados estão cada vez mais onipresentes em nossas vidas.

Devido a grande massa de dados coletados, é preciso mecanismos de obter insights que muitas vezes não são percebidos a olho nu, fazendo com que a visualização de dados se torne cada vez mais importante. Quando feita corretamente é uma ótima forma de representar esses dados, com a finalidade de fazer com que os mesmos se comuniquem com o usuário conduzindo a uma melhor tomada de decisão e resultados. Para tal, uma boa visualização não precisa totalmente sofisticada, mas sim ser funcional e apresentar as informações de forma clara e eficaz (PHIL SIMON, 2014).

Ward, Grinstein e Keim (2010) aborda algumas etapas a serem consideradas para definir o processo de construção da visualização de dados. Na Figura 2 é possível visualizar todo o processo de acordo com cada etapa.

(25)

24

• Modelagem dos dados: Os dados a serem visualizados, sejam de um arquivo ou de um banco de dados, devem ser estruturados para facilitar sua visualização. O nome, tipo, intervalo e semântica de cada atributo ou campo de um registro de dados devem estar disponíveis em um formato que garanta acesso rápido e de fácil modificação.

• Seleção dos dados: A seleção dos dados envolve a identificação do subconjunto dos dados que serão potencialmente visualizados, podendo ocorrer por meio de métodos algoritmos ou tendo o controle do usuário.

• Dados para mapeamentos visuais: O coração do pipeline da visualização é a realização do mapeamento de valores dos dados para entidades gráficas ou seus atributos. Assim, um com-ponente de um registro dos dados pode ser mapeado para o tamanho de um objeto, enquanto outros podem controlar a posição ou cor do objeto. Esse mapeamento geralmente envolve o processamento de dados antes do mapeamento, como dimensionamento, deslocamento, filtragem, interpolação ou subamostragem.

• Ajuste dos parâmetros visuais: Como nos gráficos tradicionais, o usuário deve especificar vários atributos da visualização que são relativamente independentes dos dados.

• Renderização ou geração da visualização: A projeção ou renderização específica dos obje-tos de visualização varia de acordo com o mapeamento usado; técnicas como sombreamento ou mapeamento de textura podem estar envolvidas, embora muitas técnicas de visualização requeiram apenas o desenho de linhas e polígonos uniformemente sombreados. Além de mos-trar os dados em si, a maioria das visualizações também inclui informações complementares para facilitar a interpretação, como eixos, chaves e anotações.

2.5 CONCEITOS DEINTERAÇÃO

Como já citado anteriormente, não basta somente extrair informações relevantes dos dados, é preciso buscar alternativas para visualizar as informações e apresentar os resultados. A interação dentro do contexto de visualização de dados, é uma técnica utilizada para conseguir analisar os resultados de forma mais detalhada, fazendo com que a visualização fique mais intuitiva para o usuário. A maneira como as pessoas percebem e interagem com as visualizações pode

(26)

25

influenciar fortemente sua compreensão dos dados, aumentando a capacidade de explorar os dados e compreender melhor as informações apresentadas.

De acordo com Ward, Grinstein e Keim (2010), no contexto da visualização de dados existem alguns meios de interação, como:

• Ajuste de parâmetros: O usuário pode ajustar algumas características de visualização como forma, cor, textura, brilho, desfoque, transparência, limites, taxa de amostragem, etc.

• Seleção: Controles do usuário para identificar um objeto, uma coleção de objetos ou regiões de interesse de alguma operação, podendo realçar, excluir ou modificar.

• Filtragem: Controles do usuário para reduzir o tamanho dos dados que estão sendo mapeados na tela.

• Reconfiguração: Controles do usuário para alterar a maneira como os dados são mapeados para entidade ou atributos gráficos, como reordenar os dados ou layouts, fornecendo assim uma maneira diferente de visualizar um subconjunto de dados.

• Codificação: Controle do usuário para alterar as propriedades gráficas, como tamanho do ponto ou cor da linha.

• Conexão: Controles de usuário para vincular diferentes visualizações ou objetos para mostrar itens relacionados.

• Abstração / Elaboração: Controles do usuário para modificar o nível de detalhe.

• Híbrido: Controles de usuário combinando vários dos itens acima em uma técnica, por exemplo, aumentando o espaço de tela atribuído a uma ou mais áreas de foco para permitir que os usuários vejam detalhes, enquanto mostra as outras áreas de dados em um espaço menor, de certa forma que preserva o contexto.

3 METODOLOGIA

A elaboração deste trabalho é de caráter exploratório. O banco de dados escolhido para esta pesquisa, foi extraído de uma base de dados públicos da Olist disponível no Kaggle, que é uma

(27)

26

plataforma online de competições de Data Science, Machine Learning e treinamentos fundada no ano de 2010.

O dataset que será analisado trata-se de uma predição de series temporais, que compre-ende em dados extraídos em períodos constantes de tempos (anos, meses, semanas e dias), contendo informações de aproximadamente 100 mil pedidos de 2016 a 2018 feitos em vários mercados no Brasil, permitindo a visualização do seu histórico, desde o status do pedido, preço, pagamento, frete, localização do cliente, atributos do produto e avaliações escritas pelos clientes. Além disso, tem - se um conjunto de dados de geolocalização que relaciona os códigos postais do Brasil às coordenadas de latitude e longitude.

O banco dados de e-commerce da Olist está distribuído em 9 (nove) bases de dados para uma melhor compreensão e organização. São elas:

• olist customers dataset: Este conjunto de dados contém informações de identificação dos clientes e sua localização, onde cada ID pertence a um único cliente, mas não necessariamente o mesmo cliente terá sempre o mesmo ID, pois cada pedido gera um ID diferente.

• olist geolocation dataset: Este conjunto de dados contém informações dos estados, CEPs referente às cidades brasileiras e suas coordenadas de latitude e longitude.

• olist order items dataset: Este conjunto de dados contém informações sobre os itens adquiridos em cada pedido.

• olist order payments dataset: Este conjunto de dados contém informações sobre as formas de pagamento para os pedidos.

• olist order reviews dataset: Este conjunto de dados contém informações sobre as avaliações feitas pelos clientes após ter realizado a compra.

• olist orders dataset: Este conjunto de dados contém informações sobre compra realizada pelo cliente referente a cada pedido.

• olist products dataset: Este conjunto contém informações sobre os produtos vendidos pela Olist.

(28)

27

Olist.

• product category name translation: Por fim, este conjunto de dados contém informações da categoria do produto traduzido para o português, uma vez que o nome das categorias dos produtos está em inglês no conjunto de dados “olist products dataset”.

Através da Figura 3 é possível verificar a estrutura de como os conjuntos de dados citados acima estão distribuídos e como as tabelas se relacionam através de um campo chave conhecido como chave primária, responsável por definir a unicidade da tabela.

Tomando como exemplo as tabelas “olist_order_customer_dataset” e “olist_orders_dataset”, o relacionamento entre elas se da através do campo chave denominado “custumer_id”, onde cada cliente possui um código único, ou seja, através desse código identifica - se o tipo de pedido realizado por um determinado cliente.

Figura 3 – Conjunto de Dados Olist.

(29)

explorató-28

rias dos dados e algumas técnicas de visualização de dados permitindo a interação com o usuário. Através de gráficos e tabelas interativas foi possível identificar relações entre as variáveis presentes no banco de dados e obter possíveis insights que eventualmente poderiam contribuir no processo decisório de um organiação no mundo real.

O software utilizado para a realização do trabalho foi a linguagem R de programação (TEAM, 2018) versão 3.6.3, escolhido por ser um software que permite todo o desenvolvimento em um mesmo ambiente, possuindo diversos pacotes que permite a aplicação de técnicas de mineração de dados e visualização interativa. O R é uma linguagem de código aberto, orientada a objetos e disponibilizada de forma gratuita, podendo ser baixado diretamente através do site “https://cran.r-project.org/”.

Os painéis permitem a comunicação visual rápida de um grande volume de informações e são ferramentas essenciais para apoiar em uma tomada de decisão baseada em dados. Nesse sentido, foi utilizado uma combinação de pacotes entre o flexdashboard (IANNONE; ALLAIRE; BORGES, 2020) , shiny (CHANG; CHENG; ALLAIRE; SIEVERT; SCHLOERKE; XIE; ALLEN; MCPHERSON; DIPERT; BORGES, 2021), ggplot2 (WICKHAM, 2016) e plotly (SIEVERT, 2020). Através dessa combinação, é possível transformar um painel estático em um painel interativo e dinâmico com uma grande variedade de recursos que podem ser atribuídos em seu layout, permitindo que os usuários alterem opções como filtros ou medidores deslizantes dentro de uma faixa especificada e vejam os resultados atualizados instantaneamente.

4 RESULTADOS E DISCUSSÕES 4.1 VISÃOGERALPAINELINTERATIVO

Neste capítulo é apresentado os resultados alcançados com este trabalho dentro do tema proposto no desenvolvimento de um mecanismo de visualização de dados do dataset de e-commerce da Olist.

Através de métodos estatísticos foram realizados alguns cruzamentos com as variáveis presentes no dataset, para que a partir dessa exploração, apresentar insights que poderiam ser aplicados no mundo real. Como mencionado na seção anterior, as análises foram construídas

(30)

29

utilizando o software R. Todos as visualizações apresentadas nesta seção permitem a interação com o usuário através de zoom in, zoom out, auto escala, resetar eixo, mouseover (ativado quando o usuário passa o mouse sobre alguma área do gráfico ou tabela), seleção de dados e download da figura. Na Figura 4 tem – se destacado o menu com as opções de interações, o mesmo serve para as outras figuras apresentadas nesta seção.

4.1.1 TRANSAÇÕES(NACIONAL)

Os resultados das análises aqui apresentados são referentes ao contexto nacional dos dados do dataset. Através da Figura 4, é possível verificar a série temporal do total de transações diárias do número de pedidos no período de 2016 a 2018. Nota- se que há um pico do total de pedidos por dia no mês de novembro, podendo ser influenciado pela Black Friday daquele ano ou não. Também cabe uma análise mais profunda a fim de verificar as vendas em outros feriados nacionais onde costuma - se ter um grande volume de vendas.

Figura 4 – Transações Diárias de Pedidos por Dia.

Na Figura 5, observa – se que em 78,3% das vendas o método de pagamento mais utilizado pelos clientes que compraram pela Olist optou por pagar suas compras utilizando cartão de crédito, seguido pela opção de boleto bancário com 17,9% das vendas.

(31)

30

Figura 5 – Tipo de pagamento Realizado.

Já na Figura 6, observa- se que dos clientes que optaram por pagar suas compras utilizando cartão de crédito, foram realizados 52546 pagamentos, sendo que a maioria dos clientes preferiram pagar à vista. Nota -se também que além da interação com o gráfico, o usuário tem a opção de selecionar o filtro para exibir todas as parcelas, até 10 (dez) parcelas e mais que 10 (dez) parcelas.

(32)

31

Figura 6 – Número de Parcelas Selecionadas.

Através desses dados de pagamentos apresentados, os gestores poderiam tirar alguns insights como direcionar algumas políticas de pagamento para viabilizar ainda mais o negócio da empresa, como por exemplo, optar por acrescentar juros ou não a medida que os clientes parcelam suas comprar no cartão, oferecer descontos para os clientes que optam por dividir somente de 1x no cartão, oferecer benefícios para clientes que optarem por utilizar o voucher ou cartão de débito, dado que para os vendedores a forma de pagamento pode influenciar no tempo do recebimento do dinheiro da venda realizada.

O gráfico apresentado na Figura 7 representa o quantitativo de clientes por estado. Nota -se que os estados pertencentes a região sudeste é onde detém a maior concentração de clientes, destaque para São Paulo, Rio de Janeiro e Minas Gerais seguido pelos estados da região sul, destaque para o Rio Grande do Sul, Paraná e Santa Catarina. Em contrapartida, observa- se que os estados que possuem o menor número de clientes são os estados que pertencem a região norte do Brasil, destaque para Rondônia, Amazonas, Acre, Amapá e Roraima.

(33)

32

Figura 7 – Número de Clientes por Estado.

O gráfico da Figura 8 representa o quantitativo de clientes por cidade. Destaque para as cidades de São Paulo, Rio de Janeiro e Belo Horizonte por possuírem as maiores quantidades de clientes que compraram na Olist. Para uma melhor leitura do gráfico, as cidades com menores representatividade de clientes foram agrupadas na categoria “Other” (outros).

(34)

33

Figura 8 – Número de Clientes por Cidade.

Analisando a quantidade de clientes por região e cidade, os gestores poderiam direcionar estudos para descobrirem como aumentar a quantidade clientes em regiões com menores índices de clientes, o caso da região norte e nordeste por exemplo.

A Figura 9 apresenta uma tabela interativa com o quantitativo do total de vendedores e clientes por estado. A opção de interação ajuda o usuário a observar os dados obtidos no contexto geral do dataset analisado, permitindo filtros de busca, quantidade de exibição de dados e filtragem por página.

(35)

34

Figura 9 – Total de Vendedores e Clientes por Estado.

4.1.2 TRANSAÇÕES(ESTADUAL)

As análises nesta seção são análogas a da seção anterior, a diferença é que aqui as análises foram construídas em contexto estadual. Através do clique na opção de filtro por estado é possível escolher o estado de interesse e verificar os resultados instantaneamente. O estado escolhido para apresentar os resultados foi Minas Gerais.

A Figura 10 apresenta a série temporal do total de transações diárias do número de pedidos no período de 2016 a 2018. Assim como no contexto de transações nacional nota- se que há um pico do total de pedidos por dia no mês de novembro, podendo ser influenciado pela Black Friday daquele ano ou não. Também cabe uma análise mais profunda a fim de verificar as vendas em outros feriados nacionais onde costuma - se ter um grande volume de vendas.

(36)

35

Figura 10 – Número de Pedidios Diários - Minas Gerais.

Através das Figuras 11 e 12, observa – se que em 78,62 das vendas os mineiros optaram por usar o cartão de crédito como forma de pagamento, sendo que a maioria dos pagamentos sendo realizado somente em1x no cartão, somando um total de 5787 pagamentos.

(37)

36

Figura 12 – Número de Parcelas.

Na Figura 13 tem – se a categoria de produtos mais vendidas para os clientes pertencen-tes ao estado de Minas Gerais. Nota – se que os produtos de cama mesa e banho foram os preferidos dos mineiros. Para essa consulta o usuário além da interação com o gráfico tem a opção filtrar apenas as 10 categorias de produtos mais vendidos.

(38)

37

Na Figura 14 observa – se que Belo Horizonte, capital do estado de Minas Gerais, se destaca por ser a cidade com o maior número de clientes, seguida por Juiz de fora e Contagem. As cidades com números de clientes menos expressivos foram agrupadas na categoria “Other” (Outros).

Figura 14 – Número de Clientes por Cidade - Minas Gerais.

4.2 VISÃOESPACIAL

Por fim, nesta seção tem – se a visualização espacial segmentada pelo volume de compradores e vendedores. O usuário tem a opção de visualizar o mapa do Brasil por estado ou município, escolhendo a visualização por compradores ou vendedores. Para o gráfico da Figura 15 abaixo, foi escolhida a segmentação por compradores e visualizando as informações por estado.

(39)

38

Figura 15 – Visualização Espacial.

Para corroborar a informação apresentada na seção onde apresenta os dados em um contexto nacional, observa-se que a região sudeste possui o maior volume de clientes, seguido pela região sul e posteriormente a região nordeste.

5 CONSIDERAÇÕES FINAIS

Visto que a constante evolução da tecnologia viabiliza o armazenamento de uma grande massa de dados dificultando o processo de visualização, torna - se necessário o uso de mecanismos de visualizações com o objetivo de contribuir com a melhoria deste processo.

O trabalho realizado buscou identificar como o uso de algumas técnicas de visualização de dados podem ser úteis para facilitar a compreensão até mesmo para quem não os conhecem em detalhes, sumarizando as principais características por meio de métodos visuais identificando se estas representações são eficazes na transmissão das informações e como podem ser importantes para auxiliar na gestão estratégica de uma empresa que atua no e-commerce brasileiro.

A partir dos resultados da análise exploratória dos dados, pecebeu - se que o mês de novembro possui o maior número de pedidos por dia, dentro do período estudado (2016-2018). Sugere-se que esse pico pode ser devido a promoção da Black Friday, também cabe uma análise

(40)

39

mais profunda a fim de verificar as vendas em outros feriados nacionais onde costuma - se ter um grande volume de vendas. O método de pagamento mais utilizado é o de cartão de crédito, podendo estar relacionado a facilidade de utilização do meio e por opções de parcelamento, mesmo a maioria preferindo pagar apenas de 1x, essa parcela pode ser descontada no mês seguinte, diferente da opção de débito e boleto, em que é descontado no mesmo dia. As regiões com mais clientes realizando compras são as do Sudeste, seguido pelo Sul e os com menos clientes são os da região Norte.

Com os resultados já analisados, as empresas podem extrair possíveis insights que auxiliarão no seu processo de tomada de decisão. Como exemplo, criar políticas de pagamentos, de acordo com os interesses dos vendedores, como oferecer porcentagens de descontos em débito e boletos bancários, não sendo necessário esperar dias pelo recebimento do produto ou serviço. Adicionar porcentagens de juros à medida que aumentam os números de parcelas também é uma opção, pois recebendo o dinheiro de imediato ele pode ser utilizado para pagamentos ou reinvestido no mercado. Também a necessidade de buscar mais participação dos clientes da região Norte nas compras, investindo em ações de marketing e de prospecção de clientes nas regiões de baixas porcentagens, oferecendo descontos e condições personalizadas de pagamentos até atrair o público desejado.

Importante ressaltar que existem várias outras técnicas de visualização de dados que não foram abordadas neste trabalho, e que o dataset utilizado pode ser utilizado em diferentes cenários além da visualização de dados, sendo um assunto para possíveis trabalhos futuros.

(41)

40

6 REFERÊNCIAS

KAGGLE. Conjunto de dados públicos de comércio eletrônico brasileiro por Olist. Disponível em: https://www.kaggle.com/olistbr/brazilian-ecommerce. Acesso em: 15 set. 2020.

ALBERTIN, A. L. Comércio Eletrônico: Modelo, Aspectos e Contribuições de sua Aplicação. 7 ed. São Paulo: Atlas, 2016.

BAOHUA, G.; FEIFANG, H.; HUAN, L. Sampling and its application in data mining: A survey. [S.l.], 2000. Disponível em: http://dl.comp.nus.edu.sg/bitstream/handle/1900.100/1408/report.pdf?s equence=3&isAllowed=y. Acesso em: 18 set. 2020.

BARNETT, V.; LEWIS, T. Outliers in statistical data. [S.l.]: Wiley, 1974.

BERRY, M. J.; LINOFF, G. Data mining techniques: for marketing, sales, and customer support 1997. John Willey & Sons, 1997.

CAMERON, D. Eletronic Commerce: the New Business Platform of the Internet. Charleston: Computer Technology Research Corp., 1997.

CARDOSO, O. N. P.; MACHADO, R. T. M. Gestão do conhecimento usando data mining: estudo de caso na universidade federal de lavras. Revista de Administração Pública, v. 42, n. 3, p. 495–528, 2008.

CARVALHO, H. M. Aprendizado de Máquina voltado para Mineração de Dados: Árvores de Decisão. 2014. 68 f. Monografia (Graduação em Engenharia de Software) – Faculdade UnB Gama – FGA, Universidade de Brasília, Brasília, 2014.

CARVALHO, M. S. R. M. A trajetória da internet no Brasil: Do surgimento das redes de computadores à instituição dos mecanismos de governança. Dissertação (Mestrado em Ciências de Engenharia de Sistemas e Computação). Universidade Federal do Rio de Janeiro. Rio de Janeiro, 2006.

CASTANHEIRA, L. G. Aplicação de técnicas de mineração de dados em problemas de clas-sificação de padrões. Dissertação (Mestrado), Universidade Federal de Minas Gerais, 2008. Disponível em: https://www.ppgee.ufmg.br/documentos/Defesas/777/. Acesso em: 18 set. 2020.

(42)

41

FAYYAD et al. From data mining to knowledge discovery in databases. AI magazine, v. 17, 1996. GOLDSCHMIDT, R. R.; PASSOS, E. Data Mining: Um Guia Prático. Rio de Janeiro: Campus, 2005.

GOLDSCHMIDT, R.; BEZERRA, E.; PASSOS, E. Data mining: Conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro-RJ: Elsevier, 2015.

GOLDSCHMIDT, R.; PASSOS, E. Data Mining: Conceitos, técnicas, algoritmos, orientações e aplicações. [S.l.]: Elsevier Brasil, 2017.

MENDES, L. Data Mining: Estudo de Técnicas e Aplicações na Área Bancária. Monografia (Tecnólogo em Processamento de Dados), Faculdade de Tecnologia de São Paulo, São Paulo, 2011. ROSA, J. R. C. Marketplace no Brasil: desafios, vantagens e tendências deste modelo de negócio para empresas varejistas. 2019. 68 f. Dissertação (Mestrado em Administração de Empresas) – Programa de Pós-Graduação Stricto Sensu em Administração de Empresas, Faculdade FIA de Administração e Negócios, São Paulo, 2019.

Strategy briefing: Understanding global marketplace trends. Euromonitor International, 2018. TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introdução ao datamining: mineração de dados. [S.l.]: Ciência Moderna, 2009.

TEIXEIRA, C. B. Análise de sentimento dos usuários do twitter em relação à atual situação política do Brasil. 2019. 59 f. Monografia (Graduação em Estatística) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2019.

VARIAN, HAL. The McKinsey Quarterly. 2019 Hal varia non the web challenges managers. Disponível em: < https://www.mckinsey.com/industries/technology-media-and-telecommunicatio ns/our-insights/hal-varian-on-how-the-web-challenges-managers >. Acesso em: 02 fev. 2021. SIMON, PHIL. The Visual Organization: Data Visualization, Big Data, And The Quest For Better Decisions, [S.l.]: 2014.

DEAN, JARED. Big data, Data Mining and Machine Learning: Value Criation for Business Leaders and Practitioners, 2014.

(43)

42

RUSSOM, PHILIP. Big Data Analytics, [S.l.]: 2011.

TEAM, R. C. R: A language and environment for statistical computing: The R development Core Team, 2008.

H. Wickham. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2016. C. Sievert. Interactive Web-Based Data Visualization with R, plotly, and shiny. Chapman and Hall/CRC Florida, 2020.

Winston Chang, Joe Cheng, JJ Allaire, Carson Sievert, Barret Schloerke, Yihui Xie, Jeff Allen, Jonathan McPherson, Alan Dipert and Barbara Borges. shiny: Web Application Framework for R, 2021. R package version 1.6.0. Disponíbvel em: https://CRAN.R-project.org/package=shiny. Richard Iannone, JJ Allaire and Barbara Borges. flexdashboard: R Markdown Format for Flexible Dashboards, 2020. R package version 0.5.2.Disponível em: https://CRAN.R-project.org/package= flexdashboard.

Referências

Documentos relacionados

As principais indicações para a realização foram a suspeita de tuberculose (458 pacientes) e uso de imunobiológicos (380 pacientes).. A maior prevalência de resultado positivo

Apesar de o mercado acionário brasileiro ter se tornado mais importante para a economia brasileira, sobretudo entre o período de 2002 para 2005 (Tabela 3), sua repre- sentatividade

No caso de uma apresentação de Artigo em formato Áudio, o arquivo deverá ser enviado em CD por correio postal para:.. Comitê Editorial INFEIES - RM

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para

Contudo, não é possível imaginar que essas formas de pensar e agir, tanto a orientada à Sustentabilidade quanto a tradicional cartesiana, se fomentariam nos indivíduos