Processamento, Cat´ alogo de Dados e Acesso ao Data Lakeao Data Lake

Pipeline de Dados

4.2 Processamento, Cat´ alogo de Dados e Acesso ao Data Lakeao Data Lake

Os dados armazenados no Data Lake ainda est˜ao em seu formato bruto. A de-manda de tempo de desenvolvimento de software seria bastante alta caso seja

ne-cess´ario lidar com v´arios formatos diferentes. Por isso a etapa de processamento

é essencial para tornar o desenvolvimento de software e análise de dados mais es-calável.

Nessa etapa os dados armazenados são convertidos para um formato comum cha-mado Parquet. O parquet é um formato colunar e binário que foi desenvolvido em uma coopera¸cão entre o Twitter e Cloudera para criar uma representa¸cão colunar eficiente [18].

A vantagem da transforma¸cão dos dados para o formato parquet não é apenas a unifica¸cão do tipo do dado. O formato colunar fornece mais performance para agrupamento e leitura de dados por coluna, aplica¸cão muito útil para a etapa de data warehouse, por exemplo. Além disso os dados são compactados, economizando espa¸co de armazenamento.

O processamento dos dados brutos em qualquer formato para o parquet é realizado através do Apache Spark, que é uma ferramenta Big Data que tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribu´ıda [19]. O Spark facilita o processamento de grandes volumes de dado e suporta três linguagens de programa¸cão: Python, Java e Scala.

Os dados são catalogados a partir do uso do servi¸co AWS Glue, segundo a própria Amazon o AWS Glue é um servi¸co de extra¸cão, transforma¸cão e carga (ETL) ge-renciado que facilita a prepara¸cão e a carga de dados para análises pelos clientes.

Você pode criar e executar uma tarefa de ETL com apenas alguns cliques no Con-sole de Gerenciamento da AWS. Basta indicar ao AWS Glue os dados armazenados na AWS que ele os descobre e armazena os metadados associados (ex.: defini¸cão e esquema de tabela) no AWS Glue Data Catalog. Uma vez catalogados, os dados são disponibilizados imediatamente para pesquisas, consultas e ETL.

Dessa forma, os dados processados em formado parquet tem seu catalogo de me-tadados associados, tornando mais simples a compreens˜ao e futuro trabalho com os dados.

Outro servi¸co utilizado é o AWS Athena, um servi¸co de consultas interativas que facilita a análise de dados no Amazon S3 usando SQL padrão. O Athena é fornecido já integrado ao AWS Glue Data Catalog, o que permite criar um repositório de metadados unificado em vários servi¸cos, fazer crawling de fontes de dados para descobrir esquemas e preencher o Catalog com defini¸cões novas e modificadas de tabelas e parti¸cões, além de manter o versionamento do esquema [20].

Dessa forma, podem-se realizar consultas aos dados em parquet via Athena, pelo próprio console fornecido pela Amazon. Além disso, também é poss´ıvel conectar com o Athena via código, possibilitando a integra¸cão com notebooks como o Jupyter, para que sejam realizadas análises exploratória dos dados, por exemplo.

4.2.1 Data Warehouse, API’s e Visualiza¸ c˜ ao de Dados

Um Data Warehouse é um deposito de dados orientado por assunto, integrado, não volátil, variável com o tempo, para apoiar as decisões gerenciais [21]. O DW tem sua modelagem orientada a assunto, dentro da lógica de negócios de uma empresa.

Depois da etapa de processamento de dados, as APIs gerenciam o tratamento deles para que possam ser armazenados nos Data Warehouses j´a em forma mais simples e sofisticada para que eles possam ser analisados e gerar valor ao neg´ocio.

A Amazon [4] cita as seguintes vantagens da utiliza¸cão do DW: Melhor tomadas de decisão, consolida¸cão de dados de diversas fontes, qualidade consistência e precisão dos dados, inteligência histórica e separa¸cão entre o processamento de análises dos bancos de dados transacionais, aumentando a performance nos dois sistemas.

Tanto o Data Warehouse quanto o Data Lake são maneiras de armazenar dados, a figura 4.1 ilustra as diferen¸cas entre ambos. Em resumo, enquanto o Data Lake é um repositório centralizado para todos os dados, o Data Warehouse é um repositório para os dados estruturados e otimizado para consumo em inteligência de negócio.

Com os dados estruturados no Data Warehouse os servi¸cos são capazes de consumi-los para processamento e gera¸cão de análises mais sofisticadas. Por fim, é poss´ıvel

Figura 4.1: Compara¸c˜ao entre Data Warehouse e Data Lake. Fonte: AWS [4]

visualizar as informa¸cões geradas pelo pipeline a partir de alguma ferramente de inteligência de negócios, sendo no pipeline apresentado o Power BI.

4.2.2 Agendamento e Orquestra¸ c˜ ao

Ao percorrer o pipeline de dados de ponta a ponta, diversas fontes de dados podem ser utilizadas, tendo diferentes frequências de atualiza¸cão. Bem como di-ferentes servi¸cos estão envolvidos no gerenciamento de tais dados. Na ponto final, as informa¸cões e relatórios gerados devem estar sempre atualizados. Emerge a ne-cessidade de orquestrar todos esses elementos criados durante o ciclo de vida do projeto.

O Apache Airflow é uma plataforma aberta de gerenciamento de workflow criada em 2014. Com o Airflow é poss´ıvel gerenciar fluxos de trabalho complexos a partir da utiliza¸cão de scripts na linguagem Python.

A estrutura dos fluxos é baseada em DAG’s (Directed Acyclic Graph) onde uma tarefa do fluxo aponta para outra, mas ciclos não podem ser formados, como mos-trado na figura 4.2. Dessa maneira é poss´ıvel definir relacionamentos e dependências entre as tarefas que devem ser realizadas na execu¸cão do pipeline.

Como o airflow é gerenciado via código em python é poss´ıvel gerar pipelines de dados dinâmicos, além de ser poss´ıvel colocar testes nos pipelines, tornando o

de-Figura 4.2: Exemplo de DAG no Airflow. Fonte: Airflow [5]

senvolvimento mais robusto. Al´em disso, ele possui uma interface de visualiza¸c˜ao para acompanhamento dos pipelines, como mostrado na figura 4.3

Figura 4.3: Interface Gr´afica Airflow. Fonte: Airflow [5]

A grande vantagdem da utiliza¸cão do Airflow no pipeline de dados aqui apresen-tado é a possibilidade que realizar chamadas a API’s em suas tarefas, realizando de forma completa a integra¸cão do pipeline de dados.

4.2.3 O pipeline de dados aplicado a constru¸ c˜ ao do portf´ olio

O pipeline de dados foi apresentado para que se entenda sua aplica¸cão na cons-tru¸cão do portfólio baseado em investimento por fatores apresentado no cap´ıtulo

Os dados da CVM são ingeridos trimestralmente, enquanto os dados de pre¸co de a¸cões e ´ındices são guardados diariamente no Data Lake. Os dados são pr´ e-processados, assim que ingeridos, para o formato parquet. A partir dessa etapa vários micro servi¸cos são acionados para realizar o processamento dos dados parquet para o esquema desejado no Data Warehouse. Para os dados da CVM isso inclui a tradu¸cão das contas apresentadas nos demonstrativos financeiros parar os múltiplos mostrados no 2.

Na data de montagem de portfólio os dados são então consumidos e processados, de forma que as regras de negócio definidas no cap´ıtulo 3 são aplicadas e o portfólio

´e gerado.

As informa¸cões do portfólio são guardadas também um Data Warehouse de onde podem ser consumidas pelo Power BI para que a análise da estratégia implementada seja realizada. Além disso, as informa¸cões acerca de múltiplos também podem ser analisadas e visualizadas na ferramenta.

Cap´ıtulo 5

No documento Uma abordagem sistemática para Value Investing na Bolsa Brasileira. Alexia Pimentel (páginas 41-47)