Projeto Integrado em Aprendizado de

(1)

Projeto Integrado em Aprendizado de

M´

aquina

Arquitetura

Geanderson Esteves dos Santos

(2)

Cronograma

17/09 - Conceitos Fundamentais

27/10 - Arquitetura + Ponto de Controle I

05/11 - Visualiza¸c˜ao + Ponto de Controle II 17/12 - Apresenta¸c˜ao Projeto Final

(3)

Distribui¸c˜ao de Pontos

15 - Ponto de Controle I (Aula 2) 15 - Ponto de Controle II (Aula 3) 20 - Apresenta¸c˜ao do Projeto (Aula 4) 20 - Parte Escrita (Aula 4)

30 - Entreg´aveis Projeto (Aula 4)

Pol´ıtica de Atraso: Cada dia de atraso ser´a descontado 20% da nota

(4)

Atividades Avaliativas

Ponto de Controle I (27/10) Parte Escrita Vis˜ao Geral

Ponto de Controle II (05/11)

Apresenta¸cão Oral sobre a Prototipa¸cão Apresenta¸cão do Projeto (17/12) Parte Escrita (17/12)

(5)

Recursos Contato geanderson@dcc.ufmg.br Site da Disciplina http://homepages.dcc.ufmg.br/~geanderson/piam.html GitHub da Disciplina https://github.com/gesteves91/piam Canvas https://pucminas.instructure.com/courses/6899 4

(6)

T´opicos

1. Reportando os Resultados

2. Ferramentas para Aprendizado

3. An´alise Explorat´oria de Dados

4. Pipeline de Aprendizado de M´aquina

5. Ambiente de Desenvolvimento

6. Projeto do Curso

(7)

(8)

Breve Introdu¸c˜ao ao Tex

O formato tex foi proposto por Donald Knuth em 1978 Inicialmente, o tex foi proposto para facilitar a impressão de equa¸cões matemáticas em sistemas computacionais

Considerado o sistema tipogr´afico mais sofisticado at´e os dias atuais

´

E um formato muito usado na academia, e não somente na computa¸cão, mas em outras áreas do conhecimento

(9)

Surgimento do Latex

A partir do tex, em 1984, surgiu o formato LA_TEX

Foi concebido como um sistema de software para prepara¸c˜ao de documentos

Ao contrário do formato .doc, onde “o que você ver é o que você tem”

No LA_{TEX, vocˆe trabalha com o texto plano (“plain text”)}

Muito utilizado devido a facilidade de usar templates pr´e-definidas Assim, evita a preocupa¸c˜ao com normas de escrita (ex. ABNT, APA, etc)

(10)

Comandos B´asicos do Latex Input: \documentclass{article} \begin{document} Hello World! \end{document} Output: Hello World!

(11)

Referˆencias para Utilizar Latex

Referˆencia Oficial:

https://www.latex-project.org/ Overleaf:

https://www.overleaf.com/project Tutorial:

https://www.latex-tutorial.com/

Sugiro fortemente utilizar o LA_{TEX, se o seu projeto pode virar um}

artigo ciˆent´ıfico

(12)

(13)

IPython

IPython ´e um terminal de linha de comando para computa¸c˜ao interativa

A vers˜ao baseada em navegadores ´e conhecida como interface de Notebook

− Suporte para visualiza¸c˜ao de dados interativos e uso de kits de ferramentas GUI

− Intera¸cão interpretável e flex´ıvel − Ferramentas para computa¸cão paralela

(14)

Jupyter Notebook

Uma ferramenta muito poderosa para desenvolver interativamente projetos de ciˆencia dos dados

O que ´e um notebook?

Um notebook integra c´odigo e sa´ıda em um ´unico documento que pode conter:

− Visualiza¸cão − Narrativa de texto − Equa¸cões matemáticas − E outros tipos de m´ıdia

(15)

Jupyter Notebook

Uma ferramenta muito poderosa para desenvolver interativamente projetos de ciˆencia dos dados

O que ´e um notebook?

Um notebook integra c´odigo e sa´ıda em um ´unico documento que pode conter:

− Visualiza¸cão − Narrativa de texto − Equa¸cões matemáticas − E outros tipos de m´ıdia

(16)

Jupyter Notebook

Notebooks s˜ao muito utilizados em todo processo de ciˆencia dos dados, mas principalmente no EDA

Jupyter foi pensado para as linguagens Julia, Python, e R ´

E um projeto open-source (como praticamente todos projetos nessa ´area)

(17)

Clientes Jupyter

Os clientes mais conhecidos s˜ao: − Jupyter Notebook (Local) − Jupyter Lab (Local)

− Google Colaboratory (Nuvem)

Vocˆe pode usar em editores conhecidos como: − PyCharm

− VS Code

(18)

Componentes do Jupyter

Um Jupyter Notebook possui duas estruturas principais: − Célula: Um recipiente de texto ou código executável que é

exibido em um notebook

− Kernel: O motor computacional que executa o c´odigo contido no notebook

(19)

C´elula de um Notebook

Uma c´elula pode conter duas entradas Python e Markdown: − Qualquer c´odigo em Python pode ser executado

interativamente em uma c´elula (.py)

− Qualquer escrita em Markdown pode ser executada em uma c´elula (.md)

A combina¸c˜ao dessas duas estruturas torna o notebook uma fonte muito rica de informa¸c˜ao

O notebook guarda a ordem de execu¸c˜ao das c´elulas

(20)

Markdown

Markdown ´e uma linguagem muito simples, f´acil de entender, e que formata texto puro

Sua sintaxe ´e muito parecida com HTML Guia oficial:

(21)

Jupyter Kernel

O Kernel é o responsável por executar as células ´

E poss´ıvel alterar o Kernel para suportar outros ambientes e at´e outras linguagens de programa¸c˜ao

O Kernel do Jupyter, atualmente, suporta mais de 100 linguagens de programa¸c˜ao

Um Kernel somente executa Notebooks considerados confi´aveis

(22)

Scikit-Learn

Extens˜ao do SciPy (Scientific Python) s˜ao conhecidas como Scikits Come¸cou com uma ideia no Google Summer Code (2007)

Caracter´ısticas do Scikit-Learn:

− Algoritmos supervisionados e n˜ao-supervisionados − Utiliza uma estrutura parecida com o Numpy − Python API interface

− ´E relativamente r´apida pois utiliza C no back-end − Open-source

(23)

Scikit-Learn Principais Funcionalidades

− Modelos lineares

− SVM, kNN, Bayes, Árvores de decisão − Clusteriza¸cão − Valida¸cão Cruzada − Grid Search − Pipeline − Avalia¸cão de Modelos − Transforma¸cão do Dataset − etc 19

(24)

(25)

Scikit-Learn Estimator

Um estimador ´e um objeto que aprende do conjunto de dados Este objeto pode ser:

− Classificador − Regressor

− Algoritmo de Clusteriza¸c˜ao

− Transformador que extrai e filtra features relevantes

(26)

Scikit-Learn Uso B´asico

from sklearn import svm

estimator = svm.SVC(gamma=0.001) estimator.fit(X, y)

(27)

(28)

Pandas

Pandas ´e uma das ferramentas mais importantes para ciˆencia dos dados em Python

Uma biblioteca open-source, muito r´apida, e f´acil de usar Foi constru´ıda sobre a biblioteca NumPy

(29)

Pandas

Três estruturas de dados: − series (1 dimensão) − dataframe (2 dimensões) − panel (3 dimensões)

Prepara¸c˜ao de dados e limpeza de dados ´e um pouco lenta em Pandas

Crescimento muito elevado no comunidade a partir de 2011

(30)

Pandas Profiling

Gera um profiling de um dataframe

Basicamente, ele encapsula a fun¸c˜ao cl´assica de describe() do pandas

Adicionando novas funcionalidades e visualiza¸c˜ao

(31)

Pandas Profiling Essencial

O que podemos fazer com o Pandas Profiling: - Inferência de tipo: detecta o tipo da coluna - Ocorrência: valores únicos, valores faltantes

- Estat´ıstica descriptiva: m´edia, moda, desvio padr˜ao, etc. - Valores mais frequentes

- Histograma - Correla¸c˜oes - etc

(32)

Pandas Profiling (EDA)

https://github.com/gesteves91/piam/blob/master/ notebooks/01-pratica.ipynb

(33)

(34)

Pipelines

Geralmente, uma pipelinedescreve oumodelaum processo de aprendizado de m´aquina

− Escrever c´odigo

− Liberar os releases para produ¸c˜ao − Desempenhar extra¸c˜ao de dados − Treinar os modelos

(35)

Estrutura de um Pipeline Data EDA Cleaning Normalize Balance Training Evaluation 29

(36)

Escolha do Dado

Data

EDA

- Análise exploratória - Distribui¸cões - Correla¸cão

- Come¸car a modelagem

(37)

Escolha da Estrutura e Fonte de Dados Data EDA Cleaning Normalize Balance

- Definir se ser´a criado um fluxo local ou cloud - Modelar os dados em algum banco de dados

Hadoop, SQL, NoSQL, etc ... - Organizar os dados para leitura - Disponibilizar os dados

- Os dados podem estar estruturados ou n˜ao

(38)

An´alise Explorat´oria e Modelagem Data EDA Cleaning Normalize Balance

• Utilizar alguma plataforma (ex. Colab) para importar os dados e explor´a-los

• Visualiza¸c˜ao de Dados

• Definir que tipo de an´alise ir˜ao utilizar − Algoritmo supervisionado

- Classifica¸c˜ao - Regress˜ao

− Algoritmo n˜ao-supervisionado - Clusteriza¸c˜ao

(39)

Aplica¸c˜ao de T´ecnicas de ML Data EDA Cleaning Normalize Balance Training Evaluation

− Aplicar um conjunto de t´ecnicas da classe escolhida

− Definir as métricas que mais fazem sentido - Classifica¸cão: F1, Acurácia, Precisão,

Revoca¸c˜ao, Curva ROC

- Regressão: R2, MSE, RMSE, MAE - Clusteriza¸cão: Análise de silhueta, Elbow − Definir quais métricas deveriam ser usadas:

e.g., ajustes de parˆametros, ajustes de entrada − Definir como entregar o modelo para os

interessados

(40)

Criar a Estrutura do Projeto Data EDA Cleaning Normalize Balance

− Classes abstratas e m´odulos estruturados

− Definir sistema de logs e como estrutur´a-los para o Cientista / Engenheiro de Dados poder dar manuten¸c˜ao

− Alertas: - Treino

- Leitura de dados - Acur´acia

− Definir onde os artefatos ser˜ao armazenados: - Modelo

- M´etricas - Encoding

(41)

Ferramentas para Pipelines

Duas ferramentas se destacam para cria¸c˜ao de Pipelines: − Scikit-Learn Pipeline https://scikit-learn.org/stable/modules/ generated/sklearn.pipeline.Pipeline.html − Kedro https://github.com/quantumblacklabs/kedro 35

(42)

Sklearn Pipeline

from sklearn.pipeline import Pipeline ... tfidf = TfidfVectorizer(max_features=max_features) lr = LogisticRegression() p = Pipeline([ ("tfidf", tfidf), ("lr", lr) ])

(43)

Pipeline

https://github.com/gesteves91/piam/blob/master/ notebooks/02-pratica.ipynb

(44)

Kedro

Kedro aplica conceitos de engenharia de software para ciˆencia dos dados

Utiliza para o workflow o conceito de Pipelines e Nodes Projeto open-source

(45)

Node do Kedro

from kedro.pipeline import node

def return_greeting(): return "Hello" return_greeting_node = node( func=return_greeting, inputs=None, outputs="my_salutation" ) 39

(46)

Pipeline do Kedro

from kedro.pipeline import Pipeline

# Assemble nodes into a pipeline

(47)

(48)

Conceito de Ambientes de Desenvolvimento

Muito importante para ciência dos dados a medida que precisamos utilizar bibliotecas que não são padrão do Python

Atualiza¸cões podem causar falhas inesperadas no seu projeto Não é poss´ıvel que uma instala¸cão do Python seja utilizada para todas as aplica¸cões em Python

(49)

Principais Ferramentas para Ambientes

Algumas ferramentas que podemos utilizar: − virtualenv

− conda − pipenv

− venv (nativo do Python) − Dentre Outras

(50)

Passo-a-Passo Ambientes de Desenvolvimento

Cria um ambiente chamado venv python3 -m venv venv

Ativa ambiente venv source venv/bin/activate

Salva os pacotes do ambiente venv pip3 freeze > requirements.txt

Instala os pacotes de um arquivo chamado requirements.txt pip3 install -r requirements.txt

(51)

(52)

Prototipa¸c˜ao do Projeto

Prototipa¸c˜ao com registro no GitHub

Apresentar o projeto e a estrutura definida em at´e 15 minutos

− Problema a ser abordado e objetivos do projeto − Classes ou fun¸c˜oes

− Estrutura do banco de dados − Descreva o fluxo do pipeline

− Algoritmos de aprendizado de m´aquina − Dificuldades e aprendizados

(53)

Ponto de Controle II

https://homepages.dcc.ufmg.br/~geanderson/listas/ piam/project.pdf

(54)

(55)

GitHub Princ´ıpios

GitHub ´e uma ferramenta baseada no Git, uma plataforma open-source de versionamento de c´odigo

Linus Torvalds ´e o criador do Git, assim como o Kernel do Linux

(56)

GitHub Conceitos

GitHub ´e uma plataforma de desenvolvimento colaborativo Possui concorrentes interessantes como o GitLab e BitBucket ´

E um conceito antigo na computa¸c˜ao, mas que ganhou mais for¸ca com desenvolvimento de software ´agil e colaborativo

Não é recomendado fazer um projeto de ciência de dados sem uso do GitHub (ou similares)

(57)

GitHub Conceitos

GitHub ´e uma plataforma de desenvolvimento colaborativo Possui concorrentes interessantes como o GitLab e BitBucket ´

E um conceito antigo na computa¸c˜ao, mas que ganhou mais for¸ca com desenvolvimento de software ´agil e colaborativo

Não é recomendado fazer um projeto de ciência de dados sem uso do GitHub (ou similares)

(58)

GitHub Repo

Um repositório é um local onde todos os arquivos de um projeto são armazenados

Cada reposit´orio recebe um endere¸co ´unico (url)

Com este reposit´orio, podemos fazer diversas opera¸c˜oes: − Push

− Pull − Fork

(59)

GitHub Repo

(60)

GitHub Branch

Uma branch permite que você trabalhe em diversas versões do código

(61)

GitHub Commits

Um commit permite que vocˆe salve suas mudan¸cas no reposit´orio

Cada commit possui uma mensagem associada explicando porque a mudan¸ca ocorreu

A ideia seria que outros desenvolvedores possam entender a mudan¸ca

(62)

GitHub Pull Request

Uma Pull Request é o núcleo de uma colabora¸cão no GitHub Quando você abre uma Pull Request, você está solicitando uma revisão as suas mudan¸cas

Pull Requests mostram os diffs entre as suas mudan¸cas e o estado atual do reposit´orio

(63)

GitHub Merge

Uma Pull Request é “mergeada” no branch principal (geralmente master ou develop), após as discussões sobre a mudan¸ca Depende do fluxo de desenvolvimento de cada empresa

Exemplo

Na Google uma PR precisa de no m´ınimo duas revis˜oes para merge

(64)

GitHub Merge

Uma Pull Request é “mergeada” no branch principal (geralmente master ou develop), após as discussões sobre a mudan¸ca Depende do fluxo de desenvolvimento de cada empresa

Exemplo

Na Google uma PR precisa de no m´ınimo duas revis˜oes para merge

(65)

GitHub Fork

Uma forma de contribuir para projetos no GitHub, seria por meio de um fork

Um fork permite que você fa¸ca uma cópia pessoal de um projeto Depois de fazer as suas mudan¸cas, você pode fazer um Pull Request para o projeto original

Esse fluxo ´e a base do mundo open-source!

(66)

GitHub Fork

Uma forma de contribuir para projetos no GitHub, seria por meio de um fork

Um fork permite que você fa¸ca uma cópia pessoal de um projeto Depois de fazer as suas mudan¸cas, você pode fazer um Pull Request para o projeto original

(67)

GitHub Issues

Uma issue é uma requisi¸cão de mudan¸ca/melhoria de um projeto Geralmente, times de ciência dos dados usam as issues para guiar o desenvolvimento de software

Muito dependente do fluxo da empresa

(68)

GitHub Aspecto Social

GitHub implementa aspectos de redes sociais com elevado sucesso Vocˆe pode por exemplo:

− Seguir e ser seguido por um desenvolvedor de software

− Watch um projeto que tenha interessa (i.e., visualizar as PRs) − Star um projeto que tenha interesse

(69)

GitHub Comandos B´asicos

Salva as mudan¸cas git commit

Mostra as branches git branch

Combina duas branches git merge

Atualiza a branch com o estado da branch remota git pull

Atualiza a branch remota com as mudan¸cas locais git push

(70)

GitHub Flow

1. Cria um branch

2. Adicione os commits 3. Abra uma Pull Request 4. Discuta e revise o c´odigo 5. Merge o c´odigo

(71)

GitHub Flow

1. Cria um branch

2. Adicione os commits

3. Abra uma Pull Request 4. Discuta e revise o c´odigo 5. Merge o c´odigo

6. Deploy o c´odigo

(72)

GitHub Flow

1. Cria um branch 2. Adicione os commits

3. Abra uma Pull Request

4. Discuta e revise o c´odigo 5. Merge o c´odigo

(73)

GitHub Flow

1. Cria um branch 2. Adicione os commits 3. Abra uma Pull Request

4. Discuta e revise o c´odigo

5. Merge o c´odigo 6. Deploy o c´odigo

(74)

GitHub Flow

1. Cria um branch 2. Adicione os commits 3. Abra uma Pull Request 4. Discuta e revise o c´odigo

5. Merge o c´odigo

(75)

GitHub Flow

1. Cria um branch 2. Adicione os commits 3. Abra uma Pull Request 4. Discuta e revise o c´odigo 5. Merge o c´odigo

6. Deploy o c´odigo

(76)

GitHub Tricks

Recomendado usar o terminal para interagir com o GitHub (curva de aprendizado muito grande)

UI do GitHub fornece quase todas as funcionalidades do terminal Problemas muito complexos podem ser melhor resolvidos com ferramentas

(77)

GitHub Documenta¸c˜ao

GitHub usa a linguagem de markdown para documentar reposit´orios

Markdown ´e uma linguagem muito f´acil de usar Usada no GitHub Gists e Jupyter notebooks

Altamente recomendado aprender a usar a linguagem markdown (curva de aprendizado pequena)

(78)

GitHub Links Recomendados

https://guides.github.com/

(79)

(80)

O que é Deteçcão de Anomalia?

Deteçcão de anomalia (ou deteçcão de outliers) é a identifica¸cão de eventos ou observa¸cões que não seguem um o padrão esperado O objetivo é encontrar essas instâncias, que são conhecidas como anomalias

Normalmente, aplicamos esse passo no pr´e-processamento do modelo

(81)

Detec¸c˜ao de Anomalia

(82)

Premisas de Detec¸c˜ao de Anomalias

Existem mais dados “normais” do que “anormais” em qualquer dataset

Dois padrões mais conhecidos para deteçcão: − Metódos Estat´ısticos

(83)

Metódos Estat´ısticos para Deteçcão de Anomalias

Assume um modelo param´etrico que descreve a distribui¸c˜ao dos dados

Aplica um teste estat´ıstico que depende do: − Distribui¸c˜ao dos dados

− Parâmetro da distribui¸cão (média, variância, etc.) − Número de anomalias esperadas (limite de confian¸ca)

(84)

Metódos de Distãncia para Deteçcão de Anomalias

Dados são representados como um vetor de features Três aproxima¸cões mais utilizadas:

− Vizinho mais pr´oximo − Densidade

− Cluster

Vantagem de ser n˜ao supervisionado Pesado computacionalmente

(85)

Biblioteca para Detec¸c˜ao de Anomalias

No Python, uma biblioteca muito utilizada ´e o PyOD Algoritmos implementados por padr˜ao no PyOD:

− auto encoder − iforest − knn − mcd − pca − etc https://pypi.org/project/pyod/ 67

(86)

(87)

Ferramenta de Estrutura¸c˜ao

Uma ferramenta que vem ganhando popularidade é o Cookiecutter Propõe uma estrutura básica para projetos de aprendizado de máquina

Importante para projetos comerciais principalmente https:

//github.com/drivendata/cookiecutter-data-science/

(88)

(89)

Engenharia de Features

Uma das tarefas mais importantes durante o pr´e-processamento de qualquer dataset ´e a engenharia de features

Vocˆe pode, por exemplo, usar o conhecimento espec´ıfico (de especialistas) para guiar a engenharia features

No entanto, em muitos casos, o seu problema pode ser muito complexo, sendo muito dif´ıcil criar um modelo generaliz´avel Uma ferramenta que pode auxiliar nesse momento ´e o Feature Tools

https://www.featuretools.com/

(90)

Featuretools Uso

Os dataframes s˜ao conhecidos como entidades no Featuretools entities = {

"customers" : (customers_df, "customer_id"), "sessions" : (sessions_df, "session_id"),

"transactions" : (transactions_df, "transaction_id") }

(91)

Featuretools Uso

´

E preciso definir os relacionamentos entre as entidades relationships = [("sessions", "session_id",

"transactions", "session_id")]

Assim a estrutura de Deep Feature Synthesis pode criar features As novas features s˜ao baseadas em primitivos

Exemplo

m´edia, moda, soma, etc.

(92)

(93)

Referˆencias Bibliogr´aficas

F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay.

Scikit-learn: Machine learning in Python.

Journal of Machine Learning Research, 12:2825–2830, 2011.