• Nenhum resultado encontrado

PROPOSTA DE MINICURSO Introdução ao Aprendizado Estatístico de Máquina (Introduction to Statistical Machine Learning) Nível: Graduação Francisco Louzada

N/A
N/A
Protected

Academic year: 2022

Share "PROPOSTA DE MINICURSO Introdução ao Aprendizado Estatístico de Máquina (Introduction to Statistical Machine Learning) Nível: Graduação Francisco Louzada"

Copied!
4
0
0

Texto

(1)

PROPOSTA DE MINICURSO

Introdução ao Aprendizado Estatístico de Máquina (Introduction to Statistical Machine Learning)

Nível: Graduação

Francisco Louzada1, Paulo Henrique Ferreira2, Anderson Ara1, Victor Riccio Duran2

1 Universidade de São Paulo, 2 Universidade Federal da Bahia

Resumo

Machine Learning, em tradução livre do inglês, Aprendizado de Máquina (AM), pode ser entendido como um conjunto de procedimentos que permitem a um equipamento, em particular um computador, melhorar o seu desempenho na execução de alguma tarefa, o que dá origem ao termo AM. Tecnicamente, entretanto, AM se consolida com a utilização de métodos estatísticos, matemáticos e computacionais, de análise e visualização de dados, em forma de algoritmos e técnicas que permitem ao computador simular processos de aprendizagem.

O presente minicurso tem por objetivo a apresentação dos conceitos introdutórios relativos ao AM, mas com um viés estatístico, o que dá origem ao título do mesmo: Aprendizado Estatístico de Máquina (AEM).

A organização do minicurso consiste inicialmente na definição conceitual e teórica do AM, comparação entre AM e estatística, apresentação de formas diferentes de estruturação de bancos de dados, procedimentos de segmentação, determinação dos modelos a serem ajustados, avaliações de performance dos modelos, implementação no software R e finalmente a apresentação de estudos de casos.

(2)

O conteúdo básico do minicurso, organizado em forma de livro, está relacionado abaixo.

I. Introdução

1. Usos diversos de AEM 2. É possível aprender?

3. É viável aprender?

3.1. Overfitting

3.2. Balanço entre Viés e Variance 4. Noções básicas

4.1. Data Spending

4.1.1. Amostras treinamento e teste 4.1.1.1. Seleção randômica

4.1.1.2. Seleção por Redes Neurais de Kohonen 4.1.2 Validação Cruzada

5. Diferenças e Similaridades entre Aprendizados 6. Exemplos

II. Engenharia de Variáveis e Pré-Processamento de Dados 1. Cosntrução de variáveis

2. Pré-processamento de dados 2.1. Tipo de dados

2.2. Tipo de Amostragem

2.3. Quais modelos são necessários 3. Seleção de Variáveis

3.1. Wrapping

3.1.1 Seleção Forward 3.1.2. Algoritmos Genéticos 3.2. Filtragem

4.2.1. Índice de Gini 4.2.2. Information Gain 4.2.3. Information Ratio 4. Segmentação de Base

III. Modelos de Aprendizado Estatístico de Máquina 1. Modelos de Classificação

1.1. Análise Discriminante 1.2. Regressão Logística

1.3. Diferentes Funções de Ligação 1.4. Regressão Logística Limitada 1.5. Regressão Logística Bayesiana 2. Modelos de Regressão

2.1. Regressão Linear 2.1.1. Regressão Polinomial

(3)

2.1.2. Regressão Splines 2.1.3. Regressão Ridge 2.1.4. Regressão Lasso 3. Regressão Não-Linear

IV. Outros Modelos de Aprendizado 1. Diferentes Estruturas

2. Conexionistas

2.1. Redes Neurais 3. Evolucionistas

3.1. Algoritmos Genéticos 4. Simbolistas

4.1. Modelos de Árvores 4.2. Random Forests 5. Bayesianos

5.1. Naive Bayes 5.2. Redes Bayesianas

5.3. Redes probabilísticas de k-dependência 6. Analogistas

6.1. K-nearest neighbor 6.2. Support Vector Machine

6.3. Mistura de Gaussianas e Algoritmo EM 7. O algoritmo Mestre

V. Aprendizado de Máquina Combinado e Intenso 1. Combinação de Modelos

1.1. Bagging 1.2. Poly-Bagging

1.3. Boosting

1.4. Bayesian Model Averaging 2. Deep Learning

2.1. Convolution Networks

2.2. Rectified Linear Activation Function 2.3. Dropout Regularizer

VI. Avaliação de Modelo

1. Técnicas gerais para avaliação de modelos 1.1. Regressão

1.2. Classificação

1.2.1. Matrizes de Confusão

1.2.2. Custo relativo de má especificação

1.2.3. Valores preditivos, sensibilidades e especificidades 1.2.4. Razão de verossimilhanças

1.2.5. Medidas de Entropia

(4)

2. Que gráficos usar na avaliação de modelos?

2.1. Curva ROC

2.2. Gráficos de Resíduos 2.3. Identificação de Outliers 3. Como identificar overfitting?

3.1. Modelos mais propensos a overfitting 3.2. Existe possibilidade de reparação?

VII. Implementação de Algoritmos AEM no R 1. Apresentação inicial

2. Modelos de Classificação 3. Modelos Lineares

4. Modelos Não-lineares 5. Combinação de Modelos

6. Técnicas de Avaliação de Modelo VIII. Estudos de Caso

1. Dados Médicos 2. Dados Industriais 3. Dados Financeiros 4. Dados Demográficos

5. Reconhecimento de Padrões 5.1. Imagem

5.2. Texto 5.3. Biometria

Bibliografia Básica

Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. T. (2012). Learning from data (Vol.

4). Singapore: AMLBook.

Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1). Springer, Berlin: Springer series in statistics.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to

statistical learning. Retrieved from

http://link.springer.com/content/pdf/10.1007/978-1-4614-7138-7.pdf

Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. New York, NY:

Springer New York. doi:10.1007/978-1-4614-6849-3

Referências

Documentos relacionados

The main objectives of this data analysis are divided into two classes: i) General Statistics: give an overview of structured information on Wikipedia as a whole, showing raw numbers

No Estado do Pará as seguintes potencialidades são observadas a partir do processo de descentralização da gestão florestal: i desenvolvimento da política florestal estadual; ii

La asociación público-privada regida por la Ley n ° 11.079 / 2004 es una modalidad contractual revestida de reglas propias y que puede adoptar dos ropajes de

Nesse contexto, o presente trabalho busca investigar a distorção idade-série na escola em questão, bem como compreender que ações são mobilizadas pela equipe gestora e pelos

Os principais objectivos definidos foram a observação e realização dos procedimentos nas diferentes vertentes de atividade do cirurgião, aplicação correta da terminologia cirúrgica,

Os instrutores tiveram oportunidade de interagir com os vídeos, e a apreciação que recolhemos foi sobretudo sobre a percepção da utilidade que estes atribuem aos vídeos, bem como

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se

A médio/longo prazo será notória a diminuição do número de avarias, devido ao natural ajustamento do plano de manutenções preventivas implementado, a melhoria