Análise de Dados e Simulação
Márcia Branco
Universidade de São Paulo Instituto de Matemática e Estatística
http:www.ime.usp.br/ mbranco
Aprendizado Estatístico
Introdução ao Aprendizado Estatístico
Conjunto de ferramentas estatísticas e computacionais para modelar e entender dados complexos.
Algumas técnicas: regressão linear esparsa; árvores de regressão; classicação; SVM; boosting.
Século XIX: mínimos quadrados.
Século XX: análise discriminante; regressão logística; MLG.
Técnicas mais atuais: modelos não-lineares e
não-paramétricos; árvores de classicação; modelos aditivos generalizados (GAM).
Supervisionada x Não-supervisionada.
Uso do programa R com o pacote ISLR.
Introdução ao Aprendizado Estatístico
Exemplo 1: Conjunto de dados Wage do ISLR. (Figura 1.1.) Interesse: relacionar o salário de um grupo de indivíduos (homens norte americanos) com alguns fatores como idade, nível de instrução e ano do calendário.
Variável resposta (output) : salário
Variáveis independentes ou fatores (input): idade, nível de instrução, ano.
Figura 1.1. - James et al., 2013
Introdução ao Aprendizado Estatístico
Exemplo 2: Conjunto de dados NCI60 do ISLR. (Figura 1.4.) Consiste em 6830 expressões genéticas para cada uma das 64 linhas associada a células cancerigenas.
Interesse: agrupar as linhas (células) conforme a similaridade das expressões genéticas. Criar clusters. Não há output .
Usandos-se técnicas de Componentes Principais, reduzimos as 6830 variáveis em apenas dois componentes (Z1 e Z2 ). Colocamos num gráco bidimensional esses valores para as 64 células cancerigenas.
Observa-se no gráco 4 grupos distintos.
Figura 1.4. - James et al., 2013
Aprendizagem Supervisionada x Não-supervisionada
1. Supervisionada: temos input e output Y =f(X) + Dois objetivos distintos:
(i) Inferência: entender a relação entre X e Y e estimar f . A curva estimada é denotada porf .ˆ
(ii) Predição: prever novos valores de Y com base no ajuste feito.
Yˆ0 = ˆf(X0) .
2. Não-supervisionada: temos somente input
Interesse em denir padrões e agrupamentos (clustering).
Aprendizagem supervisionada: Inferência
Conhecer a forma da relação entre Y e X = (X1, . . . ,Xp) Quais preditores (Xj) estão associados a Y ? Quais os mais importantes?
Qual o relação entre Y e cada preditor Xj? Positiva?
Negativa?
Amostra de treinamento: (x1,y1), . . . ,(xn,yn)com xi = (xi1, . . . ,xip).
Métodos Paramétricos x Não-paramétricos.
Precisão na estimação x Interpretabilidade do modelo
Figura 2.1. - James et al., 2013
Figura 2.3. - James et al., 2013
Figura 2.4. - James et al., 2013
Aprendizagem supervisionada: Inferência
Tipos de Erros
Redutível: associado a estimação de f(X) usando ˆf(X). Irredutivel: associado a outros fatores que não depende de X .
Eh
(Y −Yˆ)2 i
=
hfˆ(x)−f(x) i2
+Var() Medidas de qualidades de ajuste: erro quadrático médio
EQM = 1 n
n
X
i=1
(yi −fˆ(xi))2.
Aprendizagem supervisionada: Predição
O objetivo é prever um novo valor de Y , denotado por y0, com base em nova observação x0.
Eh
(Y0−ˆf(x0))2 i
=Var[ˆf(x0)] +
hˆf(x0)−f(x0) i2
+Var[]
Melhor ajuste x melhor previsão.
Amostra de teste: (x1,y1), . . . ,(xm,ym) valores não utilizados para estimar f .
EQMTeste = 1 m
Xm i=1
(yi −ˆf(xi))2. (ver Figura 2.9.)
Figura 2.9. - James et al., 2013
Aprendizagem supervisionada: Classicação
Modelos de regressão mais usuais consideram como variável resposta uma variável quantitativa.
Um problema de classicação esta associado com variáveis respostas qualitativas: grau de instrução, tipo de texto, escola, inadimplente (sim ou não).
Considerando um conjunto de fatores determinar (classicar) a qual grupo o indivíduo pertence.
Modelos Lineares Generalizados, em particular a regressão logística, são técnicas usadas para lidar com o problema de classicação.
Aprendizagem supervisionada: Classicação
Taxa de erro:
1 n
n
X
i=1
I{yi6= ˆyi}
onde I representa a função indicadora que assume o valor 1 se a desigualdade for satisfeita e zero caso contrário.
A medida acima refere-se a amostra de treinamento e portanto, avalia a capacidade de ajuste.
Para medir a qualidade de previsão, deve-se considerar uma amostra de teste. Esses valores não devem ser usados para estimar y0.
Aprendizagem supervisionada: Classicação
Classicador Bayesiano
Escolher a categoria com maior probabilidade condicional:
P(Y =j |X =x0) com j ∈ {1,2, . . . ,k} (conjunto de categorias) .
Caso k=2. Se P(Y =1|X =x0)>0.5 classica na catagoria 1;
caso contrário, em 2.
(ver Figura 2.13 )
Figura 2.13. - James et al., 2013
Classicador Bayesiano
Aproximando as probabilidades via método dos K vizinhos mais próximos (KNN).
1 K
X
i∈N0
I(yi=j)
onde N0 é uma vizinhança de K pontos na amostra de treinamento, do ponto de interesse x0.
(ver Figura 2.14 )