Análise de Dados e Simulação

(1)

Análise de Dados e Simulação

Márcia Branco

Universidade de São Paulo Instituto de Matemática e Estatística

http:www.ime.usp.br/ mbranco

Aprendizado Estatístico

(2)

Introdução ao Aprendizado Estatístico

Conjunto de ferramentas estatísticas e computacionais para modelar e entender dados complexos.

Algumas técnicas: regressão linear esparsa; árvores de regressão; classicação; SVM; boosting.

Século XIX: mínimos quadrados.

Século XX: análise discriminante; regressão logística; MLG.

Técnicas mais atuais: modelos não-lineares e

não-paramétricos; árvores de classicação; modelos aditivos generalizados (GAM).

Supervisionada x Não-supervisionada.

Uso do programa R com o pacote ISLR.

(3)

Introdução ao Aprendizado Estatístico

Exemplo 1: Conjunto de dados Wage do ISLR. (Figura 1.1.) Interesse: relacionar o salário de um grupo de indivíduos (homens norte americanos) com alguns fatores como idade, nível de instrução e ano do calendário.

Variável resposta (output) : salário

Variáveis independentes ou fatores (input): idade, nível de instrução, ano.

(4)

Figura 1.1. - James et al., 2013

(5)

Introdução ao Aprendizado Estatístico

Exemplo 2: Conjunto de dados NCI60 do ISLR. (Figura 1.4.) Consiste em 6830 expressões genéticas para cada uma das 64 linhas associada a células cancerigenas.

Interesse: agrupar as linhas (células) conforme a similaridade das expressões genéticas. Criar clusters. Não há output .

Usandos-se técnicas de Componentes Principais, reduzimos as 6830 variáveis em apenas dois componentes (Z₁ e Z₂ ). Colocamos num gráco bidimensional esses valores para as 64 células cancerigenas.

Observa-se no gráco 4 grupos distintos.

(6)

Figura 1.4. - James et al., 2013

(7)

Aprendizagem Supervisionada x Não-supervisionada

1. Supervisionada: temos input e output Y =f(X) + Dois objetivos distintos:

(i) Inferência: entender a relação entre X e Y e estimar f . A curva estimada é denotada porf .ˆ

(ii) Predição: prever novos valores de Y com base no ajuste feito.

Yˆ0 = ˆf(X0) .

2. Não-supervisionada: temos somente input

Interesse em denir padrões e agrupamentos (clustering).

(8)

Aprendizagem supervisionada: Inferência

Conhecer a forma da relação entre Y e X = (X1, . . . ,Xp) Quais preditores (X_j) estão associados a Y ? Quais os mais importantes?

Qual o relação entre Y e cada preditor X_j? Positiva?

Negativa?

Amostra de treinamento: (x1,y1), . . . ,(xn,yn)com x_i = (x_i1, . . . ,x_ip).

Métodos Paramétricos x Não-paramétricos.

Precisão na estimação x Interpretabilidade do modelo

(9)

Figura 2.1. - James et al., 2013

(10)

Figura 2.3. - James et al., 2013

(11)

Figura 2.4. - James et al., 2013

(12)

Aprendizagem supervisionada: Inferência

Tipos de Erros

Redutível: associado a estimação de f(X) usando ˆf(X). Irredutivel: associado a outros fatores que não depende de X .

Eh

(Y −Yˆ)² i

=

hfˆ(x)−f(x) i₂

+Var() Medidas de qualidades de ajuste: erro quadrático médio

EQM = 1 n

n

X

i=1

(yi −fˆ(xi))².

(13)

Aprendizagem supervisionada: Predição

O objetivo é prever um novo valor de Y , denotado por y₀, com base em nova observação x₀.

Eh

(Y0−ˆf(x0))² i

=Var[ˆf(x0)] +

hˆf(x0)−f(x0) i₂

+Var[]

Melhor ajuste x melhor previsão.

Amostra de teste: (x₁,y₁), . . . ,(x_m,y_m) valores não utilizados para estimar f .

EQM_Teste = 1 m

Xm i=1

(y_i −ˆf(x_i))². (ver Figura 2.9.)

(14)

Figura 2.9. - James et al., 2013

(15)

Aprendizagem supervisionada: Classicação

Modelos de regressão mais usuais consideram como variável resposta uma variável quantitativa.

Um problema de classicação esta associado com variáveis respostas qualitativas: grau de instrução, tipo de texto, escola, inadimplente (sim ou não).

Considerando um conjunto de fatores determinar (classicar) a qual grupo o indivíduo pertence.

Modelos Lineares Generalizados, em particular a regressão logística, são técnicas usadas para lidar com o problema de classicação.

(16)

Aprendizagem supervisionada: Classicação

Taxa de erro:

1 n

n

X

i=1

I{yi6= ˆyi}

onde I representa a função indicadora que assume o valor 1 se a desigualdade for satisfeita e zero caso contrário.

A medida acima refere-se a amostra de treinamento e portanto, avalia a capacidade de ajuste.

Para medir a qualidade de previsão, deve-se considerar uma amostra de teste. Esses valores não devem ser usados para estimar y₀.

(17)

Aprendizagem supervisionada: Classicação

Classicador Bayesiano

Escolher a categoria com maior probabilidade condicional:

P(Y =j |X =x₀) com j ∈ {1,2, . . . ,k} (conjunto de categorias) .

Caso k=2. Se P(Y =1|X =x₀)>0.5 classica na catagoria 1;

caso contrário, em 2.

(ver Figura 2.13 )

(18)

Figura 2.13. - James et al., 2013

(19)

Classicador Bayesiano

Aproximando as probabilidades via método dos K vizinhos mais próximos (KNN).

1 K

X

i∈N0

I(yi=j)

onde N₀ é uma vizinhança de K pontos na amostra de treinamento, do ponto de interesse x0.

(ver Figura 2.14 )

(20)

Análise de Dados e Simulação