• Nenhum resultado encontrado

Análise de Dados e Simulação

N/A
N/A
Protected

Academic year: 2022

Share "Análise de Dados e Simulação"

Copied!
20
0
0

Texto

(1)

Análise de Dados e Simulação

Márcia Branco

Universidade de São Paulo Instituto de Matemática e Estatística

http:www.ime.usp.br/ mbranco

Aprendizado Estatístico

(2)

Introdução ao Aprendizado Estatístico

Conjunto de ferramentas estatísticas e computacionais para modelar e entender dados complexos.

Algumas técnicas: regressão linear esparsa; árvores de regressão; classicação; SVM; boosting.

Século XIX: mínimos quadrados.

Século XX: análise discriminante; regressão logística; MLG.

Técnicas mais atuais: modelos não-lineares e

não-paramétricos; árvores de classicação; modelos aditivos generalizados (GAM).

Supervisionada x Não-supervisionada.

Uso do programa R com o pacote ISLR.

(3)

Introdução ao Aprendizado Estatístico

Exemplo 1: Conjunto de dados Wage do ISLR. (Figura 1.1.) Interesse: relacionar o salário de um grupo de indivíduos (homens norte americanos) com alguns fatores como idade, nível de instrução e ano do calendário.

Variável resposta (output) : salário

Variáveis independentes ou fatores (input): idade, nível de instrução, ano.

(4)

Figura 1.1. - James et al., 2013

(5)

Introdução ao Aprendizado Estatístico

Exemplo 2: Conjunto de dados NCI60 do ISLR. (Figura 1.4.) Consiste em 6830 expressões genéticas para cada uma das 64 linhas associada a células cancerigenas.

Interesse: agrupar as linhas (células) conforme a similaridade das expressões genéticas. Criar clusters. Não há output .

Usandos-se técnicas de Componentes Principais, reduzimos as 6830 variáveis em apenas dois componentes (Z1 e Z2 ). Colocamos num gráco bidimensional esses valores para as 64 células cancerigenas.

Observa-se no gráco 4 grupos distintos.

(6)

Figura 1.4. - James et al., 2013

(7)

Aprendizagem Supervisionada x Não-supervisionada

1. Supervisionada: temos input e output Y =f(X) + Dois objetivos distintos:

(i) Inferência: entender a relação entre X e Y e estimar f . A curva estimada é denotada porf .ˆ

(ii) Predição: prever novos valores de Y com base no ajuste feito.

0 = ˆf(X0) .

2. Não-supervisionada: temos somente input

Interesse em denir padrões e agrupamentos (clustering).

(8)

Aprendizagem supervisionada: Inferência

Conhecer a forma da relação entre Y e X = (X1, . . . ,Xp) Quais preditores (Xj) estão associados a Y ? Quais os mais importantes?

Qual o relação entre Y e cada preditor Xj? Positiva?

Negativa?

Amostra de treinamento: (x1,y1), . . . ,(xn,yn)com xi = (xi1, . . . ,xip).

Métodos Paramétricos x Não-paramétricos.

Precisão na estimação x Interpretabilidade do modelo

(9)

Figura 2.1. - James et al., 2013

(10)

Figura 2.3. - James et al., 2013

(11)

Figura 2.4. - James et al., 2013

(12)

Aprendizagem supervisionada: Inferência

Tipos de Erros

Redutível: associado a estimação de f(X) usando ˆf(X). Irredutivel: associado a outros fatores que não depende de X .

Eh

(Y −Yˆ)2 i

=

hfˆ(x)−f(x) i2

+Var() Medidas de qualidades de ajuste: erro quadrático médio

EQM = 1 n

n

X

i=1

(yi −fˆ(xi))2.

(13)

Aprendizagem supervisionada: Predição

O objetivo é prever um novo valor de Y , denotado por y0, com base em nova observação x0.

Eh

(Y0−ˆf(x0))2 i

=Var[ˆf(x0)] +

hˆf(x0)−f(x0) i2

+Var[]

Melhor ajuste x melhor previsão.

Amostra de teste: (x1,y1), . . . ,(xm,ym) valores não utilizados para estimar f .

EQMTeste = 1 m

Xm i=1

(yi −ˆf(xi))2. (ver Figura 2.9.)

(14)

Figura 2.9. - James et al., 2013

(15)

Aprendizagem supervisionada: Classicação

Modelos de regressão mais usuais consideram como variável resposta uma variável quantitativa.

Um problema de classicação esta associado com variáveis respostas qualitativas: grau de instrução, tipo de texto, escola, inadimplente (sim ou não).

Considerando um conjunto de fatores determinar (classicar) a qual grupo o indivíduo pertence.

Modelos Lineares Generalizados, em particular a regressão logística, são técnicas usadas para lidar com o problema de classicação.

(16)

Aprendizagem supervisionada: Classicação

Taxa de erro:

1 n

n

X

i=1

I{yi6= ˆyi}

onde I representa a função indicadora que assume o valor 1 se a desigualdade for satisfeita e zero caso contrário.

A medida acima refere-se a amostra de treinamento e portanto, avalia a capacidade de ajuste.

Para medir a qualidade de previsão, deve-se considerar uma amostra de teste. Esses valores não devem ser usados para estimar y0.

(17)

Aprendizagem supervisionada: Classicação

Classicador Bayesiano

Escolher a categoria com maior probabilidade condicional:

P(Y =j |X =x0) com j ∈ {1,2, . . . ,k} (conjunto de categorias) .

Caso k=2. Se P(Y =1|X =x0)>0.5 classica na catagoria 1;

caso contrário, em 2.

(ver Figura 2.13 )

(18)

Figura 2.13. - James et al., 2013

(19)

Classicador Bayesiano

Aproximando as probabilidades via método dos K vizinhos mais próximos (KNN).

1 K

X

iN0

I(yi=j)

onde N0 é uma vizinhança de K pontos na amostra de treinamento, do ponto de interesse x0.

(ver Figura 2.14 )

(20)

Figura 2.14. - James et al., 2013

Referências

Documentos relacionados

Romulo Machado relembrou que, na reunião anterior, a bancada de governo havia sinalizado que concordaria com o item 1, necessitando aprofundar a discussão internamente,

Os resultados mostram que o protótipo mediu de forma satisfatória a distribuição do sinal na freqüência, porém são necessárias modificações para medir de forma mais precisa o

Demonstrar que para todo inteiro positivo m e todo n´ umero par 2k, este ´ ultimo pode ser escrito como a diferen¸ca de dois inteiros positivos, cada um dos quais ´e primo relativo

Mostrar que todo n´ umero inteiro positivo pode ser ex- presso como soma de n´ umeros da forma 2 a 3 b de modo que nenhum termo ´e.. divis´ıvel

Não retire o cartão SIM quando o mesmo estiver em utilização; caso contrário poderá perer de dados ou danificar o produto.. A Hisense não se responsabiliza por quaisquer

pela geração da representação digital. Sendo, portanto, o projetista responsável pela definição das regras que regem o mecanismo, assim como o desenvolvimento do

Eles empregaram a teologia como “um meio que pudesse fazer uma análise crítica da sociedade latino-americana e assim reestruturar a Igreja Católica a partir de uma práxis

Contudo a grande maioria dos entrevistados (97%), mesmo os mais novos, considera que é importante preservar o conhecimento etnobotânico. Existe bastante interesse