• Nenhum resultado encontrado

Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani

N/A
N/A
Protected

Academic year: 2021

Share "Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani"

Copied!
31
0
0

Texto

(1)

Universidade Federal do Paran´a

Laborat´orio de Estat´ıstica e Geoinforma¸c˜ao - LEG

Classifica¸c˜

ao

Profs.: Eduardo Vargas Ferreira

Walmes Marques Zeviani

(2)

Introdu¸

ao

• Em muitos problemas, a vari´avel Y assume valores em um conjunto n˜ao ordenado C, por exemplo:

? E-mail ∈ {spam,ham};

? D´ıgito ∈ {0, 1, . . . , 9};

? Alzheimer ∈ {com Alzheimer,sem Alzheimer};

• Nestes casos, estamos diante de umproblema de classifica¸c˜ao;

(3)

Introdu¸

ao

• Considere um problema bin´ario, em que Y assume somente dois valores, c1 ou c2. Para um dadox, escolheremos c1quando

P(Y = c1|x) ≥ P(Y = c2|x),

• Tal classificador ´e conhecido comoClassificador de Bayes. Escolhemos nossa fun¸c˜ao, tal que,

h(x) = argmax

d ∈{c1,c2}

P(Y = d |x).

• Note que agora, o custo baseado na distˆancia entre a resposta observada e estimada n˜ao faz mais sentido. Ao inv´es dele, ´e comum utilizar

J(h) = P[Y 6= h(X )].

(4)

Plug-in classifier

• Entretanto, n˜ao conhecemos tais probabilidades:

O classificador de Bayes ´e um padr˜ao ouro inalcan¸c´avel!

• A solu¸c˜ao ´e ent˜ao estimar P(Y = ci|x), para i ∈ C, ou seja

? Estimamos P(Y = c|x) para cada categoria c ∈ C;

? Tomamos h(x) = argmax

c∈C

b

P(Y = c|x).

• Essa abordagem ´e conhecida comoplug-in classifier.

(5)

K-Nearest Neighbors

• O KNN estima a distribui¸c˜ao condicional de Y |X de acordo com as classes dos K vizinhos de determinada observa¸c˜ao x0, ou seja:

P(Y = j | X = x0) = 1 K X i ∈N0 I(yi = j ). o o o o o o o o o o o o o o o o o o o o o o o o

(6)

K-Nearest Neighbors

• A escolha de K tem um efeito dr´astico no classificador KNN obtido

o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o oo o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o oo o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o oo o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o oo o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o KNN: K=1 KNN: K=100 6

(7)

K-Nearest Neighbors

• Temos que escolhˆe-lo de acordo com o resultado do teste. A linha pontilhada representa o classificador de Bayes.

0.01 0.02 0.05 0.10 0.20 0.50 1.00 0. 00 0. 05 0. 10 0. 15 0. 20 1/K Ta xa d e er ro Erro de treino Erro de teste

(8)

Exemplo: Inadimplˆ

encia no cart˜

ao de cr´

edito

• Neste exemplo, nosso objetivo ´e prever se um cliente ser´a ou n˜ao

inadimplente no pr´oximo mˆes;

• Para tanto, temos trˆes vari´aveis explicativas:

? Estudante: se o cliente ´e ou n˜ao estudante;

? Rendimento: rendimento anual do cliente;

? Saldo: o valor devido no mˆes atual.

0 500 1000 1500 2000 2500 0 20 00 0 40 00 0 60 00 0 Saldo R en di m en to Não Sim 0 50 0 10 00 15 00 20 00 25 00 Inadimplente Sa ld o Não Sim 0 20 00 0 40 00 0 60 00 0 Inadimplente R en di m en to 8

(9)

Podemos utilizar regress˜

ao linear?

• Suponha que para classifica¸c˜ao da vari´avelInadimplentecodificamos da forma:

Y = (

0, seN~ao, 1, seSim.

• Podemos simplesmente realizar uma regress˜ao linear de Y em X e classificar comoSimse ˆY > 0.5?

? Considerando o fato de que E (Y |X = x) = P (Y = 1|X = x), podemos pensar que regress˜ao ´e ´otima para isto!

? No caso de resposta bin´aria, regress˜ao linear faz um bom trabalho (equivalente `aan´alise de discriminante linear);

? Entretanto, ela pode produzir probabilidades menores do que 0 ou maiores do que 1. Regress˜ao log´ıstica´e mais apropriada.

(10)

Regress˜

ao log´ıstica

• Denotando por p(X ) = P(Y = 1|X ). A regress˜ao log´ıstica utiliza a forma

p(X ) = eβ0+β1X 1 + eβ0+β1X.

• Assim, n˜ao importa os valores de β0e β1ouX , p(X ) ∈ (0, 1).

(11)

Regress˜

ao log´ıstica

• Com um pouco de algebrismo chegamos em

log  p(X ) 1 − p(X )  = β0+ β1X .

• Que ´e chamadalog oddsou transforma¸c˜aologitem p(X ).

Vari´avel Coeficiente Desvio padr˜ao Estat´ısticat p-valor

Intercepto -10,6513 0,3612 -29,5 < 0, 0001

Saldo 0,0055 0,0002 24,9 < 0, 0001

• Qual ´e a probabilidade estimada deInadimplentepara um cliente com

Saldode $1000? ˆ p(X ) = e ˆ β0+ ˆβ1X 1 + eβˆ0+ ˆβ1X = e−10,6513+0,0055×1000 1 + e−10,6513+0,0055×1000 = 0, 006.

(12)

Regress˜

ao log´ıstica

• Vamos repetir o processo anterior, agora comEstudantecomo preditor;

Vari´avel Coeficiente Desvio padr˜ao Estat´ısticat p-valor

Intercepto -3,5041 0,0707 -49,55 < 0, 0001 Estudante[Sim] 0,4049 0,1150 3,52 0,0004 b P (Inadimplente=Sim|Estudante=Sim) = e −3,5041+0,4049×1 1 + e−3,5041+0,4049×1 = 0, 0431. b P (Inadimplente=Sim|Estudante=N~ao) = e −3,5041+0,4049×0 1 + e−3,5041+0,4049×0 = 0, 0292. 12

(13)

Regress˜

ao log´ıstica com v´

arias vari´

aveis

• Agora o caso de mais de um preditor, o modelo geral torna-se

log  p(X ) 1 − p(X )  = β0+ β1X1+ . . . + βpXp. e p(X ) = e β0+β1X1+...+βpXp 1 + eβ0+β1X1+βpXp.

Vari´avel Coeficiente Desvio padr˜ao Estat´ısticat p-valor

Intercepto -10,8690 0,4923 -22,08 < 0, 0001

Saldo 0,0057 0,0002 24,74 < 0, 0001

Rendimento 0,0030 0,0082 0,37 0,7115

Estudante[Sim] -0,6468 0,2362 -2,74 0,0062

• Por que o coeficiente deEstudante´e negativo agora, enquanto era positivo anteriormente? Confundimento.

(14)

Confundimento

• Os resultados s˜ao diferentes, especialmente quando existe correla¸c˜ao entre os preditores (veja o gr´afico da direita);

500 1000 1500 2000 0. 0 0. 2 0. 4 0. 6 0. 8

Saldo do cartão de crédito

Ta xa d e in ad im pl ên ci a Não Sim 0 50 0 10 00 15 00 20 00 25 00 Estudante Sa ld o do c ar tã o de c ré di to

• Estudantes[Sim]tendem a ter maiorSaldodo cart˜ao de cr´edito;

• Assim, marginalmente a taxa deInadimpl^encia´e maior do que n˜ao

Estudantes[N~ao];

• Por outro lado, para cada n´ıvel doSaldomensal, a inadimplˆencia dos estudantes ´e menor (gr´afico da esquerda).

(15)

Outra abordagem

• Uma alternativa para estimar P(Y |X ) consiste em modelar a distribui¸c˜ao de X em cada classe separadamente;

• E utilizar oTeorema de Bayespara obter P(Y |X ); P(Y = k|X = x ) =P(Y = k)P(X = x |Y = k)

P(X = x ) • Que escrevendo de outra forma fica

P(Y = k|X = x ) = πkfk(x ) PK

l =1πlfl(x )

• Ent˜ao temos que

(16)

Outra abordagem

• fk(x ) = P(X = x|Y = k) ´e adensidadepara X na classe k (diferentes

distribui¸c˜oes levam a diferentes m´etodos);

• πk= P(Y = k) ´e aprobabilidade marginalouprioripara classe k. Pode

ser estimada utilizando as propor¸c˜oes amostrais em cada classe.

• Para diferentes prioris em cada classe, temos diferentes decis˜oes;

(17)

An´

alise de discriminante

• Ao considerarmos para fk(x ) a distribui¸c˜ao Normal em cada classe, nos

leva `aan´alise de discriminante linearouquadr´atica, pois δk(x ) ∝ argmax πkfk(x ) = argmax  log πk− 1 2log |Σk| − 1 2hx − µk, Σ −1 k (x − µk)i  .

• hx − µk, Σ−1k (x − µk)i ´e aDistˆancia de Mahalanobisde x e µk;

• Por exemplo, seja µ1= −1.5, µ2= 1.5, π1= π2= 0.5 e σ2= 1

−4 −2 0 2 4 −3 −2 −1 0 1 2 3 4 0 1 2 3 4 5

(18)

An´

alise de discriminante

• Quando fk(x ) possui matriz de covariˆancia, Σk, diferente em cada classe,

temos aan´alise de discriminante quadr´atico (ADQ)

δk(x ) ∝ argmax πkfk(x ) = argmax  log πk− 1 2log |Σk| − 1 2(x − µk) t Σ−1k (x − µk)  .

• Note a ocorrˆencia do termo quadr´atico na distˆancia de Mahalanobis; • Se todas as classes compartilharem o mesmo Σ =P

k nk−1

n−KΣˆk, estamos

diante daan´alise de discriminante linear (ADL)

δk(x ) ∝ argmax πkfk(x ) = argmax  log πk− 1 2µ t kΣ −1 µk+ xtΣ −1 µk  .

• Em ADL, o termo quadr´atico ´e cancelado.

(19)

An´

alise de discriminante

• Utilizamos, assim, os dados de treino para estimar tais quantidades e incorporar `a regra de decis˜ao, da seguinte forma

ˆ πk = nk n ˆ µk = 1 nk X i :yi=k xi ˆ Σk = 1 nk− 1 X i :yi=k (xi− ˆµk)(xi− ˆµk)t

(20)

Regress˜

ao log´ıstica versus ADL

• Regress˜ao log´ıstica e an´alise de discriminante linear diferem-se na forma de estimar os parˆametros:

? Regress˜ao log´ıstica maximiza averossimilhan¸ca condicional

Y i p(xi, yi) = Y i p(yi|xi) | {z } logistica Y i g (xi) | {z } ignorado

? ADL maximiza averossimilhan¸ca completa

Y i p(xi, yi) = Y i p(xi|yi) | {z } normal fk Y i p(yi) | {z } bernoulli πk

• Mas na pr´atica, os resultados s˜ao similares.

(21)

Ilustra¸

ao: p = 2 e k = 3 classes

• No exemplo abaixo, temos π1= π2= π3= 1/3;

−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4 X1 X1 X2 X2

• A linha pontilhada ´e conhecida comofronteira de decis˜ao de Bayes

(22)

Exemplo:

Iris Data

Comprimento da Sépala Largura da Sépala Comprimento da Pétala Largura da Pétala 22

(23)

Exemplo:

Iris Data

• Temos 4 vari´aveis, 3 esp´ecies com 50 observa¸c˜oes em cada classe;

Variável discriminante 1 V ar iá ve l d is cr im in an te 2

• An´alise de discriminante linear classifica corretamente 147/150 observa¸c˜oes dos dados de treino.

(24)

Exemplo simulado: Bayes, ADL e ADQ

• No exemplo, temos a fronteira de decis˜ao de Bayes em rosa, ADL pontilhado e ADQ em verde, em um problema com 2 classes;

• No gr´afico da esquerda Σ1= Σ2e o da direita Σ16= Σ2;

−4 −2 0 2 4 −4 −3 −2 −1 0 1 2 −4 −2 0 2 4 −4 −3 −2 −1 0 1 2 X1 X1 X2 X2 24

(25)

Qual classificador escolher?

• Cen´ario 1: 20 observa¸c˜oes em cada classe. Todas n˜ao correlacionadas e

normalmente distribu´ıdas;

• Cen´ario 2: Semelhante ao cen´ario 1, mas em cada classe, os preditores

tˆem correla¸c˜ao de -0,5;

• Cen´ario 3: Semelhante ao cen´ario 1, mas com distribui¸c˜ao t de student.

KNN−1 KNN−CV ADL Logístico ADQ

0. 25 0. 30 0. 35 0. 40 0. 45 Cenário 1

KNN−1 KNN−CV ADL Logístico ADQ

0. 15 0. 20 0. 25 0. 30 Cenário 2

KNN−1 KNN−CV ADL Logístico ADQ

0. 20 0. 25 0. 30 0. 35 0. 40 0. 45 Cenário 3

(26)

Qual classificador escolher?

• Cen´ario 4: Os dados s˜ao normalmente distribu´ıdos, com correla¸c˜ao de

0,5 em uma classe e -0,5 em outra;

• Cen´ario 5: As respostas foram geradas utilizando os preditores: X2

1, X22e

X1× X2(ou seja, limite de decis˜ao quadr´atico);

• Cen´ario 6: As respostas foram geradas utilizando fun¸c˜oes n˜ao lineares

mais elaboradas.

KNN−1 KNN−CV ADL Logístico ADQ

0. 30 0. 35 0. 40 Cenário 4

KNN−1 KNN−CV ADL Logístico ADQ

0. 20 0. 25 0. 30 0. 35 0. 40 Cenário 5

KNN−1 KNN−CV ADL Logístico ADQ

0. 18 0. 20 0. 22 0. 24 0. 26 0. 28 0. 30 0. 32 Cenário 6 26

(27)

Naive bayes

• Vimos que quando fk(x ) tem distribui¸c˜ao Normal com mesma variˆancia Σ

temos ADL. E se temos variˆancias diferentes em cada classe temos ADQ;

• Agora, se supusermos que as componentes dex s˜ao independentes

condicionalmente `a classe Y estamos diante doNaive Bayes;

• Naive Bayes assume distribui¸c˜ao normal, com Σk diagonal:

δk(x ) ∝ log " πk p Y j =1 fkj(xj) # = −1 2 p X j =1 (xj− µkj)2 σ2 kj + log (πk).

• Apesar de tal suposi¸c˜ao n˜ao ser razo´avel em muitos problemas (Naive = Ingˆenuo) ela ´e conveniente, e leva a bons classificadores.

(28)

Tipos de erro

• Voltando ao exemplo do cart˜ao de cr´edito, temos a seguinte situa¸c˜ao:

Inadimpl^enciaobservado

N˜ao Sim Total

Inadimpl^enciapredito

N˜ao 9644 252 9896

Sim 23 81 104

Total 9667 333 10000

Falso positivo: fra¸c˜ao de exemplos negativos classificados como positivo;

Falso negativo: fra¸c˜ao de exemplo positivo classificado como negativo;

• Constru´ımos esta tabela classificando a classe comoSimse b

P(Inadimpl^encia=Sim|Saldo, Estudante) ≥ 0, 5.

• Ser´a que o limiar de 0,5 ´e a melhor op¸c˜ao?

(29)

Variando o threshold

• Podemos mudar as taxas de erro, alterando a fronteira de decis˜ao para algum valor ∈ [0, 1]:

b

P(Inadimpl^encia=Sim|Saldo, Estudante) ≥ threshold.

• Abaixo, em azul temos a taxa de falso negativo, em laranja falso positivo e em preto a taxa de erro total.

0.0 0.1 0.2 0.3 0.4 0.5 0. 0 0. 2 0. 4 0. 6 Threshold Ta xa d e er ro

(30)

Curva ROC

• A curva ROC (receiver operator characteristic) nos ajuda nesta escolha do threshold. Ela apresenta as duas taxas de erro ao mesmo tempo.

Curva ROC 1 - especificidade S e n si b ili d a d e 0.0 0.2 0.4 0.6 0.8 1.0 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 30

(31)

Referˆ

encias

• James, G., Witten, D., Hastie, T. e Tibshirani, An Introduction to Statistical Learning, 2013;

• Hastie, T., Tibshirani, R. e Friedman, J., The Elements of Statistical Learning, 2009;

• Lantz, B., Machine Learning with R, Packt Publishing, 2013; • Tan, Steinbach, and Kumar, Introduction to Data Mining,

Addison-Wesley, 2005;

• Some of the figures in this presentation are taken from ”An Introduction to Statistical Learning, with applications in R”(Springer, 2013) with permission from the authors: G. James, D. Witten, T. Hastie and R. Tibshirani

Referências

Documentos relacionados

Para tanto foram realizadas as etapas de sensibilização nas temáticas da PNGATI e PGTA, etnomapeamento/etnozoeamento e a elaboração do Plano de Gestão Territorial e

Novo Direito Bancário: Direito contratual bancário (teoria geral); Classificação dos contratos bancários; Aplicação das normas de direito do consumidor às relações

O candidato que necessitar de atendimento especial para a realização das provas deverá indicar, no ato da inscrição exclusivamente, o (s) recurso(s) especial

Apesar de muitos estados americanos possuírem leis específicas sobre a persecução de crimes cibernéticos, e de aplicarem as suas tradicionais leis criminais a

O Secretário de Obras Públicas da Prefeitura Municipal de Barra do Piraí, Wlader Dantas Pereira, no uso de suas atribuições legais, faz saber a todos que tiverem con- hecimento

Baseado nessas características foi escolhido as Redes de Sensores Sem Fio como a tecnologia de comunicação a ser utilizada no monitoramento de

• El diámetro de la apertura para la conexión al conducto de salida de humos debe corresponder por lo menos al diámetro del conducto de humos. La apertura debería estar provista

Neste sentido, considerando as características dos sistemas de produção de aves, caprinos e ovinos e sua importância para o produtor familiar nordestino, objetivou-se