• Nenhum resultado encontrado

Eduardo Vargas Ferreira

N/A
N/A
Protected

Academic year: 2021

Share "Eduardo Vargas Ferreira"

Copied!
40
0
0

Texto

(1)

Universidade Federal do Paran´

a

Laborat´

orio de Estat´ıstica e Geoinforma¸

ao - LEG

Classifica¸c˜

ao

(2)

Tipos de aprendizado

Matriz de dados

Y fornecido

Y não fornecido

Aprendizado

supervisionado

Aprendizado

não - supervisionado

Regressão

Classificação

Y contínuo

Y discreto

(3)

Introdu¸

ao

Em muitos problemas, a vari´

avel Y assume valores em um conjunto n˜

ao

ordenado C, por exemplo:

?

E-mail

∈ {

spam

,

ham

};

?

ıgito

∈ {0, 1, . . . , 9};

?

Alzheimer

∈ {

com Alzheimer

,

sem Alzheimer

};

(4)

Introdu¸

ao

Considere um problema bin´

ario, em que Y assume somente dois valores,

c

1

ou c

2

. Para um dado

x, escolheremos c

1

quando

P(Y = c

1

|

x) ≥ P(Y = c

2

|

x),

Tal classificador ´

e conhecido como

Classificador de Bayes

. Escolhemos

nossa fun¸

ao, tal que,

h(

x) = argmax

d ∈{c

1

,c

2

}

P(Y = d |

x).

(5)

Plug-in classifier

A solu¸

ao ´

e ent˜

ao estimar P(Y = c

i

|x), para i ∈ C, ou seja

?

Estimamos P(Y = c|

x) para cada categoria c ∈ C;

?

Tomamos ˆ

h(

x) = argmax

c∈C

b

P(Y = c|

x).

(6)
(7)

K-Nearest Neighbors

O KNN estima a distribui¸

ao condicional de Y |X de acordo com as

classes dos K vizinhos de determinada observa¸

ao x

0

, ou seja:

P(Y = j | X = x

0

) =

1

K

X

i ∈N

0

I(y

i

= j ).

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

(8)

K-Nearest Neighbors

A escolha de K tem um efeito dr´

astico no classificador KNN obtido

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

KNN: K=1

KNN: K=100

(9)

K-Nearest Neighbors

Temos que escolhˆ

e-lo de acordo com o resultado do teste. A linha

pontilhada representa o classificador de Bayes.

0.01

0.02

0.05

0.10

0.20

0.50

1.00

0.00

0.05

0.10

0.15

0.20

1/K

Error Rate

Training Errors

Test Errors

(10)

K-Nearest Neighbors

Temos que escolhˆ

e-lo de acordo com o resultado do teste. A linha

pontilhada representa o classificador de Bayes.

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

X1

X

2

KNN: K=10

(11)
(12)

Exemplo: Inadimplˆ

encia no cart˜

ao de cr´

edito

Nosso objetivo ´

e prever se um cliente ser´

a ou n˜

ao inadimplente no

pr´

oximo mˆ

es. Para tanto, temos trˆ

es vari´

aveis explicativas:

?

Student

: se o cliente ´

e ou n˜

ao estudante;

?

Income

: rendimento anual do cliente;

?

Balance

: o valor devido no mˆ

es atual.

0

500

1000

1500

2000

2500

0

20000

40000

60000

Balance

Income

No Yes 0 500 1000 1500 2000 2500

Default

Balance

No Yes 0 20000 40000 60000

Default

Income

(13)

Podemos utilizar regress˜

ao linear?

Suponha que para classifica¸

ao da vari´

avel

Default

codificamos da forma:

Y =

(

0,

se

No

,

1,

se

Yes

.

Podemos simplesmente realizar uma regress˜

ao linear de Y em X e

classificar como

Yes

se ˆ

Y > 0.5?

0

500

1000

1500

2000

2500

0.0

0.2

0.4

0.6

0.8

1.0

Balance

Probability of Def

ault

|| | | |||| | || || | || | || |||||||||||||||| |||||||||||||| |||| | | | || ||| | | || | | |||||||||||| |||||||||| |||||||||||||||| |||||| | | || |||| ||| ||| | || || || ||| | | | |||| ||||||||||||| ||| ||||||| | || | | ||| | | | |||| || || |||||||||| || |||| | | | | | | | | | | | | | | | | ||||| |||| |||||||||| |||| | | | | | | | | | || | || | || | ||| || | | | | | | | | |||| ||| | || | | | | ||| ||||||||| | || | | | || ||||| |||| | | | || || ||| ||| ||||| | ||| || |||| | | | | | | | | | | || || | | | | | | ||||||||||||||||||||||||||||||||||||||| || | | | | | | | | | | | | || | | || || | || || ||| | | || | ||| | || || || || || |||||||| ||||| |||||||||| | | | | | ||| | ||| | | | | | | | | | | | | | || ||| | | |||| ||||||| |||||||| |||| |||| | | | |||| || | | | || | | | | | | | | | | |||||| | | ||| | | | || | | | || | | | | | | | | | | | | | | | || |||||||||||| ||||||||||||||| | || | | | || | | ||| || || | | | | | | | | | | | | | | | ||| | | | | | | ||||||||||||| ||| ||||| ||||| | | | | ||| ||||||| | ||| || || ||| | | ||| | | | | | | | || | | || || || ||| || | | || | | | ||||| | || | | | ||| | | | | |||| |||||||| | || | | | | | | | | |||| | |||| | || || | | | | | | | || || | | || |||| | | || | || | | || | | | | | | | |||| ||||| ||||||||||||||||| || | | | | | || ||| || | || | | || | | ||| | | || || | || | | || | ||||| | ||| | | || | || | | | |||| | ||| | | | | | | | | ||| | | || | | | | | |||| | || ||||| | | | | | | | | || | | | | || | | | || | | | | || | | | | || || | | | | |||| | | |||| |||||| | || | | | | | | | | | |||| | | ||| ||| | | | | | | || || | || |||| | | | | || | | | | | || | | | || || |||||| |||||||||| ||| | | | || | ||| |||| | | | | || || |||| | | | | | | || | | ||| | | | | | | | | | | | || | ||||| | | | | | | | | | | | || || || ||||||||| ||||||||||||||||| ||||| | | | | || | | | | | | | | ||| ||| | ||| ||| | | ||| || | |||| |||| | | || ||| | | | | | | | | | | | | | ||| | | | | | |||||| | | | ||||| |||| | |||| | | || | || | | | || | || |||||||||||| ||||||||||||||||||||||||||||||| | || | | | | | | | || | || || | | | || | | || | | | | | | | | || | | || | | | || |||||||||||||||||||||||||| ||||||| ||||||| ||| | | | | | | || || |||||||||| | | | | ||||| || ||||||| | | | | | | | | | | | | | | | | | | | | | | | | ||| | || | | | | |||| | || ||||| | ||||||||||||||||| ||| | | | | | | | | | |||||| |||| ||||||||||||||| |||| ||| | | | | ||| | || || | | | | | | | | | | | || ||||||| ||| | | | | || | || ||| || | || | || | | | | | | | | | ||| | || | |||||||||||| ||| | || || | ||||||||| | |||| | | | | || | | || | | | | | || | | | | ||| || |||| ||||| | | | | | || || | | ||| || || | | || |||| || || ||| | | | | | | || | | | ||| || | | || | | | | | |||| || | | || | | | || | | || || ||||| ||| ||| ||| || ||| | | | | | | | | | | || | | | | | | | | | |||||||||| | | | | | || | |||| | | | | | | | |||| | ||| | | ||| || | | | | | | | | | ||||||||||||||| ||||||||||||||||| |||| | | | | | | | | | | | | | | | ||| | || || ||||| ||||||||||| |||||||||| ||| | | | || | | | | | | | | | | | | || | | | | | | | ||||| | || | | | || || | | | | | || | | || |||| | | | | | || || | ||||| | | | | | ||| || | | | | || || || | | | | | | | | | | | | | | | | | | || | || ||||||||||| |||||||||| | | | | ||| | | | | |||| |||| | | | | ||||| | || | | | | | | | | | || | || | || | | | | | || | | | | || | | |||| ||| |||| | | | | | | | | | | || | | | | | | | ||||| | | | | | | | |||| || ||| | | | | | | ||| || | ||| || | || | | | | ||||| ||| ||||||||| || | | || | || | || | || || || |||| | |||||||||| | ||||||| | | | || ||| ||||| ||| | | | | | | | ||| || |||| | | | | || | | | | | | | || || | | ||||| |||||||||||||||||||||||||||| |||||||||| |||||| | | | ||| | | ||| ||| ||| ||||||||| | | | | | | | || | | | | | || ||| |||||| || || | || | || | |||| | | || | | ||| | | | | | | | || || ||| | || | |||| || ||||||| ||||| | | | | | | | || | | | | | | | | | | | | || | | ||| | | || ||||| ||||||||| | | | || || |||||| || | || | | | | || | | | | | ||| ||| |||||| | || || | ||| ||| || || || | | | || || ||| ||| | | | | || | | | || || | | ||| ||||| || |||||||||||| | | | || | | | | | | ||| | | | | || | | | || | | |||||||||||| ||||| ||| |||||| | | | ||| |||| | | | | | | | || | | | |||| || || || | |||| || | | || | | | || || || | ||| || | | | | | | | || || | | |||| ||| || ||| | ||| ||| | |||||||||||||||||||||||||||||||||||||| | ||||||||||| || || || | | | | | | | | | | || | | | | | | || || || ||| ||| | ||| |||| | | | | | | || ||||| || || ||||||||||||||||||| |||||||||||||||||||||||||||||||||| | | | | | ||||| || || | | ||| | |||||| ||| | | | | |||| |||||| | | | || |||||| | | | | | ||||| |||||| | | ||||| | ||||||| |||| ||| || | | | | | ||||| | || | | | ||| | || | || | | | || | | | | | | | | || | | | | | || | || | | ||||| || | | ||| || | | | | | | | | | || | || | | | | ||| | | | | | | | | | | | | | | | || | ||| ||| || | | | | ||| | | | |||| || ||| ||||| | | || |||| | || | | | | | | | || | | | || | | | | | | | ||| |||||| ||||| ||||||| ||| | | | | | | | | | | | | || | | | | | | | | | | | | | | || | | | | | || | || | | | | | | | ||| |||| |||||||||| ||||||||||| | | | || || ||||||||| | | | | | | | | | || | | | || | | | | | | | ||| | || ||| | | || || | ||||||| | | | | | | || | || || ||| | | | || || | | | || || || ||| || | |||| || | || ||| | | || | | || || ||| | | | | | | | | |||||| | | | || |||| | |||||||||||| || |||| ||| | |||| |||| |||| |||| | || || ||| | |||| | | || | || || |||| ||| ||||||||| ||||||||||||| | | || | | ||| ||| | || | | | | | | || | | | | | || || |||||||||||| | | | || ||| | || |||||| | | | |||||||||||||||||||||||| ||||||||||||||| | || | || |||| | | || | | | | | | | | | | | | | | ||| |||||| |||| |||||||||||||| ||||| || | || | | || |||||||||||||| | | | | | | | | | | |||||||| | ||||||||||||| ||||| | | || ||||||||||||||| ||| | |||| | | | | ||| || | | | | || | | | | ||| || | |||| |||| | | | | || |||| || | | | ||| |||| || | | | | | | | | | | | | ||| | | | | | | | | | | | || | ||| || |||||||| | | || | | | | | | | | | | | || | || | | || | || | | | | | || ||||||||||||||||||||||||||| ||| | | ||| || ||| ||| || | | | |||| |||| ||| || | ||| | | | | | | | | | | | | | | || | | | | ||| | || || | | | | | | | | | | ||| | ||||||||| ||| ||||||| || || | | | || || | | | | | ||| | | | || | |||| ||| | | | | ||| | | | | | | | | || | | | | | | || | | | || | | | | | | | | | | |||||||| | |||| |||||||||||||||||| || | || ||| | | |||| || | | | | | | | | | | | ||| | || || | ||| ||||| |||| | ||| || | | | || | | |||| | || |||||||| ||||| | | | || || ||| || |||| ||| | | ||| | ||||||||||||||| | | || | | | | | | || | || | |||| | | |||| || || ||||||| ||| | | | | | | | ||| | | || |||| | || | ||| ||| || |||||||| | | | | | | | | | | | || || | | | | || | | | | | || | | || | | | |||| ||| ||| |||| || | | || | | | | | | |||| | | || | | | | | | ||| | || |||| || | |||||||| || || | | | | | | | | | | ||| |||| | ||||||| | ||| | ||||||| ||||||||||| | || | ||| | | | || | | | | | | | ||| ||||| |||||| | | | | | | | || | | | | | | ||| || ||||| || | | | | | | | | | | ||| |||||||| ||||| | | | || || ||||| ||| ||||||||||||| || | | | || || | || | | | || | | | ||| | |||| | | | | | || | | | | | | ||| | | ||| | | | | ||| | | | || ||| | | | | | | | | | || || | | ||| ||||||||||| |||||||| |||| | | | || ||| | |||||||||||| ||| | ||||||| |||| |||||||||||| |||||| | | |||| ||||||||| ||| |||| ||| | | | | | | | |||||||||||| | | |||||||| |||| ||||||||||||||||||||| ||||||| |||| | | | | |||||||| |||| ||| | | ||||| || | | | | | | | | | | | ||| | || | | | ||||| || | | | | | | | | | | | | | | | | || ||| ||||| ||||| ||||| | | | | | | | | || | | ||| |||| ||| ||||| || | | | | | | || | | | | | | | | | | | ||| | |||| | | | || | | |||||||| |||||||| | | | | | | | | |||| || ||| ||||| | | | ||||||||||||| | || |||| ||||||||| |||||||||||| || | ||| | | | | | | ||||| | || | || ||| ||||| | ||| | | | | | | | || | ||||| | || || | | | | | || | | | ||| | | | | | | ||| | | | | | | || || || | | | ||| |||||| || | |||| |||| | | |||||| | | | | | ||||| | | | | | | | | | || | | | | | || ||| || ||| ||| || |||| | | | | | | ||||| ||||||||||||||||| ||| ||| | | | || |||||||||||||||||||||||||||||| |||||||| | | | | | | || ||||| |||| ||||||| |||| | | | | | || | | || | | | | | | | || | | | | | | | | | | | | | | | || | || | || | | | | ||| ||| ||||||||||||||||| | ||||| | |||| | | | | | || | ||||||||||||||||||| | || || |||| ||||||||||| | | | || | || | | ||| || |||| ||| | | |||||| | | | | ||| |||||| | | ||||||||| |||| | | | | | | ||||||||| |||||||||||||||| | ||||| || || | | | | || | || | || || | | | | | || | | | ||| | |||||| | | | | |||||||||||||| ||| || | | | ||||||||||| ||||||||||||| ||||||||||||||||||| | | | | || || || || ||| || |||||| || || | | | | | | | || || |||| ||| | | || ||| ||| || |||||| || | | | | | | ||| || ||| | | || || | | || | | | || | || || || | | | | | | || ||||| | ||||||||||||| ||||| || | | | | | | | | | || | ||| | || | | | | ||||||||| |||||||||| ||||| | ||| | || ||||||| ||||||||| | || | | | | | || || | || | || | | || | | || | | | | || | ||||||||||||||||||| |||||| | | | | | | || | | || | | | | | || | | | | ||| || |||| || || | || |||||||||||| || || || | | | | | | | | |||| ||| ||||| |||| | | | || | | | | | ||| |||| | | || | | | | | | | || || || |||| | | | | | | || | || ||||||||||||||||||||| ||||||||||| || | | | | ||| | | | | | | | | | | || |||||| |||||||| | | || || | || ||| | | || | | | | | | | | || ||| | | | | | | | | | | |||| | || | | | | | | | | | | || || |||||| ||| | | ||||| || || | || | ||| | | ||| | | | | | | ||||||| ||| | ||| | | |||||| | | | | | | | | || | || | | || | || |||| | ||||||||| | || | | | | | | | || | || | |||| | || ||| | | || | | | | | ||| | || | | | | || | | || ||| | | | | | | |||||||||||| || | | | | | | | | | | | | | ||| || || | | | | || || || || | | | | | | ||| |||||||| |||||||||||||||||||||||| ||||| | | | | | | || | | || | | | | || || || | | | || || |||||||||| |||||||||| | || | | | | | || ||| |||||||||| ||| | | | | || | | | | | | || | | || | | | | | | | | | || | |||||||||| | | | | | || | | | | | | || ||| |||||||| | | || ||| ||||| || ||||||||| || | | | || || | | || | | | | |||||| ||||||||||||||| |||||||| | ||| | | || | | || | | |||| || || | || | | | | | | | ||| | |||| | | | || | | || | | || | | ||| ||| || | | | | | || || || | | |||||||||||||| |||||||||| | | | | ||||| |||| | ||| | | | | | | | || ||| || | | | || || || | | | | | | | | | | || | | | | | | | | | | | | | | || | ||||||| | ||| |||||||||||| || | || || | | | ||||||||||||||||||||||||||||| ||| | | || | | | | || | || ||||| |||| | | | | | | | ||| | || | | | | | | || ||| | | | | | | | | || ||||||| |||||||||| |||| | || | | | | | || || | | | | | ||||| | || || ||| ||||||||||||||||||||||| | | | | | | | | | | | | | || | | | || || | || || | || | | || |||| | | | | | | | | | | | | | | | |||| | || ||||| ||| | || | || | | | | || || |||| |||||||||| ||||||||| | | | | | || || | | | | | | || ||||||||||||||||||| | ||| ||| | ||| | | | | ||||| | | |||||| ||||||||||| |||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||| | | | | | || | | || | | | | | || ||| ||| | | | | | | | | | | | | | | | || | ||| || |||||||| |||||||||||||||| |||||| | | |||| || | | |||| | | | | | || | | | | | | || | | | || |||| | | | | || | | | | ||||||| | ||||||||||||||| || | | | | | | | | |||||| || | | | | || | | | | | | | | | | | || | | || | ||| ||||||||||||| ||||| |||| || | | | | || | | || | ||| ||| || ||||| | ||| | ||||||||||||||||||||||||||| || || ||| ||||||||||| ||||||||| || | | | | | | || | | | || |||| ||| ||| | | | | | || | | | |||| || |||||| |||| ||| ||| | || |||||||||| |||||||| |||||||||||||| | | | | | | || || | | | | | | | || || | | | | ||||||||||| |||||||||| ||||| |||| | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | || | || | || || ||| | | | | | | | | | | |||| | |||| | || || || | | | | | | ||||| | | | | | |||| || | ||| | | | | | | || | | |||| | | | | | | | | || | | || | ||||||||||||| |||||||||||||||||||||||| ||| | | | ||| | | | |||||| ||| | | || | | | | ||| | ||||| ||||| |||||||||||| | || | |||||||||||| ||||||||||||| | | | | ||| |||||||||||||||||| ||||||| | | |||||||||||||||||| |||||||||||||||||||| ||| | | | | ||| | | | || | | ||| || | | ||||| | |||||| |||||||||||||||| | | | || || | | || || | | |||||| | | | | | | | | | | || || || | | | ||||||||||||||||||||||||||||||||| | | || | |||||||| ||||||| || | | | | | | || | || || ||| || | ||| ||||||||| |||| |||||||||| | | | | | | | | ||| | |||||||||||||||||| || | | | | | | || | || |||| | | | | | || | | || || | | ||| || | ||||||||| | ||| |||| | | ||| | | | | |||| | || | | | |||| | | |||| | | | | | | | | || | | | ||| || |||| |||| | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | || | | | || | | | || ||||| |||||||| ||| | | || || | | || |||| | | | || | || || || | | | | ||| | | | | || | | | ||| ||||| || | | | || | | | | | | ||||| | | || ||| || | | | ||| | | |||||||||||| ||||||||||||||||||| | | | | | | || || | | |||| | |||| |||||||||||||||||||||||| |||| || || ||||| |||||| ||||||| | | | | | || ||| | | | | | |||| | | | | | | | | | || | | | | | | | | || || || |||||||||||||||||||||||| | |||||| | | | |||| || || | | | | | | | | | | | | |||| || || || | | | | || ||| |||||||||||| | | | | | |||||| |||||| | | | | | | | |||||| | || | | |||||||||||||||||||||||||||| |||||||||| || | | | | || ||| || | | | | | | | | || | || | | ||| | | || ||||| | || | | || || | | | || | || |||||||||||| |||| | | | || || ||| | | ||| | | | | || | || || | ||||||| ||||| | | ||| | || | | | | || | | | || | || | | | | | | | | | | || ||| | ||| | ||| || ||| || | | | | | | | | | | | | | || | | | | | | | | | || ||||||||||||||||||||||||||||||| |||||| |||| | | || | || || || | || | ||| |||||| ||||| ||| | || | ||| || | | | | | | ||| | | || || | | ||| || |||||| ||||||| |||||||| | | ||||| |||||||||||| | || ||| || | ||| | || | || | | | | ||||||||| || | || | | | ||||| | | | | ||| | | | | | | | | | | | ||| | | | || | | || | ||| | |||||||| ||| | || || | ||| || || |||||| | | | | | || |||| | || | | | | || | | | || | | | | | | | | | | | | || |||| | | || |||| ||||||||||||| ||| || |||||||||||||| || | || | | | | | | | | | | | | | | | || || | | | | | | | | | | || | | | ||| ||| | | | | | | | | | | | | | || | ||| ||| | | | | | | | | || || | | | | || | | | | | | | | | | | | | | | ||||| | | | | | | | ||| | | | || || |||||| | ||||||||||||||||||||||||||||||||| ||||||||||| | || | ||| | | | | || || | || || ||| ||| | || || |||||||||||||||||||| | | || |||| || |||| ||| ||| | | || | |||| || ||||||||||| ||||||| ||||||||||||||||||||| |||||||||||||||||||||||||| ||||||||| | | | || || | | | | | | | | | ||| | | || | | | | | || | | | || || | | | | |||| || | | | | || | | | | || || | | | ||| |||| | || |||||||||||| | | | | | || | || | | | | | | | | | | | | |||||||||||||| | | | | | || | || | | | | | |||| | |||||||| | || | || | | | | | | | | | | ||| | | | ||||| | | || ||| || | | | | | | | | | ||| | | | || | |||| |||||||| | | | | | ||||||| | | || | || ||||| |

0

500

1000

1500

2000

2500

0.0

0.2

0.4

0.6

0.8

1.0

Balance

Probability of Def

ault

|| | | |||| | || || | || | ||||||||||||||||||| ||||||||||||| |||| | | | || ||| | | || | | |||||||||||| |||||||||| |||||||||||||||| ||||| | | | || |||| ||| ||| | || || || ||| | | | |||| ||||||||||||| ||| ||||||| | || | | ||| | | | |||| || || |||||||||| || |||| | | | | | | | | | | | | | | | | ||||| |||| |||||||| || |||| | | | | | | | || || | || | || | ||| || | | | | | | | | |||| ||| | || | | | | ||| ||||||||| | || | | | || ||||| |||| | | | | | || ||| ||| ||||| |||| || |||| | | | | | | | | | | || || | | | | | | ||||||||||||||||||||||||||||||||||||||| || | | | | | | | | | | | | || | | || || | || || ||| | | || | ||| | || || || || || ||||||||||||| |||||||||| | | | | | || | | ||| | | | | | | | | | | | | | || ||| | | |||| ||||||||||||||| |||| |||| | | | |||| || | | | || | | | | | | | | | | |||||| || ||| | | | || | | | || | | | | | | | | | | | | | | | || ||||||||||||||||||||||||||| | || || | || | | ||| || || | | | | | | | | | | | | | | | ||| | | | | | | ||||||||||||| ||| ||||| ||||| | | | | ||| ||||||| | ||| || || ||| | | ||| | | | | | | | || | | || || || ||| || | | || | | | ||||| | || | | | ||| | | | | ||||| ||||||||| | || | | | | | | |||| ||||| | | | || | | | | | | | || || | | || |||| | | || ||| | | || | | | | | | | |||| ||||| ||||||||||||||||| || | | | | | || ||| || | || | | || | | ||| | | || || | || | | || | ||||| | ||| | | || | || | | | |||| | ||| | | | | | | | | ||| | | || | | | | | |||| | || ||||| | | | || | | | || | | | | | | | | | || | | | | || | | | | || || | | | | || || || |||| |||||| | ||| | | | | | | | | |||| | | ||| ||| | | | | | | || || ||| |||| | | | | | | | | | || || | | | || || |||||| ||||||||||||| | | | || | ||| |||| | | | | || || |||| | | | | | | || | | ||| | | | | | | | | | | | || | ||||| || | | | | | | | | | || || || |||||||||||||||||||||||||| ||||| | | | | || | | | | | | | | ||| ||| | ||| ||| | | ||| || | |||| |||| | | || ||| | | | | | | | | | | | | | ||| | | | | | |||||| | | | ||||| ||||| |||| | | | | ||| | | | || | | | | | | | |||||||||||||||||||||||||||||||||||||||| || | | | | | | | || | || | | | | | ||| | || | | | | | | | | || | | || | | | || |||||||||||||||||||||||||| ||||||| ||||||| ||| || | | | | | | | || |||||||||| | | |||||| || ||||||| | | | | | | | | | | | | | | | | | | | | | | | | ||| | || | | | | | ||| | || ||||| | |||||||||||||||| | ||| | | | | | | | | | |||||| |||| ||||||||||||||| |||| ||| | | | | ||| | || || | | | | | | | | | | ||| ||||||| ||| | | | | || | || ||| || | || | || | | | | | | | | | ||| | || | |||||||||||| ||| ||| ||| ||||||||| | |||| | | | | || | | || | | | | | || | | | | ||| || || || ||||| | | | | | || || | | | || || || | | || |||| || || ||| | | | | | | || | || ||| || | | || | | | | | |||| || | | || | | | || | | || || ||||| ||| ||| ||| || ||| | | | | | | | | | | || | | | | | | | | | ||||| | | | || || | | | || | || || | || | | | | |||| | ||| | | ||| || | | | | | | | | | ||||||||||||||| ||||||||||||||||| |||| | | | | | | | | | | | | | | | ||| | || || ||||| ||||||||||| |||||||||| ||| | | | || | | | | | | | | | | | | || | | | | | | | ||||| | || | | | || || | | | | | || | | || |||| | | | | | || || | ||||| | | | | | ||| || || | | || || || | | | | | | | || | | | | | | | | | || | || ||||||||||| |||||||||| | | | | ||| | | | | |||| |||| | | | | ||||| | || | | | | | | | | ||| | || | || | | | | | || | | | | || | | |||| ||| |||| | | | | | | | | | | || | | | | | | | ||||| | | | | | | | |||| || ||| | | | | | | ||| || | ||| || | || | | | | ||||| ||| ||||||||| || | | || | || | || | || || || |||| | |||||||||| | ||||||| | | | ||| || ||||| ||| | | | | | | | ||| || |||| | | | | || | | | | | | | || || | | ||||| ||||||||||||||||||||||||||||| ||||||||| |||||| | | | ||| | | ||| ||| ||| ||||| |||| | | | | | | | || | | | | | || ||| ||||||| ||| | || | || | |||| | | || | | ||| | | | | | | | |||| ||| | || | |||| || |||||| | ||||| | | | | | | | || | | | | | | | | | | | | || | | | || | ||| ||||| ||||||||| | | | || || |||||| | | | || | | | | || | | | | | ||| ||| |||||| | || ||| ||| ||| |||| || | | | || || ||| ||| | | | | || | || || || | | ||| ||||| || |||||||||||| | | | || | | | | | | ||| | | | | || | | | || | | |||||||||||| ||||| ||| |||||| || | ||| ||| | | | | | | | ||| | | | |||| || || || | |||| || | | || | | | || || || | ||| || | | | | | | | || || | | |||| ||| || ||| | ||| ||| | |||||||||||||||||||||||||||||||||||||| | ||||||||||| || || || | | | | | | | | | | || | | | | | | || || || ||| ||| | ||| || || | | | | | | || |||||| | || ||||||||||||||||||| |||||||||||||||||||||||||||||||||| | | | | | ||||| || || | | | | |||||| || || | | | | | |||| |||||| | | | || |||||| | | | | | ||||| |||||| | | ||||| | ||||||| |||| ||| || | | | | | ||||| | || | | | ||| | || | || | | | || | | | | | | | | || | | | | ||| | || | | ||||| || | | ||| || | | | | | | | | | || | || | | || ||| | | | | | | | | | | | | | | | || | | || || | || | | | | |||| | | |||| || |||||||| | | || |||| | || | | | | | | | || | | | || | | | | | | | || | |||||| |||| |||||||| ||| | | | | | | | | | | | | || | | | | | | | | | | | | | | || | | | | | || | || | | | | | | | ||| |||| |||||| |||| ||||||||||| | || | | || ||||||||| | | | | | | | | | || | | | || | | | | | | | ||| | ||||| | | || || | ||||||| | | | | | | || | || || ||| | | | || || | | | || | | | || | || ||||| ||| | || ||| | | || | | || || ||| | | | | | | | | | ||||| | | | || |||| | ||||||||||| ||| |||| ||| | |||| |||| ||| | |||| | || || ||| | |||| | | || | || || |||| ||| |||||||||| |||||||||||| | | || | | ||| ||| | || | | | | | | || | | | | ||| || |||||||||||| | | | || ||| | || |||||| | | | |||||||||||||||||||||||| ||||||||||||||| | || | || ||||| | || | | | | | | | | | | | | | | ||| |||||| |||| |||||||||||||| |||| | || | || || || || |||||||||||| | | | | | | | | | |||||||||| ||||||||||||| ||||| | | || ||||||||||||||| ||| | |||| | | | | ||| || | | | | || | | | | | | | || || | ||| ||| | | | | || |||| || | | | ||| |||| || | | | | | | | | | | | | ||| | | | | | | | | | | | || | ||| || |||||||| | | || | | | | | | | | | | | || | || | | || | || | | | | | || |||||||||||||||||||||||||||||| | | ||| || ||| ||| || | | | |||| |||| ||| || | ||| | | | | | | | | | | | | | | || | | | | ||| | || || | | | | | | | | | | ||| | ||||||||| ||| ||||||| | | || | | | || || | | | | | ||| | | | || | |||| ||| | | | | ||| | | | | | | | | || | | | | | | || | | | || | | | | | | | | | | |||||||| | |||| |||||||||||||||||| || | || ||| | | |||| || | | | | | | | | | | | ||| | || || | ||| ||||| |||| | | || || | | ||| | | |||| | || |||||||| ||||| | | | || || ||| || |||| ||| | | ||| | ||||||||||||||| | | || | | | | | | || | || | |||| | | |||| |||| ||||||| ||| | | | | | | | ||| | | || |||| | || | ||| ||| || |||||||| | | | | | | | | | | | || || | | | | || | | | | | || | | || | | ||||| ||| ||| |||| || | | || | | | | | | |||| | | || | | | | | | ||| | || |||| || | |||||||| || || | | | | | | | | | | ||| ||| | | ||||||| |||| | ||||||| ||||||||||| | || | ||| | | | || | | | | | | | ||| ||||| |||||| | | | | | | | || | | | | | | ||| || ||||| || | | | | | | | | | | ||| |||||||| ||||| | | | || ||||||| |||||||||||||||| || | | | | | | || | | | | | || | | | ||| | |||| | | | | | || | | | | | | ||| | | ||| | | | | ||| | | | || ||| | | || | | | || || || | | ||| ||||||||||| |||||||| |||| | | | || ||| | |||||||||||| ||| | || |||| ||||| |||||| |||||| |||||| | | |||| ||||||||| ||| |||| ||| | | | | | | | |||||||||||| | | |||||||| |||| ||||||||||||||||||||| ||||||| |||| | | | | |||||||| |||| ||| | | ||||| || | | | | | | | | | | | ||| | || | | | ||||| || | | | | | | | | | | | | | | | | || ||| ||||| ||||| ||||| | | | | | | | | || | | ||| |||| ||| ||||| || | | | | | | || | | | | | | | | | | | ||| | || || | | | || | | |||||||| ||||||||| | | | || | | ||| ||| ||| ||||| | | | ||||||||||||| | || |||| |||| ||||||||||||||||| || | ||| | | | | | | ||||| | || | || |||||||| | ||| | | | | | | | || | ||||| ||| || | | | | | || | | | ||| | | | | | | ||| | | | | || || || || || | || ||| | | || || | |||| ||||| | |||||| | || | | ||||| | | | | | | | | | || | | | | | || ||| || ||| ||| || |||| | | | | | | |||||||||||||||||||||| ||| ||| | | | || |||||||||||||||||||||||||||||| |||||||| | | | | | | || ||||| |||| ||||||| |||| | | | | ||| | | || | | | | | | | || | | | | | | | | | | | | | | | || | || | || | | | | ||| || ||||||||||||||||||| ||||| | |||| | | | | | || | ||||||||||||||||||| | || || |||| ||||||||||| | | | || | || | | ||| || ||||||| | | ||| | | | | | | | ||| |||||| | | ||||||||| |||| | | | | | | ||||||||| |||||||||||||||| | ||||| || || | | | | || | || | || || | | | | | || | | | ||| | |||||| | | | | |||||||||||||| ||| || | | | ||||||||||| |||||||||||||| ||||||| ||||||||||| | | | | || || || || ||| || |||||| || || | | | | | | | || || |||| ||| | | || ||| ||| || |||||| || | | | | | | ||| || ||| | | || || | | || | | | || | || || || | | | | | | || ||||| | ||||||||||||| ||||| || | | | | | | | | | || | ||| | || | | | | ||||||||| ||||||||| |||||| | ||| | | |||||||| || || | | | | | | | | | | | | | || || | || | || | | || | | || | | | | || | ||||||||||||||||||| ||||| | | | | | | | || | | || | | | | | || | | | | ||| || |||| || || | || |||||||||||| || || || | | | | | | | | |||| ||| ||||| |||| | | | || | | | | | ||| |||| | | || | | | | | || || || || |||| | | | | | | || | || ||||||||||||||||||||| ||||||||||| || | | | | ||| | | | | | | | | | | || |||||| |||||||| | | || || | || ||| | | || | | | | | | | | || ||| | | | | | | | | | | |||| | || | | | | | | | | | | || || |||||| || | | | ||||||| || | || | ||| | | |||| | | | | | ||||||| ||| | || | | |||| || | | | | | | | | | || | || | | || | || |||| | ||||||||| | || | | | | | | | || | || | |||| | || ||| | | || | | | | | ||| | || | | | | || | | || ||| | | | | | | |||||||||||| || | | | | | | | | | | | | | ||| || || | | | | || || || || | | | | | | ||| | || ||||| |||||||||| ||| |||| ||||||||| | || | | | | | | || | | || | | | | || || || | | | || || |||||||||| |||||||||| | || | | | | | || ||| ||||||||||| || | | | | || | | | | | | ||| | || | | || | | | | | || | |||||||||| | | | | | || | | | | | | || ||| |||||||| | | ||||| ||||| || ||||||||| || | | | || || | | || | | | | |||||| ||||||||||||||| |||||||| | ||| | | || | | || | | |||| | ||| | || | | | | | | | ||| | |||| | | | || | | || | | || | | ||| ||| || | | | | | || || || | | |||||||||||||| |||||||||| | | | | ||| || |||| | ||| | | | | | | ||| ||| || | | | || || || | | | | | | | | | | || | | | | | | | | | | | | | | | | | | ||| | ||| ||||| ||| || ||| ||| | | || || | | | ||||||||||||||||||||||||||||| ||| | | || | | | | || | || ||||| |||| | | | | | | | ||| | || | | | | | | || ||| | | | | | | | | || ||||||| |||||||||| |||| | || | | | | | | | || | | | | | ||||| | || || ||| ||||||||||||||||||||||| | | | | | | | | | | | | | || | | | || || | || || | || | | || |||| | | | | | | | | | | | | | | | |||| | || ||||| | || | || | || | | | | || || |||| |||||||||| ||||||||| | | | | | | | || | | | | | | | | ||||||||||||||||||| | ||| ||| | ||| | | | | ||||| || ||| |||||||||||| |||||||||||| ||||||| | | || ||||||| |||||||||||||||||||||||||| ||||| ||| | | | | | || | | || | | | | | || ||| ||| | | | | | | | | | | | | | | | ||| ||| || |||||||| |||||||||||||||| |||||| | | |||| || | | |||| | | | | | || | | | | | | || | | | || |||| | | | | || | | | | ||||||| | ||||||||||||||| || | | | | | | | || | |||||| || | | || | | | | | | | | | | | || | | || | ||| ||||||||||||| ||||| |||| || | | | | || | | || | ||| ||| || ||||| | ||| | ||||||||||||||||||||||| |||| || || |||||||||||||| ||||||||| || | | | | | | || | | | || |||| ||| ||| | | | | | || | | | |||| |||||||| |||| ||| ||| | || |||||||||| ||||||||| ||||||||||||| | | | | | | || || | | | | | | | || || || | | ||||||||||| |||||||||| ||||| |||| | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | || | || | || || ||| | | | | | | | | | | |||| | |||| | || || || | | | | | | ||||| | | | | || ||| || | ||| | | | | | | || | | |||| | | | | | | | | || | | || | ||||||||||||||||||||||||||||||||||||| ||| | | | ||| || | |||||| ||| | | | | | | | | ||| || |||| ||||| |||||||||||| | || | |||||||||||| |||||||||||||| | | | ||| |||||||||||||||||| ||||||| | | |||||||||||||||||| |||||||||||||||||||| ||| | | | |||| | | | || | | ||| || | | ||||| | |||||| |||||||||||||||| | | | || || | | || || | | || |||| | | | | | | | | | | || || || | | | ||||||||||||||||||||||||||||||||| | | || | |||||||| ||||||| || | | | | | | || | || || || | || | ||| ||||||||| |||| |||||||||| | | | | | | | | ||| | |||||||||||||||||||| | | | | | | || | |||||| | | | | | || | | || || | | ||| || | ||||||||| | ||| || || | | ||| | | | | |||| | || | | | |||| | | |||| | | | | | | | | || | | | ||| || |||| |||| | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | || | | | || | | | || ||||| |||||||| ||| | | || || | | || ||| | | | ||| | || || || | | | | ||| | | | | || | | | ||| ||||| || | | | || | | | | | || |||| | | || ||| || | | | ||| | | |||||||||||| ||||||||||||||||||| | | | | | | || || | | |||| | |||||||||||||||||||||||||||| || || || | || || ||| | | ||||| || |||| | | | | || ||| | | | | | |||| | | | | | | | | | || | | | | | | | | || || | | |||||||||||||||||||||||| | |||||| | | | |||| || || | | | | | | | | | | | | |||||| |||| | | | | || ||| |||||||||||| | | | | | |||||| | || ||| | | | | | | ||||||| | || | | |||||||||||||||||||||||||||| |||||||||| || | | | | || ||| || | | | | | | | | || | || | | ||| | | || ||||| | || | | || || | | | || | || |||||||||||| |||| || | || || ||| | | ||| | | | | || | || || | ||||||| ||||| | | ||| | || | | | | || | | ||| | || | | | | | | | | | | || ||| | ||| | ||| || ||| || | | | | | | | | | | | | | || | | | | | | | | | || ||||||||||||||||||||||||| |||||| |||||| |||| | | || | || || || | || | ||| |||||| ||||| ||| | || | ||| || | | | | | | ||| | | || || | | ||| || |||||| ||||||| |||||||| | | ||||| |||||||||||| | || ||| || | ||| | || | || | | | | ||||||||| || | ||| | | ||||| | | | | ||| | | | | | | | | | | | ||| | | | || | | || | ||| | |||||||| ||| | || || | ||| || || |||||| | | | | | || |||| | || | | | | || | | | || | | | | | | | | | || | || |||| | | || |||| ||||||||||||| ||| ||| ||||||||||||| || | || | | | | | | | | | | | | | | | || || | | | | | | | | | | || | | | ||| ||| | | | | | | | | | | | | | || | ||| |||| | | | | | | | || || | | | | || | | | | | | | | | | | | | | | ||||| | | | | | | | ||| | | | | ||||| |||||||||||||||||||||||| || |||||||||| | | | ||| || | | | | | | || | ||| | | | | || || | || || ||| ||| | || || |||||||||||||||||||| | | || |||| | | |||| ||| ||| | | || | ||| ||| |||||||||| |||||||| ||||||||||||||||||| |||||||||||||||||| |||||||||| ||||||||| | | | || || || | | | | | | | ||| | | || | | | | | || | | | || || | | | | |||| || | | | | || | | | | || | | | | | ||| |||| ||| |||||||||||| | | | | | || | || | | | | | | | | | | | ||||||||||||||| | | | | | || | || | | | | | |||| | |||||||| | || | || | | | | | | | | | | ||| | | | ||||| | | || ||||| | | | | | | | | | ||| | | | || | ||||| ||||||| | | | | | || ||||| | | || | || |||| | |

(14)

Regress˜

ao log´ıstica

A regress˜

ao log´ıstica utiliza a forma

P(Y = 1|X ) =

e

β

0

1

X

1 + e

β

0

1

X

.

Com um pouco de algebrismo, chegamos em

log



P(Y = 1|X )

1 − P(Y = 1|X )



= β

0

+ β

1

X .

Vari´

avel

Coeficiente

Erro padr˜

ao

Estat´ıstica

t

p-valor

Intercepto

-3,5041

0,0707

-49,55

< 0, 0001

Student[Yes]

0,4049

0,1150

3,52

0,0004

log



P(

Default

=

Yes

|

Student

)

1 − P(

Default

=

Yes

|

Student

)



(15)

Regress˜

ao log´ıstica com v´

arias vari´

aveis

Agora o caso de mais de um preditor, o modelo geral torna-se

log



P(Y = 1|X )

1 − P(Y = 1|X )



= β

0

+ β

1

X

1

+ . . . + β

p

X

p

.

Vari´

avel

Coeficiente

Erro padr˜

ao

Estat´ıstica

t

p-valor

Intercepto

-10,8690

0,4923

-22,08

< 0, 0001

Balance

0,0057

0,0002

24,74

< 0, 0001

Income

0,0030

0,0082

0,37

0,7115

Student[Yes]

-0,6468

0,2362

-2,74

0,0062

Por que o coeficiente de

Student

´

e negativo agora, enquanto era positivo

(16)

Confundimento

Os resultados s˜

ao diferentes, especialmente quando existe correla¸

ao

entre os preditores.

500

1000

1500

2000

0.0

0.2

0.4

0.6

0.8

Credit Card Balance

Def

ault Rate

No

Yes

0

500

1000

1500

2000

2500

Student Status

(17)
(18)

Regress˜

ao multinomial

At´

e agora, discutimos o caso de regress˜

ao log´ıstica com duas classes. ´

E

acil generalizar para mais classes

P(Y = k|

X ) =

e

β

0k

1k

X

1

+...+β

pk

Xp

P

K

l =1

e

β

0l

1l

X1+...+β

pl

Xp

Por exemplo, podemos classificar um paciente na sala de emergˆ

encia de

acordo com seu sintoma

Y =

1,

se

AVC

,

2,

se

overdose de droga

,

(19)

Outra abordagem

Uma alternativa para estimar P(Y |X ) consiste em modelar a distribui¸

ao

de X , em cada classe separadamente, utilizando o

Teorema de Bayes

:

P(Y = k|X = x ) =

P(Y = k)P(X = x |Y = k)

P(X = x )

Que escrevendo de outra forma fica

P(Y = k|X = x ) =

π

k

f

k

(x )

P

K

l =1

π

l

f

l

(x )

Ent˜

ao temos que

(20)

Outra abordagem

π

k

= P(Y = k) ´

e a

probabilidade marginal

ou

priori

para classe k. Pode

ser estimada utilizando as propor¸

oes amostrais em cada classe.

f

k

(x ) = P(

X = x|Y = k) ´e a

densidade

para X na classe k (diferentes

(21)
(22)

An´

alise de discriminante

Ao considerarmos para f

k

(x ) a distribui¸

ao Normal em cada classe, nos

leva `

a

an´

alise de discriminante linear

ou

quadr´

atica

, pois

δ

k

(x )

argmax π

k

f

k

(x )

=

argmax



log π

k

1

2

log |Σ

k

| −

1

2

hx − µ

k

, Σ

−1

k

(x − µ

k

)i



.

ˆ

π

k

=

n

k

n

ˆ

µ

k

=

1

n

k

X

i :y

i

=k

x

i

ˆ

Σ

k

=

1

n

k

− 1

X

i :y

i

=k

(x

i

− ˆ

µ

k

)(x

i

− ˆ

µ

k

)

t

(23)

An´

alise de discriminante

Quando f

k

(x ) possui matriz de covariˆ

ancia, Σ

k

, diferente em cada classe,

temos a

an´

alise de discriminante quadr´

atico (ADQ)

δ

k

(x )

argmax π

k

f

k

(x )

=

argmax



log π

k

1

2

log |Σ

k

| −

1

2

(x − µ

k

)

t

Σ

−1

k

(x − µ

k

)



.

Se todas as classes compartilharem o mesmo Σ =

P

k

n

k

−1

n−K

Σ

ˆ

k

, estamos

diante da

an´

alise de discriminante linear (ADL)

δ

k

(x )

argmax π

k

f

k

(x )

=

argmax



log π

k

1

2

µ

t

k

Σ

−1

µ

k

+ x

t

Σ

−1

µ

k



.

(24)

An´

alise de discriminante

x

1

x

1

x

2

(25)

Ilustra¸

ao: p

= 2 e k = 3 classes

No exemplo abaixo, temos π

1

= π

2

= π

3

= 1/3;

−4

−2

0

2

4

−4

−2

0

2

4

−4

−2

0

2

4

−4

−2

0

2

4

X1

X1

X

2

X

2

A linha pontilhada ´

e conhecida como

fronteira de decis˜

ao de Bayes

(26)

Exemplo:

Iris Data

Comprimento

da Sépala

Largura da

Sépala

Comprimento

da Pétala

Largura da

Pétala

(27)

Exemplo:

Iris Data

Temos 4 vari´

aveis, 3 esp´

ecies com 50 observa¸

oes em cada classe;

An´

alise de discriminante linear classifica corretamente 147/150

(28)

Exemplo simulado: Bayes, ADL e ADQ

No exemplo, temos a fronteira de decis˜

ao de Bayes em rosa, ADL

pontilhado e ADQ em verde, em um problema com 2 classes;

Σ

1

= Σ

2

Σ

1

6= Σ

2

−4

−2

0

2

4

−4

−3

−2

−1

0

1

2

−4

−2

0

2

4

−4

−3

−2

−1

0

1

2

X

1

X

1

X

2

X

2

(29)

Regress˜

ao log´ıstica versus ADL

Regress˜

ao log´ıstica maximiza a

verossimilhan¸

ca condicional

Y

i

p(x

i

, y

i

) =

Y

i

p(y

i

|x

i

)

|

{z

}

logistica

Y

i

g (x

i

)

|

{z

}

ignorado

ADL maximiza a

verossimilhan¸

ca completa

Y

i

p(x

i

, y

i

) =

Y

i

p(x

i

|y

i

)

|

{z

}

normal f

k

Y

i

p(y

i

)

|

{z

}

bernoulli π

k

(30)

Qual classificador escolher?

Cen´

ario 1:

20 observa¸

oes em cada classe. Todas n˜

ao correlacionadas e

normalmente distribu´ıdas;

Cen´

ario 2:

Semelhante ao cen´

ario 1, mas em cada classe, os preditores

em correla¸

ao de -0,5;

Cen´

ario 3:

Semelhante ao cen´

ario 1, mas com distribui¸

ao t de student.

KNN−1KNN−CV LDA Logistic QDA

0.25 0.30 0.35 0.40 0.45

SCENARIO 1

KNN−1KNN−CV LDA Logistic QDA

0.15

0.20

0.25

0.30

SCENARIO 2

KNN−1KNN−CV LDA Logistic QDA

0.20 0.25 0.30 0.35 0.40 0.45

SCENARIO 3

(31)

Qual classificador escolher?

Cen´

ario 4:

Os dados s˜

ao normalmente distribu´ıdos, com correla¸

ao de

0,5 em uma classe e -0,5 em outra;

Cen´

ario 5:

As respostas foram geradas utilizando os preditores: X

1

2

, X

2

2

e

X

1

× X

2

(ou seja, limite de decis˜

ao quadr´

atico);

Cen´

ario 6:

As respostas foram geradas utilizando fun¸

oes n˜

ao lineares

mais elaboradas.

KNN−1KNN−CV LDA Logistic QDA

0.30

0.35

0.40

SCENARIO 4

KNN−1KNN−CV LDA Logistic QDA

0.20 0.25 0.30 0.35 0.40

SCENARIO 5

KNN−1KNN−CV LDA Logistic QDA

0.18 0.20 0.22 0.24 0.26 0.28 0.30 0.32

SCENARIO 6

(32)
(33)

Naive bayes

Se supusermos que as componentes de

x s˜ao independentes

condicionalmente `

a classe Y

estamos diante do

Naive Bayes

;

Naive Bayes assume distribui¸

ao normal, com Σ

k

diagonal:

δ

k

(x ) ∝ log

"

π

k

p

Y

j =1

f

kj

(x

j

)

#

= −

1

2

p

X

j =1

(x

j

− µ

kj

)

2

σ

2

kj

+ log (π

k

).

Apesar de tal suposi¸

ao n˜

ao ser razo´

avel, em muitos problemas ela ´

e

conveniente, e leva a bons classificadores.

Lembre-se que estamos interessados classificar, e obter estimadores

(34)
(35)
(36)
(37)

Tipos de erro

Voltando ao exemplo do cart˜

ao de cr´

edito, temos a seguinte situa¸

ao:

Default

observado

ao

Sim

Total

Default

predito

ao

9644

252

9896

Sim

23

81

104

Total

9667

333

10000

Tivemos

23 + 252

10000

= 2, 75% erros de classifica¸

ao;

Se classificarmos todos como

N~

ao

, ter´ıamos

333

10000

= 3, 33% de erro;

Falso positivo:

fra¸

ao de negativos classificados como positivo,

23

9667

= 0, 2%;

Falso negativo:

fra¸

ao de positivos classificado como negativo,

252

(38)

Variando o threshold

Podemos mudar as taxas de erro, alterando a fronteira de decis˜

ao para

algum valor ∈ [0, 1]:

b

P(

Default

=

Yes

|

Balance, Student

) ≥ threshold.

Abaixo, em azul temos a taxa de falso negativo, em laranja falso positivo

e em preto a taxa de erro total.

0.0

0.1

0.2

0.3

0.4

0.5

0.0

0.2

0.4

0.6

Threshold

Error Rate

(39)

Curva ROC

A curva ROC (receiver operator characteristic) nos ajuda nesta escolha

do threshold. Ela apresenta as duas taxas de erro ao mesmo tempo.

ROC Curve

False positive rate

T

rue positiv

e r

ate

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

(40)

Referˆ

encias

James, G., Witten, D., Hastie, T. e Tibshirani, An Introduction to

Statistical Learning, 2013;

Hastie, T., Tibshirani, R. e Friedman, J., The Elements of Statistical

Learning, 2009;

Lantz, B., Machine Learning with R, Packt Publishing, 2013;

Tan, Steinbach, and Kumar, Introduction to Data Mining,

Addison-Wesley, 2005;

Some of the figures in this presentation are taken from ”An Introduction

to Statistical Learning, with applications in R”(Springer, 2013) with

permission from the authors: G. James, D. Witten, T. Hastie and R.

Tibshirani

Referências

Documentos relacionados

Assumindo a proposta de Booij (2010), o qual, como já referido, defende que a com- posição e a derivação não diferem na aces- sibilidade das regras, os exemplos que vimos

Diante desse cenário, pretende-se investigar nessa pesquisa proposta uma abordagem para organizar/mapear as opiniões de usuários relativas a

Selecione a unidade interruptora Série-S com o tipo de caixa apropriada seguindo a leitura através da mesma linha da escala ajustável de operação.. Esta construção confere

Consiste em entrevistar pai, mãe ou responsável para extrair o máximo de informações possíveis sobre o sujeito, realizando uma posterior Análise e levantamento do

Será facultada a qualquer cidadão, a impugnação ao edital, nos termos do art.41, da Lei 8.666/93, conforme situação e condições ali estabelecidos, podendo

A mudança na escola não será por decreto ou acontecerá de um dia para outro. Será um processo de construção da mudança. Ela deve partir de uma proposta ampla e

Utilizando dados da última eleição municipal analisaremos econometricamente como o efeito de alterações em variáveis fiscais, políticas e macroeconômicas afetaram a probabilidade

b) Os elementos previstos na figura 5 para a avaliação da eficiência energética do aquecimento de água dos sistemas mistos de aquecedor combinado, dispositivo de controlo