• Nenhum resultado encontrado

Tópicos selecionados na aprendizagem de máquina supervisionada

N/A
N/A
Protected

Academic year: 2022

Share "Tópicos selecionados na aprendizagem de máquina supervisionada"

Copied!
36
0
0

Texto

(1)

máquina supervisionada

Vladimir Pestov

twitter: @docente_errante

1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)

2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá

(Professor Emérito)

Departamento de Estatística, IME-USP, 18–29.11.2019

(2)

I K1⊆C,

I K2⊆Ω\C,

I µ(C\K1)< ε/2,

I µ((Ω\C)\K2)< ε/2.

DenotemosU= Ω\(K1∪K2). Temos: C∩K2=∅eµ(U)< ε.

obs.:A distância,

d(K1,K2) =inf{d(x,y) :x ∈K1,y ∈K2}, entre dois compactos não vazios e disjuntos,K1eK2, num espaço métrico qualquer é estritamente positiva.

Lema de Cover–Hart implica: Quase certamente, sen1, o vizinho mais próximo de todo elemento deK não pertence a

(3)

U

K 1 K

2

C

(4)

SejamU um subconjunto boreliano qualquer deRd, eµuma medida de probabilidade boreliana sobreRd. Então,

lim sup

n→∞

P[X ∈/U e NNσn(X)∈U]≤C(d)µ(U), ou mais precisamente, para todon,

(µ⊗µ⊗n){(x, σn)∈Rd×(Rd)n:x ∈/ Ue NNσn(x)∈U}

≤C(d)µ(U) +C n.

(5)

τi trocamX ↔Xi:

P[X ∈/ U e NNσn(X)∈U]

=P[Xi ∈/U e NN(X1,X2,...,Xi−1,X,Xi+1,...,Xn)(Xi)∈U]

= 1 n

n

X

i=1

P[Xi ∈/U e NN(X1,...,Xi−1,X,Xi+1,...,Xn)(Xi)∈U]

=E1 n

n

X

i=1

χ{(x,σn) :xi∈U/ e NN(x

1,...,xi−1,x,xi+1,...,xn)(xi)∈U}.

A soma é um “contador” de]itais quexi ∈/ U, e o vizinho mais próximo no resto da amostra(x, σ)pertence aU.

Entrex,x1, . . . ,xi−1,xi,xi+1, . . . ,xn, ao máximonµσn(U) +1 pertencem aU. Cada um é, no máximo, o vizinho mais

(6)

P[X ∈/ U e NNσn(X)∈U]

≤E1 n

n

X

i=1

χ{(x,σn) :xi∈U/ e NN(x1,...,xi−1,x,xi+1,...,xn)(xi)∈U}

≤E1

nC(nµσn(U) +1)

=CEµσn(U) +C n

=C(d)µ(U) +C n.

(7)

Paran1, com a confiança≥1−δ, o vizinho mais próximo de todo ponto deK1não pertence aK2, e reciprocamente.

A predição errada do rótulo dex só pode ocorrer em dois casos: sejax ∈U, sejax ∈Ki,i=1,2 e NNσn(x)∈U. Então,

Eσ∼µnerroCLNNn (Cσn) = P[LNNn (C σn)(X)6=χC(X)]

≤ µ(U) +P[X ∈/ Ue NNσn(X)∈U]

< ε+C(d)µ(U) + C n

< (C(d) +1)ε+C n.

(8)

O modelo mais realista: em vez de um conceitoC

desconhecido, temos a probabilidade do quex será rotulado 1:

η(x) =P[Y =1|X =x]

(a função de regressão, probabilidade condicional, derivada de Radon–Nikodým....)

(9)

I Ω, o domínio com a estrutura boreliana

I O domínio dos pontos rotulados Ω× {0,1}={(x, ε),x ∈Ω, ε∈ {0,1}}

é munido de uma leiµ(desconhecido!), a distribuição conjunta dos pontos é seus rótulos: P[X ∈A].

1

π

x {1}

x {0}

x {0,1}

0

(10)

Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,

(11)

Descrição alternativa

Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,

(12)

Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,

(13)

Descrição alternativa

Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,

(14)

Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,

e para cada ponto, tem um gerador aleatório derótulos, seguindo a lei de Bernoulli, com a probabilidade de sucesso (de 1)

η(x) =P[Y =1|X =x], probabilidade condicional. (η(x)depende dex)

(15)

Descrição alternativa

Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,

3

0 1

η

x

x x

1

2

e para cada ponto, tem um gerador aleatório derótulos, seguindo a lei de Bernoulli, com a probabilidade de sucesso (de 1)

η(x) =P[Y =1|X =x] = dµ1 ,

(16)

I Erro de classificação deT:errµ(T) =P[T(X)6=Y].

I Oerro de Bayes:`(µ) =infT errµ(t).

I A regra de aprendizagemL= (Ln)n=1éconsistentese

∀ε >0, P[|errµLn−`(µ)|> ε]→0 quandon→ ∞

I A regra de aprendizagemLéuniversalmente consistente se ela é consistente para cada leiµ.

(17)

I Erro de classificação deT:errµ(T) =P[T(X)6=Y].

I Oerro de Bayes:`(µ) =infT errµ(t).

bayes

1

1/2 η

grafo do classificador T

(18)

η(∗) =2/3

Erro de Bayes`=1/3

Rótulo deNN(∗) Probabilidade dele Erro

1 23 13

0 13 23

Concluímos, usando a probabilidade condicional:

erroµ,η(LNN) = 2 3·1

3 +1 3·2

3 = 4 9 > 1

3.

∴Classificador NN não é unversalmente consistente em nenhumdomínio!

(19)

Lembrança: o princípio de minimização do erro empírico, erroµσ,D(C) =µσ(C∆D).

Pode ser re-escrito semD, pois só usamosσ+ =D∩σ:

erroµσ+(C) =µσ+∆C).

Agora suponha que tem ruído,(µ, η).

Amostra rotulada(σ, ε)é uma amostra aleatória no domínio rotuladoΩ× {0,1}seguindo a lei juntaµ.˜

1

π

x {1}

x {0}

x {0,1}

(20)

1

π

x {1}

x {0}

x {0,1}

0

Lembrança: com confiança 1−δ, sup

C∈C

σ(C)−µ(C)| ≤2Rn(C) +

rln(2/δ) 2n .

Apliquemos ao domínio rotuladoΩ× {0,1}, a amostra rotulada

(21)

Amostra rotulada(σ, ε)é uma amostra aleatória no domínio rotuladoΩ× {0,1}seguindo a lei juntaµ.˜

1

π

x {1}

x {0}

x {0,1}

0

Obtemos: com confiança 1−δ,

sup|µσ+∩C)−µ1(C)| ≤2Rn(C) +

rln(2/δ) 2n ,

(22)

µσ∩C)≈ε µ0(C)

= Z

C

(1−η)dµ, onde

ε=2Rn(C) +

rln(2/δ) 2n

obs.:a complexidade de Rademacher da classeCc, formada pelosΩ\C,C ∈C, é igual aRn(C).

lemaPara todosC ∈C, com confiança 1−2δ, erroµσ+(C)≈ε

Z

C−η|dµ=erroµ,η(C), onde

(23)

lemaPara todosC ∈C, com confiança 1−2δ, erroµσ+(C)≈ε

Z

C−η|dµ=erroµ,η(C), onde

ε=4Rn(C) +2

rln(2/δ) 2n . /

Z

C−η|dµ= Z

C

(1−η)dµ+ Z

Ω\C

ηdµ

≈µσ∩C) +µσ+∩(Ω\C))

σ[(C\σ+)∪(σ+\C)]

σ(C∆σ+) =erroµσ+(C)..

(24)

erroµσ+(C)≈ε Z

C−η|dµ=erroµ,η(C), onde

ε=4Rn(C) +2

rln(2/δ) 2n .

∴Mesmo quando apenas ambicionarmos minimizar o erro de aprendizagem dentro de um problema determinístico (sob a hipóteseη=χC), na realidade, estamos minimizando o erro de aprendizagem no problema com ruído aleatório também.

Pode-se definir erro de Bayes dentro da classe, e deduzir que o princípio de minimização do erro empírico escolha as hipóteses cujo erro se aproxima do erro de Bayes dentro da classe.

(25)

+ + − + +

+ + +

+

− − −

O voto majoritário parak =3, entre+,+,−, retorna+, e para k =4, entre+,+,−,−, é indeciso.

k =1 não é bastante na presença de ruído!

No modelo teórico:

(26)

Erro de Bayes`=1/3

Suponha quen→ ∞,k → ∞,k/n→0.

Todos os vizinhos mais próximos de∗são iguais a∗, só que os rótulos podem variar:±1.

Lei dos Grandes Números⇒, quandon,k 1, com alta confiança,≈ 23k entrek vizinhos mais próximos têm rótulos 1,

P[χH(∗) =1]→1 exponencialmente. O erro de generalização,

P[Y 6=χH(∗)]→ 1

3, erro de Bayes.

(27)

Suponha que k =kn→ ∞e kn/n→0. Então o classificador k -NN emRd (com a distância euclideana) é universalmente consistente.

(28)

medida de probabilidade boreliana sobreΩ, eη: Ω→[0,1]

uma função de regressãocontínua

(=probabilidade condicionalη(x) =P[Y =1|X =x]).

Então, o classificadork-NN is consistente.

/Quase certamente (lema de Cover-Hart, ligeiramente modificada),

rkςn-NN(x)→0,

logo o valor médio deηaosk vizinhos deX converge para η(x)(continuidade!),

logo o voto majoritário entrek vizinhos mais próximos→

Tbays(x). .

(29)

Teorema de Luzin:

?

K1 K2

U

µ

η η

(U) < ε

continua continua

+ + + +

+ + +

?

?

?

?

A influência deU deve ser limitada: nenhum pontox ∈Udeve servir como vizinhok-mais próximo de mais deCk pontos da amostra.

(30)

probabilidade boreliana,µ. Dadoε >0, existe um subconjunto compactoK ⊆Ωcomµ(Ω\K)< εtal que a restriçãof|K é contínua.

/SejaP

n=1εn=ε. Enumeremos todos os intervalos abertos com pontos extremos racionais:(an,bn),n∈N. Os conjuntos f−1(an,bn)são borelianos, e pela regularidade, existem compactosKn⊆f−1(an,bn)eKn0,Kn0 ∩f−1(an,bn) =∅, e tais queK˜n=Kn∪Kn0, satisfazµ( ˜Kn)> εn. Definamos o compacto

K =

\

n=1

n. Segue-se queµ(K)>1−P

n=1εn =1−ε. Para cadan, f−1(an,bn)∩K é aberto emK porque

(31)

Suponha que k =kn→ ∞e kn/n→0. Então o classificador k -NN emRd (com a distância euclideana) é universalmente consistente.

O teorema falha nos espaços métricos mais gerais, mesmo – como já vimos – em`2.

teorema:Se um espaço métricoΩtem “dimensão de Nagata sigma-finita”, entãok-NN é universalmente consistente emΩ.

⇐?problema em aberto. “Sim”⇒solução de um problema em análise real.

(32)

Uma regra de aprensizagem Ln: Ωn× {0,1}n

| {z }

amostras rotuladas

× Ω

|{z}

ponto input

→ {0,1}

| {z }

rótulo predito

, n=1,2, . . .

é dita“inteligente”(“smart”) se o seu erro médio de

classificação decresce monotonicamente emnpara cadaµ sobreΩ× {0,1}:

∀µ, P[Ln+1(σ)(x)6=ε(x)]≤P[Ln(σ)(x)6=ε(x)], σ,x ∼µ.

•Existe uma regra de aprendizagemuniversalmente consistênteeinteligente?

(33)

Ω = [−1,1], medida:

µ=pλ+qδ0

p+q =1,λmedida uniforme sobre[−1,1],δ0medida ató mica concentrada em{0}.

Conceito:C ={0}, determinístrico.

p+q=1

rotulados 0

medida p, uniforme,

0 1

(34)

p+q=1

rotulado 1 rotulados 0 medida p, uniforme,

atomo da medida q,

−1 0 1

amostra sua prob hipótese erro

X =0 q [−1,1] p

X 6=0 p ∅ q

Erro médio de classificação:qp+pq =2pq

(35)

Erro médio paran=2

s

rotulado 1 rotulados 0 medida p, uniforme,

atomo da medida q,

−1 0 1

p+q=1

H

X1 X2 sua prob hipótese erro

6=0 6=0 p2 ∅ q

0 0 q2 [−1,1] p

(36)

0 0 q2 [−1,1] p

0 6=0 qp semi-intervalo∪[0,X2/2] p(1/2+|X2|/2) 6=0 0 pq semi-intervalo∪[0,X1/2] p(1/2+|X1|/2) Erro médio de generalização,n=2:

p2q+q2p+qpEX2∼λp(1/2+|X2|/2) +pqEX1∼λp(1/2+|X1|q/2)

=p2q+q2p+qp23/4+p2q3/4=pq+3 2p2q 2pq ? pq+ 3

2p2q pq ? 3

2p2q 1 ? 3

p

Referências

Documentos relacionados

O evento tem por objetivo a divulgação das atividades de pesquisa realizadas por estudantes de graduação da Universidade da Amazônia (UNAMA), unidade Ananindeua,

A menos de pequenas diferenças resultantes dos distintos tratamentos estatísticos aplicados às séries históricas de dados, os resultados finais produzidos pelos

(Provavelmente não vou mostrar, apenas uma observação) Domínio, Ω = um espaço boreliano padrão. Espaço mensurável = conjunto

Sejam F uma classe de funções com valores no intervalo [−1, 1], e σ uma amostra com n pontos.. Adicionando zero

 Especificar as estratégias de Comunicação e Marketing e os programas de ação necessários ao atingimento dos objetivos indicados.  Indicar com exatidão os

— A função cas2dir converte da forma cascata para forma direta.. ESTRUTURA FORMA

“Statistical learning theory does not belong to any specific branch of sci- ence: It has its own goals, its own paradigm, and its own techniques. Statisticians (who have their

Quanto à expectativa de satisfação que se refere ao processo de desligamento pelos servidores que estão prestes a se aposentar, o índice de satisfação atingido foi de 52,4%, mas