Tópicos selecionados na aprendizagem de máquina supervisionada

(1)

máquina supervisionada

Vladimir Pestov

twitter: @docente_errante

1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)

2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá

(Professor Emérito)

Departamento de Estatística, IME-USP, 18–29.11.2019

(2)

I K₁⊆C,

I K₂⊆Ω\C,

I µ(C\K₁)< ε/2,

I µ((Ω\C)\K₂)< ε/2.

DenotemosU= Ω\(K₁∪K₂). Temos: C∩K₂=∅eµ(U)< ε.

obs.:A distância,

d(K₁,K₂) =inf{d(x,y) :x ∈K₁,y ∈K₂}, entre dois compactos não vazios e disjuntos,K₁eK₂, num espaço métrico qualquer é estritamente positiva.

Lema de Cover–Hart implica: Quase certamente, sen1, o vizinho mais próximo de todo elemento deK não pertence a

(3)

U

K 1 K

2 C

(4)

SejamU um subconjunto boreliano qualquer deR^d, eµuma medida de probabilidade boreliana sobreR^d. Então,

lim sup

n→∞

P[X ∈/U e NN_σ_n(X)∈U]≤C(d)µ(U), ou mais precisamente, para todon,

(µ⊗µ^⊗n){(x, σ_n)∈R^d×(R^d)ⁿ:x ∈/ Ue NN_σ_n(x)∈U}

≤C(d)µ(U) +C n.

(5)

τ_i trocamX ↔X_i:

P[X ∈/ U e NNσn(X)∈U]

=P[X_i ∈/U e NN_(X₁_,X₂_,...,X_i−1_,X_,X_i+1_,...,X_n₎(X_i)∈U]

= 1 n

n

X

i=1

P[X_i ∈/U e NN_(X₁_,...,X_i−1_,X_,X_i+1_,...,X_n₎(X_i)∈U]

=E1 n

n

X

i=1

χ_{(x,σ_n_{) :}_x_i_∈U_/ _{e NN}_(x

1,...,xi−1,x,xi+1,...,xn)(x_i)∈U}.

A soma é um “contador” de]itais quex_i ∈/ U, e o vizinho mais próximo no resto da amostra(x, σ)pertence aU.

Entrex,x₁, . . . ,x_i−1,x_i,x_i+1, . . . ,x_n, ao máximonµ_σ_n(U) +1 pertencem aU. Cada um é, no máximo, o vizinho mais

(6)

P[X ∈/ U e NN_σ_n(X)∈U]

≤E1 n

n

X

i=1

χ_{(x,σ_n_{) :}_x_i_∈U_/ e NN(x1,...,xi−1,x,xi+1,...,xn)(xi)∈U}

≤E1

nC(nµ_σ_n(U) +1)

=CEµσn(U) +C n

=C(d)µ(U) +C n.

(7)

Paran1, com a confiança≥1−δ, o vizinho mais próximo de todo ponto deK₁não pertence aK₂, e reciprocamente.

A predição errada do rótulo dex só pode ocorrer em dois casos: sejax ∈U, sejax ∈K_i,i=1,2 e NNσn(x)∈U. Então,

Eσ∼µⁿerro_CL^NN_n (Cσn) = P[L^NN_n (C σn)(X)6=χ_C(X)]

≤ µ(U) +P[X ∈/ Ue NN_σ_n(X)∈U]

< ε+C(d)µ(U) + C n

< (C(d) +1)ε+C n.

(8)

O modelo mais realista: em vez de um conceitoC

desconhecido, temos a probabilidade do quex será rotulado 1:

η(x) =P[Y =1|X =x]

(a função de regressão, probabilidade condicional, derivada de Radon–Nikodým....)

(9)

I Ω, o domínio com a estrutura boreliana

I O domínio dos pontos rotulados Ω× {0,1}={(x, ε),x ∈Ω, ε∈ {0,1}}

é munido de uma leiµ(desconhecido!), a distribuição conjunta dos pontos é seus rótulos: P[X ∈A].

1

Ω Ω

Ω

π

x {1}

x {0}

x {0,1}

0

(10)

Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,

Ω

(11)

Descrição alternativa

Ω

(12)

Ω

(13)

Ω

(14)

Ω

e para cada ponto, tem um gerador aleatório derótulos, seguindo a lei de Bernoulli, com a probabilidade de sucesso (de 1)

η(x) =P[Y =1|X =x], probabilidade condicional. (η(x)depende dex)

(15)

3

0 1

Ω η

x

x x

1

2

e para cada ponto, tem um gerador aleatório derótulos, seguindo a lei de Bernoulli, com a probabilidade de sucesso (de 1)

η(x) =P[Y =1|X =x] = dµ₁ ,

(16)

I Erro de classificação deT:err_µ(T) =P[T(X)6=Y].

I Oerro de Bayes:`^∗(µ) =inf_T errµ(t).

I A regra de aprendizagemL= (L_n)^∞_n=1éconsistentese

∀ε >0, P[|err_µL_n−`^∗(µ)|> ε]→0 quandon→ ∞

I A regra de aprendizagemLéuniversalmente consistente se ela é consistente para cada leiµ.

(17)

I Erro de classificação deT:errµ(T) =P[T(X)6=Y].

I Oerro de Bayes:`^∗(µ) =inf_T errµ(t).

bayes

1

1/2 η

grafo do classificador T

(18)

η(∗) =2/3

Erro de Bayes`^∗=1/3

Rótulo deNN(∗) Probabilidade dele Erro

1 ²₃ ¹₃

0 ¹₃ ²₃

Concluímos, usando a probabilidade condicional:

erroµ,η(L^NN) = 2 3·1

3 +1 3·2

3 = 4 9 > 1

3.

∴Classificador NN não é unversalmente consistente em nenhumdomínio!

(19)

Lembrança: o princípio de minimização do erro empírico, erro_µ_σ_,D(C) =µσ(C∆D).

Pode ser re-escrito semD, pois só usamosσ+ =D∩σ:

erro_µ_σ_,σ₊(C) =µ_σ(σ₊∆C).

Agora suponha que tem ruído,(µ, η).

Amostra rotulada(σ, ε)é uma amostra aleatória no domínio rotuladoΩ× {0,1}seguindo a lei juntaµ.˜

1

Ω Ω

Ω

π

x {1}

x {0}

x {0,1}

(20)

1

Ω Ω Ω

Ω

π

x {1}

x {0}

x {0,1}

0

Lembrança: com confiança 1−δ, sup

C∈C

|µ_σ(C)−µ(C)| ≤2Rn(C) +

rln(2/δ) 2n .

Apliquemos ao domínio rotuladoΩ× {0,1}, a amostra rotulada

(21)

Amostra rotulada(σ, ε)é uma amostra aleatória no domínio rotuladoΩ× {0,1}seguindo a lei juntaµ.˜

1

Ω Ω Ω

Ω

π

x {1}

x {0}

x {0,1}

0

Obtemos: com confiança 1−δ,

sup|µ_σ(σ₊∩C)−µ₁(C)| ≤2R_n(C) +

rln(2/δ) 2n ,

(22)

µσ(σ−∩C)≈^ε µ₀(C)

= Z

C

(1−η)dµ, onde

ε=2R_n(C) +

rln(2/δ) 2n

obs.:a complexidade de Rademacher da classeC^c, formada pelosΩ\C,C ∈C, é igual aRn(C).

lemaPara todosC ∈C, com confiança 1−2δ, erro_µ_σ_,σ₊(C)≈^ε

Z

Ω

|χ_C−η|dµ=erro_µ,η(C), onde

(23)

lemaPara todosC ∈C, com confiança 1−2δ, erroµσ,σ+(C)≈^ε

Z

Ω

|χ_C−η|dµ=erroµ,η(C), onde

ε=4Rn(C) +2

rln(2/δ) 2n . /

Z

Ω

|χ_C−η|dµ= Z

C

(1−η)dµ+ Z

Ω\C

ηdµ

2ε≈µσ(σ−∩C) +µσ(σ+∩(Ω\C))

=µσ[(C\σ+)∪(σ+\C)]

=µ_σ(C∆σ₊) =erro_µ_σ_,σ₊(C)..

(24)

erro_µ_σ_,σ₊(C)≈^ε Z

Ω

|χ_C−η|dµ=erro_µ,η(C), onde

ε=4R_n(C) +2

rln(2/δ) 2n .

∴Mesmo quando apenas ambicionarmos minimizar o erro de aprendizagem dentro de um problema determinístico (sob a hipóteseη=χ_C), na realidade, estamos minimizando o erro de aprendizagem no problema com ruído aleatório também.

Pode-se definir erro de Bayes dentro da classe, e deduzir que o princípio de minimização do erro empírico escolha as hipóteses cujo erro se aproxima do erro de Bayes dentro da classe.

(25)

+ + − + +

+ + +

+

− − −

−

O voto majoritário parak =3, entre+,+,−, retorna+, e para k =4, entre+,+,−,−, é indeciso.

k =1 não é bastante na presença de ruído!

No modelo teórico:

(26)

Erro de Bayes`^∗=1/3

Suponha quen→ ∞,k → ∞,k/n→0.

Todos os vizinhos mais próximos de∗são iguais a∗, só que os rótulos podem variar:±1.

Lei dos Grandes Números⇒, quandon,k 1, com alta confiança,≈ ²₃k entrek vizinhos mais próximos têm rótulos 1,

P[χ_H(∗) =1]→1 exponencialmente. O erro de generalização,

P[Y 6=χ_H(∗)]→ 1

3, erro de Bayes.

(27)

Suponha que k =k_n→ ∞e k_n/n→0. Então o classificador k -NN emR^d (com a distância euclideana) é universalmente consistente.

(28)

medida de probabilidade boreliana sobreΩ, eη: Ω→[0,1]

uma função de regressãocontínua

(=probabilidade condicionalη(x) =P[Y =1|X =x]).

Então, o classificadork-NN is consistente.

/Quase certamente (lema de Cover-Hart, ligeiramente modificada),

r_k^ςⁿ_-NN(x)→0,

logo o valor médio deηaosk vizinhos deX converge para η(x)(continuidade!),

logo o voto majoritário entrek vizinhos mais próximos→

T_bays(x). .

(29)

Teorema de Luzin:

?

K1 K2

U

µ

η η

(U) < ε

continua continua

+ + + +

+ + +

− −

−

− −

−

?

A influência deU deve ser limitada: nenhum pontox ∈Udeve servir como vizinhok-mais próximo de mais deCk pontos da amostra.

(30)

probabilidade boreliana,µ. Dadoε >0, existe um subconjunto compactoK ⊆Ωcomµ(Ω\K)< εtal que a restriçãof|_K é contínua.

/SejaP∞

n=1εn=ε. Enumeremos todos os intervalos abertos com pontos extremos racionais:(a_n,b_n),n∈N. Os conjuntos f⁻¹(an,bn)são borelianos, e pela regularidade, existem compactosKn⊆f⁻¹(an,bn)eK_n⁰,K_n⁰ ∩f⁻¹(an,bn) =∅, e tais queK˜_n=K_n∪K_n⁰, satisfazµ( ˜K_n)> ε_n. Definamos o compacto

K =

∞

\

n=1

K˜_n. Segue-se queµ(K)>1−P∞

n=1ε_n =1−ε. Para cadan, f⁻¹(a_n,b_n)∩K é aberto emK porque

(31)

Suponha que k =k_n→ ∞e k_n/n→0. Então o classificador k -NN emR^d (com a distância euclideana) é universalmente consistente.

O teorema falha nos espaços métricos mais gerais, mesmo – como já vimos – em`².

teorema:Se um espaço métricoΩtem “dimensão de Nagata sigma-finita”, entãok-NN é universalmente consistente emΩ.

⇐?problema em aberto. “Sim”⇒solução de um problema em análise real.

(32)

Uma regra de aprensizagem L_n: Ωⁿ× {0,1}ⁿ

| {z }

amostras rotuladas

× Ω

|{z}

ponto input

→ {0,1}

| {z }

rótulo predito

, n=1,2, . . .

é dita“inteligente”(“smart”) se o seu erro médio de

classificação decresce monotonicamente emnpara cadaµ sobreΩ× {0,1}:

∀µ, P[L_n+1(σ)(x)6=ε(x)]≤P[L_n(σ)(x)6=ε(x)], σ,x ∼µ.

•Existe uma regra de aprendizagemuniversalmente consistênteeinteligente?

(33)

Ω = [−1,1], medida:

µ=pλ+qδ₀

p+q =1,λmedida uniforme sobre[−1,1],δ₀medida ató mica concentrada em{0}.

Conceito:C ={0}, determinístrico.

p+q=1

rotulados 0

medida p, uniforme,

0 1

(34)

p+q=1

rotulado 1 rotulados 0 medida p, uniforme,

atomo da medida q,

−1 0 1

amostra sua prob hipótese erro

X =0 q [−1,1] p

X 6=0 p ∅ q

Erro médio de classificação:qp+pq =2pq

(35)

Erro médio paran=2

s

rotulado 1 rotulados 0 medida p, uniforme,

atomo da medida q,

−1 0 1

p+q=1

H

X₁ X₂ sua prob hipótese erro

6=0 6=0 p² ∅ q

0 0 q² [−1,1] p

(36)

0 0 q² [−1,1] p

0 6=0 qp semi-intervalo∪[0,X₂/2] p(1/2+|X₂|/2) 6=0 0 pq semi-intervalo∪[0,X₁/2] p(1/2+|X₁|/2) Erro médio de generalização,n=2:

p²q+q²p+qpEX2∼λp(1/2+|X₂|/2) +pqEX1∼λp(1/2+|X₁|q/2)

=p²q+q²p+qp²3/4+p²q3/4=pq+3 2p²q 2pq ? pq+ 3

2p²q pq ? 3

2p²q 1 ? 3

p