máquina supervisionada
Vladimir Pestov
twitter: @docente_errante
1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)
2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá
(Professor Emérito)
Departamento de Estatística, IME-USP, 18–29.11.2019
I K1⊆C,
I K2⊆Ω\C,
I µ(C\K1)< ε/2,
I µ((Ω\C)\K2)< ε/2.
DenotemosU= Ω\(K1∪K2). Temos: C∩K2=∅eµ(U)< ε.
obs.:A distância,
d(K1,K2) =inf{d(x,y) :x ∈K1,y ∈K2}, entre dois compactos não vazios e disjuntos,K1eK2, num espaço métrico qualquer é estritamente positiva.
Lema de Cover–Hart implica: Quase certamente, sen1, o vizinho mais próximo de todo elemento deK não pertence a
U
K 1 K
2
C
SejamU um subconjunto boreliano qualquer deRd, eµuma medida de probabilidade boreliana sobreRd. Então,
lim sup
n→∞
P[X ∈/U e NNσn(X)∈U]≤C(d)µ(U), ou mais precisamente, para todon,
(µ⊗µ⊗n){(x, σn)∈Rd×(Rd)n:x ∈/ Ue NNσn(x)∈U}
≤C(d)µ(U) +C n.
τi trocamX ↔Xi:
P[X ∈/ U e NNσn(X)∈U]
=P[Xi ∈/U e NN(X1,X2,...,Xi−1,X,Xi+1,...,Xn)(Xi)∈U]
= 1 n
n
X
i=1
P[Xi ∈/U e NN(X1,...,Xi−1,X,Xi+1,...,Xn)(Xi)∈U]
=E1 n
n
X
i=1
χ{(x,σn) :xi∈U/ e NN(x
1,...,xi−1,x,xi+1,...,xn)(xi)∈U}.
A soma é um “contador” de]itais quexi ∈/ U, e o vizinho mais próximo no resto da amostra(x, σ)pertence aU.
Entrex,x1, . . . ,xi−1,xi,xi+1, . . . ,xn, ao máximonµσn(U) +1 pertencem aU. Cada um é, no máximo, o vizinho mais
P[X ∈/ U e NNσn(X)∈U]
≤E1 n
n
X
i=1
χ{(x,σn) :xi∈U/ e NN(x1,...,xi−1,x,xi+1,...,xn)(xi)∈U}
≤E1
nC(nµσn(U) +1)
=CEµσn(U) +C n
=C(d)µ(U) +C n.
Paran1, com a confiança≥1−δ, o vizinho mais próximo de todo ponto deK1não pertence aK2, e reciprocamente.
A predição errada do rótulo dex só pode ocorrer em dois casos: sejax ∈U, sejax ∈Ki,i=1,2 e NNσn(x)∈U. Então,
Eσ∼µnerroCLNNn (Cσn) = P[LNNn (C σn)(X)6=χC(X)]
≤ µ(U) +P[X ∈/ Ue NNσn(X)∈U]
< ε+C(d)µ(U) + C n
< (C(d) +1)ε+C n.
O modelo mais realista: em vez de um conceitoC
desconhecido, temos a probabilidade do quex será rotulado 1:
η(x) =P[Y =1|X =x]
(a função de regressão, probabilidade condicional, derivada de Radon–Nikodým....)
I Ω, o domínio com a estrutura boreliana
I O domínio dos pontos rotulados Ω× {0,1}={(x, ε),x ∈Ω, ε∈ {0,1}}
é munido de uma leiµ(desconhecido!), a distribuição conjunta dos pontos é seus rótulos: P[X ∈A].
1
Ω Ω
Ω
π
x {1}
x {0}
x {0,1}
0
Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,
Ω
Descrição alternativa
Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,
Ω
Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,
Ω
Descrição alternativa
Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,
Ω
Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,
Ω
e para cada ponto, tem um gerador aleatório derótulos, seguindo a lei de Bernoulli, com a probabilidade de sucesso (de 1)
η(x) =P[Y =1|X =x], probabilidade condicional. (η(x)depende dex)
Descrição alternativa
Um gerador aleatório depontosno domínio, i.i.d., segundo uma lei,
3
0 1
Ω η
x
x x
1
2
e para cada ponto, tem um gerador aleatório derótulos, seguindo a lei de Bernoulli, com a probabilidade de sucesso (de 1)
η(x) =P[Y =1|X =x] = dµ1 ,
I Erro de classificação deT:errµ(T) =P[T(X)6=Y].
I Oerro de Bayes:`∗(µ) =infT errµ(t).
I A regra de aprendizagemL= (Ln)∞n=1éconsistentese
∀ε >0, P[|errµLn−`∗(µ)|> ε]→0 quandon→ ∞
I A regra de aprendizagemLéuniversalmente consistente se ela é consistente para cada leiµ.
I Erro de classificação deT:errµ(T) =P[T(X)6=Y].
I Oerro de Bayes:`∗(µ) =infT errµ(t).
bayes
1
1/2 η
grafo do classificador T
η(∗) =2/3
Erro de Bayes`∗=1/3
Rótulo deNN(∗) Probabilidade dele Erro
1 23 13
0 13 23
Concluímos, usando a probabilidade condicional:
erroµ,η(LNN) = 2 3·1
3 +1 3·2
3 = 4 9 > 1
3.
∴Classificador NN não é unversalmente consistente em nenhumdomínio!
Lembrança: o princípio de minimização do erro empírico, erroµσ,D(C) =µσ(C∆D).
Pode ser re-escrito semD, pois só usamosσ+ =D∩σ:
erroµσ,σ+(C) =µσ(σ+∆C).
Agora suponha que tem ruído,(µ, η).
Amostra rotulada(σ, ε)é uma amostra aleatória no domínio rotuladoΩ× {0,1}seguindo a lei juntaµ.˜
1
Ω Ω
Ω
π
x {1}
x {0}
x {0,1}
1
Ω Ω Ω
Ω
π
x {1}
x {0}
x {0,1}
0
Lembrança: com confiança 1−δ, sup
C∈C
|µσ(C)−µ(C)| ≤2Rn(C) +
rln(2/δ) 2n .
Apliquemos ao domínio rotuladoΩ× {0,1}, a amostra rotulada
Amostra rotulada(σ, ε)é uma amostra aleatória no domínio rotuladoΩ× {0,1}seguindo a lei juntaµ.˜
1
Ω Ω Ω
Ω
π
x {1}
x {0}
x {0,1}
0
Obtemos: com confiança 1−δ,
sup|µσ(σ+∩C)−µ1(C)| ≤2Rn(C) +
rln(2/δ) 2n ,
µσ(σ−∩C)≈ε µ0(C)
= Z
C
(1−η)dµ, onde
ε=2Rn(C) +
rln(2/δ) 2n
obs.:a complexidade de Rademacher da classeCc, formada pelosΩ\C,C ∈C, é igual aRn(C).
lemaPara todosC ∈C, com confiança 1−2δ, erroµσ,σ+(C)≈ε
Z
Ω
|χC−η|dµ=erroµ,η(C), onde
lemaPara todosC ∈C, com confiança 1−2δ, erroµσ,σ+(C)≈ε
Z
Ω
|χC−η|dµ=erroµ,η(C), onde
ε=4Rn(C) +2
rln(2/δ) 2n . /
Z
Ω
|χC−η|dµ= Z
C
(1−η)dµ+ Z
Ω\C
ηdµ
2ε≈µσ(σ−∩C) +µσ(σ+∩(Ω\C))
=µσ[(C\σ+)∪(σ+\C)]
=µσ(C∆σ+) =erroµσ,σ+(C)..
erroµσ,σ+(C)≈ε Z
Ω
|χC−η|dµ=erroµ,η(C), onde
ε=4Rn(C) +2
rln(2/δ) 2n .
∴Mesmo quando apenas ambicionarmos minimizar o erro de aprendizagem dentro de um problema determinístico (sob a hipóteseη=χC), na realidade, estamos minimizando o erro de aprendizagem no problema com ruído aleatório também.
Pode-se definir erro de Bayes dentro da classe, e deduzir que o princípio de minimização do erro empírico escolha as hipóteses cujo erro se aproxima do erro de Bayes dentro da classe.
+ + − + +
+ + +
+
− − −
−
−
−
−
O voto majoritário parak =3, entre+,+,−, retorna+, e para k =4, entre+,+,−,−, é indeciso.
k =1 não é bastante na presença de ruído!
No modelo teórico:
Erro de Bayes`∗=1/3
Suponha quen→ ∞,k → ∞,k/n→0.
Todos os vizinhos mais próximos de∗são iguais a∗, só que os rótulos podem variar:±1.
Lei dos Grandes Números⇒, quandon,k 1, com alta confiança,≈ 23k entrek vizinhos mais próximos têm rótulos 1,
P[χH(∗) =1]→1 exponencialmente. O erro de generalização,
P[Y 6=χH(∗)]→ 1
3, erro de Bayes.
Suponha que k =kn→ ∞e kn/n→0. Então o classificador k -NN emRd (com a distância euclideana) é universalmente consistente.
medida de probabilidade boreliana sobreΩ, eη: Ω→[0,1]
uma função de regressãocontínua
(=probabilidade condicionalη(x) =P[Y =1|X =x]).
Então, o classificadork-NN is consistente.
/Quase certamente (lema de Cover-Hart, ligeiramente modificada),
rkςn-NN(x)→0,
logo o valor médio deηaosk vizinhos deX converge para η(x)(continuidade!),
logo o voto majoritário entrek vizinhos mais próximos→
Tbays(x). .
Teorema de Luzin:
?
K1 K2
U
µ
η η
(U) < ε
continua continua
+ + + +
+ + +
− −
−
−
−
− −
−
−
?
?
?
?
A influência deU deve ser limitada: nenhum pontox ∈Udeve servir como vizinhok-mais próximo de mais deCk pontos da amostra.
probabilidade boreliana,µ. Dadoε >0, existe um subconjunto compactoK ⊆Ωcomµ(Ω\K)< εtal que a restriçãof|K é contínua.
/SejaP∞
n=1εn=ε. Enumeremos todos os intervalos abertos com pontos extremos racionais:(an,bn),n∈N. Os conjuntos f−1(an,bn)são borelianos, e pela regularidade, existem compactosKn⊆f−1(an,bn)eKn0,Kn0 ∩f−1(an,bn) =∅, e tais queK˜n=Kn∪Kn0, satisfazµ( ˜Kn)> εn. Definamos o compacto
K =
∞
\
n=1
K˜n. Segue-se queµ(K)>1−P∞
n=1εn =1−ε. Para cadan, f−1(an,bn)∩K é aberto emK porque
Suponha que k =kn→ ∞e kn/n→0. Então o classificador k -NN emRd (com a distância euclideana) é universalmente consistente.
O teorema falha nos espaços métricos mais gerais, mesmo – como já vimos – em`2.
teorema:Se um espaço métricoΩtem “dimensão de Nagata sigma-finita”, entãok-NN é universalmente consistente emΩ.
⇐?problema em aberto. “Sim”⇒solução de um problema em análise real.
Uma regra de aprensizagem Ln: Ωn× {0,1}n
| {z }
amostras rotuladas
× Ω
|{z}
ponto input
→ {0,1}
| {z }
rótulo predito
, n=1,2, . . .
é dita“inteligente”(“smart”) se o seu erro médio de
classificação decresce monotonicamente emnpara cadaµ sobreΩ× {0,1}:
∀µ, P[Ln+1(σ)(x)6=ε(x)]≤P[Ln(σ)(x)6=ε(x)], σ,x ∼µ.
•Existe uma regra de aprendizagemuniversalmente consistênteeinteligente?
Ω = [−1,1], medida:
µ=pλ+qδ0
p+q =1,λmedida uniforme sobre[−1,1],δ0medida ató mica concentrada em{0}.
Conceito:C ={0}, determinístrico.
p+q=1
rotulados 0
medida p, uniforme,
0 1
p+q=1
rotulado 1 rotulados 0 medida p, uniforme,
atomo da medida q,
−1 0 1
amostra sua prob hipótese erro
X =0 q [−1,1] p
X 6=0 p ∅ q
Erro médio de classificação:qp+pq =2pq
Erro médio paran=2
s
rotulado 1 rotulados 0 medida p, uniforme,
atomo da medida q,
−1 0 1
p+q=1
H
X1 X2 sua prob hipótese erro
6=0 6=0 p2 ∅ q
0 0 q2 [−1,1] p
0 0 q2 [−1,1] p
0 6=0 qp semi-intervalo∪[0,X2/2] p(1/2+|X2|/2) 6=0 0 pq semi-intervalo∪[0,X1/2] p(1/2+|X1|/2) Erro médio de generalização,n=2:
p2q+q2p+qpEX2∼λp(1/2+|X2|/2) +pqEX1∼λp(1/2+|X1|q/2)
=p2q+q2p+qp23/4+p2q3/4=pq+3 2p2q 2pq ? pq+ 3
2p2q pq ? 3
2p2q 1 ? 3
p