máquina supervisionada
Vladimir Pestov
twitter: @docente_errante
1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)
2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá
(Professor Emérito)
Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 2
Ω ={a1,a2, . . . ,an, . . .}, µ{aj}=pj >0,
∞
X
j=1
pj =1.
µ(A) =X
{pj:aj ∈A}
Elemento aleatórioX ∈Ω: uma variável aleatória com P[X =ai] =pi.
Dados modelados pela sequênciaX1,X2, . . . ,Xn, . . .de v.a.
independentes identicamente distribuídas tendo a leiµ.
P[X1=ai1,X2=ai2, . . . ,Xk =aik]
=P[X1=ai1]P[X2=ai2]. . .P[Xk =aik]
=piqpi2. . .pik.
Temos um conceito desconhecidoC ⊆Ω, que induz rotulagens:
Yi =1 ⇐⇒ Xi ∈C, Yi =0 ⇐⇒ Xi ∈/C
adivinhamos a hipótese,H.
Erro de classificação (de generaização):
erroC,µ(H) =P[χH(X)6=χC(X)] =µ(H∆C) Ω
C
Observação-chave
W
...
1
...
W
x
Observação-chave
2
...
W
x1 x
3
...
W
x1
x2 x
Observação-chave
4
...
W
x1
x2 x
x 3
5
...
W
x1
x2 x x3
4
x
Observação-chave
6
...
W
x1
x2 x x3
4
x5 x
7
...
W
x1
x2 x x3
4
x5
x6 x
Observação-chave, formalizada
Suponhap1≥p2≥. . .≥pn≥. . ..
lema.Dados k ≥1eδ >0, se n≥ 1
pk lnk δ,
então, com confiança1−δ, cada ponto a1, . . . ,ak ocorre pelo menos uma vez entre os valores de v.a. X1,X2, . . . ,Xn. /P[Xi 6=aj] =1−pj ≤1−pk
P[∀i =1, . . . ,n, Xi 6=aj] =Qn
i=1P[Xi 6=aj]≤(1−pk)n P[∃j ∀i Xi 6=aj]≤k(1−pk)n
k(1−pk)n≤δquando lnk+nln(1−pk)≤lnδ, ou n≥ −ln(1−p1
k)lnkδ,
e usamos a desigualdadepk ≤ −ln(1−pk). .
Existes(δ, ε, µ) = p
k(ε)ln δ t.q., sen≥s(δ, ε, µ), então, com confiança 1−δ,n-amostra aleatória contéma1, . . . ,ak(ε). Sabemos
C∩ {a1, . . . ,ak(ε)} Denotemos
H =L(σ, ε) ={xi:xi ∈σ, εi =1}
A probabilidade de classificação errada de um elemento aleatórioX:
Espaços onde aprendizagem ocorre
SejaΩum espaço métrico.
Aestrutura borelianadeΩé a menor famíliaBde subconjuntos deΩque
I contém todos conjuntos abertos,
I é fechada pelas uniões enumeráveis: seA1,A2, . . .∈ B, então∪∞i=1Ai∈ B, e
I é fechada pelos complementos: seA∈ B, entãoΩ\A∈ B.
(Ω,B)é umespaço boreliano.
SeΩé completo e separável, então(Ω,B)é umespaço boreliano padrão.
dois espaços borelianos padrão são isomorfos eles têm a mesma cardinalidade.
∴R,Rd,`2,[0,1], espaço de Cantor,NN,C[0,1],. . ., como espaços borelianos são idênticos.
[⇒redução de dimensionalidade ]
(Provavelmente não vou mostrar, apenas uma observação) Domínio,Ω= um espaço boreliano padrão
Espaço mensurável = conjunto + sigma-álgebra. Uma teoria de aprendizagem em outros espaços mensuráveis?
Uma sequência i.i.d. de elementos aleatórios do domínio,Ω, X1,X2, . . . ,Xn, . . .∈Ω,
seguindo a leiµ∈P(Ω), uma medida de probabilidade boreliana,desconhecida.
O conceitodesconhecido, C ⊆Ω, é um conjunto boreliano.
Induz a rotulagem:
Y1=χC(X1),Y2=χC(X2), . . . ,Yn=χC(Xn), . . . Erro de classificação (de generalização):
erroC,µ(H) =µ(C∆H)
=P[χC(X)6=χH(X)]
cada amostra rotulada um classificador:
σ = (x1, ε1),(x2, ε2), . . . ,(xn, εn)7→Tσ Notação: Ln(σ).
Ln: Ωn
|{z}
amostras
× {0,1}n
| {z }
rótulos
→ {0,1}Ω
| {z }
classificadores
Uma outra interpretação:
L : Ωn× {0,1}n× Ω → {0,1}
Classes PAC aprendizáveis
def.Uma regra de aprendizagem(Ln)aprendea classeC sob a medidaµprovavelmente aproximadamente corretamente (PAC) com a complexidade amostrals(δ, ε, µ)se:
∀C∈C, Pσ∼µn[µ(C∆Ln(Cσn))> ε]< δ, quandon≥s(δ, ε).
∗ ∗ ∗
def.Uma classeC éPAC aprendizávelse existe uma regra (Ln)que PAC aprendeC.
∗ ∗ ∗
exemplo: a classe 2Ω de todos os conceitos é PAC aprendizável sob qualquer medidapuramente atómica (suportada por uma sequência de átomos).
[s(δ, ε)depende deµ]
erroC,µ(H) =P[χC(X)6=χH(X)] =µ(C∆H) A distância
µ(C∆D) = Z
Ω
|χC(x)−χD(x)|dµ(x) =kχC−χDkL1(µ)
é umapseudométrica:todas propriedades de uma métrica, mas pode serµ(C∆D) =0 paraC 6=D.
A classe não PAC aprendizável
A classeBde conjuntos borelianos do intervalo[0,1]sob a medida uniforme (de Lebesgue)λnão é PAC aprendizável.
Família de conjuntos de Rademacher: infinita e 1/2-discreta (µ(Ri∆Rj) =1/2):
...
0 1/2 1
R1 R 2 R 3 R 4
Assume a regraLaprendeB. Sejan≥s(1/2,1/8, λ).
Emntão, para cadai=1,2, . . . ,k, . . .,
Ai ={σ ∈Ωn:µ(Ri∆L(Ri σ))>1/8} ⊆Ωn tem medida< δ=1/2.
...
0 1/2 1
R 2 R 3 R 4
Assume a regraLaprendeB. Sejan≥s(1/2,1/8). Então,∀i, Ai ={σ ∈Ωn:µ(Ri∆L(Ri σ))>1/8} ⊆Ωn
tem medida< δ=1/2. Logo, qualquer que sejak,
A classe não PAC aprendizável
Assume a regraLaprendeB. Sejan≥s(1/2,1/8).∀i, Ai ={σ ∈Ωn:µ(Ri∆L(Ri σ))>1/8} ⊆Ωn tem medida< δ=1/2. Logo,
Z
[0,1]n k
X
i=1
χAidλn≤ k 2, e existeσt.q. ]J =]{i:σ∈Ai} ≤k/2.
Para conjunto complementarI = [k]\J com≥k/2 índices, i∈I⇒λ(Ri,L(Ri σ))≤1/8.
Por conseguinte, sei,j ∈I,i6=j,Ri σ6=Rj σ.
Masσsó admite≤2nrotulagens, ek é qualquer.
I Qualquer que sejaε >0, existe umaε-rede finitax1, . . . ,xn
paraX dentro deX:
X ⊆ ∪ni=1Bε(xi)
I Qualquer que sejaε >0, umaε-rede finitay1,y2, . . . ,yn
paraX dentro deY,
I Qualquer que sejaε >0, cada subconjuntoε-discreto de X é finito.
Um conjuntoX com estas propriedades se chama
Dado uma amostraσ = (x1,x2, . . . ,xn), amedida empírica correspondente é dada por
µn(A)≡µσ(A) = 1
n]{i:xi ∈A}
Dado uma amostra rotulada(x1,x2, . . . ,xn,y1,y2, . . . ,yn)e uma hipóteseH, oerro de classificaçãonão pode ser calculado:
erroC,µ =µ(C∆H).
Mas oerro empíricopode:
erroC,µn(H) =µn(C∆H)
= 1
n]{i:χC(xi)6=χH(xi)}
= 1
n]{i:yi 6=χH(xi)}
Pode ser calculada!
ε-discreto deC é finito (limitado por acima por 2s(ε/2,1/2)+1).
⇐: dadoε >0, existeε-rede finita,C1, . . . ,Cn, paraC. Dada amostra rotulada,(σ, τ), a regra vai escolherCi minimizando oerro empírico:
j=argmin erroC,µn(Cj) =argmin1
n]{i:xi ∈Cj∆C}
Ao invés deµ, usemosµn, a medida empírica:
1
Os rótulos,
Y1=χC(X1),Y2=χC(X2), . . . ,Yn=χC(Xn), . . . formam uma sequência i.i.d. de v.a. de Bernoulli.
Segundo a Lei dos Grandes Números, P
1
n(Y1+Y2+. . .+Yn)−EY1
> ε
<2 exp(−2ε2n) Como
EY1=P[Yi =1] =µ(C),
P[|µn(C)−µ(C)|> ε]<2 exp(−2ε2n), ou seja,
µn(C)≈ε µ(C), com confiança
1−2 exp(−2ε2n).
Dado amostra rotulada,(σ, τ), a regra vai escolherCi minimizando oerro empírico:
j=argmin erroC,µn(Cj) =argmin1
n]{i:xi ∈Cj∆C}
Ao invés deµ, usemosµn, a medida empírica:
µn(A) = 1
n]{i=1,2, . . . ,n:xi ∈A}
Para todoj =1,2, . . . ,k, com confiança 1−δ,
erroC,µ (Cj) =µn(C∆Cj)≈ε µ(C∆Cj) =erroC,µ(Cj),
Oerro empíricode um classificadorT =χH: errC,µn(H) = |{i:xi ∈X, T(xi)6=yi}|
n Princípio da minimização do risco empírico:
argmin errH,µn(C)
Família de classificadores,C +PMRE uma regra de aprendizagem.
I L(Cσ)σ=Cσ.
A classeC é consistentemente aprendizável (consistently learnable) sobµse cada regra consistente comC aprendeC (sobµ).
Consistententemente aprendizável⇒aprendizável Princípio da minimização do erro empírico:
argmin errC,µn(H)
Aprendizável consistentemente aprendizável
Ω = [0,1], sob a medida de Lebesgueλ
C =todos os conjuntos finitos e todos os conjuntos cofinitos:
C ∈C ⇐⇒ ]C <∞ou]([0,1]\C)<∞ C é aprendizável pela regra tendo as propriedades
L:
((σ, σ) 7→[0,1], (σ,∅) 7→ ∅.
Ao mesmo tempo, a regra
L: (σ, τ)7→τ
é consistente comC, porém não aprendeC= [0,1]:
erro[0,1],λL(σ,[0,1]σ) =λ([0,1]∆σ) =1.
Como caraterizar as classes consistentemente aprendizáveis?
basta para estimar simultaneamente as medidas de todos C∈C.
Existes(δ, ε), t.q., sen≥s(δ, ε), então, com confiança 1−δ,
∀C∈C, µn(C)≈ε µ(C), ou seja,
P
∀C∈C, 1
n]{i:xi ∈C}≈ε µ(C)
≥1−δ