Tópicos selecionados na aprendizagem de máquina supervisionada
Vladimir Pestov
twitter: @docente_errante
1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)
2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá
(Professor Emérito)
Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 3
1 / 32
Classes consistentemente aprendizáveis
Uma regraLéconsistentecom a classeC, se, para todo C∈C,
I L(Cσ)∈C,
I L(Cσ)σ=Cσ.
A classeC é consistentemente aprendizável (consistently learnable) sobµse cada regra consistente comC aprendeC (sobµ).
Consistententemente aprendizável
⇒
6⇐aprendizável Princípio da minimização do erro empírico:
argmin errC,µn(H)
Uma classeC +PMEE uma regra de aprendizagem consistente com a classe.
2 / 32
Classes de Glivenko–Cantelli
C ⊆2Ω é uma classe de Glivenko–Cantelli sob a medidaµse, com alta confiançã, uma amostra aleatóriaσ ={x1,x2, . . . ,xn} basta para estimar simultaneamente as medidas de todos C∈C.
Existes(δ, ε), t.q., sen≥s(δ, ε), então, com confiança 1−δ,
∀C∈C, µn(C)≈ε µ(C), ou seja,
P
∀C∈C, 1
n]{i:xi ∈C}≈ε µ(C)
≥1−δ
3 / 32
Classes de Glivenko–Cantelli são consistentemente aprendizáveis
SejaD∈C um conceito a ser aprendido. Vamos ver em breve que a classe
C∆D={C∆D:C∈C} é de Glivenko–Cantelli.∗
∴senfor bastante grande, com confiança 1−δ, para todos C∈C,
µσ(C∆D)≈ε µ(C∆D)
Para a hipóteseHgerada por uma uma regra consistente, temos, com confiança 1−δ,
0=µn(H∆D)
≈ε µ(H∆D)
=erroD,µ(H)
< ε.
(∗ Pode-se mostrar diretamente?) 4 / 32
Consistentamente aprendizavel 6⇒ Glivenko–Cantelli
Ω = [0,1], sob a medida de Lebesgueλ C =todos os conjuntos finitos:
C∈C ⇐⇒ ]C<∞
Cada regra consistente comC aprende a classe sobλ: a hipóteseH sempre pertence àC, logo
erroC,λ(H) =λ(C∆H) =0.
Ao mesmo tempo, qualquer que seja amostra finitaσ, ela não vai estimar simultaneamente as medidas de todos os
conceitos: por exemplo,
µσ(σ) =16=0=λ(σ)
aprendizáveis$consistentemente aprendizáveis$Glivenko–Cantelli Como caraterizar as classes consistentemente aprendizáveis?
5 / 32
Simetrização com sinais
C uma classe de Glivenko–Cantelli,ε >0, então grande que Eσ∼µsup
C∈C
|µσ(C)−µ(C)|< ε.
Sejaσ0= (X10,X20, . . . ,Xn0)uma amostra independente de σ= (X1,X2, . . . ,Xn)
Eσ,σ0∼µsup
C∈C
|µσ(C)−µσ0(C)|
=Eσ,σ0∼µsup
C∈C|µσ(C)−µ(C) +µ(C)−µσ0(C)|
≤Eσ,σ0∼µsup
C∈C
|µσ(C)−µ(C)|+Eσ,σ0∼µsup
C∈C
|µσ0(C)−µ(C)|
=Eσ∼µsup
C∈C
|µσ(C)−µ(C)|+Eσ0∼µsup
C∈C
|µσ0(C)−µ(C)|
<2ε.
6 / 32
Simetrização com sinais - 2
Eσ,σ0∼µsup
C∈C
|µσ(C)−µσ0(C)|<2ε k
Esup
C∈C
1 n
n
X
i=1
χC(xi)− 1 n
n
X
i=1
χC(xi0)
=Esup
C∈C
1 n
n
X
i=1
χC(xi)−χC(xi0) .
A transposiçãoτi :i ↔n+i, 1≤i≤nconserva a medida:
=Esup
C∈C
1 n
n
X
i=1
ηi χC(xi)−χC(xi0)
<2ε,
ondeη = (η1, η2, . . . , ηn)∈ {−1,1}n
7 / 32
Complexidade de Rademacher
Esup
C∈C
1 n
n
X
i=1
ηi χC(xi)−χC(xi0)
<2ε
Esup
C∈C
1 n
n
X
i=1
ηiχC(xi)
| {z }
−1 n
n
X
i=1
ηiχC(xi0)
<2ε
η= (η1, . . . , ηn)∈ {1,−1}n, ocubo de Rademacher,com a medida de produto (medida de contagem normalizada):
µ](A) = 1 2n](A).
A quantidade
Rn(C) =EηEσ∼µsup
C∈C
1 n
n
X
i=1
ηiχC(xi) chama-se acomplexidade de RademacherdeC.
8 / 32
Complexidade de Rademacher empírica
Esup
C∈C
1 n
n
X
i=1
ηi χC(xi)−χC(xi0)
<2ε
Esup
C∈C
1 n
n
X
i=1
ηiχC(xi)
| {z }
−1 n
n
X
i=1
ηiχC(xi0)
<2ε
η= (η1, . . . , ηn)∈ {1,−1}n, ocubo de Rademacher,com a medida de produto (medida de contagem normalizada):
µ](A) = 1 2n](A).
A quantidade
Rˆn(C) =Eηsup
C∈C
1 n
n
X
i=1
ηiχC(xi)
chama-se acomplexidade de Rademacher empíricadeC.
9 / 32
Complexidade de Rademacher: resultado a mostrar
teorema.Uma classe de conceitos,C, é de Glivenko–Cantelli se e somente se
Rn(C) =EηEσ∼µsup
C∈C
1 n
n
X
i=1
ηiχC(xi)→0 quandon→ ∞
∗ ∗ ∗
Pense de sinaisηi =±1 como rótulos (2χC(xi)−1 ao invez de χC).
1 n
n
X
i=1
ηi(2χC(xi)−1) = ](+1)
n −](−1) n
=1−2µσ(C∆σ+)
=1−2erroµσ,σ+(C).
O valor pode ser visto como abondade de ajuste(goodness of fit)empíricadeσ+comC.
10 / 32
Complexidade de Rademacher: interpretação intuitiva
1 n
n
X
i=1
ηi(2χC(xi)−1) =1−2erroµσ,σ+(C).
∴ 1 n
n
X
i=1
ηiχC(xi) = 1 2 +1
2w(η)¯ −erroµσ,σ+(C), onde
w¯(η) = 1 n
n
X
i=1
ηi
Segundo LLN, quandon1, com alta confiança,w¯(η)≈0, então, é uma medida de bondade de ajuste de uma amostra aleatória comC, e
Rn(C) =Eσ∼µEηsup
C∈C
1 n
n
X
i=1
ηiχC(xi)
é a esperada bondade de ajuste de uma rotulagem aleatória
pela classeC. 11 / 32
Um cálculo auxiliar da esperança
obs.:Eσ∼µnµσ(C) =Eσ1 n
Pn
i=1χC(xi) =µ(C)
Eσ∼µ
1 n
n
X
i=1
ηiχC(xi)
!
=Eσ∼µ
]σ+
n · 1 ]σ+
X
i∈σ+
χC(xi)−]σ−
n · 1 ]σ−
X
i∈σ−
χC(xi)
= ]σ+
n Eσ+∼µµσ+(C)−]σ−
n Eσ−∼µµσ−(C)
= 1
2(1+ ¯w(η))µ(C)−1
2(1−w¯(η))µ(C)
= ¯w(η)µ(C).
12 / 32
Necessidade do teorema: GC ⇒ R
n→ 0
Argumento de simetrização com sinais implica:
2ε >EηEσEσ0sup
C∈C
1 n
n
X
i=1
ηiχC(xi)−1 n
n
X
i=1
ηiχC(xi0)
≥EηEσsup
C∈C
Eσ0
1 n
n
X
i=1
ηiχC(xi)−1 n
n
X
i=1
ηiχC(xi0)|σ
!
=EσEηsup
C∈C
1 n
n
X
i=1
ηiχC(xi)−w(η)µ(C)¯
≥EσEηsup
C∈C
1 n
n
X
i=1
ηiχC(xi)
− Eη|w¯(η)|
| {z } a estimar a parte!
×µ(C)
>EσEηsup
C∈C
1 n
n
X
i=1
ηiχC(xi)
− r2π
n .
13 / 32
Cubo de Hamming
{0,1}n, munido da distância de Hamming normalizada, d(σ, τ) = 1
n]{i:σi 6=τi}
e da medida uniforme (normalizada de contagem), µ](A) = 1
2n](A).
lema.
µ](Bε(0))<exp(−2(1/2−ε)2N) (Lei dos Grandes Números)
14 / 32
Cubo de Rademacher
{−1,1}né munido da distância d(η, η0) = 1
n
n
X
i=1
|ηi−ηi0|= 2
n]{i:ηi 6=ηi0} e da medida uniforme (normalizada de contagem),
µ](A) = 1 2n](A).
A aplicaçãoη7→η/2+1 entre{±1}n e{0,1}nmultiplica todas as distâncias por 1/2 e conserva a medida.
lema.
µ](Bε)<exp(−2(1/2−ε/2)2n) lema.Eη|w¯{±1}n(η)| ≤
√√2π n
A integral é de tipoR
εexp(−2(1/2−ε/2)2n)(1/2−ε/2)dε
15 / 32
Necessidade do teorema: GC ⇒ R
n→ 0
2ε >EσEηsup
C∈C
1 n
n
X
i=1
ηiχC(xi)
− r2π
n , de onde
Rn(C) =Eσ∼µEηsup
C∈C
1 n
n
X
i=1
ηiχC(xi)
≤EσEηsup
C∈C
1 n
n
X
i=1
ηiχC(xi)
<2ε+ r2π
n
→0 quandon→ ∞
16 / 32
Suficiência do teorema: R
n→ 0 ⇒ GC
Mais uma simetrização com sinais
Eσ∼µsup
C∈C(µσ(C)−µ(C)) =Eσsup
C∈C
"
1 n
n
X
i=1
χC(Xi)−µ(C)
#
=Eσsup
C∈C
"
1 n
n
X
i=1
χC(Xi)−Eσ0χC(Xi0)
#
=Eσsup
C∈C
"
Eσ0
1 n
n
X
i=1
(χC(Xi)−χC(Xi0)) σ
!#
≤E(σ,σ0)sup
C∈C
"
1 n
n
X
i=1
(χC(Xi)−χC(Xi0))
#
=E(σ,σ0)sup
C∈C
"
1 n
n
X
i=1
ηi(χC(Xi)−χC(Xi0))
#
17 / 32
Suficiência do teorema: R
n→ 0 ⇒ GC
Eσ∼µsup
C∈C(µσ(C)−µ(C))≤E(σ,σ0)sup
C∈C
"
1 n
n
X
i=1
ηi(χC(Xi)−χC(Xi0))
#
≤EηE(σ,σ0)sup
C∈C
"
1 n
n
X
i=1
ηi(χC(Xi)−χC(Xi0))
#
≤Eη,σ,σ0sup
C∈C
"
1 n
n
X
i=1
ηiχC(Xi) +1 n
n
X
i=1
(−ηi)χC(Xi0)
#
≤Eη,σsup
C∈C
1 n
n
X
i=1
ηiχC(Xi) +Eη,σ0sup
C∈C
1 n
n
X
i=1
(−ηi)χC(Xi0)
=2Rn(C).
Para concluir, precisamos da concentração gaussiana
18 / 32
Lei geométrica dos grandes números
Para cada função 1-Lipschitz contínua,f:{0,1}n →R,
|f(σ)−f(τ)| ≤d(σ, τ), e cadaε >0,
µ]{σ ∈ {0,1}n: |f(σ)−Ef|> ε} ≤2 exp(−2ε2n) Lei dos grandes números:f(σ) = ¯w(σ) = 1nPn
i=1σi
Ao invés de{0,1}, pode-se substituir qualquer espaço probabilístico padrão,(Ω,B, µ).
Distância de Hamming normalizada sobreΩn: d(σ, τ) = 1
n]{i:σi 6=τi} (não é boreliana)
19 / 32
Suficiência do teorema: R
n→ 0 ⇒ GC
obs.:A função real seguinte é 1-Lipschitz contínua:
σ7→ sup
C∈C(µσ(C)−µ(C)) Por conseguinte, qualquer que sejaε >0,
µ⊗n{σ: sup
C∈C(µσ(C)−µ(C))−2Rn(C)> ε}
≤µ⊗n{σ: sup
C∈C(µσ(C)−µ(C))−Esup
C∈C(µσ(C)−µ(C))> ε}
≤e−2ε2n.
Argumento simétrico:
µ⊗n{σ: sup
C∈C(µ(C)−µσ(C))−2Rn(C)> ε} ≤e−2ε2n.
20 / 32
Teorema: GC ⇐⇒ R
n→ 0
Deduzimos: com confiança≥1−2e−2ε2n, qualquer que seja C∈C,
|µσ(C)−µ(C)| ≤2Rn(C) +ε.
Nota-se que
2e−2ε2n≤δ quando
ε≥
rln(2/δ) 2n .
teorema:Dada uma classe de conceitosC, para cadan, temos com confiança 1−δ,
sup
C∈C
|µσ(C)−µ(C)| ≤2Rn(C) +
rln(2/δ) 2n .
A classeC é uma classe de Glivenko–Cantelli se e somente se as complexidades de Rademacher deC convergem para zero:
Rn(C)→0 quandon→ ∞.
21 / 32
Classes de funções
SejaF uma classe de funções reais. A expressão Rˆn(F)(σ) =Eηsup
f∈F
1 n
n
X
i=1
ηif(xi)
chama-se acomplexidade de Rademacher empíricade classe F.
A esperança da complexidade de Rademacher empírica chama-se acomplexidade de Rademacherda classeF:
Rn(F, µ) =Eσ∼µRˆn(F),
ou: amédia de Rademacher(Rademacher average), no contexto original da análise funcional.
22 / 32
Propriedades simples de complexidades de Rademacher
SejamF eG duas classes de funções com valores num intervalo,guma função limitada qualquer, eλ∈R. Então
1. Rˆn(F +G) = ˆRn(F) + ˆRn(G), 2. Rˆn(F +g) = ˆRn(F),
3. Rˆn(λF) =|λ|Rˆn(F).
corolario:SejamF eG duas classes de funções tais que 0∈F, 0∈G. Então,
Rˆn(F∪G)≤Rˆn(F) + ˆRn(G).
(Sem a hipótese 0∈F, 0∈G, o resultado é falso.)
23 / 32
Desigualdade de Jensen
Sejaφuma função real côncava, e sejaX uma variável aleatória real. Então,
E(φ(X))≤φ(E(X)).
/SejaX v.a. tomando dois valores,x ey, comP[X =x] =t, P[X =y] =1−t. Neste caso,
E(φ(X)) =tφ(x) + (1−t)φ(y)≤φ(tx+ (1−t)y) =φ(E(X)).
Generalizar por indução sobre todas as combinações convexas finitas, e aproximar o valorE(φ(X)) =R
f(x)dµ(x)com
combinações convexas finitas. .
24 / 32
Lema de Massart
SejamF uma classe de funções com valores no intervalo [−1,1], eσuma amostra comnpontos. Suponha que k =](F σ)<∞. Então,
Rˆn(F)(σ)≤
r2 logk n .
/Denotemosλa expressão à direita, ev ∈[−1,1]n,vi =f(xi).
λnRˆn(F)(σ) =Eηλsup
f∈F n
X
i=1
ηif(xi)
=Eη max
v∈Fσλhη,vi
=Eηlog max
v∈Fσeλhη,vi (Jensen) ≤logEη max
v∈Fσeλhη,vi
≤logEη
X
v∈Fσ
eλhη,vi
=log X
v∈Fσ
Eη n
Y
i=1
eληivi
25 / 32
Lema de Massart
λnRˆn(F)(σ) =Eηλsup
f∈F n
X
i=1
ηif(xi)
=Eη max
v∈Fσλhη,vi
=Eηlog max
v∈Fσeλhη,vi (Jensen) ≤logEη max
v∈Fσeλhη,vi
≤logEη
X
v∈Fσ
eλhη,vi
=log X
v∈Fσ
Eη n
Y
i=1
eληivi
=λnRˆn(F)(σ)
≤log X
v∈Fσ n
Y
i=1
Eηeληivi
=log X
v∈Fσ n
Y
i=1
1 2
eλvi +e−λvi
cosh= ex+e−x
2 ≤ex2/2≤log X
v∈Fσ n
Y
i=1
eλ2vi2/2
≤log
kenλ2/2
=logk+n 2λ2.
Substituindo o valor original deλ, obtemos o resultado.
26 / 32
Lema de Massart
λnRˆn(F)(σ)≤λnRˆn(F)(σ)
≤log X
v∈Fσ n
Y
i=1
Eηeληivi
=log X
v∈Fσ n
Y
i=1
1 2
eλvi +e−λvi
[cosh= ex+e−x
2 ≤ex2/2]≤log X
v∈Fσ n
Y
i=1
eλ2vi2/2
≤log
kenλ2/2
=logk +n 2λ2.
Substituindo o valor original deλ, obtemos o resultado.
27 / 32
Adicionando zero à classe
lemaSejaF uma classe de funções com valores no intervalo [−1,1]. Então,
Rˆn(F ∪ {0})≤Rˆn(F) +
r2 log 2 n .
/Sejaf0∈F um elemento quelquer. Nota-se que a classe F−f0contém zero. Segundo lema de Massart:
Rˆn(F ∪ {0}) = Rˆn((F ∪ {0})−f0)
= Rˆn((F −f0)∪ {−f0})
≤ Rˆn((F −f0)∪ {0,−f0})
≤ Rˆn(F−f0) + ˆRn{0,−f0}
≤ Rˆn(F) +
r2 log 2 n .
28 / 32
União de duas classes
proposicao:SejamF eG duas classes de funções com valores no intervalo[−1,1]. Então,
Rˆn(F ∪G)≤Rˆn(F) + ˆRn(G) +2
r2 log 2 n .
Rˆn(F ∪G) ≤ Rˆn((F ∪ {0})∪(G ∪ {0}))
≤ Rˆn(F∪ {0}) + ˆRn(G ∪ {0})
≤ Rˆn(F) + ˆRn(G) +2
r2 log 2 n .
29 / 32
Desigualdade de Ledoux–Talagrand
lemaDada uma classeF, denotemos|F|={|f|:f ∈F}.
Então,
Rˆn(|F|)≤Rˆn(F).
/Temos a mostrar:
Eηsupf∈FPn
i=1ηi|f(xi)| ≤Eηsupf∈FPn
i=1ηif(xi).
Cason=1:
1 2[sup
f∈F
|f(x1)|+sup
f∈F
(−1)|f(x1)|]
= 1 2 sup
f,g∈F
(|f(x1)| − |g(x1)|) [ porque|a| − |b| ≤ |a−b|]≤ 1
2 sup
f,g∈F
|f(x1)−g(x1)|
= 1 2 sup
f,g∈F(f(x1)−g(x1))
= 1 2[sup
f∈Ff(x1) +sup
f∈F
(−1)f(x1)].
30 / 32
Desigualdade de Ledoux–Talagrand
nqualquer, o mesmo jeito a cada coordenada
Eηsup
f∈F n
X
i=1
ηi|f(xi)|= 1
2Eη2,...,ηn
"
sup
f∈F
|f(x1)|+
n
X
i=2
ηi|f(xi)|
! +
sup
f∈F
−|f(x1)|+
n
X
i=2
ηi|f(xi)|
!#
= 1
2Eη2,...,ηn sup
f,g∈F
"
|f(x1)| − |g(x1)|+
n
X
i=2
ηi|f(xi)|+
n
X
i=2
ηi|g(xi)|
#
≤ 1
2Eη2,...,ηn sup
f,g∈F
"
f(x1)−g(x1) +
n
X
i=2
ηi|f(xi)|+
n
X
i=2
ηi|g(xi)|
#
=Eηsup
f∈F
"
η1f(x1) +
n
X
i=2
ηi|f(xi)|
#
≤. . .≤Eηsup
f∈F n
X
i=1
ηif(xi). 31 / 32
Classes de Glivenko–Cantelli são consistentemente aprendizáveis
corolário:seC é uma classe de Glivenko–Cantelli eD⊆Ω um conceito qualquer, então a classeC∆D={C∆D:C∈C} é a de Glivenko–Cantelli, tendo a mesma complexidade de Rademacher queC:
Rˆn(C∆D) = ˆRn(C).
∴senfor bastante grande, com confiança 1−δ, para todos C∈C,
µσ(C∆D)≈ε µ(C∆D)
Para a hipóteseHgerada por uma uma regra consistente, temos, com confiança 1−δ,
0=µn(H∆D)
≈ε µ(H∆D)
=erroD,µ(H)
< ε. 32 / 32