Tópicos selecionados na aprendizagem de máquina supervisionada
Vladimir Pestov
twitter: @docente_errante
1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)
2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá
(Professor Emérito)
Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 1. Fragmentação
Uma citação motivadora
Vladimir Vapnik
“Statistical learning theory does not belong to any specific branch of sci- ence: It has its own goals, its own paradigm, and its own techniques.
Statisticians (who have their own paradigm) never considered this theory as part of statistics”.
Localização e tamanho do assunto
ML
computer science mat
prob & stat
2017:
65,000 artigos publicados em ML + NN, 120,000 em toda matemática (MathSciNet).
O que este mini-curso é (e não é)
Modelo matemático de aprendizagem.
Noções matemáticas fundamentais neste contexto:
I regra de aprendizagem,
I aprendizagem provavelmente aproximadamente correta (PAC),
I dimensão de Vapnik–Chervonenkis (VC),
I classe de Glivenko–Cantelli, ....
Paradigmas de aprendizagem:
I dentro da classe,
I consistência universal
notas de curso: https://arxiv.org/abs/1910.06820 Cenário para criar e analizar novos algoritmos.
Implementações concretas: não.
Plano de curso (quão realista?)
I Fragmentação (shattering)
I Concentração de medida (? - talvez, já a Lei dos Grandes Números bastaria)
I Teorema de Benedek-Itai
I Classes de Glivenko-Cantelli
I Classificador k-NN, consistência universal
I Aproximação universal
I Compressão amostral
Problema de classificação binária
+ + −
+ + +
+ + +
− − −
−
−
−
−
Os dados (pontos dedomínio) divididos em duas classes (amostra rotulada)
Fragmente de um conjunto de dados da CSDM’2013 para deteção de intrusos na rede
39672 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39673 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39674 1.09 -0.03 -0.08 -0.49 -0.05 -0.15 -1.08 -1 39675 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39676 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39677 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39678 -1.00 -0.03 -0.09 -0.49 -0.05 -0.15 -1.08 1 39679 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 σ∈R7× {0,1},
n=|σ|=77,959,
incluindo 71,758 sessões normais (+1) e 6,201 sessões ataque (−1)
Problema de classificação binária
predictor
+ +
+ + +
+ + +
− − −
−
−
−
−
−
{−,+}
construir uma função binária T: [0,1]2→ {0,1}
(classificador/preditor/função de transferência)
Problema de classificação binária
new datapoint
+ +
+ + +
+ + +
− − −
−
−
−
−
−
{−,+}
predictor
capaz de predizer com alta confiança o rótulo de novos pontos (Aprendizagem automática estatísticasupervisionada)
Rotulagens, conceitos, hipóteses
Ω, um domínio (conjunto)
σ= (x1,x2, . . . ,xn)∈Ωn uma amostra (não rotulada) Rotulagemdeσ: uma sequência de rótulos,
ε1, ε2, . . . , εn∈ {0,1}
Conjunto{0,1}n de todas as rotulagens possíveis deσé o cubo de Hamming de posto n
C⊆Ωumconceito(desconhecido, a ser aprendido) O conceitoC gera uma rotulagem,Cσ(ouC∩σ):
ε1=χC(x1), ε2=χC(x2), . . . , εn=χC(xn) Amostra rotulada:(x1,x2, . . . ,xn, ε1, ε2, . . . , εn).
Tarefa: adivinharC a partir da amostra rotulada, gerando uma hipótese,H ⊆Ω.
Rotulagens, conceitos, hipóteses
σ 1
1
1
1 0
0 0
0
0 C
H
Classes de conceitos
Ω, um domínio (conjunto) C⊆Ωé umconceito
Conceitos,C↔funções binárias,T =χC Há conceito desconhecido,C, a ser aprendido
Dada uma amostra,x1,x2, . . . ,xn, o conceitoC gera uma rotulagem,C σ:
ε1=χC(x1), ε2=χC(x2), . . . , εn=χC(xn) Um algoritmo de aprendizagem produz uma família de classificadores / conceitos, que formam umaclasse de conceitos,C (concept class).
O cenário para hoje: uma classe de conceitos,C ⊆2Ω, uma amostraσ= (x1,x2, . . . ,xn), e as rotulagens geradas porC sobreσ:
C σ ⊆ {0,1}n
Perceptron
Família de classificadores sobreRd
wi: pesos,
θ: parâmetro limiar;
η: função de Heaviside:
η(x) =
(1, sex ≥0, 0, sex <0.
Perceptron
−
+ +
+ + +
+ + +
− − −
−
−
−
−
−
+
Perceptron realiza uma separação linear
Fragmentação (shattering)
Um subconjunto finitoA⊆Ωéfragmentado(shattered) por uma classe de conceitosC, se
C A={0,1}A.
C B
A
C A B
∀B⊆A∃C ∈C C∩A=B Dimensão de Vapnik–Chervonenkis deC:
VC-dim(C), o supremo de cardinalidades de subconjuntos finitos,A, fragmentados porC.
Dimensão de Vapnik–Chervonenkis
Classe de um conceito só
Ω6=∅ C ={C}.
O conjunto vazio é fragmentado porC: C ∅={∅}=2∅
(Todas rotulagens possíveis sobre∅— ou seja, a única rotulagem, vazia – podem ser geradas porC...)
Logo, VC-dim(C)≥0.
Nenhum conjunto unitário é fragmentado:
C {x}={∅}ou{{x}}, nunca{∅,{x}}.
∴VC-dim(C) =0.
Dimensão de Vapnik–Chervonenkis
Classe de dois conceitos
Ω6=∅ C ={Ω,∅}
- qualquer conjunto unitário{x}é fragmentado porC: C {x}={∅,{x}}
∴VC-dim(C)≥1
- ao mesmo tempo, nenhum conjunto com dois pontos{x,y}, x 6=y, é fragmentado: e.g.{x}∈/C {x,y}
∴VC-dim(C)≤1
∗ ∗ ∗
Mais geralmente, uma classe finita satisfaz VC-dim(C)≤log2]C
Dimensão de Vapnik–Chervonenkis
Classe de intervalos finitos emR
Ω =R
C ={[a,b] :a,b∈R, a≤b}
E.g.,{0,1}é fragmentado porC:
∅={0,1} ∩[3,4], {0}={0,1} ∩[−1,0], ....
∴VC-dim(C)≥2
Ao mesmo tempo,nenhumconjunto com três pontos é fragmentado: sea<b<c, então{a,c} 6={a,b,c} ∩[x,y], quaisquer que sejamx,y.
∴VC-dim(C)≤2
Dimensão de Vapnik–Chervonenkis
Semi-planos fechados emR2
Ω =R2
C consiste de todos os semi-planos fechados:
H ≡H~v,b ={~x ∈R2:h~x, ~vi ≥b}, ~v ∈R2, b∈R Sejam{a,b,c}quaisquer, não colineares:
∴VC-dim(C)≥3
Dimensão de Vapnik–Chervonenkis
Semi-planos fechados emR2
Ω =R2
C consiste de todos os semi-planos fechados:
H ≡H~v,b ={~x ∈R2:h~x, ~vi ≥b}, ~v ∈R2, b∈R Nenhum conjunto com 4 pontos é fragmentado. Dois casos:
d a
b
c
d a
b
c
∴VC-dim(C)≤3
Dimensão de Vapnik–Chervonenkis
Semi-espaços fechados emRd(perceptron comdinputs)
Ω =Rd
C consiste de todos os semi-espaços fechados:
H≡Hw,b~ ={~x ∈Rd:h~x, ~wi ≥b}, ~v ∈Rd, b∈R A classe gerada pelo perceptron comd inputs:
x 7→η(hx,wi+b)∈ {0,1}.
VC-dim(C) =d +1. Várias provas, a mais simples segue-se de um argumento algébrico:
Dimensão VC e dimensão vetorial
teorema.Para uma funçãof: Ω→R, denotemos Pf ={x ∈Ω : f(x)≥0}.
SejaV um sub-espaço vetorial deRΩ. Então, VC-dim{Pf:f ∈V} ≤d =dimRV. /Dadox ∈Ω,
xˆ(f) =f(x)
é um funcional linear sobreV. Sejamx1,x2, . . . ,xd,xd+1∈Ω distintos, fragmentados porPf,f ∈V. Pode supor que, no espaçoV∗,
xˆd+1=
d
X
i=1
λixˆi. Sejaf ∈V t.q. f(xi)≥0 ⇐⇒ λi ≥0. Então,
f(xd+1) = ˆxd+1(f)≥0, ex1, . . . ,xd+1não é fragmentado. .
Dimensão de Vapnik–Chervonenkis
Semi-espaços fechados emRd(perceptron comdinputs)
Ω =Rd
C consiste de todos os semi-espaços fechados:
H≡Hw,b~ ={~x ∈Rd:h~x, ~wi ≥b}, ~v ∈Rd, b∈R A classe gerada pelo perceptron comd inputs:
x 7→η(hx,wi+b)∈ {0,1}.
Temos:
Hw,b~ =Ph~x,~wi−b
O espaço de funções afins sobreRd tem dimensãod+1, concluimos: VC-dim(C)≤d +1.
É fácil verificar que 0,e1,e2, . . . ,ed é fragmentado pelos semi-espaços.
Teorema de Pajor
teorema:SejaC uma classe de conceitos com m elementos, m≥1. EntãoC fragmenta pelo menos m subconjuntos deΩ dois a dois diferentes.
Prova:indução emm.
m=1: a classe contém um conceito só, e fragmenta o conjunto vazio.
Suponha que a afirmação seja válida para 1≤i≤m. Seja ]C =m+1. Então, existex0∈ ∪C \ ∩C.
C0={A∈C:A3x0}, ]C0=k ≥1,
C1={B∈C:B63x0}, ]C1=`≥1, k+`=m+1.
Segundo a hipótese, existem A1,A2, . . . ,Ak
| {z }
distintos, fragmentados porC0
, B1,B2, . . . ,Bl
| {z }
distintos, fragmentados porC1
Teorema de Pajor /2
teorema:SejaC uma classe de conceitos com m elementos, m≥1. EntãoC fragmenta pelo menos m subconjuntos deΩ dois a dois diferentes.
C0={A∈C:A3x0}, ]C0=k, C1={B∈C:B63x0}, ]C1=`.
Segundo a hipótese, existem A1,A2, . . . ,Ak
| {z }
distintos, fragmentados porC0
, B1,B2, . . . ,Bl
| {z }
distintos, fragmentados porC1
SuponhaAi =Bj, ou seja, fragmentado porC0e porC1. Logo,Ai∪ {x0}=Bj∪ {x0}é fragmentado porC =C0∪C1
(mas não porC0nem porC1) SubstituímosBj porBj∪ {x0}. Etc.
Lema de Sauer–Shelah
teorema:Suponha VC-dim(C)≤d, e sejaσ uma amostra comnelementos. Então, o número de rotulagens diferentes induzidas sobreσporC satisfaz
](C σ)≤
d
X
i=0
n i
=][σ]≤d
<
en d
d
.
/Caso contrário, segundo t. de Pajor, o número de subconjuntos deσ fragmentados porC é maior que a cardinalidade da família de todos os conjuntos com≤d elementos, logo existe um conjunto comd +1 elementos fragmentado porC, logo VC-dim(C)>d. . Segunda estimativa: usa-se a desigualdade de Euler,
1+axx
<ea(x >0).
Lema de Sauer–Shelah /2
Para todo 0≤i ≤d, temos n
d d
d n
i
= n
d d−i
≥1, e por conseguinte,
d
X
i=0
n i
≤n d
d d
X
i=0
n i
d n
i
≤n d
d n
X
i=0
n i
d n
i
=n d
d 1+d
n n
<n d
d
ed
=en d
d
.
Coeficientes de fragmentação
n-ésimo coeficiente de fragmentação(n-th shattering
coefficient) de uma classeC é o maior número de rotulagens induzidas porC sobren-amostras:
s(n,C) =sup{]C|σ:σ⊆Ω, ]σ≤n}.
Por exemplo, VC-dim(C) =sup{n:s(n,C) =2n}. Lema de Sauer–Shelah:
s(n,C)≤
d
X
i=0
n i
<
en d
d
. A primeira desigualdade é exata (exercício)
Redes de unidades computacionais
Estrutura mais geral do que ANNs
7 x1
x2 x3 x
4 x5 x6
f1
f2
f3
f4
f5
f 6
f
Um grafo dirigido, sem ciclos.
1a camada: entrada, inputs=elementos deRd = Ω.
Outras camadas: unidades computacionais (funções binárias dependendo de parâmetros, por exemplo, perceptrons).
Última camada: única unidade, a de saída (0 ou 1).
Redes de unidades computacionais
7 x1
x2 x3 x4 x5 x6
f1
f2
f3 f4
f5
f6 f
teorema.Se a redeN temk unidades computacionais, W =P
uVC-dim(u), então para cadan, s(N,n)≤
enk W
W
, e
VC-dim(N )≤2W log2 2k
log 2
=O(Wlogk)
Coeficientes de fragmentação de N /1
Escolhemos uma ordem total entre unidades, u1,u2, . . . ,uk,
de modo que se existe conexãoui →uj, entãoi <j.
Estadoωda rede: totalidade de parâmetros.
Fixemos uma amostra,σ= (x1,x2, . . . ,xn),xj ∈Ω =Rd. Relação de equivalênciaω∼i ω0: para cada inputxj,
j=1, . . . ,n, unidadesu1, . . . ,ui produzem mesmos valores.
](classes mod ∼)1 ≤s(u1,n)≤(en/d1)d1
Coeficientes de fragmentação de N /2
Unidades,u1,u2, . . . ,uk, seui →uj, entãoi <j.
Estadoωda rede: totalidade de parâmetros.
Fixemos uma amostra,σ= (x1,x2, . . . ,xn),xj ∈Ω =Rd. Relação de equivalênciaω∼i ω0: para cada inputxj,
j=1, . . . ,n, unidadesu1, . . . ,ui produzem mesmos valores.
](classes mod ∼)1 ≤s(u1,n)≤(en/d1)d1
estados da rede Classes de equivalencia da relaçao ~i+1
Classes de equivalencia da relacao ~ i
Espaco de
](classes mod i+1∼)](classes mod ∼i)×(en/di+1)di+1
Coeficientes de fragmentação de N /3
Escolhemos uma ordem total entre unidades, u1,u2, . . . ,uk,
de modo que se existe conexãoui →uj, entãoi <j.
Fixemos uma amostra,σ= (x1,x2, . . . ,xn),xj ∈Ω =Rd. Relação de equivalênciaω∼i ω0: para cada inputxj,
j=1, . . . ,n, unidadesu1, . . . ,ui produzem mesmos valores.
](classes mod ∼)1 ≤s(u1,n)≤(en/d1)d1
](classes mod i+1∼)](classes mod ∼i)×(en/di+1)di+1 n-ésimo coeficiente de fragmentação da rede≤]classes de equivalência mod ∼,k s(N,n)≤Qk
i=1(en/di)di
∴logs(N,n)≤
k
X
i=1
dilog en
di
.
Entropia de Claude Shannon
SejaX uma variável aleatória, com valoresx1,x2, . . . ,xn e probabilidadespi. AentropiadeX é a quantidade
H(X) =
n
X
i=1
−pilogpi.
lema.H(X)≤logn, atingido sobre a distribuição uniforme:
pi = 1
n, i=1,2, . . . ,n.
/O logaritmo é uma função côncava. Logo, para qualquer que seja a coleçãoλi >0,i=1,2, . . . ,n,
log
n
X
i=1
piλi
!
≥
n
X
i=1
pilog(λi).
No casoλi =1/pi, logn≥
n
X
i=1
pilog 1
pi
=H(X) . .
Coeficientes de fragmentação de N /4
logs(N,n) ≤
k
X
i=1
dilog en
di
= W
k
X
i=1
di W
logW
di +log(en)−logW
= W ·H(X) +W logen W
≤ Wlogk+Wlogen W
= Wlogenk W .
Dimensão de Vapnik–Chervonenkis de N
VC-dim(N )≤n ⇐⇒ s(N,n)≤2n, em particular, quando enk
W W
≤2n, ou seja,n≥Wlog2 enk
W
. lema.Para todosα,x >0,
logx ≤αx −logα−1, com a igualdade se e apenas seαx =1.
Apliquemos o lema comx = enkW eα = log 22ek: log
enk W
≤ nlog 2 2W −log
log 2 2ek
−1,
Wlog2 enk
W
≤ n
2 +W log2 2k
log 2
. .
Redes de unidades computacionais
Problema de “sobreajuste benigno” de DNNs
7 x1
x2 x3 x4 x5 x6
f1
f2
f3 f4
f5 f6
f
teorema.Se a redeN temk unidades computacionais, W =P
uVC-dim(u), então para cadan, s(N,n)≤
enk W
W
, e
VC-dim(N )≤2W log2 2k
log 2
=O(Wlogk)
Como a taxa de crescimento depende da geometria da DNN?
Precisa de uma análise mais fina.