Tópicos selecionados na aprendizagem de máquina supervisionada

(1)

Tópicos selecionados na aprendizagem de máquina supervisionada

Vladimir Pestov

twitter: @docente_errante

1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)

2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá

(Professor Emérito)

Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 1. Fragmentação

(2)

Uma citação motivadora

Vladimir Vapnik

“Statistical learning theory does not belong to any specific branch of science: It has its own goals, its own paradigm, and its own techniques.

Statisticians (who have their own paradigm) never considered this theory as part of statistics”.

(3)

Localização e tamanho do assunto

ML

computer science mat

prob & stat

2017:

65,000 artigos publicados em ML + NN, 120,000 em toda matemática (MathSciNet).

(4)

O que este mini-curso é (e não é)

Modelo matemático de aprendizagem.

Noções matemáticas fundamentais neste contexto:

I regra de aprendizagem,

I aprendizagem provavelmente aproximadamente correta (PAC),

I dimensão de Vapnik–Chervonenkis (VC),

I classe de Glivenko–Cantelli, ....

Paradigmas de aprendizagem:

I dentro da classe,

I consistência universal

notas de curso: https://arxiv.org/abs/1910.06820 Cenário para criar e analizar novos algoritmos.

Implementações concretas: não.

(5)

Plano de curso (quão realista?)

I Fragmentação (shattering)

I Concentração de medida (? - talvez, já a Lei dos Grandes Números bastaria)

I Teorema de Benedek-Itai

I Classes de Glivenko-Cantelli

I Classificador k-NN, consistência universal

I Aproximação universal

I Compressão amostral

(6)

Problema de classificação binária

+ + −

+ + +

− − −

−

Os dados (pontos dedomínio) divididos em duas classes (amostra rotulada)

(7)

Fragmente de um conjunto de dados da CSDM’2013 para deteção de intrusos na rede

39672 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39673 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39674 1.09 -0.03 -0.08 -0.49 -0.05 -0.15 -1.08 -1 39675 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39676 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39677 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39678 -1.00 -0.03 -0.09 -0.49 -0.05 -0.15 -1.08 1 39679 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 σ∈R⁷× {0,1},

n=|σ|=77,959,

incluindo 71,758 sessões normais (+1) e 6,201 sessões ataque (−1)

(8)

Problema de classificação binária

predictor

+ +

+ + +

− − −

−

{−,+}

construir uma função binária T: [0,1]²→ {0,1}

(classificador/preditor/função de transferência)

(9)

Problema de classificação binária

new datapoint

+ +

+ + +

− − −

−

{−,+}

predictor

capaz de predizer com alta confiança o rótulo de novos pontos (Aprendizagem automática estatísticasupervisionada)

(10)

Rotulagens, conceitos, hipóteses

Ω, um domínio (conjunto)

σ= (x₁,x₂, . . . ,x_n)∈Ωⁿ uma amostra (não rotulada) Rotulagemdeσ: uma sequência de rótulos,

ε₁, ε₂, . . . , εn∈ {0,1}

Conjunto{0,1}ⁿ de todas as rotulagens possíveis deσé o cubo de Hamming de posto n

C⊆Ωumconceito(desconhecido, a ser aprendido) O conceitoC gera uma rotulagem,Cσ(ouC∩σ):

ε₁=χ_C(x₁), ε₂=χ_C(x₂), . . . , εn=χ_C(xn) Amostra rotulada:(x₁,x₂, . . . ,x_n, ε₁, ε₂, . . . , εn).

Tarefa: adivinharC a partir da amostra rotulada, gerando uma hipótese,H ⊆Ω.

(11)

Rotulagens, conceitos, hipóteses

σ 1

1

1 0

0 0

0

0 C

H

(12)

Classes de conceitos

Ω, um domínio (conjunto) C⊆Ωé umconceito

Conceitos,C↔funções binárias,T =χ_C Há conceito desconhecido,C, a ser aprendido

Dada uma amostra,x₁,x₂, . . . ,x_n, o conceitoC gera uma rotulagem,C σ:

ε₁=χ_C(x₁), ε₂=χ_C(x₂), . . . , εn=χ_C(x_n) Um algoritmo de aprendizagem produz uma família de classificadores / conceitos, que formam umaclasse de conceitos,C (concept class).

O cenário para hoje: uma classe de conceitos,C ⊆2^Ω, uma amostraσ= (x₁,x₂, . . . ,xn), e as rotulagens geradas porC sobreσ:

C σ ⊆ {0,1}ⁿ

(13)

Perceptron

Família de classificadores sobreR^d

w_i: pesos,

θ: parâmetro limiar;

η: função de Heaviside:

η(x) =

(1, sex ≥0, 0, sex <0.

(14)

Perceptron

−

+ +

+ + +

− − −

−

+

Perceptron realiza uma separação linear

(15)

Fragmentação (shattering)

Um subconjunto finitoA⊆Ωéfragmentado(shattered) por uma classe de conceitosC, se

C A={0,1}^A.

C B

A

C A B

∀B⊆A∃C ∈C C∩A=B Dimensão de Vapnik–Chervonenkis deC:

VC-dim(C), o supremo de cardinalidades de subconjuntos finitos,A, fragmentados porC.

(16)

Dimensão de Vapnik–Chervonenkis

Classe de um conceito só

Ω6=∅ C ={C}.

O conjunto vazio é fragmentado porC: C ∅={∅}=2^∅

(Todas rotulagens possíveis sobre∅— ou seja, a única rotulagem, vazia – podem ser geradas porC...)

Logo, VC-dim(C)≥0.

Nenhum conjunto unitário é fragmentado:

C {x}={∅}ou{{x}}, nunca{∅,{x}}.

∴VC-dim(C) =0.

(17)

Dimensão de Vapnik–Chervonenkis

Classe de dois conceitos

Ω6=∅ C ={Ω,∅}

- qualquer conjunto unitário{x}é fragmentado porC: C {x}={∅,{x}}

∴VC-dim(C)≥1

- ao mesmo tempo, nenhum conjunto com dois pontos{x,y}, x 6=y, é fragmentado: e.g.{x}∈/C {x,y}

∴VC-dim(C)≤1

∗ ∗ ∗

Mais geralmente, uma classe finita satisfaz VC-dim(C)≤log₂]C

(18)

Dimensão de Vapnik–Chervonenkis

Classe de intervalos finitos emR

Ω =R

C ={[a,b] :a,b∈R, a≤b}

E.g.,{0,1}é fragmentado porC:

∅={0,1} ∩[3,4], {0}={0,1} ∩[−1,0], ....

∴VC-dim(C)≥2

Ao mesmo tempo,nenhumconjunto com três pontos é fragmentado: sea<b<c, então{a,c} 6={a,b,c} ∩[x,y], quaisquer que sejamx,y.

∴VC-dim(C)≤2

(19)

Dimensão de Vapnik–Chervonenkis

Semi-planos fechados emR²

Ω =R²

C consiste de todos os semi-planos fechados:

H ≡H_~_v,b ={~x ∈R²:h~x, ~vi ≥b}, ~v ∈R², b∈R Sejam{a,b,c}quaisquer, não colineares:

∴VC-dim(C)≥3

(20)

Dimensão de Vapnik–Chervonenkis

Semi-planos fechados emR²

Ω =R²

C consiste de todos os semi-planos fechados:

H ≡H_~_v,b ={~x ∈R²:h~x, ~vi ≥b}, ~v ∈R², b∈R Nenhum conjunto com 4 pontos é fragmentado. Dois casos:

d a

b

c

d a

b

c

∴VC-dim(C)≤3

(21)

Dimensão de Vapnik–Chervonenkis

Semi-espaços fechados emR^d(perceptron comdinputs)

Ω =R^d

C consiste de todos os semi-espaços fechados:

H≡H_w,b_~ ={~x ∈R^d:h~x, ~wi ≥b}, ~v ∈R^d, b∈R A classe gerada pelo perceptron comd inputs:

x 7→η(hx,wi+b)∈ {0,1}.

VC-dim(C) =d +1. Várias provas, a mais simples segue-se de um argumento algébrico:

(22)

Dimensão VC e dimensão vetorial

teorema.Para uma funçãof: Ω→R, denotemos P_f ={x ∈Ω : f(x)≥0}.

SejaV um sub-espaço vetorial deR^Ω. Então, VC-dim{P_f:f ∈V} ≤d =dim_RV. /Dadox ∈Ω,

xˆ(f) =f(x)

é um funcional linear sobreV. Sejamx₁,x₂, . . . ,x_d,x_d+1∈Ω distintos, fragmentados porP_f,f ∈V. Pode supor que, no espaçoV^∗,

xˆ_d+1=

d

X

i=1

λixˆ_i. Sejaf ∈V t.q. f(x_i)≥0 ⇐⇒ λi ≥0. Então,

f(x_d+1) = ˆx_d+1(f)≥0, ex₁, . . . ,x_d+1não é fragmentado. .

(23)

Dimensão de Vapnik–Chervonenkis

Semi-espaços fechados emR^d(perceptron comdinputs)

Ω =R^d

C consiste de todos os semi-espaços fechados:

H≡H_w,b_~ ={~x ∈R^d:h~x, ~wi ≥b}, ~v ∈R^d, b∈R A classe gerada pelo perceptron comd inputs:

x 7→η(hx,wi+b)∈ {0,1}.

Temos:

H_w,b_~ =P_h~_x,~_wi−b

O espaço de funções afins sobreR^d tem dimensãod+1, concluimos: VC-dim(C)≤d +1.

É fácil verificar que 0,e₁,e₂, . . . ,e_d é fragmentado pelos semi-espaços.

(24)

Teorema de Pajor

teorema:SejaC uma classe de conceitos com m elementos, m≥1. EntãoC fragmenta pelo menos m subconjuntos deΩ dois a dois diferentes.

Prova:indução emm.

m=1: a classe contém um conceito só, e fragmenta o conjunto vazio.

Suponha que a afirmação seja válida para 1≤i≤m. Seja ]C =m+1. Então, existex₀∈ ∪C \ ∩C.

C0={A∈C:A3x₀}, ]C0=k ≥1,

C₁={B∈C:B63x₀}, ]C₁=`≥1, k+`=m+1.

Segundo a hipótese, existem A₁,A₂, . . . ,A_k

| {z }

distintos, fragmentados porC0

, B₁,B₂, . . . ,B_l

| {z }

(25)

Teorema de Pajor /2

teorema:SejaC uma classe de conceitos com m elementos, m≥1. EntãoC fragmenta pelo menos m subconjuntos deΩ dois a dois diferentes.

C0={A∈C:A3x₀}, ]C0=k, C1={B∈C:B63x₀}, ]C1=`.

Segundo a hipótese, existem A₁,A₂, . . . ,A_k

| {z }

, B₁,B₂, . . . ,B_l

| {z }

SuponhaA_i =B_j, ou seja, fragmentado porC0e porC1. Logo,A_i∪ {x₀}=B_j∪ {x₀}é fragmentado porC =C0∪C1

(mas não porC0nem porC1) SubstituímosB_j porB_j∪ {x₀}. Etc.

(26)

Lema de Sauer–Shelah

teorema:Suponha VC-dim(C)≤d, e sejaσ uma amostra comnelementos. Então, o número de rotulagens diferentes induzidas sobreσporC satisfaz

](C σ)≤

d

X

i=0

n i

=][σ]^≤d

<

en d

d

.

/Caso contrário, segundo t. de Pajor, o número de subconjuntos deσ fragmentados porC é maior que a cardinalidade da família de todos os conjuntos com≤d elementos, logo existe um conjunto comd +1 elementos fragmentado porC, logo VC-dim(C)>d. . Segunda estimativa: usa-se a desigualdade de Euler,

1+^a_xx

<e^a(x >0).

(27)

Lema de Sauer–Shelah /2

Para todo 0≤i ≤d, temos n

d d

d n

i

= n

d d−i

≥1, e por conseguinte,

d

X

i=0

n i

≤n d

d d

X

i=0

n i

d n

i

≤n d

d n

X

i=0

n i

d n

i

=n d

d 1+d

n n

<n d

d

e^d

=en d

d

.

(28)

Coeficientes de fragmentação

n-ésimo coeficiente de fragmentação(n-th shattering

coefficient) de uma classeC é o maior número de rotulagens induzidas porC sobren-amostras:

s(n,C) =sup{]C|_σ:σ⊆Ω, ]σ≤n}.

Por exemplo, VC-dim(C) =sup{n:s(n,C) =2ⁿ}. Lema de Sauer–Shelah:

s(n,C)≤

d

X

i=0

n i

<

en d

d

. A primeira desigualdade é exata (exercício)

(29)

Redes de unidades computacionais

Estrutura mais geral do que ANNs

7 x1

x2 x3 x

4 x5 x6

f1

f2

f3

f4

f5

f 6

f

Um grafo dirigido, sem ciclos.

1a camada: entrada, inputs=elementos deR^d = Ω.

Outras camadas: unidades computacionais (funções binárias dependendo de parâmetros, por exemplo, perceptrons).

Última camada: única unidade, a de saída (0 ou 1).

(30)

Redes de unidades computacionais

7 x1

x2 x3 x4 x5 x6

f1

f2

f3 f4

f5

f6 f

teorema.Se a redeN temk unidades computacionais, W =P

uVC-dim(u), então para cadan, s(N,n)≤

enk W

W

, e

VC-dim(N )≤2W log₂ 2k

log 2

=O(Wlogk)

(31)

Coeficientes de fragmentação de N /1

Escolhemos uma ordem total entre unidades, u₁,u₂, . . . ,u_k,

de modo que se existe conexãou_i →u_j, entãoi <j.

Estadoωda rede: totalidade de parâmetros.

Fixemos uma amostra,σ= (x₁,x₂, . . . ,x_n),x_j ∈Ω =R^d. Relação de equivalênciaω∼ⁱ ω⁰: para cada inputx_j,

j=1, . . . ,n, unidadesu₁, . . . ,u_i produzem mesmos valores.

](classes mod ∼)¹ ≤s(u₁,n)≤(en/d₁)^d¹

(32)

Coeficientes de fragmentação de N /2

Unidades,u₁,u₂, . . . ,u_k, seu_i →u_j, entãoi <j.

Estadoωda rede: totalidade de parâmetros.

Fixemos uma amostra,σ= (x₁,x₂, . . . ,xn),x_j ∈Ω =R^d. Relação de equivalênciaω∼ⁱ ω⁰: para cada inputx_j,

estados da rede Classes de equivalencia da relaçao ~i+1

Classes de equivalencia da relacao ~ i

Espaco de

](classes mod ⁱ⁺¹∼)](classes mod ∼ⁱ)×(en/d_i+1)^dⁱ⁺¹

(33)

Coeficientes de fragmentação de N /3

Escolhemos uma ordem total entre unidades, u₁,u₂, . . . ,u_k,

de modo que se existe conexãou_i →u_j, entãoi <j.

Fixemos uma amostra,σ= (x₁,x₂, . . . ,xn),x_j ∈Ω =R^d. Relação de equivalênciaω∼ⁱ ω⁰: para cada inputx_j,

](classes mod ⁱ⁺¹∼)](classes mod ∼ⁱ)×(en/d_i+1)^dⁱ⁺¹ n-ésimo coeficiente de fragmentação da rede≤]classes de equivalência mod ∼,^k s(N,n)≤Qk

i=1(en/d_i)^dⁱ

∴logs(N,n)≤

k

X

i=1

d_ilog en

d_i

.

(34)

Entropia de Claude Shannon

SejaX uma variável aleatória, com valoresx₁,x₂, . . . ,xn e probabilidadesp_i. AentropiadeX é a quantidade

H(X) =

n

X

i=1

−p_ilogp_i.

lema.H(X)≤logn, atingido sobre a distribuição uniforme:

p_i = 1

n, i=1,2, . . . ,n.

/O logaritmo é uma função côncava. Logo, para qualquer que seja a coleçãoλi >0,i=1,2, . . . ,n,

log

n

X

i=1

p_iλ_i

!

≥

n

X

i=1

p_ilog(λi).

No casoλ_i =1/pi, logn≥

n

X

i=1

p_ilog 1

p_i

=H(X) . .

(35)

Coeficientes de fragmentação de N /4

logs(N,n) ≤

k

X

i=1

d_ilog en

d_i

= W

k

X

i=1

d_i W

logW

d_i +log(en)−logW

= W ·H(X) +W logen W

≤ Wlogk+Wlogen W

= Wlogenk W .

(36)

Dimensão de Vapnik–Chervonenkis de N

VC-dim(N )≤n ⇐⇒ s(N,n)≤2ⁿ, em particular, quando enk

W W

≤2ⁿ, ou seja,n≥Wlog₂ enk

W

. lema.Para todosα,x >0,

logx ≤αx −logα−1, com a igualdade se e apenas seαx =1.

Apliquemos o lema comx = ^enk_W eα = ^{log 2}_2ek: log

enk W

≤ nlog 2 2W −log

log 2 2ek

−1,

Wlog₂ enk

W

≤ n

2 +W log₂ 2k

log 2

. .

(37)

Redes de unidades computacionais

Problema de “sobreajuste benigno” de DNNs

7 x1

x2 x3 x4 x5 x6

f1

f2

f3 f4

f5 f6

f

teorema.Se a redeN temk unidades computacionais, W =P

uVC-dim(u), então para cadan, s(N,n)≤

enk W

W

, e

VC-dim(N )≤2W log₂ 2k

log 2

=O(Wlogk)

Como a taxa de crescimento depende da geometria da DNN?

Precisa de uma análise mais fina.