• Nenhum resultado encontrado

Tópicos selecionados na aprendizagem de máquina supervisionada

N/A
N/A
Protected

Academic year: 2022

Share "Tópicos selecionados na aprendizagem de máquina supervisionada"

Copied!
37
0
0

Texto

(1)

Tópicos selecionados na aprendizagem de máquina supervisionada

Vladimir Pestov

twitter: @docente_errante

1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)

2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá

(Professor Emérito)

Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 1. Fragmentação

(2)

Uma citação motivadora

Vladimir Vapnik

“Statistical learning theory does not belong to any specific branch of sci- ence: It has its own goals, its own paradigm, and its own techniques.

Statisticians (who have their own paradigm) never considered this theory as part of statistics”.

(3)

Localização e tamanho do assunto

ML

computer science mat

prob & stat

2017:

65,000 artigos publicados em ML + NN, 120,000 em toda matemática (MathSciNet).

(4)

O que este mini-curso é (e não é)

Modelo matemático de aprendizagem.

Noções matemáticas fundamentais neste contexto:

I regra de aprendizagem,

I aprendizagem provavelmente aproximadamente correta (PAC),

I dimensão de Vapnik–Chervonenkis (VC),

I classe de Glivenko–Cantelli, ....

Paradigmas de aprendizagem:

I dentro da classe,

I consistência universal

notas de curso: https://arxiv.org/abs/1910.06820 Cenário para criar e analizar novos algoritmos.

Implementações concretas: não.

(5)

Plano de curso (quão realista?)

I Fragmentação (shattering)

I Concentração de medida (? - talvez, já a Lei dos Grandes Números bastaria)

I Teorema de Benedek-Itai

I Classes de Glivenko-Cantelli

I Classificador k-NN, consistência universal

I Aproximação universal

I Compressão amostral

(6)

Problema de classificação binária

+ + −

+ + +

+ + +

− − −

Os dados (pontos dedomínio) divididos em duas classes (amostra rotulada)

(7)

Fragmente de um conjunto de dados da CSDM’2013 para deteção de intrusos na rede

39672 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39673 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39674 1.09 -0.03 -0.08 -0.49 -0.05 -0.15 -1.08 -1 39675 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39676 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39677 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 39678 -1.00 -0.03 -0.09 -0.49 -0.05 -0.15 -1.08 1 39679 1.09 -0.03 -0.09 -0.49 -0.05 -0.15 1.11 1 σ∈R7× {0,1},

n=|σ|=77,959,

incluindo 71,758 sessões normais (+1) e 6,201 sessões ataque (−1)

(8)

Problema de classificação binária

predictor

+ +

+ + +

+ + +

− − −

{−,+}

construir uma função binária T: [0,1]2→ {0,1}

(classificador/preditor/função de transferência)

(9)

Problema de classificação binária

new datapoint

+ +

+ + +

+ + +

− − −

{−,+}

predictor

capaz de predizer com alta confiança o rótulo de novos pontos (Aprendizagem automática estatísticasupervisionada)

(10)

Rotulagens, conceitos, hipóteses

Ω, um domínio (conjunto)

σ= (x1,x2, . . . ,xn)∈Ωn uma amostra (não rotulada) Rotulagemdeσ: uma sequência de rótulos,

ε1, ε2, . . . , εn∈ {0,1}

Conjunto{0,1}n de todas as rotulagens possíveis deσé o cubo de Hamming de posto n

C⊆Ωumconceito(desconhecido, a ser aprendido) O conceitoC gera uma rotulagem,Cσ(ouC∩σ):

ε1C(x1), ε2C(x2), . . . , εnC(xn) Amostra rotulada:(x1,x2, . . . ,xn, ε1, ε2, . . . , εn).

Tarefa: adivinharC a partir da amostra rotulada, gerando uma hipótese,H ⊆Ω.

(11)

Rotulagens, conceitos, hipóteses

σ 1

1

1

1 0

0 0

0

0 C

H

(12)

Classes de conceitos

Ω, um domínio (conjunto) C⊆Ωé umconceito

Conceitos,C↔funções binárias,T =χC Há conceito desconhecido,C, a ser aprendido

Dada uma amostra,x1,x2, . . . ,xn, o conceitoC gera uma rotulagem,C σ:

ε1C(x1), ε2C(x2), . . . , εnC(xn) Um algoritmo de aprendizagem produz uma família de classificadores / conceitos, que formam umaclasse de conceitos,C (concept class).

O cenário para hoje: uma classe de conceitos,C ⊆2, uma amostraσ= (x1,x2, . . . ,xn), e as rotulagens geradas porC sobreσ:

C σ ⊆ {0,1}n

(13)

Perceptron

Família de classificadores sobreRd

wi: pesos,

θ: parâmetro limiar;

η: função de Heaviside:

η(x) =

(1, sex ≥0, 0, sex <0.

(14)

Perceptron

+ +

+ + +

+ + +

− − −

+

Perceptron realiza uma separação linear

(15)

Fragmentação (shattering)

Um subconjunto finitoA⊆Ωéfragmentado(shattered) por uma classe de conceitosC, se

C A={0,1}A.

C B

A

C A B

∀B⊆A∃C ∈C C∩A=B Dimensão de Vapnik–Chervonenkis deC:

VC-dim(C), o supremo de cardinalidades de subconjuntos finitos,A, fragmentados porC.

(16)

Dimensão de Vapnik–Chervonenkis

Classe de um conceito só

Ω6=∅ C ={C}.

O conjunto vazio é fragmentado porC: C ∅={∅}=2

(Todas rotulagens possíveis sobre∅— ou seja, a única rotulagem, vazia – podem ser geradas porC...)

Logo, VC-dim(C)≥0.

Nenhum conjunto unitário é fragmentado:

C {x}={∅}ou{{x}}, nunca{∅,{x}}.

∴VC-dim(C) =0.

(17)

Dimensão de Vapnik–Chervonenkis

Classe de dois conceitos

Ω6=∅ C ={Ω,∅}

- qualquer conjunto unitário{x}é fragmentado porC: C {x}={∅,{x}}

∴VC-dim(C)≥1

- ao mesmo tempo, nenhum conjunto com dois pontos{x,y}, x 6=y, é fragmentado: e.g.{x}∈/C {x,y}

∴VC-dim(C)≤1

∗ ∗ ∗

Mais geralmente, uma classe finita satisfaz VC-dim(C)≤log2]C

(18)

Dimensão de Vapnik–Chervonenkis

Classe de intervalos finitos emR

Ω =R

C ={[a,b] :a,b∈R, a≤b}

E.g.,{0,1}é fragmentado porC:

∅={0,1} ∩[3,4], {0}={0,1} ∩[−1,0], ....

∴VC-dim(C)≥2

Ao mesmo tempo,nenhumconjunto com três pontos é fragmentado: sea<b<c, então{a,c} 6={a,b,c} ∩[x,y], quaisquer que sejamx,y.

∴VC-dim(C)≤2

(19)

Dimensão de Vapnik–Chervonenkis

Semi-planos fechados emR2

Ω =R2

C consiste de todos os semi-planos fechados:

H ≡H~v,b ={~x ∈R2:h~x, ~vi ≥b}, ~v ∈R2, b∈R Sejam{a,b,c}quaisquer, não colineares:

∴VC-dim(C)≥3

(20)

Dimensão de Vapnik–Chervonenkis

Semi-planos fechados emR2

Ω =R2

C consiste de todos os semi-planos fechados:

H ≡H~v,b ={~x ∈R2:h~x, ~vi ≥b}, ~v ∈R2, b∈R Nenhum conjunto com 4 pontos é fragmentado. Dois casos:

d a

b

c

d a

b

c

∴VC-dim(C)≤3

(21)

Dimensão de Vapnik–Chervonenkis

Semi-espaços fechados emRd(perceptron comdinputs)

Ω =Rd

C consiste de todos os semi-espaços fechados:

H≡Hw,b~ ={~x ∈Rd:h~x, ~wi ≥b}, ~v ∈Rd, b∈R A classe gerada pelo perceptron comd inputs:

x 7→η(hx,wi+b)∈ {0,1}.

VC-dim(C) =d +1. Várias provas, a mais simples segue-se de um argumento algébrico:

(22)

Dimensão VC e dimensão vetorial

teorema.Para uma funçãof: Ω→R, denotemos Pf ={x ∈Ω : f(x)≥0}.

SejaV um sub-espaço vetorial deR. Então, VC-dim{Pf:f ∈V} ≤d =dimRV. /Dadox ∈Ω,

xˆ(f) =f(x)

é um funcional linear sobreV. Sejamx1,x2, . . . ,xd,xd+1∈Ω distintos, fragmentados porPf,f ∈V. Pode supor que, no espaçoV,

d+1=

d

X

i=1

λii. Sejaf ∈V t.q. f(xi)≥0 ⇐⇒ λi ≥0. Então,

f(xd+1) = ˆxd+1(f)≥0, ex1, . . . ,xd+1não é fragmentado. .

(23)

Dimensão de Vapnik–Chervonenkis

Semi-espaços fechados emRd(perceptron comdinputs)

Ω =Rd

C consiste de todos os semi-espaços fechados:

H≡Hw,b~ ={~x ∈Rd:h~x, ~wi ≥b}, ~v ∈Rd, b∈R A classe gerada pelo perceptron comd inputs:

x 7→η(hx,wi+b)∈ {0,1}.

Temos:

Hw,b~ =Ph~x,~wi−b

O espaço de funções afins sobreRd tem dimensãod+1, concluimos: VC-dim(C)≤d +1.

É fácil verificar que 0,e1,e2, . . . ,ed é fragmentado pelos semi-espaços.

(24)

Teorema de Pajor

teorema:SejaC uma classe de conceitos com m elementos, m≥1. EntãoC fragmenta pelo menos m subconjuntos deΩ dois a dois diferentes.

Prova:indução emm.

m=1: a classe contém um conceito só, e fragmenta o conjunto vazio.

Suponha que a afirmação seja válida para 1≤i≤m. Seja ]C =m+1. Então, existex0∈ ∪C \ ∩C.

C0={A∈C:A3x0}, ]C0=k ≥1,

C1={B∈C:B63x0}, ]C1=`≥1, k+`=m+1.

Segundo a hipótese, existem A1,A2, . . . ,Ak

| {z }

distintos, fragmentados porC0

, B1,B2, . . . ,Bl

| {z }

distintos, fragmentados porC1

(25)

Teorema de Pajor /2

teorema:SejaC uma classe de conceitos com m elementos, m≥1. EntãoC fragmenta pelo menos m subconjuntos deΩ dois a dois diferentes.

C0={A∈C:A3x0}, ]C0=k, C1={B∈C:B63x0}, ]C1=`.

Segundo a hipótese, existem A1,A2, . . . ,Ak

| {z }

distintos, fragmentados porC0

, B1,B2, . . . ,Bl

| {z }

distintos, fragmentados porC1

SuponhaAi =Bj, ou seja, fragmentado porC0e porC1. Logo,Ai∪ {x0}=Bj∪ {x0}é fragmentado porC =C0∪C1

(mas não porC0nem porC1) SubstituímosBj porBj∪ {x0}. Etc.

(26)

Lema de Sauer–Shelah

teorema:Suponha VC-dim(C)≤d, e sejaσ uma amostra comnelementos. Então, o número de rotulagens diferentes induzidas sobreσporC satisfaz

](C σ)≤

d

X

i=0

n i

=][σ]≤d

<

en d

d

.

/Caso contrário, segundo t. de Pajor, o número de subconjuntos deσ fragmentados porC é maior que a cardinalidade da família de todos os conjuntos com≤d elementos, logo existe um conjunto comd +1 elementos fragmentado porC, logo VC-dim(C)>d. . Segunda estimativa: usa-se a desigualdade de Euler,

1+axx

<ea(x >0).

(27)

Lema de Sauer–Shelah /2

Para todo 0≤i ≤d, temos n

d d

d n

i

= n

d d−i

≥1, e por conseguinte,

d

X

i=0

n i

≤n d

d d

X

i=0

n i

d n

i

≤n d

d n

X

i=0

n i

d n

i

=n d

d 1+d

n n

<n d

d

ed

=en d

d

.

(28)

Coeficientes de fragmentação

n-ésimo coeficiente de fragmentação(n-th shattering

coefficient) de uma classeC é o maior número de rotulagens induzidas porC sobren-amostras:

s(n,C) =sup{]C|σ:σ⊆Ω, ]σ≤n}.

Por exemplo, VC-dim(C) =sup{n:s(n,C) =2n}. Lema de Sauer–Shelah:

s(n,C)≤

d

X

i=0

n i

<

en d

d

. A primeira desigualdade é exata (exercício)

(29)

Redes de unidades computacionais

Estrutura mais geral do que ANNs

7 x1

x2 x3 x

4 x5 x6

f1

f2

f3

f4

f5

f 6

f

Um grafo dirigido, sem ciclos.

1a camada: entrada, inputs=elementos deRd = Ω.

Outras camadas: unidades computacionais (funções binárias dependendo de parâmetros, por exemplo, perceptrons).

Última camada: única unidade, a de saída (0 ou 1).

(30)

Redes de unidades computacionais

7 x1

x2 x3 x4 x5 x6

f1

f2

f3 f4

f5

f6 f

teorema.Se a redeN temk unidades computacionais, W =P

uVC-dim(u), então para cadan, s(N,n)≤

enk W

W

, e

VC-dim(N )≤2W log2 2k

log 2

=O(Wlogk)

(31)

Coeficientes de fragmentação de N /1

Escolhemos uma ordem total entre unidades, u1,u2, . . . ,uk,

de modo que se existe conexãoui →uj, entãoi <j.

Estadoωda rede: totalidade de parâmetros.

Fixemos uma amostra,σ= (x1,x2, . . . ,xn),xj ∈Ω =Rd. Relação de equivalênciaω∼i ω0: para cada inputxj,

j=1, . . . ,n, unidadesu1, . . . ,ui produzem mesmos valores.

](classes mod ∼)1 ≤s(u1,n)≤(en/d1)d1

(32)

Coeficientes de fragmentação de N /2

Unidades,u1,u2, . . . ,uk, seui →uj, entãoi <j.

Estadoωda rede: totalidade de parâmetros.

Fixemos uma amostra,σ= (x1,x2, . . . ,xn),xj ∈Ω =Rd. Relação de equivalênciaω∼i ω0: para cada inputxj,

j=1, . . . ,n, unidadesu1, . . . ,ui produzem mesmos valores.

](classes mod ∼)1 ≤s(u1,n)≤(en/d1)d1

estados da rede Classes de equivalencia da relaçao ~i+1

Classes de equivalencia da relacao ~ i

Espaco de

](classes mod i+1∼)](classes mod ∼i)×(en/di+1)di+1

(33)

Coeficientes de fragmentação de N /3

Escolhemos uma ordem total entre unidades, u1,u2, . . . ,uk,

de modo que se existe conexãoui →uj, entãoi <j.

Fixemos uma amostra,σ= (x1,x2, . . . ,xn),xj ∈Ω =Rd. Relação de equivalênciaω∼i ω0: para cada inputxj,

j=1, . . . ,n, unidadesu1, . . . ,ui produzem mesmos valores.

](classes mod ∼)1 ≤s(u1,n)≤(en/d1)d1

](classes mod i+1∼)](classes mod ∼i)×(en/di+1)di+1 n-ésimo coeficiente de fragmentação da rede≤]classes de equivalência mod ∼,k s(N,n)≤Qk

i=1(en/di)di

∴logs(N,n)≤

k

X

i=1

dilog en

di

.

(34)

Entropia de Claude Shannon

SejaX uma variável aleatória, com valoresx1,x2, . . . ,xn e probabilidadespi. AentropiadeX é a quantidade

H(X) =

n

X

i=1

−pilogpi.

lema.H(X)≤logn, atingido sobre a distribuição uniforme:

pi = 1

n, i=1,2, . . . ,n.

/O logaritmo é uma função côncava. Logo, para qualquer que seja a coleçãoλi >0,i=1,2, . . . ,n,

log

n

X

i=1

piλi

!

n

X

i=1

pilog(λi).

No casoλi =1/pi, logn≥

n

X

i=1

pilog 1

pi

=H(X) . .

(35)

Coeficientes de fragmentação de N /4

logs(N,n) ≤

k

X

i=1

dilog en

di

= W

k

X

i=1

di W

logW

di +log(en)−logW

= W ·H(X) +W logen W

≤ Wlogk+Wlogen W

= Wlogenk W .

(36)

Dimensão de Vapnik–Chervonenkis de N

VC-dim(N )≤n ⇐⇒ s(N,n)≤2n, em particular, quando enk

W W

≤2n, ou seja,n≥Wlog2 enk

W

. lema.Para todosα,x >0,

logx ≤αx −logα−1, com a igualdade se e apenas seαx =1.

Apliquemos o lema comx = enkW eα = log 22ek: log

enk W

≤ nlog 2 2W −log

log 2 2ek

−1,

Wlog2 enk

W

≤ n

2 +W log2 2k

log 2

. .

(37)

Redes de unidades computacionais

Problema de “sobreajuste benigno” de DNNs

7 x1

x2 x3 x4 x5 x6

f1

f2

f3 f4

f5 f6

f

teorema.Se a redeN temk unidades computacionais, W =P

uVC-dim(u), então para cadan, s(N,n)≤

enk W

W

, e

VC-dim(N )≤2W log2 2k

log 2

=O(Wlogk)

Como a taxa de crescimento depende da geometria da DNN?

Precisa de uma análise mais fina.

Referências

Documentos relacionados

Each country will have its own equity goals suggesting different policies and more or less difficult trade-offs with other objectives (efficiency and preservation

Fernando, mais concretamente no final da década de 1360 (Marques, 1978: 29), para termos informação mais precisa sobre a abertura de outras casas da moeda em Portugal, para além da

Thus, it is supposed that the geometrical model of the balloon with folds should be used in the analysis of the structural integrity of the stent and the balloon in the

Apesar de tudo, unidades do século passado como a Fábrica de Salgueiros, Cortumes do Bessa, Lanifícios de Lordelo e Jacinto, continuam a laborar nas suas instalações

Nas últimas décadas a sociedade ocidental tem assistido a várias mudanças sócio- demográficas, nomeadamente ao aumento do número de divórcios, que se reflectiram em

This is especially true in those countries where the emphasis on stabilisation is focused on monetary policy, while fiscal policy is used as a complementary

An individual of Tolypeutes matacus exits its burrow that had the entrance covered by leaf litter, at Santa Teresa Ranch, Corumbá, Mato Grosso do Sul. Again, in this video it

We have covered diverse Portuguese artists whose works inscribe embroidery, sewing, and textiles within contemporary arts practice.. These are works that celebrate the everyday in