Tópicos selecionados na aprendizagem de máquina supervisionada

(1)

Tópicos selecionados na aprendizagem de máquina supervisionada

Vladimir Pestov

twitter: @docente_errante

1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)

2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá

(Professor Emérito)

Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 3

1 / 32

(2)

Classes consistentemente aprendizáveis

Uma regraLéconsistentecom a classeC, se, para todo C∈C,

I L(Cσ)∈C,

I L(Cσ)σ=Cσ.

A classeC é consistentemente aprendizável (consistently learnable) sobµse cada regra consistente comC aprendeC (sobµ).

Consistententemente aprendizável

⇒

6⇐aprendizável Princípio da minimização do erro empírico:

argmin err_C,µ_n(H)

Uma classeC +PMEE uma regra de aprendizagem consistente com a classe.

2 / 32

(3)

Classes de Glivenko–Cantelli

C ⊆2^Ω é uma classe de Glivenko–Cantelli sob a medidaµse, com alta confiançã, uma amostra aleatóriaσ ={x₁,x₂, . . . ,xn} basta para estimar simultaneamente as medidas de todos C∈C.

Existes(δ, ε), t.q., sen≥s(δ, ε), então, com confiança 1−δ,

∀C∈C, µ_n(C)≈^ε µ(C), ou seja,

P

∀C∈C, 1

n]{i:x_i ∈C}≈^ε µ(C)

≥1−δ

3 / 32

(4)

Classes de Glivenko–Cantelli são consistentemente aprendizáveis

SejaD∈C um conceito a ser aprendido. Vamos ver em breve que a classe

C∆D={C∆D:C∈C} é de Glivenko–Cantelli.^∗

∴senfor bastante grande, com confiança 1−δ, para todos C∈C,

µσ(C∆D)≈^ε µ(C∆D)

Para a hipóteseHgerada por uma uma regra consistente, temos, com confiança 1−δ,

0=µn(H∆D)

≈ε µ(H∆D)

=erro_D,µ(H)

< ε.

(^∗ Pode-se mostrar diretamente?) 4 / 32

(5)

Consistentamente aprendizavel 6⇒ Glivenko–Cantelli

Ω = [0,1], sob a medida de Lebesgueλ C =todos os conjuntos finitos:

C∈C ⇐⇒ ]C<∞

Cada regra consistente comC aprende a classe sobλ: a hipóteseH sempre pertence àC, logo

erro_C,λ(H) =λ(C∆H) =0.

Ao mesmo tempo, qualquer que seja amostra finitaσ, ela não vai estimar simultaneamente as medidas de todos os

conceitos: por exemplo,

µ_σ(σ) =16=0=λ(σ)

aprendizáveis$consistentemente aprendizáveis$Glivenko–Cantelli Como caraterizar as classes consistentemente aprendizáveis?

5 / 32

(6)

Simetrização com sinais

C uma classe de Glivenko–Cantelli,ε >0, então grande que Eσ∼µsup

C∈C

|µ_σ(C)−µ(C)|< ε.

Sejaσ⁰= (X₁⁰,X₂⁰, . . . ,X_n⁰)uma amostra independente de σ= (X₁,X₂, . . . ,X_n)

Eσ,σ⁰∼µsup

C∈C

|µ_σ(C)−µ_σ⁰(C)|

=Eσ,σ⁰∼µsup

C∈C|µ_σ(C)−µ(C) +µ(C)−µσ⁰(C)|

≤Eσ,σ⁰∼µsup

C∈C

|µ_σ(C)−µ(C)|+Eσ,σ⁰∼µsup

C∈C

|µ_σ⁰(C)−µ(C)|

=Eσ∼µsup

C∈C

|µ_σ(C)−µ(C)|+Eσ⁰∼µsup

C∈C

|µ_σ⁰(C)−µ(C)|

<2ε.

6 / 32

(7)

Simetrização com sinais - 2

Eσ,σ⁰∼µsup

C∈C

|µ_σ(C)−µ_σ⁰(C)|<2ε k

Esup

C∈C

1 n

n

X

i=1

χ_C(x_i)− 1 n

n

X

i=1

χ_C(x_i⁰)

=Esup

C∈C

1 n

n

X

i=1

χ_C(x_i)−χ_C(x_i⁰) .

A transposiçãoτ_i :i ↔n+i, 1≤i≤nconserva a medida:

=Esup

C∈C

1 n

n

X

i=1

η_i χ_C(x_i)−χ_C(x_i⁰)

<2ε,

ondeη = (η1, η2, . . . , ηn)∈ {−1,1}ⁿ

7 / 32

(8)

Complexidade de Rademacher

Esup

C∈C

1 n

n

X

i=1

ηi χ_C(x_i)−χ_C(x_i⁰)

<2ε

Esup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i)

| {z }

−1 n

n

X

i=1

η_iχ_C(x_i⁰)

<2ε

η= (η₁, . . . , ηn)∈ {1,−1}ⁿ, ocubo de Rademacher,com a medida de produto (medida de contagem normalizada):

µ](A) = 1 2ⁿ](A).

A quantidade

R_n(C) =EηEσ∼µsup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i) chama-se acomplexidade de RademacherdeC.

8 / 32

(9)

Complexidade de Rademacher empírica

Esup

C∈C

1 n

n

X

i=1

ηi χ_C(x_i)−χ_C(x_i⁰)

<2ε

Esup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i)

| {z }

−1 n

n

X

i=1

η_iχ_C(x_i⁰)

<2ε

η= (η₁, . . . , ηn)∈ {1,−1}ⁿ, ocubo de Rademacher,com a medida de produto (medida de contagem normalizada):

µ](A) = 1 2ⁿ](A).

A quantidade

Rˆ_n(C) =Eηsup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i)

chama-se acomplexidade de Rademacher empíricadeC.

9 / 32

(10)

Complexidade de Rademacher: resultado a mostrar

teorema.Uma classe de conceitos,C, é de Glivenko–Cantelli se e somente se

R_n(C) =EηEσ∼µsup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i)→0 quandon→ ∞

∗ ∗ ∗

Pense de sinaisηi =±1 como rótulos (2χ_C(x_i)−1 ao invez de χ_C).

1 n

n

X

i=1

η_i(2χ_C(x_i)−1) = ](+1)

n −](−1) n

=1−2µ_σ(C∆σ₊)

=1−2erro_µ_σ_,σ₊(C).

O valor pode ser visto como abondade de ajuste(goodness of fit)empíricadeσ₊comC.

10 / 32

(11)

Complexidade de Rademacher: interpretação intuitiva

1 n

n

X

i=1

η_i(2χ_C(x_i)−1) =1−2erro_µ_σ_,σ₊(C).

∴ 1 n

n

X

i=1

η_iχ_C(x_i) = 1 2 +1

2w(η)¯ −erro_µ_σ_,σ₊(C), onde

w¯(η) = 1 n

n

X

i=1

ηi

Segundo LLN, quandon1, com alta confiança,w¯(η)≈0, então, é uma medida de bondade de ajuste de uma amostra aleatória comC, e

Rn(C) =Eσ∼µEηsup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i)

é a esperada bondade de ajuste de uma rotulagem aleatória

pela classeC. 11 / 32

(12)

Um cálculo auxiliar da esperança

obs.:Eσ∼µⁿµσ(C) =Eσ1 n

Pn

i=1χ_C(x_i) =µ(C)

Eσ∼µ

1 n

n

X

i=1

ηiχ_C(x_i)

!

=Eσ∼µ



 ]σ+

n · 1 ]σ₊

X

i∈σ+

χ_C(x_i)−]σ−

n · 1 ]σ−

X

i∈σ−

χ_C(x_i)





= ]σ+

n Eσ+∼µµσ+(C)−]σ−

n Eσ−∼µµσ−(C)

= 1

2(1+ ¯w(η))µ(C)−1

2(1−w¯(η))µ(C)

= ¯w(η)µ(C).

12 / 32

(13)

Necessidade do teorema: GC ⇒ R

_n

→ 0

Argumento de simetrização com sinais implica:

2ε >EηEσEσ⁰sup

C∈C

1 n

n

X

i=1

ηiχ_C(x_i)−1 n

n

X

i=1

ηiχ_C(x_i⁰)

≥EηEσsup

C∈C

Eσ⁰

1 n

n

X

i=1

η_iχ_C(x_i)−1 n

n

X

i=1

η_iχ_C(x_i⁰)|σ

!

=EσEηsup

C∈C

1 n

n

X

i=1

ηiχ_C(x_i)−w(η)µ(C)¯

≥EσEηsup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i)

− Eη|w¯(η)|

| {z } a estimar a parte!

×µ(C)

>EσEηsup

C∈C

1 n

n

X

i=1

ηiχ_C(x_i)

− r2π

n .

13 / 32

(14)

Cubo de Hamming

{0,1}ⁿ, munido da distância de Hamming normalizada, d(σ, τ) = 1

n]{i:σ_i 6=τ_i}

e da medida uniforme (normalizada de contagem), µ_](A) = 1

2ⁿ](A).

lema.

µ_](B_ε(0))<exp(−2(1/2−ε)²N) (Lei dos Grandes Números)

14 / 32

(15)

Cubo de Rademacher

{−1,1}ⁿé munido da distância d(η, η⁰) = 1

n

X

i=1

|η_i−η_i⁰|= 2

n]{i:η_i 6=η_i⁰} e da medida uniforme (normalizada de contagem),

µ](A) = 1 2ⁿ](A).

A aplicaçãoη7→η/2+1 entre{±1}ⁿ e{0,1}ⁿmultiplica todas as distâncias por 1/2 e conserva a medida.

lema.

µ_](B_ε)<exp(−2(1/2−ε/2)²n) lema.Eη|w¯_{±1}ⁿ(η)| ≤

√√2π n

A integral é de tipoR

εexp(−2(1/2−ε/2)²n)(1/2−ε/2)dε

15 / 32

(16)

Necessidade do teorema: GC ⇒ R

_n

→ 0

2ε >EσEηsup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i)

− r2π

n , de onde

Rn(C) =Eσ∼µEηsup

C∈C

1 n

n

X

i=1

η_iχ_C(x_i)

≤EσEηsup

C∈C

1 n

n

X

i=1

ηiχ_C(x_i)

<2ε+ r2π

n

→0 quandon→ ∞

16 / 32

(17)

Suficiência do teorema: R

_n

→ 0 ⇒ GC

Mais uma simetrização com sinais

Eσ∼µsup

C∈C(µ_σ(C)−µ(C)) =Eσsup

C∈C

"

1 n

n

X

i=1

χ_C(X_i)−µ(C)

#

=Eσsup

C∈C

"

1 n

n

X

i=1

χ_C(X_i)−Eσ⁰χ_C(X_i⁰)

#

=Eσsup

C∈C

"

Eσ⁰

1 n

n

X

i=1

(χ_C(X_i)−χ_C(X_i⁰)) σ

!#

≤E(σ,σ⁰)sup

C∈C

"

1 n

n

X

i=1

(χ_C(X_i)−χ_C(X_i⁰))

#

=E(σ,σ⁰)sup

C∈C

"

1 n

n

X

i=1

η_i(χ_C(X_i)−χ_C(X_i⁰))

#

17 / 32

(18)

Suficiência do teorema: R

_n

→ 0 ⇒ GC

Eσ∼µsup

C∈C(µ_σ(C)−µ(C))≤E(σ,σ⁰)sup

C∈C

"

1 n

n

X

i=1

η_i(χ_C(X_i)−χ_C(X_i⁰))

#

≤EηE(σ,σ⁰)sup

C∈C

"

1 n

n

X

i=1

ηi(χ_C(X_i)−χ_C(X_i⁰))

#

≤Eη,σ,σ⁰sup

C∈C

"

1 n

n

X

i=1

η_iχ_C(X_i) +1 n

n

X

i=1

(−η_i)χ_C(X_i⁰)

#

≤Eη,σsup

C∈C

1 n

n

X

i=1

ηiχ_C(X_i) +Eη,σ⁰sup

C∈C

1 n

n

X

i=1

(−η_i)χ_C(X_i⁰)

=2R_n(C).

Para concluir, precisamos da concentração gaussiana

18 / 32

(19)

Lei geométrica dos grandes números

Para cada função 1-Lipschitz contínua,f:{0,1}ⁿ →R,

|f(σ)−f(τ)| ≤d(σ, τ), e cadaε >0,

µ]{σ ∈ {0,1}ⁿ: |f(σ)−Ef|> ε} ≤2 exp(−2ε²n) Lei dos grandes números:f(σ) = ¯w(σ) = ¹_nPn

i=1σi

Ao invés de{0,1}, pode-se substituir qualquer espaço probabilístico padrão,(Ω,B, µ).

Distância de Hamming normalizada sobreΩⁿ: d(σ, τ) = 1

n]{i:σi 6=τi} (não é boreliana)

19 / 32

(20)

Suficiência do teorema: R

_n

→ 0 ⇒ GC

obs.:A função real seguinte é 1-Lipschitz contínua:

σ7→ sup

C∈C(µσ(C)−µ(C)) Por conseguinte, qualquer que sejaε >0,

µ^⊗n{σ: sup

C∈C(µ_σ(C)−µ(C))−2R_n(C)> ε}

≤µ^⊗n{σ: sup

C∈C(µσ(C)−µ(C))−Esup

C∈C(µσ(C)−µ(C))> ε}

≤e^−2ε²ⁿ.

Argumento simétrico:

µ^⊗n{σ: sup

C∈C(µ(C)−µ_σ(C))−2Rn(C)> ε} ≤e^−2ε²ⁿ.

20 / 32

(21)

Teorema: GC ⇐⇒ R

_n

→ 0

Deduzimos: com confiança≥1−2e^−2ε²ⁿ, qualquer que seja C∈C,

|µ_σ(C)−µ(C)| ≤2R_n(C) +ε.

Nota-se que

2e^−2ε²ⁿ≤δ quando

ε≥

rln(2/δ) 2n .

teorema:Dada uma classe de conceitosC, para cadan, temos com confiança 1−δ,

sup

C∈C

|µ_σ(C)−µ(C)| ≤2Rn(C) +

rln(2/δ) 2n .

A classeC é uma classe de Glivenko–Cantelli se e somente se as complexidades de Rademacher deC convergem para zero:

R_n(C)→0 quandon→ ∞.

21 / 32

(22)

Classes de funções

SejaF uma classe de funções reais. A expressão Rˆ_n(F)(σ) =Eηsup

f∈F

1 n

n

X

i=1

ηif(x_i)

chama-se acomplexidade de Rademacher empíricade classe F.

A esperança da complexidade de Rademacher empírica chama-se acomplexidade de Rademacherda classeF:

R_n(F, µ) =Eσ∼µRˆ_n(F),

ou: amédia de Rademacher(Rademacher average), no contexto original da análise funcional.

22 / 32

(23)

Propriedades simples de complexidades de Rademacher

SejamF eG duas classes de funções com valores num intervalo,guma função limitada qualquer, eλ∈R. Então

1. Rˆ_n(F +G) = ˆR_n(F) + ˆR_n(G), 2. Rˆ_n(F +g) = ˆR_n(F),

3. Rˆn(λF) =|λ|Rˆn(F).

corolario:SejamF eG duas classes de funções tais que 0∈F, 0∈G. Então,

Rˆn(F∪G)≤Rˆn(F) + ˆRn(G).

(Sem a hipótese 0∈F, 0∈G, o resultado é falso.)

23 / 32

(24)

Desigualdade de Jensen

Sejaφuma função real côncava, e sejaX uma variável aleatória real. Então,

E(φ(X))≤φ(E(X)).

/SejaX v.a. tomando dois valores,x ey, comP[X =x] =t, P[X =y] =1−t. Neste caso,

E(φ(X)) =tφ(x) + (1−t)φ(y)≤φ(tx+ (1−t)y) =φ(E(X)).

Generalizar por indução sobre todas as combinações convexas finitas, e aproximar o valorE(φ(X)) =R

f(x)dµ(x)com

combinações convexas finitas. .

24 / 32

(25)

Lema de Massart

SejamF uma classe de funções com valores no intervalo [−1,1], eσuma amostra comnpontos. Suponha que k =](F σ)<∞. Então,

Rˆ_n(F)(σ)≤

r2 logk n .

/Denotemosλa expressão à direita, ev ∈[−1,1]ⁿ,v_i =f(x_i).

λnRˆ_n(F)(σ) =Eηλsup

f∈F n

X

i=1

η_if(x_i)

=Eη max

v∈Fσλhη,vi

=Eηlog max

v∈Fσe^λhη,vi (Jensen) ≤logEη max

v∈Fσe^λhη,vi

≤logEη

X

v∈Fσ

e^λhη,vi

=log X

v∈Fσ

Eη n

Y

i=1

e^ληⁱ^vⁱ

25 / 32

(26)

Lema de Massart

λnRˆ_n(F)(σ) =Eηλsup

f∈F n

X

i=1

η_if(x_i)

=Eη max

v∈Fσλhη,vi

=Eηlog max

v∈Fσe^λhη,vⁱ (Jensen) ≤logEη max

v∈Fσe^λhη,vⁱ

≤logEη

X

v∈Fσ

e^λhη,vⁱ

=log X

v∈Fσ

Eη n

Y

i=1

e^ληⁱ^vⁱ

=λnRˆn(F)(σ)

≤log X

v∈Fσ n

Y

i=1

Eηe^ληⁱ^vⁱ

=log X

v∈Fσ n

Y

i=1

1 2

e^λvⁱ +e^−λvⁱ

cosh= e^x+e^−x

2 ≤e^x²^/2≤log X

v∈Fσ n

Y

i=1

e^λ²^vⁱ²^/2

≤log

ke^nλ²^/2

=logk+n 2λ².

Substituindo o valor original deλ, obtemos o resultado.

26 / 32

(27)

Lema de Massart

λnRˆn(F)(σ)≤λnRˆn(F)(σ)

≤log X

v∈Fσ n

Y

i=1

Eηe^ληⁱ^vⁱ

=log X

v∈Fσ n

Y

i=1

1 2

e^λvⁱ +e^−λvⁱ

[cosh= e^x+e^−x

2 ≤e^x²^/2]≤log X

v∈Fσ n

Y

i=1

e^λ²^vⁱ²^/2

≤log

ke^nλ²^/2

=logk +n 2λ².

Substituindo o valor original deλ, obtemos o resultado.

27 / 32

(28)

Adicionando zero à classe

lemaSejaF uma classe de funções com valores no intervalo [−1,1]. Então,

Rˆn(F ∪ {0})≤Rˆn(F) +

r2 log 2 n .

/Sejaf₀∈F um elemento quelquer. Nota-se que a classe F−f₀contém zero. Segundo lema de Massart:

Rˆ_n(F ∪ {0}) = Rˆ_n((F ∪ {0})−f₀)

= Rˆn((F −f₀)∪ {−f₀})

≤ Rˆn((F −f₀)∪ {0,−f₀})

≤ Rˆ_n(F−f₀) + ˆR_n{0,−f₀}

≤ Rˆ_n(F) +

r2 log 2 n .

28 / 32

(29)

União de duas classes

proposicao:SejamF eG duas classes de funções com valores no intervalo[−1,1]. Então,

Rˆn(F ∪G)≤Rˆn(F) + ˆRn(G) +2

r2 log 2 n .

Rˆ_n(F ∪G) ≤ Rˆ_n((F ∪ {0})∪(G ∪ {0}))

≤ Rˆ_n(F∪ {0}) + ˆR_n(G ∪ {0})

≤ Rˆn(F) + ˆRn(G) +2

r2 log 2 n .

29 / 32

(30)

Desigualdade de Ledoux–Talagrand

lemaDada uma classeF, denotemos|F|={|f|:f ∈F}.

Então,

Rˆ_n(|F|)≤Rˆ_n(F).

/Temos a mostrar:

Eηsup_f_∈_FPn

i=1ηi|f(x_i)| ≤Eηsup_f_∈_FPn

i=1ηif(x_i).

Cason=1:

1 2[sup

f∈F

|f(x₁)|+sup

f∈F

(−1)|f(x₁)|]

= 1 2 sup

f,g∈F

(|f(x₁)| − |g(x₁)|) [ porque|a| − |b| ≤ |a−b|]≤ 1

2 sup

f,g∈F

|f(x₁)−g(x₁)|

= 1 2 sup

f,g∈F(f(x₁)−g(x₁))

= 1 2[sup

f∈Ff(x₁) +sup

f∈F

(−1)f(x₁)].

30 / 32

(31)

Desigualdade de Ledoux–Talagrand

nqualquer, o mesmo jeito a cada coordenada

Eηsup

f∈F n

X

i=1

ηi|f(x_i)|= 1

2Eη2,...,ηn

"

sup

f∈F

|f(x₁)|+

n

X

i=2

ηi|f(x_i)|

! +

sup

f∈F

−|f(x₁)|+

n

X

i=2

η_i|f(x_i)|

!#

= 1

2Eη2,...,ηn sup

f,g∈F

"

|f(x₁)| − |g(x₁)|+

n

X

i=2

ηi|f(x_i)|+

n

X

i=2

ηi|g(x_i)|

#

≤ 1

2Eη2,...,ηn sup

f,g∈F

"

f(x₁)−g(x₁) +

n

X

i=2

η_i|f(x_i)|+

n

X

i=2

η_i|g(x_i)|

#

=Eηsup

f∈F

"

η1f(x₁) +

n

X

i=2

ηi|f(x_i)|

#

≤. . .≤Eηsup

f∈F n

X

i=1

η_if(x_i). _{31 / 32}

(32)

Classes de Glivenko–Cantelli são consistentemente aprendizáveis

corolário:seC é uma classe de Glivenko–Cantelli eD⊆Ω um conceito qualquer, então a classeC∆D={C∆D:C∈C} é a de Glivenko–Cantelli, tendo a mesma complexidade de Rademacher queC:

Rˆ_n(C∆D) = ˆR_n(C).

∴senfor bastante grande, com confiança 1−δ, para todos C∈C,

µσ(C∆D)≈^ε µ(C∆D)

Para a hipóteseHgerada por uma uma regra consistente, temos, com confiança 1−δ,

0=µ_n(H∆D)

≈ε µ(H∆D)

=erro_D,µ(H)

< ε. _{32 / 32}