• Nenhum resultado encontrado

Tópicos selecionados na aprendizagem de máquina supervisionada

N/A
N/A
Protected

Academic year: 2022

Share "Tópicos selecionados na aprendizagem de máquina supervisionada"

Copied!
32
0
0

Texto

(1)

Tópicos selecionados na aprendizagem de máquina supervisionada

Vladimir Pestov

twitter: @docente_errante

1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)

2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá

(Professor Emérito)

Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 3

1 / 32

(2)

Classes consistentemente aprendizáveis

Uma regraLéconsistentecom a classeC, se, para todo C∈C,

I L(Cσ)∈C,

I L(Cσ)σ=Cσ.

A classeC é consistentemente aprendizável (consistently learnable) sobµse cada regra consistente comC aprendeC (sobµ).

Consistententemente aprendizável

6⇐aprendizável Princípio da minimização do erro empírico:

argmin errC,µn(H)

Uma classeC +PMEE uma regra de aprendizagem consistente com a classe.

2 / 32

(3)

Classes de Glivenko–Cantelli

C ⊆2 é uma classe de Glivenko–Cantelli sob a medidaµse, com alta confiançã, uma amostra aleatóriaσ ={x1,x2, . . . ,xn} basta para estimar simultaneamente as medidas de todos C∈C.

Existes(δ, ε), t.q., sen≥s(δ, ε), então, com confiança 1−δ,

∀C∈C, µn(C)≈ε µ(C), ou seja,

P

∀C∈C, 1

n]{i:xi ∈C}≈ε µ(C)

≥1−δ

3 / 32

(4)

Classes de Glivenko–Cantelli são consistentemente aprendizáveis

SejaD∈C um conceito a ser aprendido. Vamos ver em breve que a classe

C∆D={C∆D:C∈C} é de Glivenko–Cantelli.

∴senfor bastante grande, com confiança 1−δ, para todos C∈C,

µσ(C∆D)≈ε µ(C∆D)

Para a hipóteseHgerada por uma uma regra consistente, temos, com confiança 1−δ,

0=µn(H∆D)

ε µ(H∆D)

=erroD,µ(H)

< ε.

( Pode-se mostrar diretamente?) 4 / 32

(5)

Consistentamente aprendizavel 6⇒ Glivenko–Cantelli

Ω = [0,1], sob a medida de Lebesgueλ C =todos os conjuntos finitos:

C∈C ⇐⇒ ]C<∞

Cada regra consistente comC aprende a classe sobλ: a hipóteseH sempre pertence àC, logo

erroC,λ(H) =λ(C∆H) =0.

Ao mesmo tempo, qualquer que seja amostra finitaσ, ela não vai estimar simultaneamente as medidas de todos os

conceitos: por exemplo,

µσ(σ) =16=0=λ(σ)

aprendizáveis$consistentemente aprendizáveis$Glivenko–Cantelli Como caraterizar as classes consistentemente aprendizáveis?

5 / 32

(6)

Simetrização com sinais

C uma classe de Glivenko–Cantelli,ε >0, então grande que Eσ∼µsup

C∈C

σ(C)−µ(C)|< ε.

Sejaσ0= (X10,X20, . . . ,Xn0)uma amostra independente de σ= (X1,X2, . . . ,Xn)

Eσ,σ0∼µsup

C∈C

σ(C)−µσ0(C)|

=Eσ,σ0∼µsup

C∈Cσ(C)−µ(C) +µ(C)−µσ0(C)|

≤Eσ,σ0∼µsup

C∈C

σ(C)−µ(C)|+Eσ,σ0∼µsup

C∈C

σ0(C)−µ(C)|

=Eσ∼µsup

C∈C

σ(C)−µ(C)|+Eσ0∼µsup

C∈C

σ0(C)−µ(C)|

<2ε.

6 / 32

(7)

Simetrização com sinais - 2

Eσ,σ0∼µsup

C∈C

σ(C)−µσ0(C)|<2ε k

Esup

C∈C

1 n

n

X

i=1

χC(xi)− 1 n

n

X

i=1

χC(xi0)

=Esup

C∈C

1 n

n

X

i=1

χC(xi)−χC(xi0) .

A transposiçãoτi :i ↔n+i, 1≤i≤nconserva a medida:

=Esup

C∈C

1 n

n

X

i=1

ηi χC(xi)−χC(xi0)

<2ε,

ondeη = (η1, η2, . . . , ηn)∈ {−1,1}n

7 / 32

(8)

Complexidade de Rademacher

Esup

C∈C

1 n

n

X

i=1

ηi χC(xi)−χC(xi0)

<2ε

Esup

C∈C

1 n

n

X

i=1

ηiχC(xi)

| {z }

−1 n

n

X

i=1

ηiχC(xi0)

<2ε

η= (η1, . . . , ηn)∈ {1,−1}n, ocubo de Rademacher,com a medida de produto (medida de contagem normalizada):

µ](A) = 1 2n](A).

A quantidade

Rn(C) =EηEσ∼µsup

C∈C

1 n

n

X

i=1

ηiχC(xi) chama-se acomplexidade de RademacherdeC.

8 / 32

(9)

Complexidade de Rademacher empírica

Esup

C∈C

1 n

n

X

i=1

ηi χC(xi)−χC(xi0)

<2ε

Esup

C∈C

1 n

n

X

i=1

ηiχC(xi)

| {z }

−1 n

n

X

i=1

ηiχC(xi0)

<2ε

η= (η1, . . . , ηn)∈ {1,−1}n, ocubo de Rademacher,com a medida de produto (medida de contagem normalizada):

µ](A) = 1 2n](A).

A quantidade

n(C) =Eηsup

C∈C

1 n

n

X

i=1

ηiχC(xi)

chama-se acomplexidade de Rademacher empíricadeC.

9 / 32

(10)

Complexidade de Rademacher: resultado a mostrar

teorema.Uma classe de conceitos,C, é de Glivenko–Cantelli se e somente se

Rn(C) =EηEσ∼µsup

C∈C

1 n

n

X

i=1

ηiχC(xi)→0 quandon→ ∞

∗ ∗ ∗

Pense de sinaisηi =±1 como rótulos (2χC(xi)−1 ao invez de χC).

1 n

n

X

i=1

ηi(2χC(xi)−1) = ](+1)

n −](−1) n

=1−2µσ(C∆σ+)

=1−2erroµσ+(C).

O valor pode ser visto como abondade de ajuste(goodness of fit)empíricadeσ+comC.

10 / 32

(11)

Complexidade de Rademacher: interpretação intuitiva

1 n

n

X

i=1

ηi(2χC(xi)−1) =1−2erroµσ+(C).

∴ 1 n

n

X

i=1

ηiχC(xi) = 1 2 +1

2w(η)¯ −erroµσ+(C), onde

w¯(η) = 1 n

n

X

i=1

ηi

Segundo LLN, quandon1, com alta confiança,w¯(η)≈0, então, é uma medida de bondade de ajuste de uma amostra aleatória comC, e

Rn(C) =Eσ∼µEηsup

C∈C

1 n

n

X

i=1

ηiχC(xi)

é a esperada bondade de ajuste de uma rotulagem aleatória

pela classeC. 11 / 32

(12)

Um cálculo auxiliar da esperança

obs.:Eσ∼µnµσ(C) =Eσ1 n

Pn

i=1χC(xi) =µ(C)

Eσ∼µ

1 n

n

X

i=1

ηiχC(xi)

!

=Eσ∼µ

 ]σ+

n · 1 ]σ+

X

i∈σ+

χC(xi)−]σ

n · 1 ]σ

X

i∈σ

χC(xi)

= ]σ+

n Eσ+∼µµσ+(C)−]σ

n Eσ∼µµσ(C)

= 1

2(1+ ¯w(η))µ(C)−1

2(1−w¯(η))µ(C)

= ¯w(η)µ(C).

12 / 32

(13)

Necessidade do teorema: GC ⇒ R

n

→ 0

Argumento de simetrização com sinais implica:

2ε >EηEσEσ0sup

C∈C

1 n

n

X

i=1

ηiχC(xi)−1 n

n

X

i=1

ηiχC(xi0)

≥EηEσsup

C∈C

Eσ0

1 n

n

X

i=1

ηiχC(xi)−1 n

n

X

i=1

ηiχC(xi0)|σ

!

=EσEηsup

C∈C

1 n

n

X

i=1

ηiχC(xi)−w(η)µ(C)¯

≥EσEηsup

C∈C

1 n

n

X

i=1

ηiχC(xi)

− Eη|w¯(η)|

| {z } a estimar a parte!

×µ(C)

>EσEηsup

C∈C

1 n

n

X

i=1

ηiχC(xi)

− r2π

n .

13 / 32

(14)

Cubo de Hamming

{0,1}n, munido da distância de Hamming normalizada, d(σ, τ) = 1

n]{i:σi 6=τi}

e da medida uniforme (normalizada de contagem), µ](A) = 1

2n](A).

lema.

µ](Bε(0))<exp(−2(1/2−ε)2N) (Lei dos Grandes Números)

14 / 32

(15)

Cubo de Rademacher

{−1,1}né munido da distância d(η, η0) = 1

n

n

X

i=1

i−ηi0|= 2

n]{i:ηi 6=ηi0} e da medida uniforme (normalizada de contagem),

µ](A) = 1 2n](A).

A aplicaçãoη7→η/2+1 entre{±1}n e{0,1}nmultiplica todas as distâncias por 1/2 e conserva a medida.

lema.

µ](Bε)<exp(−2(1/2−ε/2)2n) lema.Eη|w¯{±1}n(η)| ≤

n

A integral é de tipoR

εexp(−2(1/2−ε/2)2n)(1/2−ε/2)dε

15 / 32

(16)

Necessidade do teorema: GC ⇒ R

n

→ 0

2ε >EσEηsup

C∈C

1 n

n

X

i=1

ηiχC(xi)

− r2π

n , de onde

Rn(C) =Eσ∼µEηsup

C∈C

1 n

n

X

i=1

ηiχC(xi)

≤EσEηsup

C∈C

1 n

n

X

i=1

ηiχC(xi)

<2ε+ r2π

n

→0 quandon→ ∞

16 / 32

(17)

Suficiência do teorema: R

n

→ 0 ⇒ GC

Mais uma simetrização com sinais

Eσ∼µsup

C∈Cσ(C)−µ(C)) =Eσsup

C∈C

"

1 n

n

X

i=1

χC(Xi)−µ(C)

#

=Eσsup

C∈C

"

1 n

n

X

i=1

χC(Xi)−Eσ0χC(Xi0)

#

=Eσsup

C∈C

"

Eσ0

1 n

n

X

i=1

C(Xi)−χC(Xi0)) σ

!#

≤E(σ,σ0)sup

C∈C

"

1 n

n

X

i=1

C(Xi)−χC(Xi0))

#

=E(σ,σ0)sup

C∈C

"

1 n

n

X

i=1

ηiC(Xi)−χC(Xi0))

#

17 / 32

(18)

Suficiência do teorema: R

n

→ 0 ⇒ GC

Eσ∼µsup

C∈Cσ(C)−µ(C))≤E(σ,σ0)sup

C∈C

"

1 n

n

X

i=1

ηiC(Xi)−χC(Xi0))

#

≤EηE(σ,σ0)sup

C∈C

"

1 n

n

X

i=1

ηiC(Xi)−χC(Xi0))

#

≤Eη,σ,σ0sup

C∈C

"

1 n

n

X

i=1

ηiχC(Xi) +1 n

n

X

i=1

(−ηiC(Xi0)

#

≤Eη,σsup

C∈C

1 n

n

X

i=1

ηiχC(Xi) +Eη,σ0sup

C∈C

1 n

n

X

i=1

(−ηiC(Xi0)

=2Rn(C).

Para concluir, precisamos da concentração gaussiana

18 / 32

(19)

Lei geométrica dos grandes números

Para cada função 1-Lipschitz contínua,f:{0,1}n →R,

|f(σ)−f(τ)| ≤d(σ, τ), e cadaε >0,

µ]{σ ∈ {0,1}n: |f(σ)−Ef|> ε} ≤2 exp(−2ε2n) Lei dos grandes números:f(σ) = ¯w(σ) = 1nPn

i=1σi

Ao invés de{0,1}, pode-se substituir qualquer espaço probabilístico padrão,(Ω,B, µ).

Distância de Hamming normalizada sobreΩn: d(σ, τ) = 1

n]{i:σi 6=τi} (não é boreliana)

19 / 32

(20)

Suficiência do teorema: R

n

→ 0 ⇒ GC

obs.:A função real seguinte é 1-Lipschitz contínua:

σ7→ sup

C∈Cσ(C)−µ(C)) Por conseguinte, qualquer que sejaε >0,

µ⊗n{σ: sup

C∈Cσ(C)−µ(C))−2Rn(C)> ε}

≤µ⊗n{σ: sup

C∈Cσ(C)−µ(C))−Esup

C∈Cσ(C)−µ(C))> ε}

≤e−2ε2n.

Argumento simétrico:

µ⊗n{σ: sup

C∈C(µ(C)−µσ(C))−2Rn(C)> ε} ≤e−2ε2n.

20 / 32

(21)

Teorema: GC ⇐⇒ R

n

→ 0

Deduzimos: com confiança≥1−2e−2ε2n, qualquer que seja C∈C,

σ(C)−µ(C)| ≤2Rn(C) +ε.

Nota-se que

2e−2ε2n≤δ quando

ε≥

rln(2/δ) 2n .

teorema:Dada uma classe de conceitosC, para cadan, temos com confiança 1−δ,

sup

C∈C

σ(C)−µ(C)| ≤2Rn(C) +

rln(2/δ) 2n .

A classeC é uma classe de Glivenko–Cantelli se e somente se as complexidades de Rademacher deC convergem para zero:

Rn(C)→0 quandon→ ∞.

21 / 32

(22)

Classes de funções

SejaF uma classe de funções reais. A expressão Rˆn(F)(σ) =Eηsup

fF

1 n

n

X

i=1

ηif(xi)

chama-se acomplexidade de Rademacher empíricade classe F.

A esperança da complexidade de Rademacher empírica chama-se acomplexidade de Rademacherda classeF:

Rn(F, µ) =Eσ∼µn(F),

ou: amédia de Rademacher(Rademacher average), no contexto original da análise funcional.

22 / 32

(23)

Propriedades simples de complexidades de Rademacher

SejamF eG duas classes de funções com valores num intervalo,guma função limitada qualquer, eλ∈R. Então

1. Rˆn(F +G) = ˆRn(F) + ˆRn(G), 2. Rˆn(F +g) = ˆRn(F),

3. Rˆn(λF) =|λ|Rˆn(F).

corolario:SejamF eG duas classes de funções tais que 0∈F, 0∈G. Então,

n(F∪G)≤Rˆn(F) + ˆRn(G).

(Sem a hipótese 0∈F, 0∈G, o resultado é falso.)

23 / 32

(24)

Desigualdade de Jensen

Sejaφuma função real côncava, e sejaX uma variável aleatória real. Então,

E(φ(X))≤φ(E(X)).

/SejaX v.a. tomando dois valores,x ey, comP[X =x] =t, P[X =y] =1−t. Neste caso,

E(φ(X)) =tφ(x) + (1−t)φ(y)≤φ(tx+ (1−t)y) =φ(E(X)).

Generalizar por indução sobre todas as combinações convexas finitas, e aproximar o valorE(φ(X)) =R

f(x)dµ(x)com

combinações convexas finitas. .

24 / 32

(25)

Lema de Massart

SejamF uma classe de funções com valores no intervalo [−1,1], eσuma amostra comnpontos. Suponha que k =](F σ)<∞. Então,

n(F)(σ)≤

r2 logk n .

/Denotemosλa expressão à direita, ev ∈[−1,1]n,vi =f(xi).

λnRˆn(F)(σ) =Eηλsup

fF n

X

i=1

ηif(xi)

=Eη max

v∈Fσλhη,vi

=Eηlog max

v∈eλhη,vi (Jensen) ≤logEη max

v∈eλhη,vi

≤logEη

X

v∈

eλhη,vi

=log X

v∈

Eη n

Y

i=1

eληivi

25 / 32

(26)

Lema de Massart

λnRˆn(F)(σ) =Eηλsup

fF n

X

i=1

ηif(xi)

=Eη max

v∈λhη,vi

=Eηlog max

v∈Fσeλhη,vi (Jensen) ≤logEη max

v∈Fσeλhη,vi

≤logEη

X

v∈Fσ

eλhη,vi

=log X

v∈Fσ

Eη n

Y

i=1

eληivi

=λnRˆn(F)(σ)

≤log X

v∈Fσ n

Y

i=1

Eηeληivi

=log X

v∈Fσ n

Y

i=1

1 2

eλvi +e−λvi

cosh= ex+e−x

2 ≤ex2/2≤log X

v∈Fσ n

Y

i=1

eλ2vi2/2

≤log

ke2/2

=logk+n 2λ2.

Substituindo o valor original deλ, obtemos o resultado.

26 / 32

(27)

Lema de Massart

λnRˆn(F)(σ)≤λnRˆn(F)(σ)

≤log X

v n

Y

i=1

Eηeληivi

=log X

v n

Y

i=1

1 2

eλvi +e−λvi

[cosh= ex+e−x

2 ≤ex2/2]≤log X

v n

Y

i=1

eλ2vi2/2

≤log

ke2/2

=logk +n 2λ2.

Substituindo o valor original deλ, obtemos o resultado.

27 / 32

(28)

Adicionando zero à classe

lemaSejaF uma classe de funções com valores no intervalo [−1,1]. Então,

n(F ∪ {0})≤Rˆn(F) +

r2 log 2 n .

/Sejaf0∈F um elemento quelquer. Nota-se que a classe F−f0contém zero. Segundo lema de Massart:

n(F ∪ {0}) = Rˆn((F ∪ {0})−f0)

= Rˆn((F −f0)∪ {−f0})

≤ Rˆn((F −f0)∪ {0,−f0})

≤ Rˆn(F−f0) + ˆRn{0,−f0}

≤ Rˆn(F) +

r2 log 2 n .

28 / 32

(29)

União de duas classes

proposicao:SejamF eG duas classes de funções com valores no intervalo[−1,1]. Então,

n(F ∪G)≤Rˆn(F) + ˆRn(G) +2

r2 log 2 n .

n(F ∪G) ≤ Rˆn((F ∪ {0})∪(G ∪ {0}))

≤ Rˆn(F∪ {0}) + ˆRn(G ∪ {0})

≤ Rˆn(F) + ˆRn(G) +2

r2 log 2 n .

29 / 32

(30)

Desigualdade de Ledoux–Talagrand

lemaDada uma classeF, denotemos|F|={|f|:f ∈F}.

Então,

n(|F|)≤Rˆn(F).

/Temos a mostrar:

EηsupfFPn

i=1ηi|f(xi)| ≤EηsupfFPn

i=1ηif(xi).

Cason=1:

1 2[sup

fF

|f(x1)|+sup

fF

(−1)|f(x1)|]

= 1 2 sup

f,g∈F

(|f(x1)| − |g(x1)|) [ porque|a| − |b| ≤ |ab|]≤ 1

2 sup

f,g∈F

|f(x1)−g(x1)|

= 1 2 sup

f,g∈F(f(x1)−g(x1))

= 1 2[sup

fFf(x1) +sup

fF

(−1)f(x1)].

30 / 32

(31)

Desigualdade de Ledoux–Talagrand

nqualquer, o mesmo jeito a cada coordenada

Eηsup

fF n

X

i=1

ηi|f(xi)|= 1

2Eη2,...,ηn

"

sup

fF

|f(x1)|+

n

X

i=2

ηi|f(xi)|

! +

sup

fF

−|f(x1)|+

n

X

i=2

ηi|f(xi)|

!#

= 1

2Eη2,...,ηn sup

f,g∈F

"

|f(x1)| − |g(x1)|+

n

X

i=2

ηi|f(xi)|+

n

X

i=2

ηi|g(xi)|

#

≤ 1

2Eη2,...,ηn sup

f,g∈F

"

f(x1)−g(x1) +

n

X

i=2

ηi|f(xi)|+

n

X

i=2

ηi|g(xi)|

#

=Eηsup

fF

"

η1f(x1) +

n

X

i=2

ηi|f(xi)|

#

≤. . .≤Eηsup

fF n

X

i=1

ηif(xi). 31 / 32

(32)

Classes de Glivenko–Cantelli são consistentemente aprendizáveis

corolário:seC é uma classe de Glivenko–Cantelli eD⊆Ω um conceito qualquer, então a classeC∆D={C∆D:C∈C} é a de Glivenko–Cantelli, tendo a mesma complexidade de Rademacher queC:

n(C∆D) = ˆRn(C).

∴senfor bastante grande, com confiança 1−δ, para todos C∈C,

µσ(C∆D)≈ε µ(C∆D)

Para a hipóteseHgerada por uma uma regra consistente, temos, com confiança 1−δ,

0=µn(H∆D)

ε µ(H∆D)

=erroD,µ(H)

< ε. 32 / 32

Referências

Documentos relacionados

“Statistical learning theory does not belong to any specific branch of sci- ence: It has its own goals, its own paradigm, and its own techniques. Statisticians (who have their

Essa tarefa não tem a necessidade de interface com o usuário, tornando-se uma boa candidata ao processamento em lotes, normalmente utilizados como a divisão

(Provavelmente não vou mostrar, apenas uma observação) Domínio, Ω = um espaço boreliano padrão. Espaço mensurável = conjunto

Todavia, nos substratos de ambos os solos sem adição de matéria orgânica (Figura 4 A e 5 A), constatou-se a presença do herbicida na maior profundidade da coluna

A taxa do INR ideal para os paci- entes com disfunção ventricular e insuficiência cardíaca também não foi estimada por meio de estudos prospectivos e randomizados, e a taxa

Exposição no Átrio do Auditório Municipal de Mesão Frio Exposição dos trabalhos feitos nas Oficinas de Origamis para alunos, promovida no dia 13 de Abril de 2011 na

Quando de nossas trocas de idéias com estudantes da Doutrina Espírita, temos observado a existência de alguma dificuldade no entendimento da cadeia evolutiva em que o ser humano

Validação do ensaio imunoquimioluminescente DPC Immulite de prolactina sérica com o teste de precipitação com polietilenoglicol na triagem de macroprolactinemia.. Artigo Original