Tópicos selecionados na aprendizagem de máquina supervisionada

(1)

máquina supervisionada

Vladimir Pestov

twitter: @docente_errante

1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)

2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá

(Professor Emérito)

Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 2

(2)

Ω ={a₁,a₂, . . . ,an, . . .}, µ{a_j}=p_j >0,

∞

X

j=1

p_j =1.

µ(A) =X

{p_j:a_j ∈A}

Elemento aleatórioX ∈Ω: uma variável aleatória com P[X =a_i] =p_i.

(3)

Dados modelados pela sequênciaX₁,X₂, . . . ,Xn, . . .de v.a.

independentes identicamente distribuídas tendo a leiµ.

P[X₁=a_i₁,X₂=a_i₂, . . . ,X_k =a_i_k]

=P[X₁=a_i₁]P[X₂=a_i₂]. . .P[X_k =a_i_k]

=p_i_qp_i₂. . .p_i_k.

Temos um conceito desconhecidoC ⊆Ω, que induz rotulagens:

Y_i =1 ⇐⇒ X_i ∈C, Y_i =0 ⇐⇒ X_i ∈/C

(4)

adivinhamos a hipótese,H.

Erro de classificação (de generaização):

erro_C,µ(H) =P[χ_H(X)6=χ_C(X)] =µ(H∆C) Ω

C

(5)

Observação-chave

W

...

(6)

1

...

W

x

(7)

Observação-chave

2

...

W

x1 x

(8)

3

...

W

x1

x2 x

(9)

Observação-chave

4

...

W

x1

x2 x

x 3

(10)

5

...

W

x1

x2 x x3

4

x

(11)

Observação-chave

6

...

W

x1

x2 x x3

4

x5 x

(12)

7

...

W

x1

x2 x x3

4

x5

x6 x

(13)

Observação-chave, formalizada

Suponhap₁≥p₂≥. . .≥p_n≥. . ..

lema.Dados k ≥1eδ >0, se n≥ 1

p_k lnk δ,

então, com confiança1−δ, cada ponto a₁, . . . ,a_k ocorre pelo menos uma vez entre os valores de v.a. X₁,X₂, . . . ,X_n. /P[X_i 6=a_j] =1−p_j ≤1−p_k

P[∀i =1, . . . ,n, X_i 6=a_j] =Qn

i=1P[X_i 6=a_j]≤(1−p_k)ⁿ P[∃j ∀i X_i 6=a_j]≤k(1−p_k)ⁿ

k(1−p_k)ⁿ≤δquando lnk+nln(1−p_k)≤lnδ, ou n≥ ₋_ln(1−p¹

k)ln^k_δ,

e usamos a desigualdadep_k ≤ −ln(1−p_k). .

(14)

Existes(δ, ε, µ) = _p

k(ε)ln _δ t.q., sen≥s(δ, ε, µ), então, com confiança 1−δ,n-amostra aleatória contéma₁, . . . ,a_k(ε). Sabemos

C∩ {a₁, . . . ,a_k(ε)} Denotemos

H =L(σ, ε) ={x_i:x_i ∈σ, ε_i =1}

A probabilidade de classificação errada de um elemento aleatórioX:

(15)

Espaços onde aprendizagem ocorre

SejaΩum espaço métrico.

Aestrutura borelianadeΩé a menor famíliaBde subconjuntos deΩque

I contém todos conjuntos abertos,

I é fechada pelas uniões enumeráveis: seA₁,A₂, . . .∈ B, então∪^∞_i=1A_i∈ B, e

I é fechada pelos complementos: seA∈ B, entãoΩ\A∈ B.

(Ω,B)é umespaço boreliano.

SeΩé completo e separável, então(Ω,B)é umespaço boreliano padrão.

(16)

dois espaços borelianos padrão são isomorfos eles têm a mesma cardinalidade.

∴R,R^d,`²,[0,1], espaço de Cantor,N^N,C[0,1],. . ., como espaços borelianos são idênticos.

[⇒redução de dimensionalidade ]

(Provavelmente não vou mostrar, apenas uma observação) Domínio,Ω= um espaço boreliano padrão

Espaço mensurável = conjunto + sigma-álgebra. Uma teoria de aprendizagem em outros espaços mensuráveis?

(17)

Uma sequência i.i.d. de elementos aleatórios do domínio,Ω, X₁,X₂, . . . ,X_n, . . .∈Ω,

seguindo a leiµ∈P(Ω), uma medida de probabilidade boreliana,desconhecida.

O conceitodesconhecido, C ⊆Ω, é um conjunto boreliano.

Induz a rotulagem:

Y₁=χ_C(X₁),Y₂=χ_C(X₂), . . . ,Y_n=χ_C(X_n), . . . Erro de classificação (de generalização):

erro_C,µ(H) =µ(C∆H)

=P[χ_C(X)6=χ_H(X)]

(18)

cada amostra rotulada um classificador:

σ = (x₁, ε₁),(x₂, ε₂), . . . ,(x_n, ε_n)7→T_σ Notação: L_n(σ).

L_n: Ωⁿ

|{z}

amostras

× {0,1}ⁿ

| {z }

rótulos

→ {0,1}^Ω

| {z }

classificadores

Uma outra interpretação:

L : Ωⁿ× {0,1}ⁿ× Ω → {0,1}

(19)

Classes PAC aprendizáveis

def.Uma regra de aprendizagem(L_n)aprendea classeC sob a medidaµprovavelmente aproximadamente corretamente (PAC) com a complexidade amostrals(δ, ε, µ)se:

∀C∈C, Pσ∼µⁿ[µ(C∆L_n(Cσn))> ε]< δ, quandon≥s(δ, ε).

∗ ∗ ∗

def.Uma classeC éPAC aprendizávelse existe uma regra (L_n)que PAC aprendeC.

∗ ∗ ∗

exemplo: a classe 2^Ω de todos os conceitos é PAC aprendizável sob qualquer medidapuramente atómica (suportada por uma sequência de átomos).

[s(δ, ε)depende deµ]

(20)

erro_C,µ(H) =P[χ_C(X)6=χ_H(X)] =µ(C∆H) A distância

µ(C∆D) = Z

Ω

|χ_C(x)−χ_D(x)|dµ(x) =kχ_C−χ_Dk_L1(µ)

é umapseudométrica:todas propriedades de uma métrica, mas pode serµ(C∆D) =0 paraC 6=D.

(21)

A classe não PAC aprendizável

A classeBde conjuntos borelianos do intervalo[0,1]sob a medida uniforme (de Lebesgue)λnão é PAC aprendizável.

Família de conjuntos de Rademacher: infinita e 1/2-discreta (µ(R_i∆R_j) =1/2):

...

0 1/2 1

R1 R 2 R 3 R 4

Assume a regraLaprendeB. Sejan≥s(1/2,1/8, λ).

Emntão, para cadai=1,2, . . . ,k, . . .,

A_i ={σ ∈Ωⁿ:µ(R_i∆L(R_i σ))>1/8} ⊆Ωⁿ tem medida< δ=1/2.

(22)

...

0 1/2 1

R 2 R 3 R 4

Assume a regraLaprendeB. Sejan≥s(1/2,1/8). Então,∀i, A_i ={σ ∈Ωⁿ:µ(R_i∆L(R_i σ))>1/8} ⊆Ωⁿ

tem medida< δ=1/2. Logo, qualquer que sejak,

(23)

A classe não PAC aprendizável

Assume a regraLaprendeB. Sejan≥s(1/2,1/8).∀i, A_i ={σ ∈Ωⁿ:µ(R_i∆L(R_i σ))>1/8} ⊆Ωⁿ tem medida< δ=1/2. Logo,

Z

[0,1]ⁿ k

X

i=1

χ_A_idλⁿ≤ k 2, e existeσt.q. ]J =]{i:σ∈A_i} ≤k/2.

Para conjunto complementarI = [k]\J com≥k/2 índices, i∈I⇒λ(R_i,L(R_i σ))≤1/8.

Por conseguinte, sei,j ∈I,i6=j,R_i σ6=R_j σ.

Masσsó admite≤2ⁿrotulagens, ek é qualquer.

(24)

I Qualquer que sejaε >0, existe umaε-rede finitax₁, . . . ,xn

paraX dentro deX:

X ⊆ ∪ⁿ_i=1B_ε(x_i)

I Qualquer que sejaε >0, umaε-rede finitay₁,y₂, . . . ,yn

paraX dentro deY,

I Qualquer que sejaε >0, cada subconjuntoε-discreto de X é finito.

Um conjuntoX com estas propriedades se chama

(25)

Dado uma amostraσ = (x₁,x₂, . . . ,xn), amedida empírica correspondente é dada por

µn(A)≡µσ(A) = 1

n]{i:x_i ∈A}

Dado uma amostra rotulada(x₁,x₂, . . . ,x_n,y₁,y₂, . . . ,y_n)e uma hipóteseH, oerro de classificaçãonão pode ser calculado:

erro_C,µ =µ(C∆H).

Mas oerro empíricopode:

erro_C,µ_n(H) =µn(C∆H)

= 1

n]{i:χ_C(x_i)6=χ_H(x_i)}

= 1

n]{i:y_i 6=χ_H(x_i)}

Pode ser calculada!

(26)

ε-discreto deC é finito (limitado por acima por 2s(ε/2,1/2)+1).

⇐: dadoε >0, existeε-rede finita,C₁, . . . ,Cn, paraC. Dada amostra rotulada,(σ, τ), a regra vai escolherC_i minimizando oerro empírico:

j=argmin erro_C,µ_n(C_j) =argmin1

n]{i:x_i ∈C_j∆C}

Ao invés deµ, usemosµn, a medida empírica:

1

(27)

Os rótulos,

Y₁=χ_C(X₁),Y₂=χ_C(X₂), . . . ,Y_n=χ_C(X_n), . . . formam uma sequência i.i.d. de v.a. de Bernoulli.

Segundo a Lei dos Grandes Números, P

1

n(Y₁+Y₂+. . .+Y_n)−EY₁

> ε

<2 exp(−2ε²n) Como

EY₁=P[Y_i =1] =µ(C),

P[|µ_n(C)−µ(C)|> ε]<2 exp(−2ε²n), ou seja,

µ_n(C)≈^ε µ(C), com confiança

1−2 exp(−2ε²n).

(28)

Dado amostra rotulada,(σ, τ), a regra vai escolherC_i minimizando oerro empírico:

j=argmin erro_C,µ_n(C_j) =argmin1

n]{i:x_i ∈C_j∆C}

Ao invés deµ, usemosµ_n, a medida empírica:

µn(A) = 1

n]{i=1,2, . . . ,n:x_i ∈A}

Para todoj =1,2, . . . ,k, com confiança 1−δ,

erro_C,µ (C_j) =µ_n(C∆C_j)≈^ε µ(C∆C_j) =erro_C,µ(C_j),

(29)

Oerro empíricode um classificadorT =χH: errC,µn(H) = |{i:x_i ∈X, T(x_i)6=y_i}|

n Princípio da minimização do risco empírico:

argmin errH,µn(C)

Família de classificadores,C +PMRE uma regra de aprendizagem.

(30)

I L(Cσ)σ=Cσ.

A classeC é consistentemente aprendizável (consistently learnable) sobµse cada regra consistente comC aprendeC (sobµ).

Consistententemente aprendizável⇒aprendizável Princípio da minimização do erro empírico:

argmin err_C,µ_n(H)

(31)

Aprendizável consistentemente aprendizável

Ω = [0,1], sob a medida de Lebesgueλ

C =todos os conjuntos finitos e todos os conjuntos cofinitos:

C ∈C ⇐⇒ ]C <∞ou]([0,1]\C)<∞ C é aprendizável pela regra tendo as propriedades

L:

((σ, σ) 7→[0,1], (σ,∅) 7→ ∅.

Ao mesmo tempo, a regra

L: (σ, τ)7→τ

é consistente comC, porém não aprendeC= [0,1]:

erro_[0,1],λL(σ,[0,1]σ) =λ([0,1]∆σ) =1.

Como caraterizar as classes consistentemente aprendizáveis?

(32)

basta para estimar simultaneamente as medidas de todos C∈C.

Existes(δ, ε), t.q., sen≥s(δ, ε), então, com confiança 1−δ,

∀C∈C, µ_n(C)≈^ε µ(C), ou seja,

P

∀C∈C, 1

n]{i:x_i ∈C}≈^ε µ(C)

≥1−δ