• Nenhum resultado encontrado

Tópicos selecionados na aprendizagem de máquina supervisionada

N/A
N/A
Protected

Academic year: 2022

Share "Tópicos selecionados na aprendizagem de máquina supervisionada"

Copied!
32
0
0

Texto

(1)

máquina supervisionada

Vladimir Pestov

twitter: @docente_errante

1Universidade Federal da Bahia Salvador, BA, Brasil (Professor Visitante)

2University of Ottawa / Université d’Ottawa Ottawa, Ontario, Canadá

(Professor Emérito)

Departamento de Estatística, IME-USP, 18–29.11.2019 Aula 2

(2)

Ω ={a1,a2, . . . ,an, . . .}, µ{aj}=pj >0,

X

j=1

pj =1.

µ(A) =X

{pj:aj ∈A}

Elemento aleatórioX ∈Ω: uma variável aleatória com P[X =ai] =pi.

(3)

Dados modelados pela sequênciaX1,X2, . . . ,Xn, . . .de v.a.

independentes identicamente distribuídas tendo a leiµ.

P[X1=ai1,X2=ai2, . . . ,Xk =aik]

=P[X1=ai1]P[X2=ai2]. . .P[Xk =aik]

=piqpi2. . .pik.

Temos um conceito desconhecidoC ⊆Ω, que induz rotulagens:

Yi =1 ⇐⇒ Xi ∈C, Yi =0 ⇐⇒ Xi ∈/C

(4)

adivinhamos a hipótese,H.

Erro de classificação (de generaização):

erroC,µ(H) =P[χH(X)6=χC(X)] =µ(H∆C) Ω

C

(5)

Observação-chave

W

...

(6)

1

...

W

x

(7)

Observação-chave

2

...

W

x1 x

(8)

3

...

W

x1

x2 x

(9)

Observação-chave

4

...

W

x1

x2 x

x 3

(10)

5

...

W

x1

x2 x x3

4

x

(11)

Observação-chave

6

...

W

x1

x2 x x3

4

x5 x

(12)

7

...

W

x1

x2 x x3

4

x5

x6 x

(13)

Observação-chave, formalizada

Suponhap1≥p2≥. . .≥pn≥. . ..

lema.Dados k ≥1eδ >0, se n≥ 1

pk lnk δ,

então, com confiança1−δ, cada ponto a1, . . . ,ak ocorre pelo menos uma vez entre os valores de v.a. X1,X2, . . . ,Xn. /P[Xi 6=aj] =1−pj ≤1−pk

P[∀i =1, . . . ,n, Xi 6=aj] =Qn

i=1P[Xi 6=aj]≤(1−pk)n P[∃j ∀i Xi 6=aj]≤k(1−pk)n

k(1−pk)n≤δquando lnk+nln(1−pk)≤lnδ, ou n≥ ln(1−p1

k)lnkδ,

e usamos a desigualdadepk ≤ −ln(1−pk). .

(14)

Existes(δ, ε, µ) = p

k(ε)ln δ t.q., sen≥s(δ, ε, µ), então, com confiança 1−δ,n-amostra aleatória contéma1, . . . ,ak(ε). Sabemos

C∩ {a1, . . . ,ak(ε)} Denotemos

H =L(σ, ε) ={xi:xi ∈σ, εi =1}

A probabilidade de classificação errada de um elemento aleatórioX:

(15)

Espaços onde aprendizagem ocorre

SejaΩum espaço métrico.

Aestrutura borelianadeΩé a menor famíliaBde subconjuntos deΩque

I contém todos conjuntos abertos,

I é fechada pelas uniões enumeráveis: seA1,A2, . . .∈ B, então∪i=1Ai∈ B, e

I é fechada pelos complementos: seA∈ B, entãoΩ\A∈ B.

(Ω,B)é umespaço boreliano.

SeΩé completo e separável, então(Ω,B)é umespaço boreliano padrão.

(16)

dois espaços borelianos padrão são isomorfos eles têm a mesma cardinalidade.

∴R,Rd,`2,[0,1], espaço de Cantor,NN,C[0,1],. . ., como espaços borelianos são idênticos.

[⇒redução de dimensionalidade ]

(Provavelmente não vou mostrar, apenas uma observação) Domínio,Ω= um espaço boreliano padrão

Espaço mensurável = conjunto + sigma-álgebra. Uma teoria de aprendizagem em outros espaços mensuráveis?

(17)

Uma sequência i.i.d. de elementos aleatórios do domínio,Ω, X1,X2, . . . ,Xn, . . .∈Ω,

seguindo a leiµ∈P(Ω), uma medida de probabilidade boreliana,desconhecida.

O conceitodesconhecido, C ⊆Ω, é um conjunto boreliano.

Induz a rotulagem:

Y1C(X1),Y2C(X2), . . . ,YnC(Xn), . . . Erro de classificação (de generalização):

erroC,µ(H) =µ(C∆H)

=P[χC(X)6=χH(X)]

(18)

cada amostra rotulada um classificador:

σ = (x1, ε1),(x2, ε2), . . . ,(xn, εn)7→Tσ Notação: Ln(σ).

Ln: Ωn

|{z}

amostras

× {0,1}n

| {z }

rótulos

→ {0,1}

| {z }

classificadores

Uma outra interpretação:

L : Ωn× {0,1}n× Ω → {0,1}

(19)

Classes PAC aprendizáveis

def.Uma regra de aprendizagem(Ln)aprendea classeC sob a medidaµprovavelmente aproximadamente corretamente (PAC) com a complexidade amostrals(δ, ε, µ)se:

∀C∈C, Pσ∼µn[µ(C∆Ln(Cσn))> ε]< δ, quandon≥s(δ, ε).

∗ ∗ ∗

def.Uma classeC éPAC aprendizávelse existe uma regra (Ln)que PAC aprendeC.

∗ ∗ ∗

exemplo: a classe 2 de todos os conceitos é PAC aprendizável sob qualquer medidapuramente atómica (suportada por uma sequência de átomos).

[s(δ, ε)depende deµ]

(20)

erroC,µ(H) =P[χC(X)6=χH(X)] =µ(C∆H) A distância

µ(C∆D) = Z

C(x)−χD(x)|dµ(x) =kχC−χDkL1(µ)

é umapseudométrica:todas propriedades de uma métrica, mas pode serµ(C∆D) =0 paraC 6=D.

(21)

A classe não PAC aprendizável

A classeBde conjuntos borelianos do intervalo[0,1]sob a medida uniforme (de Lebesgue)λnão é PAC aprendizável.

Família de conjuntos de Rademacher: infinita e 1/2-discreta (µ(Ri∆Rj) =1/2):

...

0 1/2 1

R1 R 2 R 3 R 4

Assume a regraLaprendeB. Sejan≥s(1/2,1/8, λ).

Emntão, para cadai=1,2, . . . ,k, . . .,

Ai ={σ ∈Ωn:µ(Ri∆L(Ri σ))>1/8} ⊆Ωn tem medida< δ=1/2.

(22)

...

0 1/2 1

R 2 R 3 R 4

Assume a regraLaprendeB. Sejan≥s(1/2,1/8). Então,∀i, Ai ={σ ∈Ωn:µ(Ri∆L(Ri σ))>1/8} ⊆Ωn

tem medida< δ=1/2. Logo, qualquer que sejak,

(23)

A classe não PAC aprendizável

Assume a regraLaprendeB. Sejan≥s(1/2,1/8).∀i, Ai ={σ ∈Ωn:µ(Ri∆L(Ri σ))>1/8} ⊆Ωn tem medida< δ=1/2. Logo,

Z

[0,1]n k

X

i=1

χAin≤ k 2, e existeσt.q. ]J =]{i:σ∈Ai} ≤k/2.

Para conjunto complementarI = [k]\J com≥k/2 índices, i∈I⇒λ(Ri,L(Ri σ))≤1/8.

Por conseguinte, sei,j ∈I,i6=j,Ri σ6=Rj σ.

Masσsó admite≤2nrotulagens, ek é qualquer.

(24)

I Qualquer que sejaε >0, existe umaε-rede finitax1, . . . ,xn

paraX dentro deX:

X ⊆ ∪ni=1Bε(xi)

I Qualquer que sejaε >0, umaε-rede finitay1,y2, . . . ,yn

paraX dentro deY,

I Qualquer que sejaε >0, cada subconjuntoε-discreto de X é finito.

Um conjuntoX com estas propriedades se chama

(25)

Dado uma amostraσ = (x1,x2, . . . ,xn), amedida empírica correspondente é dada por

µn(A)≡µσ(A) = 1

n]{i:xi ∈A}

Dado uma amostra rotulada(x1,x2, . . . ,xn,y1,y2, . . . ,yn)e uma hipóteseH, oerro de classificaçãonão pode ser calculado:

erroC,µ =µ(C∆H).

Mas oerro empíricopode:

erroC,µn(H) =µn(C∆H)

= 1

n]{i:χC(xi)6=χH(xi)}

= 1

n]{i:yi 6=χH(xi)}

Pode ser calculada!

(26)

ε-discreto deC é finito (limitado por acima por 2s(ε/2,1/2)+1).

⇐: dadoε >0, existeε-rede finita,C1, . . . ,Cn, paraC. Dada amostra rotulada,(σ, τ), a regra vai escolherCi minimizando oerro empírico:

j=argmin erroC,µn(Cj) =argmin1

n]{i:xi ∈Cj∆C}

Ao invés deµ, usemosµn, a medida empírica:

1

(27)

Os rótulos,

Y1C(X1),Y2C(X2), . . . ,YnC(Xn), . . . formam uma sequência i.i.d. de v.a. de Bernoulli.

Segundo a Lei dos Grandes Números, P

1

n(Y1+Y2+. . .+Yn)−EY1

> ε

<2 exp(−2ε2n) Como

EY1=P[Yi =1] =µ(C),

P[|µn(C)−µ(C)|> ε]<2 exp(−2ε2n), ou seja,

µn(C)≈ε µ(C), com confiança

1−2 exp(−2ε2n).

(28)

Dado amostra rotulada,(σ, τ), a regra vai escolherCi minimizando oerro empírico:

j=argmin erroC,µn(Cj) =argmin1

n]{i:xi ∈Cj∆C}

Ao invés deµ, usemosµn, a medida empírica:

µn(A) = 1

n]{i=1,2, . . . ,n:xi ∈A}

Para todoj =1,2, . . . ,k, com confiança 1−δ,

erroC,µ (Cj) =µn(C∆Cj)≈ε µ(C∆Cj) =erroC,µ(Cj),

(29)

Oerro empíricode um classificadorT =χH: errC,µn(H) = |{i:xi ∈X, T(xi)6=yi}|

n Princípio da minimização do risco empírico:

argmin errH,µn(C)

Família de classificadores,C +PMRE uma regra de aprendizagem.

(30)

I L(Cσ)σ=Cσ.

A classeC é consistentemente aprendizável (consistently learnable) sobµse cada regra consistente comC aprendeC (sobµ).

Consistententemente aprendizável⇒aprendizável Princípio da minimização do erro empírico:

argmin errC,µn(H)

(31)

Aprendizável consistentemente aprendizável

Ω = [0,1], sob a medida de Lebesgueλ

C =todos os conjuntos finitos e todos os conjuntos cofinitos:

C ∈C ⇐⇒ ]C <∞ou]([0,1]\C)<∞ C é aprendizável pela regra tendo as propriedades

L:

((σ, σ) 7→[0,1], (σ,∅) 7→ ∅.

Ao mesmo tempo, a regra

L: (σ, τ)7→τ

é consistente comC, porém não aprendeC= [0,1]:

erro[0,1],λL(σ,[0,1]σ) =λ([0,1]∆σ) =1.

Como caraterizar as classes consistentemente aprendizáveis?

(32)

basta para estimar simultaneamente as medidas de todos C∈C.

Existes(δ, ε), t.q., sen≥s(δ, ε), então, com confiança 1−δ,

∀C∈C, µn(C)≈ε µ(C), ou seja,

P

∀C∈C, 1

n]{i:xi ∈C}≈ε µ(C)

≥1−δ

Referências

Documentos relacionados

De acordo com Bakhtin (1992), a literatura infantil é um instrumento motivador e desafiador, capaz de transformar o indivíduo em um sujeito ativo, responsável

Ainda neste encontro, os alunos foram orientados a partir da leitura dos textos dos jornais como deveriam escrever a notícia (seleção do tema, tipo de linguagem a

Sejam F uma classe de funções com valores no intervalo [−1, 1], e σ uma amostra com n pontos.. Adicionando zero

Como em cada manhã cabem 05 aulas de 45 minutos significa que o professor terá uma manhã cheia de aulas com Hora Atividade (cinco aulas) e mais duas aulas de 45 minutos que podem

Além das características físicas – cor de pele, cor do cabelo, cor dos olhos, entre outras – existem também características mais subjeti- vas como gostos e preferências, que

Uma pergunta que possa ser natural para jogadores e ´e certamente interessante para matem´aticos ´e: Ser´a que podemos transformar um jogo honesto em um jogo favor´avel?..

l WELLYNTON BANGNO ROSA e FABIANA CRISTINA VIEIRA, sendo o pretendente, solteiro, vigilante, nascido em 09-04-1986, natural de Jacareí, Estado de São Paulo residente em Rua

“Statistical learning theory does not belong to any specific branch of sci- ence: It has its own goals, its own paradigm, and its own techniques. Statisticians (who have their