• Nenhum resultado encontrado

5.2 Fun¸c˜ oes de n´ ucleo e suas propriedades

5.3.1 Teoria da aprendizagem estat´ıstica

Como referido na sec¸c˜ao 3.4.1, um classificador sobre-ajustado possui bons n´ıveis de desempenho quando reclassifica os exemplos de treino mas, quando aplicado a novos exemplos, os seus n´ıveis de desempenho costumam ser muito baixos. Por outro lado, a utiliza¸c˜ao de um modelo demasiado simples pode n˜ao conseguir classificar de forma adequada uma grande parte dos exemplos. Um modelo de complexidade interm´edia que consiga classificar correctamente a maioria dos exemplos representa um bom compromisso entre aqueles dois extremos. A Figura 5.3 mostra um exemplo de classifica¸c˜ao bin´aria resolvida utilizando trˆes modelos, onde se mostram as fronteiras de decis˜ao.

A teoria de aprendizagem estat´ıstica representa estes argumentos intuitivos matemati- camente atrav´es da an´alise das propriedades matem´aticas dos algoritmos de aprendi- zagem. Estas propriedades s˜ao, normalmente, propriedades da classe de fun¸c˜oes que o algoritmo consegue implementar.

Nesta teoria, um problema de classifica¸c˜ao bin´aria ´e formalizado como a tarefa de inferir uma fun¸c˜ao desconhecida f : X → {±1} a partir de um conjunto n˜ao vazio de exemplos de treino {(x1, y1) . . . , (xm, ym)} ∈ X × {±1}15 assumindo que os dados s˜ao

13

Do inglˆes, statistical learning theory.

14

Do inglˆes, hyperplane classifiers.

15

Esta formaliza¸c˜ao ´e equivalente `aquela apresentada na sec¸c˜ao 3.1 considerando apenas uma classe onde os valores Booleanos V e F s˜ao substituidos pelos valores +1 e -1, respectivamente. A perten¸ca

Figura 5.3: Exemplo de classifica¸c˜ao bin´aria resolvida utilizando trˆes modelos. Os modelos variam em complexidade desde o mais simples (esquerda) que classifica erradamente um grande n´umero de pontos, at´e ao mais complexo cuja solu¸c˜ao ´e consistente com todos os pontos de treino (mas pode n˜ao funcionar t˜ao bem com novos pontos).

gerados de forma independente por uma distribui¸c˜ao de probabilidade desconhecida (mas fixa) P(x, y). Os dados gerados desta forma s˜ao usualmente referidos como dados distribuidos de forma idˆentica e independente16. O objectivo ´e, pois, encontrar

a fun¸c˜ao f que classifica exemplos desconhecidos, tal que f (x) = y para os exemplos (x, y) gerados pela distribui¸c˜ao P(x, y).

A correc¸c˜ao da classifica¸c˜ao ´e medida atrav´es de uma fun¸c˜ao cujo valor ´e 0 se o exemplo (x, y) for classificado correctamente e 1, caso contr´ario. Esta fun¸c˜ao designa-se por fun¸c˜ao de perda zero-um17 e ´e definida como

c(x, y, f (x)) := 1

2|f(x) − y| (5.31)

No entanto, a minimiza¸c˜ao do erro (m´edio) de treino ou risco emp´ırico, Remp = 1 m m X i=1 1 2|f(xi− yi| (5.32)

n˜ao implica um risco (ou erro de teste) m´ınimo, valor medido sobre os exemplos de teste pertencentes `a mesma distribui¸c˜ao P(x, y),

R[f ] = Z

1

2|f(x) − y|dP(x, y) (5.33)

O risco pode ser definido para qualquer fun¸c˜ao de perda, desde que o integral exista. Para a fun¸c˜ao de perda zero-um, o risco ´e igual `a probabilidade de classifica¸c˜ao errada. A teoria de aprendizagem estat´ıstica ou teoria VC (Vapnik-Chervonenkis) mostra que ´e imperativo restringir a escolha da fun¸c˜ao f a uma classe de fun¸c˜oes que tenha uma

ou n˜ao `a classe ´e sinalizada com os valores +1 e -1 por quest˜oes de conveniˆencia matem´atica.

16

Do inglˆes, independent and identically distributed, (idd).

17

capacidade adequada `a dimens˜ao do conjunto de treino dispon´ıvel. Esta teoria fornece limites para o erro de teste, e a sua minimiza¸c˜ao, que depende do risco emp´ırico e da capacidade da classe da fun¸c˜ao, constitui o princ´ıpio da minimiza¸c˜ao do risco estrutural18.

Cada fun¸c˜ao de uma classe de fun¸c˜oes consegue separar os exemplos de uma determi- nada forma, induzindo as suas etiquetas. Como as etiquetas pertencem ao conjunto {±1} existem, no m´aximo 2m formas distintas de etiquetar os m exemplos; uma classe

de fun¸c˜oes muito rica poder´a apreender as 2m formas, caso em que se diz que a fun¸c˜ao

consegue quebrar19 os m exemplos.

A dimens˜ao VC de uma classe de fun¸c˜oes, o conceito de capacidade mais conhecido da teoria da aprendizagem estat´ıstica, ´e definida como o maior m para o qual existe um conjunto de m exemplos que a classe de fun¸c˜oes consegue quebrar e ∞ se esse m n˜ao existir. A Figura 5.4 mostra um exemplo de dimens˜ao VC.

Figura 5.4: Exemplo de uma dimens˜ao VC simples. Existem 23 = 8 formas de

associar 3 pontos a duas classes; para pontos representados em R2, todas as 8 possibilidades podem ser obtidas utilizando hiperplanos separadores, ou seja, esta classe de fun¸c˜oes consegue separar os trˆes pontos. Isto n˜ao resultaria se existissem 4 pontos, independentemente da sua localiza¸c˜ao. Assim, a dimens˜ao VC da classe dos hiperplanos separadores em R2 ´e 3.

A dimens˜ao VC constitui, de alguma forma, um conceito algo grosseiro j´a que sumariza a capacidade de uma classe de fun¸c˜oes atrav´es de um ´unico n´umero. Outras medidas de capacidade mais precisas s˜ao a entropia arrefecida VC20e a fun¸c˜ao de crescimento21.

O limite VC22, um limite para o risco R[f ], pode ser calculado a partir da dimens˜ao

VC: se h < m for a dimens˜ao VC de uma classe de fun¸c˜oes que o algoritmo de aprendi- zagem pode implementar ent˜ao, para todas as fun¸c˜oes dessa classe, independentemente

18

Do inglˆes, structural risk minimization.

19

Do inglˆes, shatter.

20

Do inglˆes, annealed VC entropy.

21

Do inglˆes, growth function.

22

da distribui¸c˜ao de gera¸c˜ao dos dados P, com uma probabilidade de gerar o conjunto de treino de pelo menos 1− δ, mant´em-se o limite

R[f ]≤ Remp[f ] + φ(h, m, δ) (5.34)

onde φ constitui o termo de confian¸ca23 (ou termo de capacidade24) e ´e definido

como φ(h, m, δ) = s 1 m  h  ln2m h + 1  + ln4 δ