Aprendizado de máquina e aplicação do método de aprendizado supervisionado support vector machine

(1)

Aprendizado de m´

aquina e aplica¸

c˜

ao do

m´

etodo de aprendizado supervisionado

support vector machine.

Niter´oi - RJ, Brasil 17 de dezembro de 2018

(2)

Deborah Cholodoysky Barbedo Pereira

Aprendizado de m´

aquina e aplica¸

c˜

ao

do m´

etodo de aprendizado

supervisionado support vector

machine.

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientadora: Profa.Dra. Karina Yuriko Yaginuma

Niter´oi - RJ, Brasil 17 de dezembro de 2018

(3)

Deborah Cholodoysky Barbedo Pereira

Aprendizado de m´

aquina e aplica¸

c˜

ao do

m´

etodo de aprendizado supervisionado

support vector machine.

Monografia de Projeto Final de Gradua¸cão sob o t´ıtulo “ Aprendizado de máquina e aplica¸cão do método de aprendi-zado supervisionado support vector machine.”, defendida por Deborah Cholodoysky Barbedo Pereira e aprovada em 17 de dezembro de 2018, na cidade de Niterói, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Profa.Dra. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF

Prof.Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF

Prof.Dr. Douglas Rodrigues Pinto Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

Aprendizado de máquina e aplicação do método de aprendizado supervisionado support vector machine. : / Deborah Cholodoysky Barbedo Pereira ; Karina Yuriko Yaginuma, orientadora. Niterói, 2018.

70 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2018.

1. Aprendizado de máquina . 2. Aprendizado supervisionado. 3. Support vector machine. 4. Produção intelectual. I. Yaginuma, Karina Yuriko, orientadora. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.

(5)

-Aprendizado de máquina também conhecido como aprendizado automático é um método de análise de dados que automatiza o desenvolvimento de modelos anal´ıticos. Isto é, um algoritmo baseado em técnicas estat´ısticas que a partir de dados de treina-mento possibilita a predi¸cão, espera-se que quanto mais experiências, mais o algoritmo se torne assertivo. Programas de aprendizado de máquina são projetados utilizando métodos estat´ısticos como regressão, support vector machine (SVM), árvores de classifica¸cão entre outros, objetivando o aprendizado do algoritmo, é esperado que as previsões melhorem ao longo do tempo quando exposto a novos dados. Neste trabalho é estudado e aplicado o método supervisionado SVM, em que o programa é treinado sobre um conjunto de dados pré-definidos nos quais já se sabe qual é a sa´ıda correta.

Palavras-chaves: aprendizado de m´aquina, aprendizado supervisionado, support vector machine .

(6)

Agrade¸co primeiramente a Deus, que sempre ilumina meu caminho, promovendo sem-pre o que sem-preciso na hora certa. Sei que todos os obst´aculos passados foram essenciais para me tornar mais forte e capaz de conquistar o que eu sou, e eternamente confiarei a Ele a minha trajet´oria.

Gostaria de agradecer especialmente minha m˜ae e melhor amiga Miriam C. Luz, por todos os momentos dedicados a mim. Que fez de tudo para tornar este caminho mais brando, que com palavras de incentivo, otimismo e orgulho me deram for¸cas para a conclus˜ao da faculdade.

Obrigada ao meu pai, Jorge Henrique B. Pereira, por ter me dado apoio e for¸ca, auxiliando nos estudos durante fins de semana e feriados, inclusive de matérias que não tinha muito dom´ınio. E também gostaria de agradecer minha fam´ılia pela paciência e compreensão dos momentos em que tive que estar ausente.

`

A professora Karina Y. Yaginuma minha imensa gratidão pela oportunidade e apoio, não só na elabora¸cão deste complexo e desafiador trabalho de conclusão de curso, como também no trabalho de inicia¸cão cient´ıfica. Pois com estes trabalhos fui encorajada a bus-car conhecimentos além de sala de aula, utilizando como base as aprendizagens adquiridas na universidade.

Também desejo agradecer aos professores que conseguem irradiar empolga¸cão e o amor pelo Curso de Gradua¸cão em Estat´ıstica durante suas aulas. Vocês foram essenciais para a minha forma¸cão, pois amando o que se estuda, o aprendizado de matérias tão complexas se torna mais apraz´ıvel e leve.

Aos meus amigos do Oráculo, não imagino a faculdade sem vocês. Sempre nos apoi-amos nas situa¸cões de desespero universitário e nos divertimos nos raros momentos de horas vagas. Fico feliz em ter conhecido vocês e em termos levado essa amizade para além da faculdade.

Também sou grata a ENEL, que me concedeu a chance de fazer estágio. Princi-palmente a Haroldo Carlos P. Giesta, que compreendeu os horários de estudo e que me

(7)

(8)

Lista de Figuras

Lista de Tabelas

1 Introdu¸c˜ao p. 13

2 Objetivos p. 15

3 Metodologia p. 16

3.1 Cenário básico . . . p. 16 3.1.1 Introdu¸cão ao aprendizado supervisionado . . . p. 16 3.2 Efetividade do estimador de g . . . p. 17 3.2.1 Minimiza¸cão do risco emp´ırico (MRE) . . . p. 18 3.2.2 MRE com viés indutivo . . . p. 19 3.2.3 Classes de hipóteses finita . . . p. 20 3.3 Aprendizado PAC - Aprendizado provavelmente aproximadamente correto p. 24 3.3.1 PAC Agnostic . . . p. 25 3.4 Contexto da modelagem de aprendizagem . . . p. 27 3.4.1 Medida de sucesso . . . p. 28 3.4.2 Aprendizado PAC Agnostic para fun¸cão geral de perda . . . p. 29 3.5 Aprendizado por convergência uniforme . . . p. 29 3.6 Dimensão VC . . . p. 36 3.7 Support vector machine . . . p. 38

(9)

4.1 Duas popula¸cões ambas com caracter´ıstica exponencial . . . p. 43 4.2 Duas popula¸cões ambas com duas caracter´ısticas normais . . . p. 46 4.3 Duas popula¸cões ambas com duas caracter´ısticas, uma normal e outra

exponencial. . . p. 51

5 Conclus˜ao p. 56

Referˆencias p. 57

6 Anexo - Prova da desigualdade p. 58

7 Anexo - Simula¸c˜ao de duas popula¸c˜oes com caracter´ıstica

exponen-cial. p. 60

8 Anexo - Simula¸c˜ao de duas popula¸c˜oes com caracter´ıstica normais. p. 62

9 Anexo - Simula¸c˜ao de duas popula¸c˜oes com duas caracter´ısticas,

uma normal e outra exponencial. p. 65

10 Anexo - Simula¸c˜ao de uma uniforme discreta pelo m´etodo da

Trans-forma¸c˜ao Inversa p. 67

11 Anexo - Simula¸cão de uma exponencial pelo método da Transforma¸cão

Inversa p. 68

(10)

1 Sobreajuste. . . p. 19 2 Exemplo de classifica¸cões binárias, sendo que há 3 dados representados

em IR2. . . p. 37 3 Exemplo de classifica¸cão binária, sendo que há 4 dados representados em

IR2. . . p. 37 4 Poss´ıveis hiperplanos. . . p. 39 5 Margem da máquina de vetores de suporte. . . p. 39 6 Mapeamento de dados de entrada para um espa¸co de maior dimensão. p. 40 7 Duas popula¸cões com caracter´ıstica seguindo distribui¸cão Exponencial. p. 44 8 Duas popula¸cões com caracter´ıstica seguindo distribui¸cão Exponencial. p. 44 9 Duas popula¸cões com caracter´ıstica seguindo distribui¸cão Exponencial. p. 45 10 Duas popula¸cões com caracter´ıstica seguindo distribui¸cão Exponencial. p. 46 11 Duas popula¸cões com caracter´ısticas seguindo distribui¸cão Normal. . . p. 47 12 Duas popula¸cões com caracter´ısticas seguindo distribui¸cão Normal. . . p. 48 13 Duas popula¸cões com caracter´ısticas seguindo distribui¸cão Normal. . . p. 49 14 Duas popula¸cões com caracter´ısticas seguindo distribui¸cão Normal. . . p. 50 15 Popula¸cão em preto com σ(X|Y =1) = 5, µ(X|Y =1) = 1, σ(Z|Y =1) = 10 e

µ(Z|Y =1) = 25. Popula¸c˜ao em vermelho com σ(X|Y =2) = 5, µ(X|Y =2) = 5,

σ(Z|Y =2) = 1 e µ(Z|Y =2) = 20. . . p. 50

16 Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal

e outra com distribui¸cão Exponencial. . . p. 52 17 Duas popula¸cões com caracter´ısticas uma seguindo distribui¸cão Normal

(11)

19 Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal

e outra com distribui¸cão Exponencial. . . p. 55 20 Gráfico das fun¸cões 1 − x e e−x . . . p. 58

(12)

1 Média e variância de distribui¸cão pelo λ escolhido. . . p. 43 2 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma

dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma

distribui¸c˜ao Exponencial(λ = 1₂) . . . p. 44 3 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica Exponencial(λ = 1)

e outra com caracter´ıstica Exponencial λ = ₂₅1. . . p. 45 4 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma

distribui¸c˜ao Exponencial(λ = ₅₀1) . . . p. 45 5 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma

distribui¸c˜ao Exponencial(λ = ₁₀₀1 ) . . . p. 46 6 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) =

0.5, σ(Z|Y =1) = 1, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas

normais σ(X|Y =2) = 0.5, σ(Z|Y =2) = 1, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . p. 48

7 Y ×Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,

σ(Z|Y =1) = 10, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas

normais σ(X|Y =2) = 5, σ(Z|Y =2) = 10, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . p. 48

8 Y ×Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,

σ(Z|Y =1) = 5, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas

normais σ(X|Y =2) = 5, σ(Z|Y =2) = 5, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . . p. 49

9 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ1 = 5,

σ2 = 5, µ1 = 1 e µ2 = 25 e outra com caracter´ısticas normais σ1 = 5,

σ2 = 5, µ1 = 5 e µ2 = 20 . . . p. 50

10 Kernel linear . . . p. 51 11 Kernel radial . . . p. 51

(13)

Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1) =

16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 1₂)

e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 2, σ_{(Z|Y =2)}2 = 16) . . . p. 52

13 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ_{(Z|Y =1)}2 =

16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = ₁₀1 )

e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 10, σ2(Z|Y =2) = 16). . . p. 53

14 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ_{(Z|Y =1)}2 =

16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = ₂₅1 )

e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 25, σ2(Z|Y =2) = 16). . . p. 54

15 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 =

100) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 1

25) e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 25, σ 2

(14)

1 Introdu¸

c˜

ao

Aprendizado de máquina, também conhecido como aprendizado automático, é uma técnica de constru¸cão de algoritmos baseados em análise estat´ıstica que identifica padrões nos dados de entrada permitindo que o computador retorne uma predi¸cão ou decisão.

Assim como a maioria dos seres vivos adquirem experiência ao longo do tempo com a constante exposi¸cão à prática e alguns também ao estudo, a ideia do aprendizado de máquina é criar algoritmos capazes de aprender com seus erros e experiência. Por exemplo, quando os ratos encontram um alimento com aparência e odor novos, eles provam uma por¸cão reduzida, e a escolha de se alimentar novamente ou não daquele alimento dependerá do efeito que irá causar em seu organismo. Se houver algum efeito negativo no organismo do roedor após a prova do alimento, a comida será associada ao mal-estar e o animal não se alimentará mais da comida com as caracter´ısticas encontradas neste alimento. Deste exemplo, é poss´ıvel verificar um mecanismo de aprendizagem, pois a experiência anterior com o alimento afeta a rela¸cão do rato com alimentos de cheiro e sabor semelhantes no futuro.

Algumas vezes os mecanismos de aprendizagem encontram rela¸cões sem sentido ou inúteis. Tendo como exemplo pombos famintos em uma gaiola da qual existe um sistema que entrega comida aos pombos em intervalos regulares, independentemente do compor-tamento das aves. Depois de um tempo, cada um dos pombos se encontram envolvidos em alguma atividade que acreditam ser a razão de ter ganhado comida, ao manter a repeti¸cão desta a¸cão eles refor¸cam a associa¸cão da entrega da comida com sua atividade.

Uma caracter´ıstica que distingue o aprendizado do rato ao do pombo é a incorpora¸cão de conhecimentos prévios que distorcem o mecanismo de aprendizagem, o que é chamado de viés indutivo. Os pombos com fome estão dispostos a adotar qualquer explica¸cão para a ocorrência de alimentos dentro da gaiola, enquanto os ratos estão familiarizados com a prova de alimentos. Tanto o exemplo do rato quanto o do pombo são encontrados no livro Understanding Machine Learning: From Theory to Algorithms [1].

(15)

Para evitar tirar conclusões de aprendizados incoerentes, é necessário fornecer princ´ıpios bem definidos ao exportar a tarefa de aprendizado à máquina. O desenvolvimento de tais princ´ıpios, fundamentados a conhecimentos prévios, é fundamental à teoria da aprendi-zagem de máquina.

O aprendizado automático possui alguns conceitos, dos quais é necessário compreen-der, pois existem diferentes formas de aprendizagem.

Primeiramente existem duas formas de aprendizagem referente ao método de apren-dizagem do algoritmo, supervisionado e não supervisionado. Quando é poss´ıvel avaliar a resposta retornada pelo algoritmo, revelando se está certo ou errado, o aprendizado é definido como supervisionado. Já no momento em que o algoritmo recebe dados não rotulados, tendo que descobrir os padrões para dar algum retorno, é conhecido por ser aprendizagem não supervisionada. Tomando como o exemplo Spotify, tem-se pelo método não supervisionado as músicas sugeridas ao usuário com base nas músicas já ouvidas pelo mesmo no aplicativo, e pelo método supervisionado a classifica¸cão das músicas por tipo musical.

O tipo de aprendizado relativo à máquina pode ser dividido em aprendizado passivo e aprendizado ativo, no primeiro a máquina observa apenas as informa¸cões necessárias, sem interferir no aprendizado, isto é, trabalha apenas com as informa¸cões que vem do ambiente. Já o segundo, a máquina interage com o ambiente no momento de seu apren-dizado. Da mesma forma poderá ser o comportamento do instrutor, ele poderá ajudar no aprendizado com informa¸cões necessárias, ou não interferirá no aprendizado, apenas deixando-o exposto aos dados.

Primeiro, no cap´ıtulo 2 são apresentados os objetivos do trabalho, então no cap´ıtulo conseguinte é apresentada uma introdu¸cão do aprendizado supervisionado. Já no cap´ıtulo 3.2 são introduzidos os conceitos de risco de classifica¸cão, risco emp´ırico, MRE, classe de estimadores e tamanho da amostra. No cap´ıtulo 3.3 é mostrado que o modelo mais restritivo utilizado até o momento se chama aprendizado PAC. Nos cap´ıtulos seguintes são apresentados modelos cada vez mais gerais.

Depois, em 3.6 é inserido o conceito de dimensão-VC, necessário para a compreensão do método SVM. Em seguida, são aplicados alguns exemplos no programa R [2], utilizando o pacote e1071 [3] para a análise da eficiência do método para diferentes situa¸cões..

(16)

2 Objetivos

Na primeira parte do trabalho é apresentado o estudo teórico do método supervisio-nado onde se pretende compreender as defini¸cões de risco de classifica¸cão e risco emp´ırico utilizado para estudar a efetividade do algoritmo. A partir disto, surge outro tópico, o tamanho necessário para a amostra que possibilite um bom aprendizado. Então é descrita de forma generalizada alguns dos principais modelos de aprendizagem. A inten¸cão da se-gunda fase do projeto é estudar o método de aprendizado SVM e aplica-lo em diferentes modelos, utilizando a linguagem R [2], e então estudar sua eficácia.

(17)

3 Metodologia

3.1 Cen´

ario b´

asico

A seguir, são apresentadas algumas defini¸cões das quais são essenciais para a compre-ensão do trabalho.

• Ω: Espa¸co amostral.

• X: Preditor, variável aleatória que se deseja classificar, assumindo valores em X . • PX: Distribui¸cão de X,isto é, X ∼ PX.

• Y : Rótulo, variável aleatória que dependente de X, assumindo valores em Y. • g(X): Fun¸cão de classifica¸cão, fun¸cão g : X → Y que se assume ser existente. • A: Dados de treinamento, A = {(X1, Y1), . . . , (Xn, Yn)} uma amostra da popula¸cão

para treinar o algoritmo.

• ˆg(X): Regra de predi¸cão, ˆg : X → Y é a fun¸cão estimada pelo algoritmo, que irá rotular os objetos recebidos.

• H: Classe de estimadores.

3.1.1 Introdu¸

c˜

ao ao aprendizado supervisionado

No aprendizado automático supervisionado, tem-se como X o objeto que se deseja classificar, uma variável de entrada do algoritmo. Podem ser variáveis aleatórias cont´ınuas, discretas ou categóricas.

A variável de sa´ıda Y do algoritmo é chamada de rotulo de X. Inicialmente é assumido que há rela¸cão entre X e Y , de forma que há uma fun¸cão de classifica¸cão desconhecida g,

(18)

na qual g : X → Y. Dependendo do tipo de sa´ıda: valores quantitativos, qualitativos ou categóricos, a predi¸cão poderá ser por regressão ou classifica¸cão.

Assumindo X como variável aleatória seguindo uma distribui¸cão PX, e admitindo

g(X) = Y , então g(X) também é uma variável aleatória que segue a distribui¸cão Pg(X).

Por isso a inten¸c˜ao de encontrar a distribui¸c˜ao desconhecida P .

Para construir a regra de previsão é necessário utilizar dados de treinamento, que é uma parcela da amostra. Isto é, seja {(X1, g(X1)), . . . , (Xi, g(Xi)), . . . , (Xm, g(Xm))}

uma amostra, e seja m > n, ent˜ao A = {(X1, g(X1)), . . . , (Xi, g(Xi)), . . . , (Xn, g(Xn))} ´e

uma amostra de treinamento utilizada no algoritmo para estimar g.

Na computa¸cão, o estimador para g é chamado de hipótese, e o espa¸co dos poss´ıveis estimadores onde o algoritmo procura um estimador chama-se de espa¸co das poss´ıveis hipóteses ou classe de hipóteses.

3.2 Efetividade do estimador de g

Foi visto que o objetivo do aprendizado é encontrar uma fun¸cão ˆg que melhor repre-sente a fun¸cão g. Uma vez que há apenas a possibilidade de uma amostra de treinamento para a cria¸cão do modelo, pode-se pensar que existem diferentes estimadores de g para cada amostra utilizada, que correspondem à única fun¸cão desconhecida da popula¸cão real. Por isso é necessário verificar a efetividade da fun¸cão ˆg escolhida.

Nesta se¸cão é apresentado o conceito de risco de classifica¸cão e risco emp´ırico. O risco de classifica¸cão é definido como sendo a probabilidade do algoritmo predizer incorreta-mente o rótulo dos dados amostrados.

Defini¸cão 3.2.1 (Risco de classifica¸cão) Para uma variável aleatória X com distribui¸cão PX e fun¸cão de classifica¸cão g, o risco de classifica¸cão é definido por:

LPX,g(ˆg) = PX(ˆg(X) 6= g(X)) .

Parece óbvio dizer que se deve minimizar ao máximo o risco de classifica¸cão, mas vale lembrar que a distribui¸cão da variável aleatória X e a fun¸cão g são desconhecidas. Então a única possibilidade é de calcular o risco amostral.

(19)

o risco utilizando a amostra de treinamento, chamada neste caso de risco emp´ırico.

Defini¸c˜ao 3.2.2 (Risco emp´ırico) Seja A = {(X1, Y1), . . . , (Xn, Yn)} uma amostra de

treinamento de tamanho n, X uma variável aleatória com distribui¸cão PX e ˆg : X → Y o

estimador da fun¸cão de classifica¸cão, e 1I a fun¸cão indicadora. O risco emp´ırico é definido como: LA(ˆg) = n X i=1 1I{ˆg(Xi) 6= Yi} n .

Uma vez que a amostra é a representa¸cão dispon´ıvel para estudo da popula¸cão real, é coerente buscar um estimador que funcione bem nos dados dispon´ıveis. Então, com o risco emp´ırico LA(ˆg) ∈ [0, 1] é poss´ıvel ter uma percep¸cão do risco de classifica¸cão, pois

alcan¸cando valores próximos de zero conclui-se que ˆg é um bom estimador para a fun¸cão de classifica¸cão g.

3.2.1 Minimiza¸

c˜

ao do risco emp´ırico (MRE)

O intuito do algoritmo é encontrar uma estimativa da fun¸cão desconhecida dentre todos os poss´ıveis estimadores do conjunto H que minimize o risco em rela¸cão a g. Isto é, tentar encontrar um preditor ˆg que minimize LA(ˆg).

Defini¸cão 3.2.3 (MRE) Seja LA(ˆg) ∈ [0, 1] o risco emp´ırico. O critério de MRE é

definido como sendo o ˆg tal que:

M RE(A) = argminˆg∈H LA(ˆg).

Sendo argmin o argumento que minimiza o valor da fun¸c˜ao LA.

Apesar da inten¸c˜ao de encontrar um ˆgA que minimize o risco emp´ırico parecer uma

´

otima ideia, nem sempre um algoritmo que tenha riscos muito baixos é de utilidade. Quando o modelo não observa padrões gerais, seguindo perfeitamente os dados de treino, isto é LA(ˆg) = 0, ocorre o que é chamado de sobreajuste. No momento em que isto

acontece, o algoritmo não funciona corretamente para os dados que não estão presentes na amostra de treinamento, pois ele é perfeitamente ajustado apenas para a amostra escolhida.

(20)

Figura 1: Sobreajuste.

3.2.2 MRE com vi´

es indutivo

Foi visto na se¸cão anterior que, em geral, um MRE leva a um sobreajuste. É necessário impor condi¸cões das quais quando o MRE possua um bom desempenho em rela¸cão aos dados de treinamento, muito possivelmente também tenha bom desempenho entre os outros dados da real distribui¸cão.

O recurso utilizado para evitar o sobreajuste é aplicar o MRE em um espa¸co restrito de estimadores, induzido um conjunto particular de preditores, isto é restringir o conjunto de estimadores que podem ser utilizadas pelo algoritmo. Estas restri¸cões são chamadas de viés indutivo. A escolha prévia da restri¸cão é baseada no conhecimento preliminar do problema, apenas depois da escolha da restri¸cão o algoritmo poderá entrar em contato com os dados de treinamento.

Sendo os dados de treinamento A = {(X1, Y1), . . . , (Xn, Yn)} de tamanho n, a ideia

é encontrar o ˆgA com o menor risco emp´ırico que não sofra sobreajuste, a subscri¸cão

“A”enfatiza que o estimador do algoritmo depende da amostra utilizada. Então, o objetivo é escolher como o melhor preditor o que estiver dentro da classe de hipótese restrita H que minimize o risco emp´ırico para a amostra “A”.

ˆ

gA = M REH(A),

onde M REH(A) ´e o MRE aplicado na amostra A em um espa¸co restrito de

estima-dores, isto ´e, o MRE com vi´es indutivo.

(21)

um sobreajuste, é poss´ıvel que, ao restringir muito a classe das poss´ıveis estimadores, a opinião prévia do problema atinja uma relevância muito maior que o desejado, afetando negativamente o resultado do aprendizado do algoritmo.

Então a escolha da classe de hipóteses não basta para garantir que o M REH não

levará a um sobreajuste. Assim sendo, é necessário buscar quais classes de hipótese que provavelmente não resultam em um sobreajuste.

3.2.3 Classes de hip´

oteses finita

Nesta se¸c˜ao ´e mostrado que, para classe de estimadores finita, o M REH

provavel-mente não levará a um sobreajuste sob condi¸cão de que seja baseado em um conjunto de treinamento suficientemente grande, onde o tamanho da amostra depende de |H|.

Para restringir a classe de estimadores, ´e imposto um limite superior em seu tamanho, limitando o n´umero de preditores ˆg em H.

A princ´ıpio, é realizada uma suposi¸cão da qual será desconsiderada mais a diante. Suponha que a fun¸cão desconhecida g pode ser fielmente representada por uma fun¸cão ˆg∗ dentro da classe de estimadores H, isto é:

LPX,g(ˆg

∗

) = 0, ou seja,

PX(ˆg∗(X) 6= g(X)) = 0 .

Esta suposi¸cão é chamada de suposi¸cão realizável. A intui¸cão desta suposi¸cão é que há uma garantia da presen¸ca de uma fun¸cão ˆg∗ _{em que o risco de classifica¸c˜}_{ao ´}_{e zero.}

Defini¸cão 3.2.4 (Suposi¸cão realizável): Seja o risco de classifica¸cão LPX,g, sendo PX a

distribui¸cão desconhecida da popula¸cão real. Então, existe ˆg ∈ H tal que LPX,g(ˆg

∗_{) = 0.}

Como A = {(X1, g(X1)), . . . , (Xn, g(Xn))} é uma amostra aleatória da popula¸cão

de estudo, sendo X1, X2, . . . , Xn vari´aveis aleat´orias independentes e identicamente

dis-tribu´ıdas com distribui¸cão PX , é viável calcular a probabilidade do erro emp´ırico de ˆg∗

(22)

P (LA(ˆg∗) = 0) = P (A : LA(ˆg∗) = 0) = P Pn i=11I {ˆg ∗_(X i) 6= g(Xi)} n = 0 = P (ˆg∗(Xi) = g(Xi) ∀i = 1, · · · , n) = n Y i=1 P (ˆg∗(Xi) = g(Xi)) = n Y i=1 (1 − P (ˆg∗(Xi) 6= g(Xi))) = n Y i=1 (1 − 0) = 1. Portanto, se P (LPX,g(ˆg ∗_{) = 0) = 1, ent˜}_{ao P (L} A(ˆg∗) = 0) = 1.

Pela suposi¸cão realizável, a probabilidade de existir uma amostra aleatória A, tal que LA(ˆg∗) = 0 é igual a 1.

Seja ε o parâmetro de precisão, ε ∈ (0, 1), quando LPX,g(ˆg) ≤ ε, é dito que ˆg parece

ser um bom estimador para g, caso LPX,g(ˆg) > ε, ´e dito que houve falha de aprendizagem.

Por conseguinte, define-se o conjunto dos estimadores ruins da seguinte forma:

Defini¸cão 3.2.5 (Conjunto dos estimadores ruins): Seja H o conjunto finito dos esti-madores, ˆg a regra de predi¸cão, LPX,g o risco de classifica¸cão e ε o parâmetro de precisão.

O conjunto dos estimadores ruins HB, ´e definido por

HB= {ˆg ∈ H : LPX,g(ˆg) > ε}.

Suponha que ao calcular o risco emp´ırico de um estimador pertencente ao conjunto dos estimadores ruins o retorno seja zero. Isto só pode ocorrer caso a amostra utilizada não represente o real comportamento da popula¸cão, este tipo de amostra é chamada de amostra ilusória.

Defini¸c˜ao 3.2.6 (Conjunto das amostras ilus´orias): Seja A = {(X1, Y1), . . . , (Xn, Yn)}

(23)

risco emp´ırico. O conjunto das amostras ilus´orias ´e denotado por M , definido por M = {A : ∃ˆgA∈ HB | LA(ˆgA) = 0}. Note que, M = [ ˆ gA∈HB {A : LA(ˆgA) = 0}.

Uma vez que a suposi¸c˜ao realiz´avel implica que existe um estimador ˆg ∈ HB tal que

LA(ˆgA) = 0, o evento LPX,g(ˆgA) > ε quando LA(ˆgA) = 0 ocorre apenas se for utilizada

uma amostra que não representa toda a popula¸cão, isto é, uma amostra pertencente ao conjunto M .

Note que:

{A : LPX,g(ˆgA) > ε} ⊆ M .

´

E sabido que apesar de A = {(X1, Y1), . . . , (Xn, Yn)} ser uma amostra aleat´oria, sendo

X1, . . . Xn variáveis aleatórias independentes identicamente distribu´ıdas com distribui¸cão

PX, sempre existe a possibilidade de ser adotada uma amostra n˜ao representativa.

Se a probabilidade de uma amostra n˜ao representativa ´e denotada por α, e conside-rando ˆgA o estimador que minimiza o erro emp´ırico. Pode ser escrito o seguinte com o

objetivo de limitar a probabilidade de ocorrer uma falha de aprendizagem:

P (A : LPX,g(ˆgA) > ε) ≤ α .

Mas antes é necessário fazer as seguintes considera¸cões:

1. Lema 3.2.1 (Limite da uni˜ao): Para quaisquer conjuntos A, B e uma distribui¸c˜ao P, tem-se que P (A ∪ B) ≤ P (A) + P (B).

Ent˜ao da defini¸c˜ao dos estimadores ruins que parecem bons:

P [ ˆ g∈HB {A : LA(ˆg) = 0} ! ≤ X ˆ g∈HB P ({A : LA(ˆg) = 0})

2. Considere a seguinte inequa¸c˜ao, 1 − ≤ e− , ∀ , est´a provada no anexo do cap´ıtulo 6.

(24)

in-forma¸c˜oes s˜ao utilizadas da seguinte forma:

1 − LPX,g( ˆgA) ≤ 1 − ε ≤ e

−ε

.

Utilizando as considera¸cões acima, é colocado um limite superior na probabilidade de amostra não representativa. P ({A : LPX,g(ˆgA) > ε}) ≤ P (M ) = P [ ˆ g∈HB {A : LA(ˆgA) = 0} ! ≤ X ˆ g∈HB P (A : LA(ˆgA) = 0)) = X ˆ g∈HB P (ˆgA(X1) = g(X1), . . . , ˆgA(Xn) = g(Xn)) = X ˆ g∈HB n Y i=1 P (ˆgA(Xi) = g(Xi)) = X ˆ g∈HB n Y i=1 (1 − LP,g(ˆgA)) ≤ X ˆ g∈HB (1 − ε)n ≤ X ˆ g∈HB e−εn = |HB|e−εn ≤ |H|e−εn

Ent˜ao se tem o seguinte:

P ({A : LPX,g(ˆgA) > ε}) ≤ |H|e

−εn _{≤ α}

(25)

|H|e−εn ≤ α e−εn ≤ α |H| ln e−εn ≤ ln α |H| −εn ≤ ln α |H| εn ≥ ln |H| α n ≥ ln|H|_α ε .

Ent˜ao sendo H uma classe de estimadores finita, α ∈ (0, 1), ε ∈ (0, 1) e n pertencente aos inteiros positivos, o tamanho m´ınimo da amostra pode ser definido:

n ≥

ln|H|_α

ε .

Percebe-se que o tamanho da amostra independe da distribui¸c˜ao desconhecida de X e da fun¸c˜ao classificadora.

Relembrando que o objetivo da se¸cão 3.2.3 era mostrar que se H é uma classe de estimadores finita, então M REH provavelmente não sofrerá sobreajuste, se baseado em

um conjunto de treinamento suficientemente grande. Foi obtido o seguinte: P ({A : LPX,g(ˆgA) > ε}) ≤ α,

para n ≥ ln(

|H| α )

ε .

3.3 Aprendizado PAC - Aprendizado provavelmente

aproximadamente correto

Na se¸cão anterior, foi visto que se o MRE em rela¸cão à classe de hipótese finita for aplicado em uma amostra de treinamento suficientemente grande, então com probabili-dade (1 − α) a hipótese de sa´ıda estará correta considerando uma precisão ε. Utilizando esta informa¸cão, nesta se¸cão é vista a defini¸cão do conceito de aprendizado provavelmente

(26)

aproximadamente correto (aprendizado PAC).

A complexidade amostral representa o tamanho da amostra de treinamento necess´ario a evitar com probabilidade maior ou igual a α que ocorra falha de aprendizagem.

Defini¸c˜ao 3.3.1 (Complexidade Amostral) Dado ε, α ∈ (0, 1), toda classe de estimadores finita H ´e PAC com complexidade amostral se:

nH(ε, α) =

ln|H|_α ε

A fun¸c˜ao nH : (0, 1)2 → IN∗ determina a complexidade amostral do conjunto de

estimadores finito H, o objetivo ´e que para qualquer ε, α, a complexidade amostral seja o menor inteiro que satisfa¸ca as condi¸c˜oes de aprendizado PAC.

Defini¸c˜ao 3.3.2 (Aprendizado PAC): Para X ∼ PX e g : X → {0, 1}. A classe H ´e

PAC-aprend´ıvel se:

1. A suposi¸cão realizável é satisfeita.

2. ∃ nH : (0, 1)2 → IN, tal que para ε e α ∈ (0, 1), se n ≥ nH(ε, α), o algoritmo retorna

ˆ

g, que satisfaz:

P (LPX,g(ˆg) ≤ ε) ≥ 1 − α .

O aprendizado PAC é uma estrutura para análise matemática do aprendizado de máquina. O objetivo é definir a quantidade de dados necessário amostrar para o algoritmo gerar uma fun¸cão ˆg que consegue encontra os verdadeiros rótulos com no máximo um erro de ε com uma probabilidade m´ınima especifica (1 − α).

Vale ressaltar que na defini¸cão do aprendizado PAC a rotulagem é binária, algo que até o momento não tinha sido imposto.

3.3.1 PAC Agnostic

A suposi¸cão realizável é muito forte para assumir que ela será verdadeira para todos os problemas, também é muito inflex´ıvel à ideia de uma fun¸cão de classifica¸cão que a partir de um valor possa corretamente retornar um único e exato rótulo. Então no PAC Agnostic é assumido que os rótulos não são totalmente determinados pelos preditores.

(27)

Agora a suposi¸cão realizável é relaxada e a fun¸cão de classifica¸cão g : X → Y vista até agora é substitu´ıda por uma fun¸cão mais flex´ıvel. Assume-se que X e Y são variáveis aleatórias em distribui¸cão conjunta dada por (X, Y ) ∼ P

O risco de classifica¸cão é redefinido para PAC Agnostic. Visando mensurar o quanto o ˆg pode estar errado de uma distribui¸cão desconhecida P sobre X e Y.

Defini¸cão 3.3.3 (Risco de classifica¸cão do PAC agnostic) Para as variáveis aleatórias X e Y com distribui¸cão conjunta (X, Y ) ∼ P e regra de predi¸cão ˆg, o risco de classifica¸cão do PAC agnostic é definido por:

LPX,Y,g(ˆg) = P ({(X, Y ) : ˆg(X) 6= Y }) .

Vale salientar que no risco de classifica¸cão na defini¸cão dada no cap´ıtulo 3.2, foi utilizado g(X), enquanto agora na defini¸cão do risco de classifica¸cão do modelo PAC agnostic não é assumido Y como um valor retornado de uma fun¸cão de classifica¸cão pré determin´ıstica de X.

Lembrando que caso o risco real não possa ser calculado, o risco poderá ser calculado pela amostra, chamado de risco emp´ırico do PAC agnostic. Considerando uma amostra de tamanho n, o risco para o modelo PAC Agnostic será definido como anteriormente no cap´ıtulo 3.2:

Defini¸c˜ao 3.3.4 (Risco emp´ırico do PAC agnostic) Seja A = {(X1, Y1), . . . , (Xn, Yn)}

uma amostra de treinamento de tamanho n, X e Y variáveis aleatórias com distribui¸cão conjunta (X, Y ) ∼ P e regra de predi¸cão ˆg. O risco emp´ırico do PAC agnostic é definido como:

LA(ˆg) =

Pn

i=11I{ˆg(Xi) 6= Yi}

n .

Defini¸c˜ao 3.3.5 (Aprendizado PAC Agnostic): Para (X, Y ) ∼ P , a classe H ´e PAC-agnostic se ∃ nH : (0, 1)2 → IN, tal que para ε, α ∈ (0, 1) e uma amostra maior que a

complexidade amostral nH, o algoritmo fornece ˆg tal que:

P LP (ˆg) ≤ mingˆ0∈HLP

ˆ

(28)

Percebe-se pela defini¸cão que o aprendizado PAC Agnostic não está limitado a uma classifica¸cão binária, outro avan¸co proveniente da fun¸cão de distribui¸cão conjunta.

Apesar da suposi¸cão realizável não ser assegurada, o algoritmo encontrará um bom preditor se o risco de classifica¸cão do mesmo não for maior que ε do melhor risco de classifica¸cão poss´ıvel da classe H. E poss´ıvel observar que por esta generaliza¸c˜´ ao do aprendizado PAC, o parâmetro de precisão é relativo ao menor risco de classifica¸cão que a classe de estimadores possa alcan¸car.

3.4 Contexto da modelagem de aprendizagem

´

E desejável um modelo que possa ser aplicado a uma extensa variabilidade de tarefas de aprendizagem. Como mencionado anteriormente é interessante atingir uma capacidade de classifica¸cão ampla, pois é necessário se empenhar em resolver problemas reais.

´

E pertinente lembrar que no cap´ıtulo 3.1.1 foi dito que dependendo do tipo de sa´ıda do algoritmo a predi¸cão iria ser definida por regressão ou classifica¸cão. Neste ponto são considerados alguns exemplos de diferentes tarefas de aprendizado.

• Classifica¸c˜ao estat´ıstica

Tendo um espa¸co amostral e conjunto de rótulos definidos, o objetivo é que o al-goritmo seja capaz de identificar a qual categoria o preditor pertence, baseado no conjunto de dados dos quais o rótulo é conhecido. Isto é, procura encontrar rela¸cão entre as variáveis de entrada e a variável de sa´ıda Y , onde Y é uma variável ca-tegórica.

Para a medida de sucesso é adotado a propor¸cão de acertos do preditor. • Modelo de Regressão

A finalidade é de encontrar padrão nos dados amostrados para a cria¸cão de um modelo probabil´ıstico capaz de expressar a rela¸cão entre as variáveis de interesse. Isto é, procura encontrar rela¸cão entre as variáveis de entrada X e a variável de sa´ıda Y , onde X e Y são variáveis numéricas.

Para a medida de sucesso é adotada a avalia¸cão da qualidade da fun¸cão estimada com o uso do erro quadrático médio.

LP(ˆg) = E(X,Y )(ˆg − Y )2

.

(29)

3.4.1 Medida de sucesso

Para acobertar a gama de tarefas de aprendizagem, as medidas de sucesso devem ser generalizadas. Diante disso, é utilizada uma fun¸cão, chamada de fun¸cão de perda, que tem o propósito de penalizar pela imprecisão das predi¸cões.

Dado um conjunto qualquer H e um dom´ınio (X , Y), uma fun¸cão l é uma fun¸cão de perda, se l : H × (X , Y) → IR+.

Note que o conceito de fun¸c˜ao de perda vai al´em das tarefas de aprendizagem, permi-tindo (X , Y) a ser qualquer dom´ınio de exemplos.

A fun¸cão de perda é capaz de aferir em ponto de dados, predi¸cões e classifica¸cões. Como pode ser visto nos exemplos que segue.

Exemplo 3.4.1 (Fun¸cão de perda quadrática) Geralmente utilizada em problemas de re-gressão, é calculada da seguinte forma:

lsq(ˆg, Z) = (ˆg − Y )2,

em que z uma vari´avel aleat´oria tal que Z ∈ Z, sendo Z o conjunto (X , Y).

Exemplo 3.4.2 (Fun¸cão de perda 0-1) Geralmente utilizada em problemas de classi-fica¸cão, é calculada da seguinte forma:

l0−1(ˆg, Z) =

(

0 , se ˆg = Y 1 , caso contr´ario

em que z uma vari´avel aleat´oria tal que Z ∈ Z, sendo Z o conjunto (X , Y). ´

E chamada de fun¸cão de risco a esperan¸ca da fun¸cão de perda de ˆg ∈ H sobre o dom´ınio Z que segue uma distribui¸cão P .

Defini¸cão 3.4.1 (Fun¸cão do risco) Dado ˆg ∈ H, um dom´ınio (X, Y ) ∼ P e uma fun¸cão de perda l : H × (X , Y) → IR+, a fun¸cão de risco é definida como

LP(ˆg) = E [l(ˆg, (X, Y ))] .

´

E interessante observar que as defini¸cões de risco de classifica¸cão PAC Agnostic (3.3.1) e da fun¸cão de risco (3.4.1) coincidem ao admitir a fun¸cão de perda 0-1.

(30)

E [l0−1(ˆg, Z)] = 0 × P (l0−1(ˆg, (X, Y )) = 0) + 1 × P (l0−1(ˆg, (X, Y )) = 1)

= P (l0−1(ˆg, (X, Y )) = 1)

= P (h(X) 6= Y )

Sempre lembrando que é disposto apenas amostras para os cálculos, então é define-se como risco emp´ırico a perda esperada sobre uma amostra.

Defini¸c˜ao 3.4.2 (Risco emp´ırico da fun¸c˜ao de perda) Seja (X, Y ) ∼ P , A = ((X1, Y1), . . . , (Xn, Yn))

uma amostra aleatória de tamanho n e l : H × (X , Y) → IR+ uma fun¸cão de perda. É

definido como risco emp´ırico da fun¸c˜ao de perda LA(ˆg) = 1 n n X i=1 l (ˆg, Xi, Yi) .

3.4.2 Aprendizado PAC Agnostic para fun¸

c˜

ao geral de perda

Nesta se¸cão é inserida a medida de sucesso generalizada no aprendizado PAC Agnostic para torná-lo mais abrangente. Por isso, agora o aprendizado PAC Agnostic é redefinido para aprendizado PAC Agnostic para fun¸cão geral de perda.

Defini¸cão 3.4.3 (PAC Agnostic para fun¸cão geral de perda): Para (X, Y ) ∼ P , a classe H é PAC-agnostic se em rela¸cão a um conjunto (X , Y) e uma fun¸cão de perda lH :

(X , Y) → IR+, se ∃ nH : (0, 1)2 → IN tal que para ε, α ∈ (0, 1) e uma amostra maior que

a complexidade amostral, o algoritmo fornece ˆg tal que:

P E(X,Y )∼P [l(ˆg, X, Y )] ≤ minˆg0∈HE(X,Y )∼P

h

l(ˆg0, X, Y )i+ ε≥ 1 − α .

3.5 Aprendizado por convergˆ

encia uniforme

At´e ent˜ao foi visto que dado uma classe de estimadores H, quando o algoritmo recebe uma amostra A, o mesmo avalia o risco de cada ˆgA em H e retorna o estimador que

(31)

minimiza o risco emp´ırico. Mas além de procurar o MRE, é também relevante garantir que o risco emp´ırico de todos integrantes de H sejam boas aproxima¸cões do risco real.

Neste cap´ıtulo, é utilizada convergência uniforme para mostrar que uma classe de hipótese é PAC agnostic aprend´ıvel com uma fun¸cão de perda geral uma vez que a abrangência da fun¸cão de perda seja limitada.

Primeiramente ´e necess´ario definir o conceito de amostra ε-representativa.

Defini¸cão 3.5.1 (Amostra ε-representativa) Com uma classe de hipótese H, uma fun¸cão de perda l e (X, Y ) ∼ P , uma amostra A é chamada de ε-representativa se:

∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| ≤ ε .

A proposta desta defini¸cão é de chamar de amostra ε-representativa, a amostra em que o risco emp´ırico não seja muito diferente da real fun¸cão de risco, sendo o valor desta diferen¸ca apenas menor ou igual a um ε.

Da defini¸cão, se A é uma amostra ε₂-representativa, então para ˆgA= ming∈HLA(ˆg) ∈

H:

|LA(ˆgA) − LP(ˆgA)| ≤

ε 2 . Ent˜ao se tem o seguinte,

−ε 2 ≤ LA(ˆgA) − LP(ˆgA) ≤ ε 2 −ε 2 − LA(ˆgA) ≤ −LP(ˆgA) ≤ ε 2− LA(ˆgA) LA(ˆgA) − ε 2 ≤ LP(ˆgA) ≤ LA(ˆgA) + ε 2 =⇒ LP(ˆgA) ≤ LA(ˆgA) + ε 2 ´

E pertinente fazer a seguinte considera¸c˜ao: ∀ˆg ∈ H, se ˆgA´e um MRE e ˆg

0

(32)

que retorna o menor risco de classifica¸c˜ao poss´ıvel, ent˜ao LA(ˆgA) ≤ LA

ˆ g0 .

Importante tamb´em considerar que,

−ε 2 ≤ LA ˆ g0− LP ˆ g0≤ ε 2 LP ˆ g0 − ε 2 ≤ LA ˆ g0 ≤ LP ˆ g0 +ε 2 LP ˆ g0≤ LA ˆ g0+ ε 2 ≤ LP ˆ g0+ε 2 + ε 2 LP ˆ g0≤ LA ˆ g0+ ε 2 ≤ LP ˆ g0+ ε E consequentemente segue: LP(ˆgA) ≤ LA(ˆgA) + ε 2 ≤ LA ˆ g0+ε 2 ≤ LP ˆ g0+ ε = minˆg∈HLP(ˆg) + ε

Lema 3.5.1 Assumindo que uma amostra A é uma amostra ε₂-representativa em uma classe de hipótese H, com uma fun¸cão de perda l e (X, Y ) ∼ P , então o M REˆg(A)

satisfaz a seguinte inequa¸c˜ao:

LP(ˆgA) ≤ mingˆ0∈HLP ˆ g0 + ε .

Deste lema, se a amostra é ε₂-representativa então a regra de predi¸cão ˆgA ∈ H é um

aprendizado PAC Agnostic. ´

(33)

uma vez que possui a propriedade de convergˆencia uniforme para a classe de hip´otese finita.

Nesta se¸cão é mostrado que se H possui propriedade da convergência uniforme, então ele é PAC-Agnostic

Para quaisquer ε e α, é necessário encontrar uma amostra da popula¸cão (X, Y ) ∼ P de tamanho n, que garanta que:

P ({A : ∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| ≤ ε}) ≥ 1 − α

ou

P ({A : ∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| > ε}) < α ,

ou seja, é ε−representativa com probabilidade de pelo menos (1 − α). Primeiramente se faz necessário tomar as seguintes considera¸cões:

1. Novamente ´e utilizado o teorema do limite da uni˜ao que foi visto em 3.2.3 . Onde se conseguiu o seguinte resultado:

P [ ˆ g∈HB {A : |LA(ˆg) − LD(ˆg)| > ε} ! ≤ X ˆ g∈HB P ({A : |LA(ˆg) − LD(ˆg)| > ε}) .

2. Para qualquer ˆg fixado, a diferen¸ca entre o risco real e o emp´ırico ´e razoavelmente pequeno. Pois de tem-se:

LD(ˆg) = EZ∼P[lgˆ(Z)] = µ LA(ˆg) = 1 n n X i=1 lgˆ(Zi),

onde Z = (X, Y ), sendo Zi uma amostra aleat´oria independente e identicamente

distribu´ıda seguindo uma distribui¸cão P. Pode-se perceber que lˆg(Zi) também é uma

variável aleatória independente e identicamente distribu´ıda. Sendo assim, é rápido provar que 1_nPn

(34)

E " 1 n n X i=1 lˆg(Zi) # = 1 nE " _n X i=1 lˆg(Zi) # = 1 n n E[lgˆ(Zi)] = µ

E pela lei dos grandes números, quanto maior o tamanho da amostra, mais a média amostral calculada se aproxima da média real da popula¸cão.

3. Lema 3.5.2 (Desigualdade de Hoeffding ) Seja lˆg(Z1), . . . , lgˆ(Zn) vari´aveis aleat´orias

independentes e identicamente distribu´ıdas, e considere que ∀i, E[lgˆ(Zi)] = µ e

P (a ≤ lgˆ(Zi) ≤ b) = 1. Ent˜ao para qualquer ε > 0:

P " 1 n n X i=1 lˆg(Zi) − µ > ε # ≤ 2 e−2n ε2(b−a)2 _.

Com as considera¸cões abordadas, é poss´ıvel colocar um limite superior na probabilidade de uma amostra que não seja ε-representativa.

P ({A : ∃ˆg ∈ H, |LA(ˆg) − LD(ˆg)| > ε}) = P [ ˆ g∈HB {A : |LA(ˆg) − LD(ˆg)| > ε} ! ≤ X ˆ g∈HB P ({A : |LA(ˆg) − LD(ˆg)| > ε}) = X ˆ g∈HB P 1 n n X i=1 lˆg(Zi) − µ > ε ! ≤ X ˆ g∈HB 2 e −2n ε2 (b−a)2 = 2 |H| e −2n ε2 (b−a)2

(35)

2 |H| e −2n ε2 (b−a)2 ≤ α e −2n ε2 (b−a)2 ≤ α 2 |H| −2n ε2 (b − a)2 ≤ ln α 2 |H| n ≥ (b − a)2 _ln α 2 |H| −2 ε2

Ent˜ao sendo H uma classe de estimadores finita, α ∈ (0, 1), ε > 0 e n pertencente aos inteiros positivos, o tamanho m´ınimo da amostra pode ser definido:

n ≥

(b − a)2 _ln α 2 |H|

−2 ε2 .

Corolário 3.5.1 Seja H uma hipótese finita, Z o dom´ınio e lH(Z) → [a, b] a fun¸cão

de perda. Ent˜ao o H possui a propriedade de convergˆencia uniforme com complexidade amostral dada por,

nU C_H (ε, α) =   (b − a)2 _ln2 |H| α 2 ε2   .

Além disso, é provado a seguir que a classe é PAC Agnostic aprend´ıvel usando o algoritmo MRE com a complexidade amostral:

nH(ε, α) ≤ nU CH ε 2, α =   2 ln2 |H|_α ε2   .

(36)

nH(ε, α) nU C H ε 2, α = ln(|H|_α ) ε ln₍2|H|_α ₎ 2(ε₂)2 = ln₍|H|_α ₎ ε 2ln(2|H|_α ) ε2 = ln|H|_α ε × ε2 2ln2|H|_α = ε 2× ln(|H|) − ln(α) ln(2) + ln(|H|) − ln(α)

Lembrando que α ∈ (0, 1), ent˜ao −ln(α) > 0. Se ln(|H|) − ln(α) = w, ent˜ao

nH(ε, α) nU C H ε 2, α = ε 2× w ln(2) + w.

Note que ε ∈ (0, 1), ent˜ao 0 < ₂ε < 1. Como 0 < w < w + ln(2) e _w+ln(2)w toma valores positivos menores que 1, temos que:

nH(ε, α) nU C H ε 2, α < 1,

o que prova que nH(ε, α) < nU CH ε 2, α .

Defini¸cão 3.5.2 (Convergência Uniforme): Sejam (X, Y ) ∼ P e l uma fun¸cão de perda. A classe H tem a propriedade de convergência uniforme se ∃ nU C

H : (0, 1)2 → IN, tal que

para todo ε, α ∈ (0, 1) e para uma amostra, i.i.d com distribui¸c˜ao P , de tamanho maior que a complexidade amostral nU C

H (ε, α), tem-se:

P (LP( ˆgA) ≤ mingˆ0∈HLP

ˆ

(37)

Ou seja, com probabilidade de pelo menos 1 − α a amostra ´e ε-representativa.

Se a propriedade de convergência uniforme é assegurada para uma classe de estima-dores H, então, na maioria dos casos, os riscos emp´ıricos representam o risco real.

Corolário 3.5.2 Se a classe H possui a propriedade de convergência com a complexidade da amostra obtida pela propriedade de convergência uniforme, então a classe de hipótese é PAC agnostic aprend´ıvel com complexidade amostral

nH(ε, α) ≤ nU CH

ε 2, α

.

A fun¸cão nU C_H mede a complexidade da amostra obtida pela propriedade de con-vergência uniforme, isto é, mensura quantos exemplos são necessários para assegurar que com probabilidade de pelo menos 1 − α a amostra seja ε-representativa.

3.6 Dimens˜

ao VC

A defini¸cão de aprendizado PAC carece que a fun¸cão de perda seja limitada. Mas a hipótese finita não é uma condi¸cão para o aprendizado, pois classes infinitas podem ser aprend´ıveis.

Vladimir Vapnik e Alexey Chervonenkis em 1970 [4] se baseiam em uma no¸cão com-binatória chamada de dimensão Vapnik-Chervonenkis (dimensão VC), onde a dimensão VC de um conjunto F de fun¸cões possui a cardinalidade do maior conjunto que possa ser dividido por f ∈ F . Disto, é poss´ıvel perceber que o tipo das fun¸cões determina a dimensão VC.

Para apresentar a caracteriza¸cão da classe aprend´ıvel na configura¸cão de classifica¸cão de valor binário com fun¸cão de perda 0-1, esta dimensão é definida como o número máximo de elementos que podem ser particionados em dois subconjuntos.

Defini¸cão 3.6.1 (Vapnik e Chervonenkis (1971) - Dimensão VC de um conjunto de fun¸cões indicadoras [5]) A dimensão VC de um conjunto de fun¸cões indicadoras, é o número máximo h de elementos, dos quais podem ser separados de 2h _{formas diferentes,}

isto ´e, a cardinalidade do maior subconjunto, sendo que 2h _´_{e o n´}_{umero m´}_{aximo de divis˜}_oes

(38)

Para melhor explicar a defini¸cão da dimensão Vapnik-Chervonenkis utiliza-se o exem-plo encontrado em [6], onde dado um problema de classifica¸cão binário é poss´ıvel verificar o número máximo de exemplos onde três dados representados podem ser separados em dois subconjuntos por fun¸cões linear.

Figura 2: Exemplo de classifica¸cões binárias, sendo que há 3 dados representados em IR2.

Deste exemplo ´e obtido 23_{, isto ´}_{e, 8 combina¸c˜}_{oes bin´}_{arias de r´}_otulos.

Um hiperplano se refere a um plano (k-1)-dimensional em IRk, isto posto, em um plano, o hiperplano é caracterizado por uma reta. Como neste exemplo, a dimensão VC para hiperplano é três. Generalizando em k-dimensões, um hiperplano em IRk é capaz de partir qualquer conjunto de h = k + 1 pontos linearmente independentes.

´

E poss´ıvel notar na figura 3 que para quatro pontos é necessário recorrer a fun¸cões mais complexas do que retas para a classifica¸cão binária.

Figura 3: Exemplo de classifica¸cão binária, sendo que há 4 dados representados em IR2.

Tomando como base a dimensão VC, foi estabelecido o princ´ıpio indutivo Minimiza¸cão do risco estrutural (SRM do inglês “Structural Risk Minimization”), do qual tem o

(39)

ob-jetivo equilibrar a complexidade do modelo em rela¸cão ao seu sucesso na adequa¸cão dos dados de treinamento finitos, assim evitando que ocorra um sobreajuste. O SRM possi-bilita a compensa¸cão entre a complexidade do espa¸co de hipótese e seu erro emp´ırico.

Com o numero máximo h de observa¸cões que podem ser separadas, é poss´ıvel fornecer uma maneira de estimar o limite superior do erro.

Defini¸cão 3.6.2 (Limite do risco esperado com dimensão VC) Seja h a dimensão Vapnik-Chervonenkis, n o tamanho da amostra de treinamento e α ∈ (0, 1). Define-se como limite no risco esperado P  LP(ˆg) ≤ LA(ˆgA) + s h. ln 2n_h + 1 − ln α₄ n  ≤ 1 − α

O SRM (“ Structural Risk Minimization”) significa minimizar LA(ˆgA)+

q h₍ln₍2n h)+1)−ln( α 4) n , onde q h(ln(2n_h)+1)−ln₍α 4)

n ´e conhecido com confian¸ca VC. Para minimizar o risco real, a

mi-nimiza¸cão deve ser feita simultaneamente em ambos os termos: risco emp´ırico e confian¸ca VC, assim tornando a dimensão VC uma variável de controle.

A dimensão VC em geral é fácil de calcular para hiperplanos, Vapnik [7] pôde mostrar que em um espa¸co especial de dimensões infinitas de fun¸cões chamado de núcleo reprodutor do espa¸co de Hilbert (Reproducing Kernel Hilbert Space (RKHS)) , um classificador linear é um classificador universal, e estes classificadores são chamados de máquinas de vetores de suporte (Suport vector machine).

3.7 Support vector machine

Uma máquina de vetores de suporte é um classificador formalmente definido por um hiperplano de separa¸cão. O objetivo do SVM é encontrar dentre todos os hiperplanos o que minimiza o risco emp´ırico, isto é, procura maximizar a margem do classificador linear. A figura 4 tem como exemplo três hiperplanos para a classifica¸cão dos dados, é poss´ıvel perceber que o classificador linear que possui a maior margem é o destacado em verde.

(40)

Figura 4: Poss´ıveis hiperplanos.

Na imagem que segue estão destacados e numerados por (2) os vetores de suporte, também conhecidos como pontos cr´ıticos. Já em azul claro, indicado pelo número (1), a margem do classificador linear.

(41)

Mas em situa¸cões reais, não permitir que alguns dados permane¸cam na margem de-finida pelos hiperplanos reduz a generaliza¸cão, incapacitando de lidar com conjuntos de treinamento mais gerais. Por isso, a ado¸cão das margens suaves, onde há o relaxamento de restri¸cões impostas ao problema de otimiza¸cão com a introdu¸cão de variáveis de folga. As SVMs obtidas permitindo a aplica¸cão desse procedimento que permite a ocorrência de alguns erros de classifica¸cão são referenciadas como SVMs com margens suaves.

As SVMs lineares de margens suaves admitem a presen¸ca de alguns ru´ıdos e outliers al´em de apresentar desempenho suficiente para problemas linearmente separ´aveis, mas alguns conjuntos de dados exigem fronteiras mais complexas que lineares.

Com o emprego de um procedimento motivado pelo teorema de Cover, é poss´ıvel a generaliza¸cão de SVMs para problemas não lineares.

Teorema 3.7.1 Teorema de Cover [8]

Um conjunto de dados não lineares em um espa¸co de alta dimensão é mais suscet´ıvel a ser linearmente separável do que em um espa¸co de menor dimensão, na condi¸cão de que o espa¸co não seja excessivamente povoado.

Mapeando as amostras de treinamento do espa¸co original e transformando por meio de uma fun¸cão para um espa¸co de maior dimensão, chamado de espa¸co de caracter´ısticas, se torna viável a aplica¸cão do SVM linear.

Na imagem que segue em 7(a), um exemplo do espa¸co de entrada, com os dados representados em IR2 por suas caracter´ısticas. Já em 7(b) apresenta em IR3 o espa¸co de caracter´ısticas onde os dados representados são transformados da fun¸cão Φ(X, Y ) = (X2,√2XY, Y2), tornando poss´ıvel uma separa¸cão dos dados por um plano.

Figura 6: Mapeamento de dados de entrada para um espa¸co de maior dimens˜ao.

(a) Espa¸co de entrada (b) Espa¸co de caracteristicas

Mas a fun¸cão Φ pode ter dimensão muito alta e ser custosa computacionalmente. Todavia, a informa¸cão relevante sobre o mapeamento é de como realizar o produto escalar

(42)

entre os pontos no espa¸co de caracter´ıstica, o que pode ser feito pela fun¸c˜ao kernel, desde que siga as condi¸c˜oes impostas pelo Teorema de Mercer [9].

Um kernel é uma fun¸cão cont´ınua que de duas variáveis x e y as mapeia para um valor real tal que, k(x, y) = k(y, x), isto é, uma fun¸cão simétrica. Mais detalhes no anexo 11.1. O objetivo da SVM é de encontrar um hiperplano que separe os dados do espa¸co caracter´ıstica de forma ótima. Para os dados não linearmente separáveis originalmente, a utiliza¸cão do Kernel evita o mapeamento expl´ıcito dado pela fun¸cão Φ e torna o problema linearmente separável. Pelo Teorema de Mercer [9], a fun¸cão Kernel recebe os pontos do espa¸co de entrada e calcula o produto escalar entre eles no espa¸co caracter´ıstica, desde que defina Kernel como matriz positivamente definida e que tenha autovalores maior do que zero.

Os Kernels mais utilizados s˜ao:

• Polinomial

K(x, y) = (γ.(xTy) + c)d,

onde os Kernels polinomiais com o parˆametro d = 1 ´e considerado Kernel Linear. • Radial

K(x, y) = e−γ||x−y||2 • Tangente Hiperb´olica

K(x, y) = tanh(γ.(xTy) + c),

as condi¸c˜oes de Mercer s˜ao satisfeitas apenas para alguns valores de γ e de c.

Para a obten¸cão de um classificador por meio do uso de SVMs, é preciso a escolha de uma fun¸cão Kernel e seus parâmetros, assim como de um algoritmo para a determina¸cão do hiperplano ótimo. A escolha do Kernel e dos parâmetros considerados tem efeito no desempenho do classificador obtido, pois eles definem a fronteira de decisão induzida.

(43)

4 Aplica¸

c˜

ao

Foi utilizado o pacote e1071[3], no R [2]. Segue as etapas para a aplica¸c˜ao do SVM no R:

Primeiro ´e necess´ario instalar o pacote e chamar a biblioteca.

install.packages("e1071", dependencies = T) library(e1071)

Então é criada uma amostra de teste e outra de treinamento. A amostra de teste é qual será utilizada para verificar a adequa¸cão do modelo, enquanto a amostra de treinamento é utilizada na cria¸cão do modelo. O tamanho da amostra de teste geralmente é menor que a amostra de treinamento, isto é, N ≥ n

amostra_teste = Amostra de tamanho n da popula¸c~ao de estudo

amostra_treinamento = Amostra de tamanho N da popula¸c~ao de estudo

Para a constru¸cão do modelo foi utilizado o tipo “C-classification” para a classifica¸cão da variável X , o pacote também tem op¸cão para regressão. No trabalho foram testados os modelos com kernel linear e radial, “linear” e “radial” respectivamente.

modelo_svm = svm(x ~ ., data=amostra_treinamento, method="C-classification", kernel="linear")

´

E poss´ıvel visualizar os vetores de suporte, a divis˜ao realizada pelo modelo e a real classi-fica¸c˜ao. Para observar graficamente a modelagem, utiliza-se o seguinte comando.

plot(x=modelo_svm, data=amostra_treinamento)

Então é realizada a predi¸cão com a amostra de teste. Utilizada para ver se o modelo está bem adequado para a popula¸cão real, e não só para a amostra de treinamento.

(44)

4.1 Duas popula¸

c˜

oes ambas com caracter´ıstica

expo-nencial

A seguir, s˜ao analisadas duas popula¸c˜oes, simuladas (ver em 7) com apenas uma carac-ter´ıstica.

Seja Y ∈ {1, 2} variável aleatória referente a popula¸cão, onde P (Y = 1) = P (Y = 2) = 1₂. Tem-se que as caracter´ısticas que seguem distribui¸cão exponencial se diferem para cada grupo, isto é:

(X|Y = 1) ∼ Exponencial(1) (X|Y = 2) ∼ Exponencial(λ), onde λ = 1

2, 1 25, 1 50 e 1 100.

O intuito inicial é avaliar se o SVM consegue distinguir bem dois grupos quando o λ das exponenciais são próximos. Foram utilizados os parâmetros padrão da fun¸cão do pacote utili-zado. A caracter´ıstica do grupo 1 foi mantida seguindo uma exponencial com média 1. Já a caracter´ıstica do segundo grupo foi modificada para o estudo, foram utilizadas as médias 2, 25, 50 e 100.

Tabela 1: Média e variância de distribui¸cão pelo λ escolhido. λ Média Variância

1 1 1 1 2 2 4 1 25 25 625 1 50 50 2500 1 100 100 10000

Nas imagens que seguem, os dados em preto são as caracter´ısticas da popula¸cão Y = 1, em que teve a distribui¸cão exponencial mantida com λ = 1. Em vermelho a popula¸cão Y = 2, em que houve a mudan¸ca do λ. Os objetos em forma de “X”são os pontos cr´ıticos.

No modelo onde foram estudadas as duas popula¸c˜oes:

(X|Y = 1) ∼ Exponencial(1) (X|Y = 2) ∼ Exponencial 1

2

(45)

Figura 7: Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial.

Com caracter´ıstica seguindo uma distribui¸c˜ao exponencial com λ = 1 e outra com λ = 1₂. Ao calcular o erro amostral com a amostra de teste, foi obtido erro de 60%.

Tabela 2: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = 1₂)

ˆ

Y \ Y 1 2

1 6 8

2 4 2

J´a adotando as popula¸c˜oes com as caracter´ısticas seguindo: (X|Y = 1) ∼ Exponencial(1), e (X|Y = 2) ∼ Exponencial λ = 1 25 , ao realizar o SVM foram utilizados 39 vetores de suporte,

(46)

e obteve um erro de 5%.

Tabela 3: ˆY × Y de duas popula¸c˜oes, uma com caracter´ıstica Exponencial(λ = 1) e outra com caracter´ıstica Exponencial λ = ₂₅1.

ˆ

Y \ Y 1 2

1 11 1

2 0 8

A modelagem para popula¸c˜oes com caracter´ıstica seguindo uma distribui¸c˜ao exponencial com

(X|Y = 1) ∼ Exponencial(1), e outra com

(X|Y = 2) ∼ Exponencial( 1 50). Foram utilizados menos vetores de suporte, apenas 35

, e manteve o erro de 5%.

Tabela 4: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = ₅₀1)

ˆ

Y \ Y 1 2

1 13 1

2 0 6

Com as popula¸c˜oes Y ∈ {1, 2} com caracter´ısticas X, onde (X|Y = 1) ∼ Exponencial(1) e

(X|Y = 2) ∼ Exponencial(λ = 1 100),

(47)

o n´umero de vetores de suporte ca´ıram para 33

, mas manteve o erro de 5%.

Tabela 5: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = ₁₀₀1 )

ˆ

Y \ Y 1 2

1 8 1

2 0 11

Pelas figuras, percebe-se que quanto mais diferentes as médias da popula¸cão, apesar da variância aumentar muito junto com a média, mais facilmente o SVM consegue encontrar uma separa¸cão para a rotulagem.

Curioso notar também que ao separar as médias das caracter´ısticas, ainda se mantém o erro amostral devido ao comportamento da distribui¸cão exponencial. E este erro é permitido no modelo SVM por ter sido adotado o modelo com margens suaves.

4.2 Duas popula¸

c˜

oes ambas com duas caracter´ısticas

normais

Foi escolhido analisar duas popula¸c˜oes, simuladas (ver em 8) com duas caracter´ısticas se-guindo distribui¸c˜ao normal.

Onde Y ∈ {1, 2} é a variável aleatória referente à popula¸cão, onde as caracter´ısticas depen-dem de cada popula¸cão, isto é:

(48)

(X|Y = 2) ∼ N ormal(µ(X|Y =2)= 5, σ(X|Y =2)2 ), onde, σ 2

(X|Y =2) = 0.25 e 25,

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ2(Z|Y =1)), onde, σ 2

(Z|Y =1)= 1, 100, 25 e 4,

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ2(Z|Y =2)), onde, σ 2

(Z|Y =2)= 1, 100, 25 e 4,

sendo X a caracter´ıstica 1 e Z a caracter´ısticas 2.

Para ficar menos abstrato, segue um breve exemplo: São escolhidos homens e mulheres ao acaso, onde Y = 1 se for escolhido o gênero feminino e Y = 2 caso contrário. Estas popula¸cões possuem as mesmas caracter´ısticas, das quais seguem distribui¸cões normais e distintas com parâmetros dependentes de sua popula¸cão de origem. Suponha X a caracter´ıstica altura e Z a caracter´ıstica peso.

O objetivo é avaliar se o SVM consegue distinguir bem dois grupos, relacionando isso à variância das caracter´ısticas. Por isso as médias das caracter´ısticas foram mantidas, e apenas foram trocadas as variâncias.

As caracter´ısticas da popula¸cão expressada em preto (Y = 1), uma possui média 1 e outra 25. Em vermelho (Y = 2) a popula¸cão ficou com as caracter´ısticas fixadas com µ(X|Y =2) = 5 e

µ_{(Z|Y =2)} = 20. Os objetos em forma de “X”s˜ao os pontos cr´ıticos. No modelo onde foram estudadas duas popula¸c˜oes,

(X|Y = 1) ∼ N ormal(µ_{(X|Y =1)} = 1, σ2_{(X|Y =1)}= 0, 25), (Z|Y = 1) ∼ N ormal(µ_{(Z|Y =1)}= 25, σ2_{(Z|Y =1)}= 1), (X|Y = 2) ∼ N ormal(µ_{(X|Y =2)} = 5, σ2_{(X|Y =2)}= 0, 25),

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ2(Z|Y =2)= 1).

Foram utilizados apenas dois vetores de suporte

(49)

e obteve um erro de 0%.

Tabela 6: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 0.5,

σ(Z|Y =1) = 1, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas normais σ(X|Y =2) =

0.5, σ(Z|Y =2) = 1, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20

ˆ

Y \ Y 1 2

1 8 0

2 0 12

Já mantendo, as médias das caracter´ısticas da popula¸cão da figura 11 e aumentando as variâncias,

(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ(Z|Y =1)2 = 100),

(X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 25),

(Z|Y = 2) ∼ N ormal(µ_{(Z|Y =2)}= 20, σ_{(Z|Y =2)}2 = 100). para o modelo foram necess´arios 51 vetores de suporte,

Figura 12: Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal.

obtendo um erro de 40% .

Tabela 7: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,

5, σ(Z|Y =2) = 10, µ(X|Y =2)= 5 e µ(Z|Y =2) = 20

ˆ

Y \ Y 1 2

1 7 4

2 4 5

Mudando apenas as variˆancias da caracter´ıstica 2 de ambas as popula¸c˜oes para σZ|Y = 5, a

(50)

(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),

(Z|Y = 1) ∼ N ormal(µ_{(Z|Y =1)}= 25, σ_{(Z|Y =1)}2 = 25), (X|Y = 2) ∼ N ormal(µ_{(X|Y =2)} = 5, σ2_{(X|Y =2)}= 25), (Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ(Z|Y =2)2 = 25).

foi obtido um valor um pouco menor de vetores de suporte, 47

,enquanto a porcentagem de erros ca´ıra pela metade, 20%

Tabela 8: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,

5, σ(Z|Y =2) = 5, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20

ˆ

Y \ Y 1 2

1 12 1

2 3 4

Novamente mudando apenas as variˆancias de uma das caracter´ısticas de ambas as popula¸c˜oes para σ_Z|Y = 2,

(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ2(Z|Y =1)= 4),

(X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 25),

(Z|Y = 2) ∼ N ormal(µ_{(Z|Y =2)}= 20, σ2_{(Z|Y =2)}= 4). foram necess´arios 30 vetores de suporte, e foi obtido um erro de 10%.

(51)

Tabela 9: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ1 = 5, σ2 = 5,

µ1 = 1 e µ2 = 25 e outra com caracter´ısticas normais σ1 = 5, σ2 = 5, µ1 = 5 e µ2 = 20

ˆ

Y \ Y 1 2

1 10 0

2 2 8

Supondo uma popula¸cão com caracter´ısticas seguindo uma normal com os seguintes parâmetros: σ(X|Y =1)= 5, µ(X|Y =1)= 1, σ(Z|Y =1) = 10 e µ(Z|Y =1)= 25. E outra popula¸cão com σ(X|Y =2)=

5, µ_{(X|Y =2)}= 5, σ_{(Z|Y =2)}= 1 e µ_{(Z|Y =2)} = 20.

Figura 15: Popula¸c˜ao em preto com σ(X|Y =1) = 5, µ(X|Y =1) = 1, σ(Z|Y =1) = 10 e µ(Z|Y =1) =

25. Popula¸c˜ao em vermelho com σ(X|Y =2)= 5, µ(X|Y =2) = 5, σ(Z|Y =2) = 1 e µ(Z|Y =2) = 20.

(a) Kernel linear. (b) Kernel radial.

Com a variância de uma popula¸cão bem menor que de outra, o kernel radial parece distinguir melhor os grupos do que utilizando o kernel linear. Ao utilizar SVM para a categoriza¸cão com o kernel radial, foram utilizados 37 vetores de suporte, enquanto com o linear foram necessários 45. A propor¸cão de erros com a utiliza¸cão do kernel linear foi de 20%, enquanto utilizando o kernel radial, foi de 15%.

(52)

Tabela 10: Kernel linear ˆ

Y \ Y 1 2

1 7 0

2 4 9

Tabela 11: Kernel radial ˆ

Y \ Y 1 2

1 8 0

2 3 9

4.3 Duas popula¸

c˜

oes ambas com duas caracter´ısticas,

uma normal e outra exponencial.

Primeiro foi escolhido analisar duas popula¸cões, simuladas (ver em 9) com duas carac-ter´ısticas, uma seguindo distribui¸cão normal e outra uma distribui¸cão exponencial.

Seja Y ∈ {1, 2} variável aleatória referente à popula¸cão, onde P (Y = 1) = P (Y = 2) = 1₂. Tem-se que cada uma das caracter´ısticas segue uma distribui¸cão dependente da popula¸cão de origem.

(X|Y = 1) ∼ Exponencial(λ_{(X|Y =1)} = 1) (X|Y = 2) ∼ Exponencial(λ_{(X|Y =2)}), onde, λ_{(X|Y =2)} = 1

2, 1 10 e

1 25 (Z|Y = 1) ∼ N ormal(µ_{(Z|Y =1)}= 1, σ_{(Z|Y =1)}2 ), onde, σ_{(Z|Y =1)}2 = 16 e 100

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2), σ2(Z|Y =2)), onde, σ2(Z|Y =2)= 16 e 100; µ(Z|Y =2) = 2, 10 e 25.

Ser˜ao adotadas como caracter´ıstica 1 e caracter´ıstica 2, X e Z respectivamente.

A finalidade desta se¸cão é avaliar se o SVM consegue distinguir bem dois grupos, relacio-nando isso à variância das caracter´ısticas.

No modelo onde foram estudadas duas popula¸c˜oes: Popula¸c˜ao em preto com:

(X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1)

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ2(Z|Y =1)= 16)

Popula¸c˜ao em vermelho com:

(X|Y = 2) ∼ Exponencial(λ(X|Y =2) =

1 2)

(53)

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 2, σ2(Z|Y =2)= 16)

Foram utilizados 65 pontos cr´ıticos,

Figura 16: Duas popula¸cões com caracter´ısticas uma seguindo distribui¸cão Normal e outra com distribui¸cão Exponencial.

e um erro amostral de 30%.

Tabela 12: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 = 16) e

outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 1₂) e (Z|Y = 2) ∼

N ormal(µ(Z|Y =2) = 2, σ_{(Z|Y =2)}2 = 16)

ˆ

Y \ Y 1 2

1 3 3

2 3 11

J´a mantendo as caracter´ısticas da popula¸c˜ao em preto, e apenas mudando _µ 1

(Z|Y =2) =

λ_{(X|Y =2)} = ₁₀1, tem-se: Popula¸c˜ao em preto com

(X|Y = 1) ∼ Exponencial(λ_{(X|Y =1)} = 1) (Z|Y = 1) ∼ N ormal(µ_{(Z|Y =1)} = 1, σ2_{(Z|Y =1)}= 16) Popula¸c˜ao em vermelho com

(X|Y = 2) ∼ Exponencial(λ_{(X|Y =2)} = 1 10) (Z|Y = 2) ∼ N ormal(µ_{(Z|Y =2)}= 10, σ2_{(Z|Y =2)}= 16)