• Nenhum resultado encontrado

Aprendizado de máquina e aplicação do método de aprendizado supervisionado support vector machine

N/A
N/A
Protected

Academic year: 2021

Share "Aprendizado de máquina e aplicação do método de aprendizado supervisionado support vector machine"

Copied!
71
0
0

Texto

(1)

Aprendizado de m´

aquina e aplica¸

ao do

etodo de aprendizado supervisionado

support vector machine.

Niter´oi - RJ, Brasil 17 de dezembro de 2018

(2)

Deborah Cholodoysky Barbedo Pereira

Aprendizado de m´

aquina e aplica¸

ao

do m´

etodo de aprendizado

supervisionado support vector

machine.

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientadora: Profa.Dra. Karina Yuriko Yaginuma

Niter´oi - RJ, Brasil 17 de dezembro de 2018

(3)

Deborah Cholodoysky Barbedo Pereira

Aprendizado de m´

aquina e aplica¸

ao do

etodo de aprendizado supervisionado

support vector machine.

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “ Aprendizado de m´aquina e aplica¸c˜ao do m´etodo de aprendi-zado supervisionado support vector machine.”, defendida por Deborah Cholodoysky Barbedo Pereira e aprovada em 17 de dezembro de 2018, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Profa.Dra. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF

Prof.Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF

Prof.Dr. Douglas Rodrigues Pinto Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

Aprendizado de máquina e aplicação do método de aprendizado supervisionado support vector machine. : / Deborah Cholodoysky Barbedo Pereira ; Karina Yuriko Yaginuma, orientadora. Niterói, 2018.

70 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2018.

1. Aprendizado de máquina . 2. Aprendizado supervisionado. 3. Support vector machine. 4. Produção intelectual. I. Yaginuma, Karina Yuriko, orientadora. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.

(5)

-Aprendizado de m´aquina tamb´em conhecido como aprendizado autom´atico ´e um m´etodo de an´alise de dados que automatiza o desenvolvimento de modelos anal´ıticos. Isto ´e, um algoritmo baseado em t´ecnicas estat´ısticas que a partir de dados de treina-mento possibilita a predi¸c˜ao, espera-se que quanto mais experiˆencias, mais o algoritmo se torne assertivo. Programas de aprendizado de m´aquina s˜ao projetados utilizando m´etodos estat´ısticos como regress˜ao, support vector machine (SVM), ´arvores de classifica¸c˜ao entre outros, objetivando o aprendizado do algoritmo, ´e esperado que as previs˜oes melhorem ao longo do tempo quando exposto a novos dados. Neste trabalho ´e estudado e aplicado o m´etodo supervisionado SVM, em que o programa ´e treinado sobre um conjunto de dados pr´e-definidos nos quais j´a se sabe qual ´e a sa´ıda correta.

Palavras-chaves: aprendizado de m´aquina, aprendizado supervisionado, support vector machine .

(6)

Agrade¸co primeiramente a Deus, que sempre ilumina meu caminho, promovendo sem-pre o que sem-preciso na hora certa. Sei que todos os obst´aculos passados foram essenciais para me tornar mais forte e capaz de conquistar o que eu sou, e eternamente confiarei a Ele a minha trajet´oria.

Gostaria de agradecer especialmente minha m˜ae e melhor amiga Miriam C. Luz, por todos os momentos dedicados a mim. Que fez de tudo para tornar este caminho mais brando, que com palavras de incentivo, otimismo e orgulho me deram for¸cas para a conclus˜ao da faculdade.

Obrigada ao meu pai, Jorge Henrique B. Pereira, por ter me dado apoio e for¸ca, auxiliando nos estudos durante fins de semana e feriados, inclusive de mat´erias que n˜ao tinha muito dom´ınio. E tamb´em gostaria de agradecer minha fam´ılia pela paciˆencia e compreens˜ao dos momentos em que tive que estar ausente.

`

A professora Karina Y. Yaginuma minha imensa gratid˜ao pela oportunidade e apoio, n˜ao s´o na elabora¸c˜ao deste complexo e desafiador trabalho de conclus˜ao de curso, como tamb´em no trabalho de inicia¸c˜ao cient´ıfica. Pois com estes trabalhos fui encorajada a bus-car conhecimentos al´em de sala de aula, utilizando como base as aprendizagens adquiridas na universidade.

Tamb´em desejo agradecer aos professores que conseguem irradiar empolga¸c˜ao e o amor pelo Curso de Gradua¸c˜ao em Estat´ıstica durante suas aulas. Vocˆes foram essenciais para a minha forma¸c˜ao, pois amando o que se estuda, o aprendizado de mat´erias t˜ao complexas se torna mais apraz´ıvel e leve.

Aos meus amigos do Or´aculo, n˜ao imagino a faculdade sem vocˆes. Sempre nos apoi-amos nas situa¸c˜oes de desespero universit´ario e nos divertimos nos raros momentos de horas vagas. Fico feliz em ter conhecido vocˆes e em termos levado essa amizade para al´em da faculdade.

Tamb´em sou grata a ENEL, que me concedeu a chance de fazer est´agio. Princi-palmente a Haroldo Carlos P. Giesta, que compreendeu os hor´arios de estudo e que me

(7)
(8)

Lista de Figuras

Lista de Tabelas

1 Introdu¸c˜ao p. 13

2 Objetivos p. 15

3 Metodologia p. 16

3.1 Cen´ario b´asico . . . p. 16 3.1.1 Introdu¸c˜ao ao aprendizado supervisionado . . . p. 16 3.2 Efetividade do estimador de g . . . p. 17 3.2.1 Minimiza¸c˜ao do risco emp´ırico (MRE) . . . p. 18 3.2.2 MRE com vi´es indutivo . . . p. 19 3.2.3 Classes de hip´oteses finita . . . p. 20 3.3 Aprendizado PAC - Aprendizado provavelmente aproximadamente correto p. 24 3.3.1 PAC Agnostic . . . p. 25 3.4 Contexto da modelagem de aprendizagem . . . p. 27 3.4.1 Medida de sucesso . . . p. 28 3.4.2 Aprendizado PAC Agnostic para fun¸c˜ao geral de perda . . . p. 29 3.5 Aprendizado por convergˆencia uniforme . . . p. 29 3.6 Dimens˜ao VC . . . p. 36 3.7 Support vector machine . . . p. 38

(9)

4.1 Duas popula¸c˜oes ambas com caracter´ıstica exponencial . . . p. 43 4.2 Duas popula¸c˜oes ambas com duas caracter´ısticas normais . . . p. 46 4.3 Duas popula¸c˜oes ambas com duas caracter´ısticas, uma normal e outra

exponencial. . . p. 51

5 Conclus˜ao p. 56

Referˆencias p. 57

6 Anexo - Prova da desigualdade p. 58

7 Anexo - Simula¸c˜ao de duas popula¸c˜oes com caracter´ıstica

exponen-cial. p. 60

8 Anexo - Simula¸c˜ao de duas popula¸c˜oes com caracter´ıstica normais. p. 62

9 Anexo - Simula¸c˜ao de duas popula¸c˜oes com duas caracter´ısticas,

uma normal e outra exponencial. p. 65

10 Anexo - Simula¸c˜ao de uma uniforme discreta pelo m´etodo da

Trans-forma¸c˜ao Inversa p. 67

11 Anexo - Simula¸c˜ao de uma exponencial pelo m´etodo da Transforma¸c˜ao

Inversa p. 68

(10)

1 Sobreajuste. . . p. 19 2 Exemplo de classifica¸c˜oes bin´arias, sendo que h´a 3 dados representados

em IR2. . . p. 37 3 Exemplo de classifica¸c˜ao bin´aria, sendo que h´a 4 dados representados em

IR2. . . p. 37 4 Poss´ıveis hiperplanos. . . p. 39 5 Margem da m´aquina de vetores de suporte. . . p. 39 6 Mapeamento de dados de entrada para um espa¸co de maior dimens˜ao. p. 40 7 Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial. p. 44 8 Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial. p. 44 9 Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial. p. 45 10 Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial. p. 46 11 Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal. . . p. 47 12 Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal. . . p. 48 13 Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal. . . p. 49 14 Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal. . . p. 50 15 Popula¸c˜ao em preto com σ(X|Y =1) = 5, µ(X|Y =1) = 1, σ(Z|Y =1) = 10 e

µ(Z|Y =1) = 25. Popula¸c˜ao em vermelho com σ(X|Y =2) = 5, µ(X|Y =2) = 5,

σ(Z|Y =2) = 1 e µ(Z|Y =2) = 20. . . p. 50

16 Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal

e outra com distribui¸c˜ao Exponencial. . . p. 52 17 Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal

(11)

19 Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal

e outra com distribui¸c˜ao Exponencial. . . p. 55 20 Gr´afico das fun¸c˜oes 1 − x e e−x . . . p. 58

(12)

1 M´edia e variˆancia de distribui¸c˜ao pelo λ escolhido. . . p. 43 2 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma

dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma

distribui¸c˜ao Exponencial(λ = 12) . . . p. 44 3 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica Exponencial(λ = 1)

e outra com caracter´ıstica Exponencial λ = 251. . . p. 45 4 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma

dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma

distribui¸c˜ao Exponencial(λ = 501) . . . p. 45 5 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma

dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma

distribui¸c˜ao Exponencial(λ = 1001 ) . . . p. 46 6 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) =

0.5, σ(Z|Y =1) = 1, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas

normais σ(X|Y =2) = 0.5, σ(Z|Y =2) = 1, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . p. 48

7 Y ×Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,

σ(Z|Y =1) = 10, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas

normais σ(X|Y =2) = 5, σ(Z|Y =2) = 10, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . p. 48

8 Y ×Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,

σ(Z|Y =1) = 5, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas

normais σ(X|Y =2) = 5, σ(Z|Y =2) = 5, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . . p. 49

9 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ1 = 5,

σ2 = 5, µ1 = 1 e µ2 = 25 e outra com caracter´ısticas normais σ1 = 5,

σ2 = 5, µ1 = 5 e µ2 = 20 . . . p. 50

10 Kernel linear . . . p. 51 11 Kernel radial . . . p. 51

(13)

Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1) =

16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 12)

e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 2, σ(Z|Y =2)2 = 16) . . . p. 52

13 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 =

16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 101 )

e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 10, σ2(Z|Y =2) = 16). . . p. 53

14 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 =

16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 251 )

e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 25, σ2(Z|Y =2) = 16). . . p. 54

15 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 =

100) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 1

25) e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 25, σ 2

(14)

1

Introdu¸

ao

Aprendizado de m´aquina, tamb´em conhecido como aprendizado autom´atico, ´e uma t´ecnica de constru¸c˜ao de algoritmos baseados em an´alise estat´ıstica que identifica padr˜oes nos dados de entrada permitindo que o computador retorne uma predi¸c˜ao ou decis˜ao.

Assim como a maioria dos seres vivos adquirem experiˆencia ao longo do tempo com a constante exposi¸c˜ao `a pr´atica e alguns tamb´em ao estudo, a ideia do aprendizado de m´aquina ´e criar algoritmos capazes de aprender com seus erros e experiˆencia. Por exemplo, quando os ratos encontram um alimento com aparˆencia e odor novos, eles provam uma por¸c˜ao reduzida, e a escolha de se alimentar novamente ou n˜ao daquele alimento depender´a do efeito que ir´a causar em seu organismo. Se houver algum efeito negativo no organismo do roedor ap´os a prova do alimento, a comida ser´a associada ao mal-estar e o animal n˜ao se alimentar´a mais da comida com as caracter´ısticas encontradas neste alimento. Deste exemplo, ´e poss´ıvel verificar um mecanismo de aprendizagem, pois a experiˆencia anterior com o alimento afeta a rela¸c˜ao do rato com alimentos de cheiro e sabor semelhantes no futuro.

Algumas vezes os mecanismos de aprendizagem encontram rela¸c˜oes sem sentido ou in´uteis. Tendo como exemplo pombos famintos em uma gaiola da qual existe um sistema que entrega comida aos pombos em intervalos regulares, independentemente do compor-tamento das aves. Depois de um tempo, cada um dos pombos se encontram envolvidos em alguma atividade que acreditam ser a raz˜ao de ter ganhado comida, ao manter a repeti¸c˜ao desta a¸c˜ao eles refor¸cam a associa¸c˜ao da entrega da comida com sua atividade.

Uma caracter´ıstica que distingue o aprendizado do rato ao do pombo ´e a incorpora¸c˜ao de conhecimentos pr´evios que distorcem o mecanismo de aprendizagem, o que ´e chamado de vi´es indutivo. Os pombos com fome est˜ao dispostos a adotar qualquer explica¸c˜ao para a ocorrˆencia de alimentos dentro da gaiola, enquanto os ratos est˜ao familiarizados com a prova de alimentos. Tanto o exemplo do rato quanto o do pombo s˜ao encontrados no livro Understanding Machine Learning: From Theory to Algorithms [1].

(15)

Para evitar tirar conclus˜oes de aprendizados incoerentes, ´e necess´ario fornecer princ´ıpios bem definidos ao exportar a tarefa de aprendizado `a m´aquina. O desenvolvimento de tais princ´ıpios, fundamentados a conhecimentos pr´evios, ´e fundamental `a teoria da aprendi-zagem de m´aquina.

O aprendizado autom´atico possui alguns conceitos, dos quais ´e necess´ario compreen-der, pois existem diferentes formas de aprendizagem.

Primeiramente existem duas formas de aprendizagem referente ao m´etodo de apren-dizagem do algoritmo, supervisionado e n˜ao supervisionado. Quando ´e poss´ıvel avaliar a resposta retornada pelo algoritmo, revelando se est´a certo ou errado, o aprendizado ´e definido como supervisionado. J´a no momento em que o algoritmo recebe dados n˜ao rotulados, tendo que descobrir os padr˜oes para dar algum retorno, ´e conhecido por ser aprendizagem n˜ao supervisionada. Tomando como o exemplo Spotify, tem-se pelo m´etodo n˜ao supervisionado as m´usicas sugeridas ao usu´ario com base nas m´usicas j´a ouvidas pelo mesmo no aplicativo, e pelo m´etodo supervisionado a classifica¸c˜ao das m´usicas por tipo musical.

O tipo de aprendizado relativo `a m´aquina pode ser dividido em aprendizado passivo e aprendizado ativo, no primeiro a m´aquina observa apenas as informa¸c˜oes necess´arias, sem interferir no aprendizado, isto ´e, trabalha apenas com as informa¸c˜oes que vem do ambiente. J´a o segundo, a m´aquina interage com o ambiente no momento de seu apren-dizado. Da mesma forma poder´a ser o comportamento do instrutor, ele poder´a ajudar no aprendizado com informa¸c˜oes necess´arias, ou n˜ao interferir´a no aprendizado, apenas deixando-o exposto aos dados.

Primeiro, no cap´ıtulo 2 s˜ao apresentados os objetivos do trabalho, ent˜ao no cap´ıtulo conseguinte ´e apresentada uma introdu¸c˜ao do aprendizado supervisionado. J´a no cap´ıtulo 3.2 s˜ao introduzidos os conceitos de risco de classifica¸c˜ao, risco emp´ırico, MRE, classe de estimadores e tamanho da amostra. No cap´ıtulo 3.3 ´e mostrado que o modelo mais restritivo utilizado at´e o momento se chama aprendizado PAC. Nos cap´ıtulos seguintes s˜ao apresentados modelos cada vez mais gerais.

Depois, em 3.6 ´e inserido o conceito de dimens˜ao-VC, necess´ario para a compreens˜ao do m´etodo SVM. Em seguida, s˜ao aplicados alguns exemplos no programa R [2], utilizando o pacote e1071 [3] para a an´alise da eficiˆencia do m´etodo para diferentes situa¸c˜oes..

(16)

2

Objetivos

Na primeira parte do trabalho ´e apresentado o estudo te´orico do m´etodo supervisio-nado onde se pretende compreender as defini¸c˜oes de risco de classifica¸c˜ao e risco emp´ırico utilizado para estudar a efetividade do algoritmo. A partir disto, surge outro t´opico, o tamanho necess´ario para a amostra que possibilite um bom aprendizado. Ent˜ao ´e descrita de forma generalizada alguns dos principais modelos de aprendizagem. A inten¸c˜ao da se-gunda fase do projeto ´e estudar o m´etodo de aprendizado SVM e aplica-lo em diferentes modelos, utilizando a linguagem R [2], e ent˜ao estudar sua efic´acia.

(17)

3

Metodologia

3.1

Cen´

ario b´

asico

A seguir, s˜ao apresentadas algumas defini¸c˜oes das quais s˜ao essenciais para a compre-ens˜ao do trabalho.

• Ω: Espa¸co amostral.

• X: Preditor, vari´avel aleat´oria que se deseja classificar, assumindo valores em X . • PX: Distribui¸c˜ao de X,isto ´e, X ∼ PX.

• Y : R´otulo, vari´avel aleat´oria que dependente de X, assumindo valores em Y. • g(X): Fun¸c˜ao de classifica¸c˜ao, fun¸c˜ao g : X → Y que se assume ser existente. • A: Dados de treinamento, A = {(X1, Y1), . . . , (Xn, Yn)} uma amostra da popula¸c˜ao

para treinar o algoritmo.

• ˆg(X): Regra de predi¸c˜ao, ˆg : X → Y ´e a fun¸c˜ao estimada pelo algoritmo, que ir´a rotular os objetos recebidos.

• H: Classe de estimadores.

3.1.1

Introdu¸

ao ao aprendizado supervisionado

No aprendizado autom´atico supervisionado, tem-se como X o objeto que se deseja classificar, uma vari´avel de entrada do algoritmo. Podem ser vari´aveis aleat´orias cont´ınuas, discretas ou categ´oricas.

A vari´avel de sa´ıda Y do algoritmo ´e chamada de rotulo de X. Inicialmente ´e assumido que h´a rela¸c˜ao entre X e Y , de forma que h´a uma fun¸c˜ao de classifica¸c˜ao desconhecida g,

(18)

na qual g : X → Y. Dependendo do tipo de sa´ıda: valores quantitativos, qualitativos ou categ´oricos, a predi¸c˜ao poder´a ser por regress˜ao ou classifica¸c˜ao.

Assumindo X como vari´avel aleat´oria seguindo uma distribui¸c˜ao PX, e admitindo

g(X) = Y , ent˜ao g(X) tamb´em ´e uma vari´avel aleat´oria que segue a distribui¸c˜ao Pg(X).

Por isso a inten¸c˜ao de encontrar a distribui¸c˜ao desconhecida P .

Para construir a regra de previs˜ao ´e necess´ario utilizar dados de treinamento, que ´e uma parcela da amostra. Isto ´e, seja {(X1, g(X1)), . . . , (Xi, g(Xi)), . . . , (Xm, g(Xm))}

uma amostra, e seja m > n, ent˜ao A = {(X1, g(X1)), . . . , (Xi, g(Xi)), . . . , (Xn, g(Xn))} ´e

uma amostra de treinamento utilizada no algoritmo para estimar g.

Na computa¸c˜ao, o estimador para g ´e chamado de hip´otese, e o espa¸co dos poss´ıveis estimadores onde o algoritmo procura um estimador chama-se de espa¸co das poss´ıveis hip´oteses ou classe de hip´oteses.

3.2

Efetividade do estimador de g

Foi visto que o objetivo do aprendizado ´e encontrar uma fun¸c˜ao ˆg que melhor repre-sente a fun¸c˜ao g. Uma vez que h´a apenas a possibilidade de uma amostra de treinamento para a cria¸c˜ao do modelo, pode-se pensar que existem diferentes estimadores de g para cada amostra utilizada, que correspondem `a ´unica fun¸c˜ao desconhecida da popula¸c˜ao real. Por isso ´e necess´ario verificar a efetividade da fun¸c˜ao ˆg escolhida.

Nesta se¸c˜ao ´e apresentado o conceito de risco de classifica¸c˜ao e risco emp´ırico. O risco de classifica¸c˜ao ´e definido como sendo a probabilidade do algoritmo predizer incorreta-mente o r´otulo dos dados amostrados.

Defini¸c˜ao 3.2.1 (Risco de classifica¸c˜ao) Para uma vari´avel aleat´oria X com distribui¸c˜ao PX e fun¸c˜ao de classifica¸c˜ao g, o risco de classifica¸c˜ao ´e definido por:

LPX,g(ˆg) = PX(ˆg(X) 6= g(X)) .

Parece ´obvio dizer que se deve minimizar ao m´aximo o risco de classifica¸c˜ao, mas vale lembrar que a distribui¸c˜ao da vari´avel aleat´oria X e a fun¸c˜ao g s˜ao desconhecidas. Ent˜ao a ´unica possibilidade ´e de calcular o risco amostral.

(19)

o risco utilizando a amostra de treinamento, chamada neste caso de risco emp´ırico.

Defini¸c˜ao 3.2.2 (Risco emp´ırico) Seja A = {(X1, Y1), . . . , (Xn, Yn)} uma amostra de

treinamento de tamanho n, X uma vari´avel aleat´oria com distribui¸c˜ao PX e ˆg : X → Y o

estimador da fun¸c˜ao de classifica¸c˜ao, e 1I a fun¸c˜ao indicadora. O risco emp´ırico ´e definido como: LA(ˆg) = n X i=1 1I{ˆg(Xi) 6= Yi} n .

Uma vez que a amostra ´e a representa¸c˜ao dispon´ıvel para estudo da popula¸c˜ao real, ´e coerente buscar um estimador que funcione bem nos dados dispon´ıveis. Ent˜ao, com o risco emp´ırico LA(ˆg) ∈ [0, 1] ´e poss´ıvel ter uma percep¸c˜ao do risco de classifica¸c˜ao, pois

alcan¸cando valores pr´oximos de zero conclui-se que ˆg ´e um bom estimador para a fun¸c˜ao de classifica¸c˜ao g.

3.2.1

Minimiza¸

ao do risco emp´ırico (MRE)

O intuito do algoritmo ´e encontrar uma estimativa da fun¸c˜ao desconhecida dentre todos os poss´ıveis estimadores do conjunto H que minimize o risco em rela¸c˜ao a g. Isto ´e, tentar encontrar um preditor ˆg que minimize LA(ˆg).

Defini¸c˜ao 3.2.3 (MRE) Seja LA(ˆg) ∈ [0, 1] o risco emp´ırico. O crit´erio de MRE ´e

definido como sendo o ˆg tal que:

M RE(A) = argminˆg∈H LA(ˆg).

Sendo argmin o argumento que minimiza o valor da fun¸c˜ao LA.

Apesar da inten¸c˜ao de encontrar um ˆgA que minimize o risco emp´ırico parecer uma

´

otima ideia, nem sempre um algoritmo que tenha riscos muito baixos ´e de utilidade. Quando o modelo n˜ao observa padr˜oes gerais, seguindo perfeitamente os dados de treino, isto ´e LA(ˆg) = 0, ocorre o que ´e chamado de sobreajuste. No momento em que isto

acontece, o algoritmo n˜ao funciona corretamente para os dados que n˜ao est˜ao presentes na amostra de treinamento, pois ele ´e perfeitamente ajustado apenas para a amostra escolhida.

(20)

Figura 1: Sobreajuste.

3.2.2

MRE com vi´

es indutivo

Foi visto na se¸c˜ao anterior que, em geral, um MRE leva a um sobreajuste. ´E necess´ario impor condi¸c˜oes das quais quando o MRE possua um bom desempenho em rela¸c˜ao aos dados de treinamento, muito possivelmente tamb´em tenha bom desempenho entre os outros dados da real distribui¸c˜ao.

O recurso utilizado para evitar o sobreajuste ´e aplicar o MRE em um espa¸co restrito de estimadores, induzido um conjunto particular de preditores, isto ´e restringir o conjunto de estimadores que podem ser utilizadas pelo algoritmo. Estas restri¸c˜oes s˜ao chamadas de vi´es indutivo. A escolha pr´evia da restri¸c˜ao ´e baseada no conhecimento preliminar do problema, apenas depois da escolha da restri¸c˜ao o algoritmo poder´a entrar em contato com os dados de treinamento.

Sendo os dados de treinamento A = {(X1, Y1), . . . , (Xn, Yn)} de tamanho n, a ideia

´e encontrar o ˆgA com o menor risco emp´ırico que n˜ao sofra sobreajuste, a subscri¸c˜ao

“A”enfatiza que o estimador do algoritmo depende da amostra utilizada. Ent˜ao, o objetivo ´e escolher como o melhor preditor o que estiver dentro da classe de hip´otese restrita H que minimize o risco emp´ırico para a amostra “A”.

ˆ

gA = M REH(A),

onde M REH(A) ´e o MRE aplicado na amostra A em um espa¸co restrito de

estima-dores, isto ´e, o MRE com vi´es indutivo.

(21)

um sobreajuste, ´e poss´ıvel que, ao restringir muito a classe das poss´ıveis estimadores, a opini˜ao pr´evia do problema atinja uma relevˆancia muito maior que o desejado, afetando negativamente o resultado do aprendizado do algoritmo.

Ent˜ao a escolha da classe de hip´oteses n˜ao basta para garantir que o M REH n˜ao

levar´a a um sobreajuste. Assim sendo, ´e necess´ario buscar quais classes de hip´otese que provavelmente n˜ao resultam em um sobreajuste.

3.2.3

Classes de hip´

oteses finita

Nesta se¸c˜ao ´e mostrado que, para classe de estimadores finita, o M REH

provavel-mente n˜ao levar´a a um sobreajuste sob condi¸c˜ao de que seja baseado em um conjunto de treinamento suficientemente grande, onde o tamanho da amostra depende de |H|.

Para restringir a classe de estimadores, ´e imposto um limite superior em seu tamanho, limitando o n´umero de preditores ˆg em H.

A princ´ıpio, ´e realizada uma suposi¸c˜ao da qual ser´a desconsiderada mais a diante. Suponha que a fun¸c˜ao desconhecida g pode ser fielmente representada por uma fun¸c˜ao ˆg∗ dentro da classe de estimadores H, isto ´e:

LPX,g(ˆg

) = 0, ou seja,

PX(ˆg∗(X) 6= g(X)) = 0 .

Esta suposi¸c˜ao ´e chamada de suposi¸c˜ao realiz´avel. A intui¸c˜ao desta suposi¸c˜ao ´e que h´a uma garantia da presen¸ca de uma fun¸c˜ao ˆg∗ em que o risco de classifica¸c˜ao ´e zero.

Defini¸c˜ao 3.2.4 (Suposi¸c˜ao realiz´avel): Seja o risco de classifica¸c˜ao LPX,g, sendo PX a

distribui¸c˜ao desconhecida da popula¸c˜ao real. Ent˜ao, existe ˆg ∈ H tal que LPX,g(ˆg

) = 0.

Como A = {(X1, g(X1)), . . . , (Xn, g(Xn))} ´e uma amostra aleat´oria da popula¸c˜ao

de estudo, sendo X1, X2, . . . , Xn vari´aveis aleat´orias independentes e identicamente

dis-tribu´ıdas com distribui¸c˜ao PX , ´e vi´avel calcular a probabilidade do erro emp´ırico de ˆg∗

(22)

P (LA(ˆg∗) = 0) = P (A : LA(ˆg∗) = 0) = P  Pn i=11I {ˆg ∗(X i) 6= g(Xi)} n = 0  = P (ˆg∗(Xi) = g(Xi) ∀i = 1, · · · , n) = n Y i=1 P (ˆg∗(Xi) = g(Xi)) = n Y i=1 (1 − P (ˆg∗(Xi) 6= g(Xi))) = n Y i=1 (1 − 0) = 1. Portanto, se P (LPX,g(ˆg ∗) = 0) = 1, ent˜ao P (L A(ˆg∗) = 0) = 1.

Pela suposi¸c˜ao realiz´avel, a probabilidade de existir uma amostra aleat´oria A, tal que LA(ˆg∗) = 0 ´e igual a 1.

Seja ε o parˆametro de precis˜ao, ε ∈ (0, 1), quando LPX,g(ˆg) ≤ ε, ´e dito que ˆg parece

ser um bom estimador para g, caso LPX,g(ˆg) > ε, ´e dito que houve falha de aprendizagem.

Por conseguinte, define-se o conjunto dos estimadores ruins da seguinte forma:

Defini¸c˜ao 3.2.5 (Conjunto dos estimadores ruins): Seja H o conjunto finito dos esti-madores, ˆg a regra de predi¸c˜ao, LPX,g o risco de classifica¸c˜ao e ε o parˆametro de precis˜ao.

O conjunto dos estimadores ruins HB, ´e definido por

HB= {ˆg ∈ H : LPX,g(ˆg) > ε}.

Suponha que ao calcular o risco emp´ırico de um estimador pertencente ao conjunto dos estimadores ruins o retorno seja zero. Isto s´o pode ocorrer caso a amostra utilizada n˜ao represente o real comportamento da popula¸c˜ao, este tipo de amostra ´e chamada de amostra ilus´oria.

Defini¸c˜ao 3.2.6 (Conjunto das amostras ilus´orias): Seja A = {(X1, Y1), . . . , (Xn, Yn)}

(23)

risco emp´ırico. O conjunto das amostras ilus´orias ´e denotado por M , definido por M = {A : ∃ˆgA∈ HB | LA(ˆgA) = 0}. Note que, M = [ ˆ gA∈HB {A : LA(ˆgA) = 0}.

Uma vez que a suposi¸c˜ao realiz´avel implica que existe um estimador ˆg ∈ HB tal que

LA(ˆgA) = 0, o evento LPX,g(ˆgA) > ε quando LA(ˆgA) = 0 ocorre apenas se for utilizada

uma amostra que n˜ao representa toda a popula¸c˜ao, isto ´e, uma amostra pertencente ao conjunto M .

Note que:

{A : LPX,g(ˆgA) > ε} ⊆ M .

´

E sabido que apesar de A = {(X1, Y1), . . . , (Xn, Yn)} ser uma amostra aleat´oria, sendo

X1, . . . Xn vari´aveis aleat´orias independentes identicamente distribu´ıdas com distribui¸c˜ao

PX, sempre existe a possibilidade de ser adotada uma amostra n˜ao representativa.

Se a probabilidade de uma amostra n˜ao representativa ´e denotada por α, e conside-rando ˆgA o estimador que minimiza o erro emp´ırico. Pode ser escrito o seguinte com o

objetivo de limitar a probabilidade de ocorrer uma falha de aprendizagem:

P (A : LPX,g(ˆgA) > ε) ≤ α .

Mas antes ´e necess´ario fazer as seguintes considera¸c˜oes:

1. Lema 3.2.1 (Limite da uni˜ao): Para quaisquer conjuntos A, B e uma distribui¸c˜ao P, tem-se que P (A ∪ B) ≤ P (A) + P (B).

Ent˜ao da defini¸c˜ao dos estimadores ruins que parecem bons:

P [ ˆ g∈HB {A : LA(ˆg) = 0} ! ≤ X ˆ g∈HB P ({A : LA(ˆg) = 0})

2. Considere a seguinte inequa¸c˜ao, 1 −  ≤ e− , ∀ , est´a provada no anexo do cap´ıtulo 6.

(24)

in-forma¸c˜oes s˜ao utilizadas da seguinte forma:

1 − LPX,g( ˆgA) ≤ 1 − ε ≤ e

−ε

.

Utilizando as considera¸c˜oes acima, ´e colocado um limite superior na probabilidade de amostra n˜ao representativa. P ({A : LPX,g(ˆgA) > ε}) ≤ P (M ) = P [ ˆ g∈HB {A : LA(ˆgA) = 0} ! ≤ X ˆ g∈HB P (A : LA(ˆgA) = 0)) = X ˆ g∈HB P (ˆgA(X1) = g(X1), . . . , ˆgA(Xn) = g(Xn)) = X ˆ g∈HB n Y i=1 P (ˆgA(Xi) = g(Xi)) = X ˆ g∈HB n Y i=1 (1 − LP,g(ˆgA)) ≤ X ˆ g∈HB (1 − ε)n ≤ X ˆ g∈HB e−εn = |HB|e−εn ≤ |H|e−εn

Ent˜ao se tem o seguinte:

P ({A : LPX,g(ˆgA) > ε}) ≤ |H|e

−εn ≤ α

(25)

|H|e−εn ≤ α e−εn ≤ α |H| ln e−εn ≤ ln  α |H|  −εn ≤ ln  α |H|  εn ≥ ln |H| α  n ≥ ln|H|α  ε .

Ent˜ao sendo H uma classe de estimadores finita, α ∈ (0, 1), ε ∈ (0, 1) e n pertencente aos inteiros positivos, o tamanho m´ınimo da amostra pode ser definido:

n ≥

ln|H|α 

ε .

Percebe-se que o tamanho da amostra independe da distribui¸c˜ao desconhecida de X e da fun¸c˜ao classificadora.

Relembrando que o objetivo da se¸c˜ao 3.2.3 era mostrar que se H ´e uma classe de estimadores finita, ent˜ao M REH provavelmente n˜ao sofrer´a sobreajuste, se baseado em

um conjunto de treinamento suficientemente grande. Foi obtido o seguinte: P ({A : LPX,g(ˆgA) > ε}) ≤ α,

para n ≥ ln(

|H| α )

ε .

3.3

Aprendizado PAC - Aprendizado provavelmente

aproximadamente correto

Na se¸c˜ao anterior, foi visto que se o MRE em rela¸c˜ao `a classe de hip´otese finita for aplicado em uma amostra de treinamento suficientemente grande, ent˜ao com probabili-dade (1 − α) a hip´otese de sa´ıda estar´a correta considerando uma precis˜ao ε. Utilizando esta informa¸c˜ao, nesta se¸c˜ao ´e vista a defini¸c˜ao do conceito de aprendizado provavelmente

(26)

aproximadamente correto (aprendizado PAC).

A complexidade amostral representa o tamanho da amostra de treinamento necess´ario a evitar com probabilidade maior ou igual a α que ocorra falha de aprendizagem.

Defini¸c˜ao 3.3.1 (Complexidade Amostral) Dado ε, α ∈ (0, 1), toda classe de estimadores finita H ´e PAC com complexidade amostral se:

nH(ε, α) =

ln|H|α  ε

A fun¸c˜ao nH : (0, 1)2 → IN∗ determina a complexidade amostral do conjunto de

estimadores finito H, o objetivo ´e que para qualquer ε, α, a complexidade amostral seja o menor inteiro que satisfa¸ca as condi¸c˜oes de aprendizado PAC.

Defini¸c˜ao 3.3.2 (Aprendizado PAC): Para X ∼ PX e g : X → {0, 1}. A classe H ´e

PAC-aprend´ıvel se:

1. A suposi¸c˜ao realiz´avel ´e satisfeita.

2. ∃ nH : (0, 1)2 → IN, tal que para ε e α ∈ (0, 1), se n ≥ nH(ε, α), o algoritmo retorna

ˆ

g, que satisfaz:

P (LPX,g(ˆg) ≤ ε) ≥ 1 − α .

O aprendizado PAC ´e uma estrutura para an´alise matem´atica do aprendizado de m´aquina. O objetivo ´e definir a quantidade de dados necess´ario amostrar para o algoritmo gerar uma fun¸c˜ao ˆg que consegue encontra os verdadeiros r´otulos com no m´aximo um erro de ε com uma probabilidade m´ınima especifica (1 − α).

Vale ressaltar que na defini¸c˜ao do aprendizado PAC a rotulagem ´e bin´aria, algo que at´e o momento n˜ao tinha sido imposto.

3.3.1

PAC Agnostic

A suposi¸c˜ao realiz´avel ´e muito forte para assumir que ela ser´a verdadeira para todos os problemas, tamb´em ´e muito inflex´ıvel `a ideia de uma fun¸c˜ao de classifica¸c˜ao que a partir de um valor possa corretamente retornar um ´unico e exato r´otulo. Ent˜ao no PAC Agnostic ´e assumido que os r´otulos n˜ao s˜ao totalmente determinados pelos preditores.

(27)

Agora a suposi¸c˜ao realiz´avel ´e relaxada e a fun¸c˜ao de classifica¸c˜ao g : X → Y vista at´e agora ´e substitu´ıda por uma fun¸c˜ao mais flex´ıvel. Assume-se que X e Y s˜ao vari´aveis aleat´orias em distribui¸c˜ao conjunta dada por (X, Y ) ∼ P

O risco de classifica¸c˜ao ´e redefinido para PAC Agnostic. Visando mensurar o quanto o ˆg pode estar errado de uma distribui¸c˜ao desconhecida P sobre X e Y.

Defini¸c˜ao 3.3.3 (Risco de classifica¸c˜ao do PAC agnostic) Para as vari´aveis aleat´orias X e Y com distribui¸c˜ao conjunta (X, Y ) ∼ P e regra de predi¸c˜ao ˆg, o risco de classifica¸c˜ao do PAC agnostic ´e definido por:

LPX,Y,g(ˆg) = P ({(X, Y ) : ˆg(X) 6= Y }) .

Vale salientar que no risco de classifica¸c˜ao na defini¸c˜ao dada no cap´ıtulo 3.2, foi utilizado g(X), enquanto agora na defini¸c˜ao do risco de classifica¸c˜ao do modelo PAC agnostic n˜ao ´e assumido Y como um valor retornado de uma fun¸c˜ao de classifica¸c˜ao pr´e determin´ıstica de X.

Lembrando que caso o risco real n˜ao possa ser calculado, o risco poder´a ser calculado pela amostra, chamado de risco emp´ırico do PAC agnostic. Considerando uma amostra de tamanho n, o risco para o modelo PAC Agnostic ser´a definido como anteriormente no cap´ıtulo 3.2:

Defini¸c˜ao 3.3.4 (Risco emp´ırico do PAC agnostic) Seja A = {(X1, Y1), . . . , (Xn, Yn)}

uma amostra de treinamento de tamanho n, X e Y vari´aveis aleat´orias com distribui¸c˜ao conjunta (X, Y ) ∼ P e regra de predi¸c˜ao ˆg. O risco emp´ırico do PAC agnostic ´e definido como:

LA(ˆg) =

Pn

i=11I{ˆg(Xi) 6= Yi}

n .

Defini¸c˜ao 3.3.5 (Aprendizado PAC Agnostic): Para (X, Y ) ∼ P , a classe H ´e PAC-agnostic se ∃ nH : (0, 1)2 → IN, tal que para ε, α ∈ (0, 1) e uma amostra maior que a

complexidade amostral nH, o algoritmo fornece ˆg tal que:

P LP (ˆg) ≤ mingˆ0∈HLP

 ˆ

(28)

Percebe-se pela defini¸c˜ao que o aprendizado PAC Agnostic n˜ao est´a limitado a uma classifica¸c˜ao bin´aria, outro avan¸co proveniente da fun¸c˜ao de distribui¸c˜ao conjunta.

Apesar da suposi¸c˜ao realiz´avel n˜ao ser assegurada, o algoritmo encontrar´a um bom preditor se o risco de classifica¸c˜ao do mesmo n˜ao for maior que ε do melhor risco de classifica¸c˜ao poss´ıvel da classe H. E poss´ıvel observar que por esta generaliza¸c˜´ ao do aprendizado PAC, o parˆametro de precis˜ao ´e relativo ao menor risco de classifica¸c˜ao que a classe de estimadores possa alcan¸car.

3.4

Contexto da modelagem de aprendizagem

´

E desej´avel um modelo que possa ser aplicado a uma extensa variabilidade de tarefas de aprendizagem. Como mencionado anteriormente ´e interessante atingir uma capacidade de classifica¸c˜ao ampla, pois ´e necess´ario se empenhar em resolver problemas reais.

´

E pertinente lembrar que no cap´ıtulo 3.1.1 foi dito que dependendo do tipo de sa´ıda do algoritmo a predi¸c˜ao iria ser definida por regress˜ao ou classifica¸c˜ao. Neste ponto s˜ao considerados alguns exemplos de diferentes tarefas de aprendizado.

• Classifica¸c˜ao estat´ıstica

Tendo um espa¸co amostral e conjunto de r´otulos definidos, o objetivo ´e que o al-goritmo seja capaz de identificar a qual categoria o preditor pertence, baseado no conjunto de dados dos quais o r´otulo ´e conhecido. Isto ´e, procura encontrar rela¸c˜ao entre as vari´aveis de entrada e a vari´avel de sa´ıda Y , onde Y ´e uma vari´avel ca-teg´orica.

Para a medida de sucesso ´e adotado a propor¸c˜ao de acertos do preditor. • Modelo de Regress˜ao

A finalidade ´e de encontrar padr˜ao nos dados amostrados para a cria¸c˜ao de um modelo probabil´ıstico capaz de expressar a rela¸c˜ao entre as vari´aveis de interesse. Isto ´e, procura encontrar rela¸c˜ao entre as vari´aveis de entrada X e a vari´avel de sa´ıda Y , onde X e Y s˜ao vari´aveis num´ericas.

Para a medida de sucesso ´e adotada a avalia¸c˜ao da qualidade da fun¸c˜ao estimada com o uso do erro quadr´atico m´edio.

LP(ˆg) = E(X,Y )(ˆg − Y )2

 .

(29)

3.4.1

Medida de sucesso

Para acobertar a gama de tarefas de aprendizagem, as medidas de sucesso devem ser generalizadas. Diante disso, ´e utilizada uma fun¸c˜ao, chamada de fun¸c˜ao de perda, que tem o prop´osito de penalizar pela imprecis˜ao das predi¸c˜oes.

Dado um conjunto qualquer H e um dom´ınio (X , Y), uma fun¸c˜ao l ´e uma fun¸c˜ao de perda, se l : H × (X , Y) → IR+.

Note que o conceito de fun¸c˜ao de perda vai al´em das tarefas de aprendizagem, permi-tindo (X , Y) a ser qualquer dom´ınio de exemplos.

A fun¸c˜ao de perda ´e capaz de aferir em ponto de dados, predi¸c˜oes e classifica¸c˜oes. Como pode ser visto nos exemplos que segue.

Exemplo 3.4.1 (Fun¸c˜ao de perda quadr´atica) Geralmente utilizada em problemas de re-gress˜ao, ´e calculada da seguinte forma:

lsq(ˆg, Z) = (ˆg − Y )2,

em que z uma vari´avel aleat´oria tal que Z ∈ Z, sendo Z o conjunto (X , Y).

Exemplo 3.4.2 (Fun¸c˜ao de perda 0-1) Geralmente utilizada em problemas de classi-fica¸c˜ao, ´e calculada da seguinte forma:

l0−1(ˆg, Z) =

(

0 , se ˆg = Y 1 , caso contr´ario

em que z uma vari´avel aleat´oria tal que Z ∈ Z, sendo Z o conjunto (X , Y). ´

E chamada de fun¸c˜ao de risco a esperan¸ca da fun¸c˜ao de perda de ˆg ∈ H sobre o dom´ınio Z que segue uma distribui¸c˜ao P .

Defini¸c˜ao 3.4.1 (Fun¸c˜ao do risco) Dado ˆg ∈ H, um dom´ınio (X, Y ) ∼ P e uma fun¸c˜ao de perda l : H × (X , Y) → IR+, a fun¸c˜ao de risco ´e definida como

LP(ˆg) = E [l(ˆg, (X, Y ))] .

´

E interessante observar que as defini¸c˜oes de risco de classifica¸c˜ao PAC Agnostic (3.3.1) e da fun¸c˜ao de risco (3.4.1) coincidem ao admitir a fun¸c˜ao de perda 0-1.

(30)

E [l0−1(ˆg, Z)] = 0 × P (l0−1(ˆg, (X, Y )) = 0) + 1 × P (l0−1(ˆg, (X, Y )) = 1)

= P (l0−1(ˆg, (X, Y )) = 1)

= P (h(X) 6= Y )

Sempre lembrando que ´e disposto apenas amostras para os c´alculos, ent˜ao ´e define-se como risco emp´ırico a perda esperada sobre uma amostra.

Defini¸c˜ao 3.4.2 (Risco emp´ırico da fun¸c˜ao de perda) Seja (X, Y ) ∼ P , A = ((X1, Y1), . . . , (Xn, Yn))

uma amostra aleat´oria de tamanho n e l : H × (X , Y) → IR+ uma fun¸c˜ao de perda. ´E

definido como risco emp´ırico da fun¸c˜ao de perda LA(ˆg) = 1 n n X i=1 l (ˆg, Xi, Yi) .

3.4.2

Aprendizado PAC Agnostic para fun¸

ao geral de perda

Nesta se¸c˜ao ´e inserida a medida de sucesso generalizada no aprendizado PAC Agnostic para torn´a-lo mais abrangente. Por isso, agora o aprendizado PAC Agnostic ´e redefinido para aprendizado PAC Agnostic para fun¸c˜ao geral de perda.

Defini¸c˜ao 3.4.3 (PAC Agnostic para fun¸c˜ao geral de perda): Para (X, Y ) ∼ P , a classe H ´e PAC-agnostic se em rela¸c˜ao a um conjunto (X , Y) e uma fun¸c˜ao de perda lH :

(X , Y) → IR+, se ∃ nH : (0, 1)2 → IN tal que para ε, α ∈ (0, 1) e uma amostra maior que

a complexidade amostral, o algoritmo fornece ˆg tal que:

P E(X,Y )∼P [l(ˆg, X, Y )] ≤ minˆg0∈HE(X,Y )∼P

h

l(ˆg0, X, Y )i+ ε≥ 1 − α .

3.5

Aprendizado por convergˆ

encia uniforme

At´e ent˜ao foi visto que dado uma classe de estimadores H, quando o algoritmo recebe uma amostra A, o mesmo avalia o risco de cada ˆgA em H e retorna o estimador que

(31)

minimiza o risco emp´ırico. Mas al´em de procurar o MRE, ´e tamb´em relevante garantir que o risco emp´ırico de todos integrantes de H sejam boas aproxima¸c˜oes do risco real.

Neste cap´ıtulo, ´e utilizada convergˆencia uniforme para mostrar que uma classe de hip´otese ´e PAC agnostic aprend´ıvel com uma fun¸c˜ao de perda geral uma vez que a abrangˆencia da fun¸c˜ao de perda seja limitada.

Primeiramente ´e necess´ario definir o conceito de amostra ε-representativa.

Defini¸c˜ao 3.5.1 (Amostra ε-representativa) Com uma classe de hip´otese H, uma fun¸c˜ao de perda l e (X, Y ) ∼ P , uma amostra A ´e chamada de ε-representativa se:

∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| ≤ ε .

A proposta desta defini¸c˜ao ´e de chamar de amostra ε-representativa, a amostra em que o risco emp´ırico n˜ao seja muito diferente da real fun¸c˜ao de risco, sendo o valor desta diferen¸ca apenas menor ou igual a um ε.

Da defini¸c˜ao, se A ´e uma amostra ε2-representativa, ent˜ao para ˆgA= ming∈HLA(ˆg) ∈

H:

|LA(ˆgA) − LP(ˆgA)| ≤

ε 2 . Ent˜ao se tem o seguinte,

−ε 2 ≤ LA(ˆgA) − LP(ˆgA) ≤ ε 2 −ε 2 − LA(ˆgA) ≤ −LP(ˆgA) ≤ ε 2− LA(ˆgA) LA(ˆgA) − ε 2 ≤ LP(ˆgA) ≤ LA(ˆgA) + ε 2 =⇒ LP(ˆgA) ≤ LA(ˆgA) + ε 2 ´

E pertinente fazer a seguinte considera¸c˜ao: ∀ˆg ∈ H, se ˆgA´e um MRE e ˆg

0

(32)

que retorna o menor risco de classifica¸c˜ao poss´ıvel, ent˜ao LA(ˆgA) ≤ LA

 ˆ g0 .

Importante tamb´em considerar que,

−ε 2 ≤ LA  ˆ g0− LP  ˆ g0≤ ε 2 LP  ˆ g0  − ε 2 ≤ LA  ˆ g0  ≤ LP  ˆ g0  +ε 2 LP  ˆ g0≤ LA  ˆ g0+ ε 2 ≤ LP  ˆ g0+ε 2 + ε 2 LP  ˆ g0≤ LA  ˆ g0+ ε 2 ≤ LP  ˆ g0+ ε E consequentemente segue: LP(ˆgA) ≤ LA(ˆgA) + ε 2 ≤ LA  ˆ g0+ε 2 ≤ LP  ˆ g0+ ε = minˆg∈HLP(ˆg) + ε

Lema 3.5.1 Assumindo que uma amostra A ´e uma amostra ε2-representativa em uma classe de hip´otese H, com uma fun¸c˜ao de perda l e (X, Y ) ∼ P , ent˜ao o M REˆg(A)

satisfaz a seguinte inequa¸c˜ao:

LP(ˆgA) ≤ mingˆ0∈HLP  ˆ g0  + ε .

Deste lema, se a amostra ´e ε2-representativa ent˜ao a regra de predi¸c˜ao ˆgA ∈ H ´e um

aprendizado PAC Agnostic. ´

(33)

uma vez que possui a propriedade de convergˆencia uniforme para a classe de hip´otese finita.

Nesta se¸c˜ao ´e mostrado que se H possui propriedade da convergˆencia uniforme, ent˜ao ele ´e PAC-Agnostic

Para quaisquer ε e α, ´e necess´ario encontrar uma amostra da popula¸c˜ao (X, Y ) ∼ P de tamanho n, que garanta que:

P ({A : ∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| ≤ ε}) ≥ 1 − α

ou

P ({A : ∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| > ε}) < α ,

ou seja, ´e ε−representativa com probabilidade de pelo menos (1 − α). Primeiramente se faz necess´ario tomar as seguintes considera¸c˜oes:

1. Novamente ´e utilizado o teorema do limite da uni˜ao que foi visto em 3.2.3 . Onde se conseguiu o seguinte resultado:

P [ ˆ g∈HB {A : |LA(ˆg) − LD(ˆg)| > ε} ! ≤ X ˆ g∈HB P ({A : |LA(ˆg) − LD(ˆg)| > ε}) .

2. Para qualquer ˆg fixado, a diferen¸ca entre o risco real e o emp´ırico ´e razoavelmente pequeno. Pois de tem-se:

LD(ˆg) = EZ∼P[lgˆ(Z)] = µ LA(ˆg) = 1 n n X i=1 lgˆ(Zi),

onde Z = (X, Y ), sendo Zi uma amostra aleat´oria independente e identicamente

distribu´ıda seguindo uma distribui¸c˜ao P. Pode-se perceber que lˆg(Zi) tamb´em ´e uma

vari´avel aleat´oria independente e identicamente distribu´ıda. Sendo assim, ´e r´apido provar que 1nPn

(34)

E " 1 n n X i=1 lˆg(Zi) # = 1 nE " n X i=1 lˆg(Zi) # = 1 n n E[lgˆ(Zi)] = µ

E pela lei dos grandes n´umeros, quanto maior o tamanho da amostra, mais a m´edia amostral calculada se aproxima da m´edia real da popula¸c˜ao.

3. Lema 3.5.2 (Desigualdade de Hoeffding ) Seja lˆg(Z1), . . . , lgˆ(Zn) vari´aveis aleat´orias

independentes e identicamente distribu´ıdas, e considere que ∀i, E[lgˆ(Zi)] = µ e

P (a ≤ lgˆ(Zi) ≤ b) = 1. Ent˜ao para qualquer ε > 0:

P " 1 n n X i=1 lˆg(Zi) − µ > ε # ≤ 2 e−2n ε2(b−a)2 .

Com as considera¸c˜oes abordadas, ´e poss´ıvel colocar um limite superior na probabilidade de uma amostra que n˜ao seja ε-representativa.

P ({A : ∃ˆg ∈ H, |LA(ˆg) − LD(ˆg)| > ε}) = P [ ˆ g∈HB {A : |LA(ˆg) − LD(ˆg)| > ε} ! ≤ X ˆ g∈HB P ({A : |LA(ˆg) − LD(ˆg)| > ε}) = X ˆ g∈HB P 1 n n X i=1 lˆg(Zi) − µ > ε ! ≤ X ˆ g∈HB 2 e −2n ε2 (b−a)2 = 2 |H| e −2n ε2 (b−a)2

(35)

2 |H| e −2n ε2 (b−a)2 ≤ α e −2n ε2 (b−a)2 ≤ α 2 |H| −2n ε2 (b − a)2 ≤ ln  α 2 |H|  n ≥ (b − a)2 ln α 2 |H|  −2 ε2

Ent˜ao sendo H uma classe de estimadores finita, α ∈ (0, 1), ε > 0 e n pertencente aos inteiros positivos, o tamanho m´ınimo da amostra pode ser definido:

n ≥

(b − a)2 ln α 2 |H|



−2 ε2 .

Corol´ario 3.5.1 Seja H uma hip´otese finita, Z o dom´ınio e lH(Z) → [a, b] a fun¸c˜ao

de perda. Ent˜ao o H possui a propriedade de convergˆencia uniforme com complexidade amostral dada por,

nU CH (ε, α) =   (b − a)2 ln2 |H| α  2 ε2   .

Al´em disso, ´e provado a seguir que a classe ´e PAC Agnostic aprend´ıvel usando o algoritmo MRE com a complexidade amostral:

nH(ε, α) ≤ nU CH ε 2, α  =   2 ln2 |H|α  ε2   .

(36)

nH(ε, α) nU C H ε 2, α  = ln(|H|α ) ε ln(2|H|α ) 2(ε2)2 = ln(|H|α ) ε 2ln(2|H|α ) ε2 = ln|H|α  ε × ε2 2ln2|H|α  = ε 2× ln(|H|) − ln(α) ln(2) + ln(|H|) − ln(α)

Lembrando que α ∈ (0, 1), ent˜ao −ln(α) > 0. Se ln(|H|) − ln(α) = w, ent˜ao

nH(ε, α) nU C H ε 2, α  = ε 2× w ln(2) + w.

Note que ε ∈ (0, 1), ent˜ao 0 < 2ε < 1. Como 0 < w < w + ln(2) e w+ln(2)w toma valores positivos menores que 1, temos que:

nH(ε, α) nU C H ε 2, α  < 1,

o que prova que nH(ε, α) < nU CH ε 2, α .

Defini¸c˜ao 3.5.2 (Convergˆencia Uniforme): Sejam (X, Y ) ∼ P e l uma fun¸c˜ao de perda. A classe H tem a propriedade de convergˆencia uniforme se ∃ nU C

H : (0, 1)2 → IN, tal que

para todo ε, α ∈ (0, 1) e para uma amostra, i.i.d com distribui¸c˜ao P , de tamanho maior que a complexidade amostral nU C

H (ε, α), tem-se:

P (LP( ˆgA) ≤ mingˆ0∈HLP

 ˆ

(37)

Ou seja, com probabilidade de pelo menos 1 − α a amostra ´e ε-representativa.

Se a propriedade de convergˆencia uniforme ´e assegurada para uma classe de estima-dores H, ent˜ao, na maioria dos casos, os riscos emp´ıricos representam o risco real.

Corol´ario 3.5.2 Se a classe H possui a propriedade de convergˆencia com a complexidade da amostra obtida pela propriedade de convergˆencia uniforme, ent˜ao a classe de hip´otese ´e PAC agnostic aprend´ıvel com complexidade amostral

nH(ε, α) ≤ nU CH

ε 2, α

 .

A fun¸c˜ao nU CH mede a complexidade da amostra obtida pela propriedade de con-vergˆencia uniforme, isto ´e, mensura quantos exemplos s˜ao necess´arios para assegurar que com probabilidade de pelo menos 1 − α a amostra seja ε-representativa.

3.6

Dimens˜

ao VC

A defini¸c˜ao de aprendizado PAC carece que a fun¸c˜ao de perda seja limitada. Mas a hip´otese finita n˜ao ´e uma condi¸c˜ao para o aprendizado, pois classes infinitas podem ser aprend´ıveis.

Vladimir Vapnik e Alexey Chervonenkis em 1970 [4] se baseiam em uma no¸c˜ao com-binat´oria chamada de dimens˜ao Vapnik-Chervonenkis (dimens˜ao VC), onde a dimens˜ao VC de um conjunto F de fun¸c˜oes possui a cardinalidade do maior conjunto que possa ser dividido por f ∈ F . Disto, ´e poss´ıvel perceber que o tipo das fun¸c˜oes determina a dimens˜ao VC.

Para apresentar a caracteriza¸c˜ao da classe aprend´ıvel na configura¸c˜ao de classifica¸c˜ao de valor bin´ario com fun¸c˜ao de perda 0-1, esta dimens˜ao ´e definida como o n´umero m´aximo de elementos que podem ser particionados em dois subconjuntos.

Defini¸c˜ao 3.6.1 (Vapnik e Chervonenkis (1971) - Dimens˜ao VC de um conjunto de fun¸c˜oes indicadoras [5]) A dimens˜ao VC de um conjunto de fun¸c˜oes indicadoras, ´e o n´umero m´aximo h de elementos, dos quais podem ser separados de 2h formas diferentes,

isto ´e, a cardinalidade do maior subconjunto, sendo que 2h ´e o n´umero m´aximo de divis˜oes

(38)

Para melhor explicar a defini¸c˜ao da dimens˜ao Vapnik-Chervonenkis utiliza-se o exem-plo encontrado em [6], onde dado um problema de classifica¸c˜ao bin´ario ´e poss´ıvel verificar o n´umero m´aximo de exemplos onde trˆes dados representados podem ser separados em dois subconjuntos por fun¸c˜oes linear.

Figura 2: Exemplo de classifica¸c˜oes bin´arias, sendo que h´a 3 dados representados em IR2.

Deste exemplo ´e obtido 23, isto ´e, 8 combina¸c˜oes bin´arias de r´otulos.

Um hiperplano se refere a um plano (k-1)-dimensional em IRk, isto posto, em um plano, o hiperplano ´e caracterizado por uma reta. Como neste exemplo, a dimens˜ao VC para hiperplano ´e trˆes. Generalizando em k-dimens˜oes, um hiperplano em IRk ´e capaz de partir qualquer conjunto de h = k + 1 pontos linearmente independentes.

´

E poss´ıvel notar na figura 3 que para quatro pontos ´e necess´ario recorrer a fun¸c˜oes mais complexas do que retas para a classifica¸c˜ao bin´aria.

Figura 3: Exemplo de classifica¸c˜ao bin´aria, sendo que h´a 4 dados representados em IR2.

Tomando como base a dimens˜ao VC, foi estabelecido o princ´ıpio indutivo Minimiza¸c˜ao do risco estrutural (SRM do inglˆes “Structural Risk Minimization”), do qual tem o

(39)

ob-jetivo equilibrar a complexidade do modelo em rela¸c˜ao ao seu sucesso na adequa¸c˜ao dos dados de treinamento finitos, assim evitando que ocorra um sobreajuste. O SRM possi-bilita a compensa¸c˜ao entre a complexidade do espa¸co de hip´otese e seu erro emp´ırico.

Com o numero m´aximo h de observa¸c˜oes que podem ser separadas, ´e poss´ıvel fornecer uma maneira de estimar o limite superior do erro.

Defini¸c˜ao 3.6.2 (Limite do risco esperado com dimens˜ao VC) Seja h a dimens˜ao Vapnik-Chervonenkis, n o tamanho da amostra de treinamento e α ∈ (0, 1). Define-se como limite no risco esperado P  LP(ˆg) ≤ LA(ˆgA) + s h. ln 2nh + 1 − ln α4 n  ≤ 1 − α

O SRM (“ Structural Risk Minimization”) significa minimizar LA(ˆgA)+

q h(ln(2n h)+1)−ln( α 4) n , onde q h(ln(2nh)+1)−ln(α 4)

n ´e conhecido com confian¸ca VC. Para minimizar o risco real, a

mi-nimiza¸c˜ao deve ser feita simultaneamente em ambos os termos: risco emp´ırico e confian¸ca VC, assim tornando a dimens˜ao VC uma vari´avel de controle.

A dimens˜ao VC em geral ´e f´acil de calcular para hiperplanos, Vapnik [7] pˆode mostrar que em um espa¸co especial de dimens˜oes infinitas de fun¸c˜oes chamado de n´ucleo reprodutor do espa¸co de Hilbert (Reproducing Kernel Hilbert Space (RKHS)) , um classificador linear ´e um classificador universal, e estes classificadores s˜ao chamados de m´aquinas de vetores de suporte (Suport vector machine).

3.7

Support vector machine

Uma m´aquina de vetores de suporte ´e um classificador formalmente definido por um hiperplano de separa¸c˜ao. O objetivo do SVM ´e encontrar dentre todos os hiperplanos o que minimiza o risco emp´ırico, isto ´e, procura maximizar a margem do classificador linear. A figura 4 tem como exemplo trˆes hiperplanos para a classifica¸c˜ao dos dados, ´e poss´ıvel perceber que o classificador linear que possui a maior margem ´e o destacado em verde.

(40)

Figura 4: Poss´ıveis hiperplanos.

Na imagem que segue est˜ao destacados e numerados por (2) os vetores de suporte, tamb´em conhecidos como pontos cr´ıticos. J´a em azul claro, indicado pelo n´umero (1), a margem do classificador linear.

(41)

Mas em situa¸c˜oes reais, n˜ao permitir que alguns dados permane¸cam na margem de-finida pelos hiperplanos reduz a generaliza¸c˜ao, incapacitando de lidar com conjuntos de treinamento mais gerais. Por isso, a ado¸c˜ao das margens suaves, onde h´a o relaxamento de restri¸c˜oes impostas ao problema de otimiza¸c˜ao com a introdu¸c˜ao de vari´aveis de folga. As SVMs obtidas permitindo a aplica¸c˜ao desse procedimento que permite a ocorrˆencia de alguns erros de classifica¸c˜ao s˜ao referenciadas como SVMs com margens suaves.

As SVMs lineares de margens suaves admitem a presen¸ca de alguns ru´ıdos e outliers al´em de apresentar desempenho suficiente para problemas linearmente separ´aveis, mas alguns conjuntos de dados exigem fronteiras mais complexas que lineares.

Com o emprego de um procedimento motivado pelo teorema de Cover, ´e poss´ıvel a generaliza¸c˜ao de SVMs para problemas n˜ao lineares.

Teorema 3.7.1 Teorema de Cover [8]

Um conjunto de dados n˜ao lineares em um espa¸co de alta dimens˜ao ´e mais suscet´ıvel a ser linearmente separ´avel do que em um espa¸co de menor dimens˜ao, na condi¸c˜ao de que o espa¸co n˜ao seja excessivamente povoado.

Mapeando as amostras de treinamento do espa¸co original e transformando por meio de uma fun¸c˜ao para um espa¸co de maior dimens˜ao, chamado de espa¸co de caracter´ısticas, se torna vi´avel a aplica¸c˜ao do SVM linear.

Na imagem que segue em 7(a), um exemplo do espa¸co de entrada, com os dados representados em IR2 por suas caracter´ısticas. J´a em 7(b) apresenta em IR3 o espa¸co de caracter´ısticas onde os dados representados s˜ao transformados da fun¸c˜ao Φ(X, Y ) = (X2,√2XY, Y2), tornando poss´ıvel uma separa¸c˜ao dos dados por um plano.

Figura 6: Mapeamento de dados de entrada para um espa¸co de maior dimens˜ao.

(a) Espa¸co de entrada (b) Espa¸co de caracteristicas

Mas a fun¸c˜ao Φ pode ter dimens˜ao muito alta e ser custosa computacionalmente. Todavia, a informa¸c˜ao relevante sobre o mapeamento ´e de como realizar o produto escalar

(42)

entre os pontos no espa¸co de caracter´ıstica, o que pode ser feito pela fun¸c˜ao kernel, desde que siga as condi¸c˜oes impostas pelo Teorema de Mercer [9].

Um kernel ´e uma fun¸c˜ao cont´ınua que de duas vari´aveis x e y as mapeia para um valor real tal que, k(x, y) = k(y, x), isto ´e, uma fun¸c˜ao sim´etrica. Mais detalhes no anexo 11.1. O objetivo da SVM ´e de encontrar um hiperplano que separe os dados do espa¸co caracter´ıstica de forma ´otima. Para os dados n˜ao linearmente separ´aveis originalmente, a utiliza¸c˜ao do Kernel evita o mapeamento expl´ıcito dado pela fun¸c˜ao Φ e torna o problema linearmente separ´avel. Pelo Teorema de Mercer [9], a fun¸c˜ao Kernel recebe os pontos do espa¸co de entrada e calcula o produto escalar entre eles no espa¸co caracter´ıstica, desde que defina Kernel como matriz positivamente definida e que tenha autovalores maior do que zero.

Os Kernels mais utilizados s˜ao:

• Polinomial

K(x, y) = (γ.(xTy) + c)d,

onde os Kernels polinomiais com o parˆametro d = 1 ´e considerado Kernel Linear. • Radial

K(x, y) = e−γ||x−y||2 • Tangente Hiperb´olica

K(x, y) = tanh(γ.(xTy) + c),

as condi¸c˜oes de Mercer s˜ao satisfeitas apenas para alguns valores de γ e de c.

Para a obten¸c˜ao de um classificador por meio do uso de SVMs, ´e preciso a escolha de uma fun¸c˜ao Kernel e seus parˆametros, assim como de um algoritmo para a determina¸c˜ao do hiperplano ´otimo. A escolha do Kernel e dos parˆametros considerados tem efeito no desempenho do classificador obtido, pois eles definem a fronteira de decis˜ao induzida.

(43)

4

Aplica¸

ao

Foi utilizado o pacote e1071[3], no R [2]. Segue as etapas para a aplica¸c˜ao do SVM no R:

Primeiro ´e necess´ario instalar o pacote e chamar a biblioteca.

install.packages("e1071", dependencies = T) library(e1071)

Ent˜ao ´e criada uma amostra de teste e outra de treinamento. A amostra de teste ´e qual ser´a utilizada para verificar a adequa¸c˜ao do modelo, enquanto a amostra de treinamento ´e utilizada na cria¸c˜ao do modelo. O tamanho da amostra de teste geralmente ´e menor que a amostra de treinamento, isto ´e, N ≥ n

amostra_teste = Amostra de tamanho n da popula¸c~ao de estudo

amostra_treinamento = Amostra de tamanho N da popula¸c~ao de estudo

Para a constru¸c˜ao do modelo foi utilizado o tipo “C-classification” para a classifica¸c˜ao da vari´avel X , o pacote tamb´em tem op¸c˜ao para regress˜ao. No trabalho foram testados os modelos com kernel linear e radial, “linear” e “radial” respectivamente.

modelo_svm = svm(x ~ ., data=amostra_treinamento, method="C-classification", kernel="linear")

´

E poss´ıvel visualizar os vetores de suporte, a divis˜ao realizada pelo modelo e a real classi-fica¸c˜ao. Para observar graficamente a modelagem, utiliza-se o seguinte comando.

plot(x=modelo_svm, data=amostra_treinamento)

Ent˜ao ´e realizada a predi¸c˜ao com a amostra de teste. Utilizada para ver se o modelo est´a bem adequado para a popula¸c˜ao real, e n˜ao s´o para a amostra de treinamento.

(44)

4.1

Duas popula¸

oes ambas com caracter´ıstica

expo-nencial

A seguir, s˜ao analisadas duas popula¸c˜oes, simuladas (ver em 7) com apenas uma carac-ter´ıstica.

Seja Y ∈ {1, 2} vari´avel aleat´oria referente a popula¸c˜ao, onde P (Y = 1) = P (Y = 2) = 12. Tem-se que as caracter´ısticas que seguem distribui¸c˜ao exponencial se diferem para cada grupo, isto ´e:

(X|Y = 1) ∼ Exponencial(1) (X|Y = 2) ∼ Exponencial(λ), onde λ = 1

2, 1 25, 1 50 e 1 100.

O intuito inicial ´e avaliar se o SVM consegue distinguir bem dois grupos quando o λ das exponenciais s˜ao pr´oximos. Foram utilizados os parˆametros padr˜ao da fun¸c˜ao do pacote utili-zado. A caracter´ıstica do grupo 1 foi mantida seguindo uma exponencial com m´edia 1. J´a a caracter´ıstica do segundo grupo foi modificada para o estudo, foram utilizadas as m´edias 2, 25, 50 e 100.

Tabela 1: M´edia e variˆancia de distribui¸c˜ao pelo λ escolhido. λ M´edia Variˆancia

1 1 1 1 2 2 4 1 25 25 625 1 50 50 2500 1 100 100 10000

Nas imagens que seguem, os dados em preto s˜ao as caracter´ısticas da popula¸c˜ao Y = 1, em que teve a distribui¸c˜ao exponencial mantida com λ = 1. Em vermelho a popula¸c˜ao Y = 2, em que houve a mudan¸ca do λ. Os objetos em forma de “X”s˜ao os pontos cr´ıticos.

No modelo onde foram estudadas as duas popula¸c˜oes:

(X|Y = 1) ∼ Exponencial(1) (X|Y = 2) ∼ Exponencial 1

2 

(45)

Figura 7: Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial.

Com caracter´ıstica seguindo uma distribui¸c˜ao exponencial com λ = 1 e outra com λ = 12. Ao calcular o erro amostral com a amostra de teste, foi obtido erro de 60%.

Tabela 2: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = 12)

ˆ

Y \ Y 1 2

1 6 8

2 4 2

J´a adotando as popula¸c˜oes com as caracter´ısticas seguindo: (X|Y = 1) ∼ Exponencial(1), e (X|Y = 2) ∼ Exponencial  λ = 1 25  , ao realizar o SVM foram utilizados 39 vetores de suporte,

(46)

e obteve um erro de 5%.

Tabela 3: ˆY × Y de duas popula¸c˜oes, uma com caracter´ıstica Exponencial(λ = 1) e outra com caracter´ıstica Exponencial λ = 251.

ˆ

Y \ Y 1 2

1 11 1

2 0 8

A modelagem para popula¸c˜oes com caracter´ıstica seguindo uma distribui¸c˜ao exponencial com

(X|Y = 1) ∼ Exponencial(1), e outra com

(X|Y = 2) ∼ Exponencial( 1 50). Foram utilizados menos vetores de suporte, apenas 35

Figura 9: Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial.

, e manteve o erro de 5%.

Tabela 4: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = 501)

ˆ

Y \ Y 1 2

1 13 1

2 0 6

Com as popula¸c˜oes Y ∈ {1, 2} com caracter´ısticas X, onde (X|Y = 1) ∼ Exponencial(1) e

(X|Y = 2) ∼ Exponencial(λ = 1 100),

(47)

o n´umero de vetores de suporte ca´ıram para 33

Figura 10: Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial.

, mas manteve o erro de 5%.

Tabela 5: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = 1001 )

ˆ

Y \ Y 1 2

1 8 1

2 0 11

Pelas figuras, percebe-se que quanto mais diferentes as m´edias da popula¸c˜ao, apesar da variˆancia aumentar muito junto com a m´edia, mais facilmente o SVM consegue encontrar uma separa¸c˜ao para a rotulagem.

Curioso notar tamb´em que ao separar as m´edias das caracter´ısticas, ainda se mant´em o erro amostral devido ao comportamento da distribui¸c˜ao exponencial. E este erro ´e permitido no modelo SVM por ter sido adotado o modelo com margens suaves.

4.2

Duas popula¸

oes ambas com duas caracter´ısticas

normais

Foi escolhido analisar duas popula¸c˜oes, simuladas (ver em 8) com duas caracter´ısticas se-guindo distribui¸c˜ao normal.

Onde Y ∈ {1, 2} ´e a vari´avel aleat´oria referente `a popula¸c˜ao, onde as caracter´ısticas depen-dem de cada popula¸c˜ao, isto ´e:

(48)

(X|Y = 2) ∼ N ormal(µ(X|Y =2)= 5, σ(X|Y =2)2 ), onde, σ 2

(X|Y =2) = 0.25 e 25,

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ2(Z|Y =1)), onde, σ 2

(Z|Y =1)= 1, 100, 25 e 4,

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ2(Z|Y =2)), onde, σ 2

(Z|Y =2)= 1, 100, 25 e 4,

sendo X a caracter´ıstica 1 e Z a caracter´ısticas 2.

Para ficar menos abstrato, segue um breve exemplo: S˜ao escolhidos homens e mulheres ao acaso, onde Y = 1 se for escolhido o gˆenero feminino e Y = 2 caso contr´ario. Estas popula¸c˜oes possuem as mesmas caracter´ısticas, das quais seguem distribui¸c˜oes normais e distintas com parˆametros dependentes de sua popula¸c˜ao de origem. Suponha X a caracter´ıstica altura e Z a caracter´ıstica peso.

O objetivo ´e avaliar se o SVM consegue distinguir bem dois grupos, relacionando isso `a variˆancia das caracter´ısticas. Por isso as m´edias das caracter´ısticas foram mantidas, e apenas foram trocadas as variˆancias.

As caracter´ısticas da popula¸c˜ao expressada em preto (Y = 1), uma possui m´edia 1 e outra 25. Em vermelho (Y = 2) a popula¸c˜ao ficou com as caracter´ısticas fixadas com µ(X|Y =2) = 5 e

µ(Z|Y =2) = 20. Os objetos em forma de “X”s˜ao os pontos cr´ıticos. No modelo onde foram estudadas duas popula¸c˜oes,

(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 0, 25), (Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ2(Z|Y =1)= 1), (X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 0, 25),

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ2(Z|Y =2)= 1).

Foram utilizados apenas dois vetores de suporte

(49)

e obteve um erro de 0%.

Tabela 6: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 0.5,

σ(Z|Y =1) = 1, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas normais σ(X|Y =2) =

0.5, σ(Z|Y =2) = 1, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20

ˆ

Y \ Y 1 2

1 8 0

2 0 12

J´a mantendo, as m´edias das caracter´ısticas da popula¸c˜ao da figura 11 e aumentando as variˆancias,

(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ(Z|Y =1)2 = 100),

(X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 25),

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ(Z|Y =2)2 = 100). para o modelo foram necess´arios 51 vetores de suporte,

Figura 12: Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal.

obtendo um erro de 40% .

Tabela 7: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,

σ(Z|Y =1) = 10, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas normais σ(X|Y =2) =

5, σ(Z|Y =2) = 10, µ(X|Y =2)= 5 e µ(Z|Y =2) = 20

ˆ

Y \ Y 1 2

1 7 4

2 4 5

Mudando apenas as variˆancias da caracter´ıstica 2 de ambas as popula¸c˜oes para σZ|Y = 5, a

(50)

(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ(Z|Y =1)2 = 25), (X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 25), (Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ(Z|Y =2)2 = 25).

foi obtido um valor um pouco menor de vetores de suporte, 47

Figura 13: Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal.

,enquanto a porcentagem de erros ca´ıra pela metade, 20%

Tabela 8: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,

σ(Z|Y =1) = 5, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas normais σ(X|Y =2) =

5, σ(Z|Y =2) = 5, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20

ˆ

Y \ Y 1 2

1 12 1

2 3 4

Novamente mudando apenas as variˆancias de uma das caracter´ısticas de ambas as popula¸c˜oes para σZ|Y = 2,

(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ2(Z|Y =1)= 4),

(X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 25),

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ2(Z|Y =2)= 4). foram necess´arios 30 vetores de suporte, e foi obtido um erro de 10%.

(51)

Figura 14: Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal.

Tabela 9: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ1 = 5, σ2 = 5,

µ1 = 1 e µ2 = 25 e outra com caracter´ısticas normais σ1 = 5, σ2 = 5, µ1 = 5 e µ2 = 20

ˆ

Y \ Y 1 2

1 10 0

2 2 8

Supondo uma popula¸c˜ao com caracter´ısticas seguindo uma normal com os seguintes parˆametros: σ(X|Y =1)= 5, µ(X|Y =1)= 1, σ(Z|Y =1) = 10 e µ(Z|Y =1)= 25. E outra popula¸c˜ao com σ(X|Y =2)=

5, µ(X|Y =2)= 5, σ(Z|Y =2)= 1 e µ(Z|Y =2) = 20.

Figura 15: Popula¸c˜ao em preto com σ(X|Y =1) = 5, µ(X|Y =1) = 1, σ(Z|Y =1) = 10 e µ(Z|Y =1) =

25. Popula¸c˜ao em vermelho com σ(X|Y =2)= 5, µ(X|Y =2) = 5, σ(Z|Y =2) = 1 e µ(Z|Y =2) = 20.

(a) Kernel linear. (b) Kernel radial.

Com a variˆancia de uma popula¸c˜ao bem menor que de outra, o kernel radial parece distinguir melhor os grupos do que utilizando o kernel linear. Ao utilizar SVM para a categoriza¸c˜ao com o kernel radial, foram utilizados 37 vetores de suporte, enquanto com o linear foram necess´arios 45. A propor¸c˜ao de erros com a utiliza¸c˜ao do kernel linear foi de 20%, enquanto utilizando o kernel radial, foi de 15%.

(52)

Tabela 10: Kernel linear ˆ

Y \ Y 1 2

1 7 0

2 4 9

Tabela 11: Kernel radial ˆ

Y \ Y 1 2

1 8 0

2 3 9

4.3

Duas popula¸

oes ambas com duas caracter´ısticas,

uma normal e outra exponencial.

Primeiro foi escolhido analisar duas popula¸c˜oes, simuladas (ver em 9) com duas carac-ter´ısticas, uma seguindo distribui¸c˜ao normal e outra uma distribui¸c˜ao exponencial.

Seja Y ∈ {1, 2} vari´avel aleat´oria referente `a popula¸c˜ao, onde P (Y = 1) = P (Y = 2) = 12. Tem-se que cada uma das caracter´ısticas segue uma distribui¸c˜ao dependente da popula¸c˜ao de origem.

(X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) (X|Y = 2) ∼ Exponencial(λ(X|Y =2)), onde, λ(X|Y =2) = 1

2, 1 10 e

1 25 (Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 1, σ(Z|Y =1)2 ), onde, σ(Z|Y =1)2 = 16 e 100

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2), σ2(Z|Y =2)), onde, σ2(Z|Y =2)= 16 e 100; µ(Z|Y =2) = 2, 10 e 25.

Ser˜ao adotadas como caracter´ıstica 1 e caracter´ıstica 2, X e Z respectivamente.

A finalidade desta se¸c˜ao ´e avaliar se o SVM consegue distinguir bem dois grupos, relacio-nando isso `a variˆancia das caracter´ısticas.

No modelo onde foram estudadas duas popula¸c˜oes: Popula¸c˜ao em preto com:

(X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1)

(Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ2(Z|Y =1)= 16)

Popula¸c˜ao em vermelho com:

(X|Y = 2) ∼ Exponencial(λ(X|Y =2) =

1 2)

(53)

(Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 2, σ2(Z|Y =2)= 16)

Foram utilizados 65 pontos cr´ıticos,

Figura 16: Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal e outra com distribui¸c˜ao Exponencial.

e um erro amostral de 30%.

Tabela 12: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 = 16) e

outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 12) e (Z|Y = 2) ∼

N ormal(µ(Z|Y =2) = 2, σ(Z|Y =2)2 = 16)

ˆ

Y \ Y 1 2

1 3 3

2 3 11

J´a mantendo as caracter´ısticas da popula¸c˜ao em preto, e apenas mudando µ 1

(Z|Y =2) =

λ(X|Y =2) = 101, tem-se: Popula¸c˜ao em preto com

(X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ2(Z|Y =1)= 16) Popula¸c˜ao em vermelho com

(X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 1 10) (Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 10, σ2(Z|Y =2)= 16)

Referências

Documentos relacionados

essenciais a várias espécies. Ademais o Pantanal é considerado um grande reservatório de carbono, devido a prevalência da atividade de organismos anaeróbios tornando a

Artes Cênicas (Ens. Médio) Miria de Fatima Pinto Pereira Departamento de Ensino Profª. Regente - Educação Infantil Miria dos Santos Cerqueira Departamento de Ensino Profª.

Seja pela precisão dos testes genéticos que comprovam a paternidade ou predizem a composição genética do filho que ainda não nasceu, seja pelo apagamento da diferença

O objetivo desse artigo não é induzir o leitor à compra de nenhuma das câmeras expostas nesse trabalho, mas sim, sugerir alguns equipamentos fotográficos

O restante deste trabalho está organizado da seguinte forma: na seção 2 apresentamos uma descrição mais detalhada do método de Monte Carlo, assim como sua

seus medicamentos sem dizer por quê. Apesar disso, muitos pacientes podem sofrer o risco desses fenômenos adversos. Levando-se em conta a variação biológica dos indivíduos,

O projeto agregou os conhecimentos produzidos pelos ativos intelectuais do Instituto Federal de Educação, Ciência e Tecnologia da Paraíba (IFPB) Campus Sousa, para beneficiar

Poderíamos, portanto, sugerir que diante de uma situação clínica onde possa existir dentina afetada por cárie em uma cavidade, a utilização do sistema adesivo