Aprendizado de m´
aquina e aplica¸
c˜
ao do
m´
etodo de aprendizado supervisionado
support vector machine.
Niter´oi - RJ, Brasil 17 de dezembro de 2018
Deborah Cholodoysky Barbedo Pereira
Aprendizado de m´
aquina e aplica¸
c˜
ao
do m´
etodo de aprendizado
supervisionado support vector
machine.
Trabalho de Conclus˜ao de Curso
Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.
Orientadora: Profa.Dra. Karina Yuriko Yaginuma
Niter´oi - RJ, Brasil 17 de dezembro de 2018
Deborah Cholodoysky Barbedo Pereira
Aprendizado de m´
aquina e aplica¸
c˜
ao do
m´
etodo de aprendizado supervisionado
support vector machine.
Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “ Aprendizado de m´aquina e aplica¸c˜ao do m´etodo de aprendi-zado supervisionado support vector machine.”, defendida por Deborah Cholodoysky Barbedo Pereira e aprovada em 17 de dezembro de 2018, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:
Profa.Dra. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF
Prof.Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF
Prof.Dr. Douglas Rodrigues Pinto Departamento de Estat´ıstica – UFF
Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776
Aprendizado de máquina e aplicação do método de aprendizado supervisionado support vector machine. : / Deborah Cholodoysky Barbedo Pereira ; Karina Yuriko Yaginuma, orientadora. Niterói, 2018.
70 f. : il.
Trabalho de Conclusão de Curso (Graduação em
Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2018.
1. Aprendizado de máquina . 2. Aprendizado supervisionado. 3. Support vector machine. 4. Produção intelectual. I. Yaginuma, Karina Yuriko, orientadora. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.
-Aprendizado de m´aquina tamb´em conhecido como aprendizado autom´atico ´e um m´etodo de an´alise de dados que automatiza o desenvolvimento de modelos anal´ıticos. Isto ´e, um algoritmo baseado em t´ecnicas estat´ısticas que a partir de dados de treina-mento possibilita a predi¸c˜ao, espera-se que quanto mais experiˆencias, mais o algoritmo se torne assertivo. Programas de aprendizado de m´aquina s˜ao projetados utilizando m´etodos estat´ısticos como regress˜ao, support vector machine (SVM), ´arvores de classifica¸c˜ao entre outros, objetivando o aprendizado do algoritmo, ´e esperado que as previs˜oes melhorem ao longo do tempo quando exposto a novos dados. Neste trabalho ´e estudado e aplicado o m´etodo supervisionado SVM, em que o programa ´e treinado sobre um conjunto de dados pr´e-definidos nos quais j´a se sabe qual ´e a sa´ıda correta.
Palavras-chaves: aprendizado de m´aquina, aprendizado supervisionado, support vector machine .
Agrade¸co primeiramente a Deus, que sempre ilumina meu caminho, promovendo sem-pre o que sem-preciso na hora certa. Sei que todos os obst´aculos passados foram essenciais para me tornar mais forte e capaz de conquistar o que eu sou, e eternamente confiarei a Ele a minha trajet´oria.
Gostaria de agradecer especialmente minha m˜ae e melhor amiga Miriam C. Luz, por todos os momentos dedicados a mim. Que fez de tudo para tornar este caminho mais brando, que com palavras de incentivo, otimismo e orgulho me deram for¸cas para a conclus˜ao da faculdade.
Obrigada ao meu pai, Jorge Henrique B. Pereira, por ter me dado apoio e for¸ca, auxiliando nos estudos durante fins de semana e feriados, inclusive de mat´erias que n˜ao tinha muito dom´ınio. E tamb´em gostaria de agradecer minha fam´ılia pela paciˆencia e compreens˜ao dos momentos em que tive que estar ausente.
`
A professora Karina Y. Yaginuma minha imensa gratid˜ao pela oportunidade e apoio, n˜ao s´o na elabora¸c˜ao deste complexo e desafiador trabalho de conclus˜ao de curso, como tamb´em no trabalho de inicia¸c˜ao cient´ıfica. Pois com estes trabalhos fui encorajada a bus-car conhecimentos al´em de sala de aula, utilizando como base as aprendizagens adquiridas na universidade.
Tamb´em desejo agradecer aos professores que conseguem irradiar empolga¸c˜ao e o amor pelo Curso de Gradua¸c˜ao em Estat´ıstica durante suas aulas. Vocˆes foram essenciais para a minha forma¸c˜ao, pois amando o que se estuda, o aprendizado de mat´erias t˜ao complexas se torna mais apraz´ıvel e leve.
Aos meus amigos do Or´aculo, n˜ao imagino a faculdade sem vocˆes. Sempre nos apoi-amos nas situa¸c˜oes de desespero universit´ario e nos divertimos nos raros momentos de horas vagas. Fico feliz em ter conhecido vocˆes e em termos levado essa amizade para al´em da faculdade.
Tamb´em sou grata a ENEL, que me concedeu a chance de fazer est´agio. Princi-palmente a Haroldo Carlos P. Giesta, que compreendeu os hor´arios de estudo e que me
Lista de Figuras
Lista de Tabelas
1 Introdu¸c˜ao p. 13
2 Objetivos p. 15
3 Metodologia p. 16
3.1 Cen´ario b´asico . . . p. 16 3.1.1 Introdu¸c˜ao ao aprendizado supervisionado . . . p. 16 3.2 Efetividade do estimador de g . . . p. 17 3.2.1 Minimiza¸c˜ao do risco emp´ırico (MRE) . . . p. 18 3.2.2 MRE com vi´es indutivo . . . p. 19 3.2.3 Classes de hip´oteses finita . . . p. 20 3.3 Aprendizado PAC - Aprendizado provavelmente aproximadamente correto p. 24 3.3.1 PAC Agnostic . . . p. 25 3.4 Contexto da modelagem de aprendizagem . . . p. 27 3.4.1 Medida de sucesso . . . p. 28 3.4.2 Aprendizado PAC Agnostic para fun¸c˜ao geral de perda . . . p. 29 3.5 Aprendizado por convergˆencia uniforme . . . p. 29 3.6 Dimens˜ao VC . . . p. 36 3.7 Support vector machine . . . p. 38
4.1 Duas popula¸c˜oes ambas com caracter´ıstica exponencial . . . p. 43 4.2 Duas popula¸c˜oes ambas com duas caracter´ısticas normais . . . p. 46 4.3 Duas popula¸c˜oes ambas com duas caracter´ısticas, uma normal e outra
exponencial. . . p. 51
5 Conclus˜ao p. 56
Referˆencias p. 57
6 Anexo - Prova da desigualdade p. 58
7 Anexo - Simula¸c˜ao de duas popula¸c˜oes com caracter´ıstica
exponen-cial. p. 60
8 Anexo - Simula¸c˜ao de duas popula¸c˜oes com caracter´ıstica normais. p. 62
9 Anexo - Simula¸c˜ao de duas popula¸c˜oes com duas caracter´ısticas,
uma normal e outra exponencial. p. 65
10 Anexo - Simula¸c˜ao de uma uniforme discreta pelo m´etodo da
Trans-forma¸c˜ao Inversa p. 67
11 Anexo - Simula¸c˜ao de uma exponencial pelo m´etodo da Transforma¸c˜ao
Inversa p. 68
1 Sobreajuste. . . p. 19 2 Exemplo de classifica¸c˜oes bin´arias, sendo que h´a 3 dados representados
em IR2. . . p. 37 3 Exemplo de classifica¸c˜ao bin´aria, sendo que h´a 4 dados representados em
IR2. . . p. 37 4 Poss´ıveis hiperplanos. . . p. 39 5 Margem da m´aquina de vetores de suporte. . . p. 39 6 Mapeamento de dados de entrada para um espa¸co de maior dimens˜ao. p. 40 7 Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial. p. 44 8 Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial. p. 44 9 Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial. p. 45 10 Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial. p. 46 11 Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal. . . p. 47 12 Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal. . . p. 48 13 Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal. . . p. 49 14 Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal. . . p. 50 15 Popula¸c˜ao em preto com σ(X|Y =1) = 5, µ(X|Y =1) = 1, σ(Z|Y =1) = 10 e
µ(Z|Y =1) = 25. Popula¸c˜ao em vermelho com σ(X|Y =2) = 5, µ(X|Y =2) = 5,
σ(Z|Y =2) = 1 e µ(Z|Y =2) = 20. . . p. 50
16 Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal
e outra com distribui¸c˜ao Exponencial. . . p. 52 17 Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal
19 Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal
e outra com distribui¸c˜ao Exponencial. . . p. 55 20 Gr´afico das fun¸c˜oes 1 − x e e−x . . . p. 58
1 M´edia e variˆancia de distribui¸c˜ao pelo λ escolhido. . . p. 43 2 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma
dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma
distribui¸c˜ao Exponencial(λ = 12) . . . p. 44 3 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica Exponencial(λ = 1)
e outra com caracter´ıstica Exponencial λ = 251. . . p. 45 4 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma
dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma
distribui¸c˜ao Exponencial(λ = 501) . . . p. 45 5 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma
dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma
distribui¸c˜ao Exponencial(λ = 1001 ) . . . p. 46 6 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) =
0.5, σ(Z|Y =1) = 1, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas
normais σ(X|Y =2) = 0.5, σ(Z|Y =2) = 1, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . p. 48
7 Y ×Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,
σ(Z|Y =1) = 10, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas
normais σ(X|Y =2) = 5, σ(Z|Y =2) = 10, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . p. 48
8 Y ×Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,
σ(Z|Y =1) = 5, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas
normais σ(X|Y =2) = 5, σ(Z|Y =2) = 5, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20 . . . . p. 49
9 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas normais σ1 = 5,
σ2 = 5, µ1 = 1 e µ2 = 25 e outra com caracter´ısticas normais σ1 = 5,
σ2 = 5, µ1 = 5 e µ2 = 20 . . . p. 50
10 Kernel linear . . . p. 51 11 Kernel radial . . . p. 51
Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1) =
16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 12)
e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 2, σ(Z|Y =2)2 = 16) . . . p. 52
13 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 =
16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 101 )
e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 10, σ2(Z|Y =2) = 16). . . p. 53
14 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 =
16) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 251 )
e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 25, σ2(Z|Y =2) = 16). . . p. 54
15 Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 =
100) e outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 1
25) e (Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 25, σ 2
1
Introdu¸
c˜
ao
Aprendizado de m´aquina, tamb´em conhecido como aprendizado autom´atico, ´e uma t´ecnica de constru¸c˜ao de algoritmos baseados em an´alise estat´ıstica que identifica padr˜oes nos dados de entrada permitindo que o computador retorne uma predi¸c˜ao ou decis˜ao.
Assim como a maioria dos seres vivos adquirem experiˆencia ao longo do tempo com a constante exposi¸c˜ao `a pr´atica e alguns tamb´em ao estudo, a ideia do aprendizado de m´aquina ´e criar algoritmos capazes de aprender com seus erros e experiˆencia. Por exemplo, quando os ratos encontram um alimento com aparˆencia e odor novos, eles provam uma por¸c˜ao reduzida, e a escolha de se alimentar novamente ou n˜ao daquele alimento depender´a do efeito que ir´a causar em seu organismo. Se houver algum efeito negativo no organismo do roedor ap´os a prova do alimento, a comida ser´a associada ao mal-estar e o animal n˜ao se alimentar´a mais da comida com as caracter´ısticas encontradas neste alimento. Deste exemplo, ´e poss´ıvel verificar um mecanismo de aprendizagem, pois a experiˆencia anterior com o alimento afeta a rela¸c˜ao do rato com alimentos de cheiro e sabor semelhantes no futuro.
Algumas vezes os mecanismos de aprendizagem encontram rela¸c˜oes sem sentido ou in´uteis. Tendo como exemplo pombos famintos em uma gaiola da qual existe um sistema que entrega comida aos pombos em intervalos regulares, independentemente do compor-tamento das aves. Depois de um tempo, cada um dos pombos se encontram envolvidos em alguma atividade que acreditam ser a raz˜ao de ter ganhado comida, ao manter a repeti¸c˜ao desta a¸c˜ao eles refor¸cam a associa¸c˜ao da entrega da comida com sua atividade.
Uma caracter´ıstica que distingue o aprendizado do rato ao do pombo ´e a incorpora¸c˜ao de conhecimentos pr´evios que distorcem o mecanismo de aprendizagem, o que ´e chamado de vi´es indutivo. Os pombos com fome est˜ao dispostos a adotar qualquer explica¸c˜ao para a ocorrˆencia de alimentos dentro da gaiola, enquanto os ratos est˜ao familiarizados com a prova de alimentos. Tanto o exemplo do rato quanto o do pombo s˜ao encontrados no livro Understanding Machine Learning: From Theory to Algorithms [1].
Para evitar tirar conclus˜oes de aprendizados incoerentes, ´e necess´ario fornecer princ´ıpios bem definidos ao exportar a tarefa de aprendizado `a m´aquina. O desenvolvimento de tais princ´ıpios, fundamentados a conhecimentos pr´evios, ´e fundamental `a teoria da aprendi-zagem de m´aquina.
O aprendizado autom´atico possui alguns conceitos, dos quais ´e necess´ario compreen-der, pois existem diferentes formas de aprendizagem.
Primeiramente existem duas formas de aprendizagem referente ao m´etodo de apren-dizagem do algoritmo, supervisionado e n˜ao supervisionado. Quando ´e poss´ıvel avaliar a resposta retornada pelo algoritmo, revelando se est´a certo ou errado, o aprendizado ´e definido como supervisionado. J´a no momento em que o algoritmo recebe dados n˜ao rotulados, tendo que descobrir os padr˜oes para dar algum retorno, ´e conhecido por ser aprendizagem n˜ao supervisionada. Tomando como o exemplo Spotify, tem-se pelo m´etodo n˜ao supervisionado as m´usicas sugeridas ao usu´ario com base nas m´usicas j´a ouvidas pelo mesmo no aplicativo, e pelo m´etodo supervisionado a classifica¸c˜ao das m´usicas por tipo musical.
O tipo de aprendizado relativo `a m´aquina pode ser dividido em aprendizado passivo e aprendizado ativo, no primeiro a m´aquina observa apenas as informa¸c˜oes necess´arias, sem interferir no aprendizado, isto ´e, trabalha apenas com as informa¸c˜oes que vem do ambiente. J´a o segundo, a m´aquina interage com o ambiente no momento de seu apren-dizado. Da mesma forma poder´a ser o comportamento do instrutor, ele poder´a ajudar no aprendizado com informa¸c˜oes necess´arias, ou n˜ao interferir´a no aprendizado, apenas deixando-o exposto aos dados.
Primeiro, no cap´ıtulo 2 s˜ao apresentados os objetivos do trabalho, ent˜ao no cap´ıtulo conseguinte ´e apresentada uma introdu¸c˜ao do aprendizado supervisionado. J´a no cap´ıtulo 3.2 s˜ao introduzidos os conceitos de risco de classifica¸c˜ao, risco emp´ırico, MRE, classe de estimadores e tamanho da amostra. No cap´ıtulo 3.3 ´e mostrado que o modelo mais restritivo utilizado at´e o momento se chama aprendizado PAC. Nos cap´ıtulos seguintes s˜ao apresentados modelos cada vez mais gerais.
Depois, em 3.6 ´e inserido o conceito de dimens˜ao-VC, necess´ario para a compreens˜ao do m´etodo SVM. Em seguida, s˜ao aplicados alguns exemplos no programa R [2], utilizando o pacote e1071 [3] para a an´alise da eficiˆencia do m´etodo para diferentes situa¸c˜oes..
2
Objetivos
Na primeira parte do trabalho ´e apresentado o estudo te´orico do m´etodo supervisio-nado onde se pretende compreender as defini¸c˜oes de risco de classifica¸c˜ao e risco emp´ırico utilizado para estudar a efetividade do algoritmo. A partir disto, surge outro t´opico, o tamanho necess´ario para a amostra que possibilite um bom aprendizado. Ent˜ao ´e descrita de forma generalizada alguns dos principais modelos de aprendizagem. A inten¸c˜ao da se-gunda fase do projeto ´e estudar o m´etodo de aprendizado SVM e aplica-lo em diferentes modelos, utilizando a linguagem R [2], e ent˜ao estudar sua efic´acia.
3
Metodologia
3.1
Cen´
ario b´
asico
A seguir, s˜ao apresentadas algumas defini¸c˜oes das quais s˜ao essenciais para a compre-ens˜ao do trabalho.
• Ω: Espa¸co amostral.
• X: Preditor, vari´avel aleat´oria que se deseja classificar, assumindo valores em X . • PX: Distribui¸c˜ao de X,isto ´e, X ∼ PX.
• Y : R´otulo, vari´avel aleat´oria que dependente de X, assumindo valores em Y. • g(X): Fun¸c˜ao de classifica¸c˜ao, fun¸c˜ao g : X → Y que se assume ser existente. • A: Dados de treinamento, A = {(X1, Y1), . . . , (Xn, Yn)} uma amostra da popula¸c˜ao
para treinar o algoritmo.
• ˆg(X): Regra de predi¸c˜ao, ˆg : X → Y ´e a fun¸c˜ao estimada pelo algoritmo, que ir´a rotular os objetos recebidos.
• H: Classe de estimadores.
3.1.1
Introdu¸
c˜
ao ao aprendizado supervisionado
No aprendizado autom´atico supervisionado, tem-se como X o objeto que se deseja classificar, uma vari´avel de entrada do algoritmo. Podem ser vari´aveis aleat´orias cont´ınuas, discretas ou categ´oricas.
A vari´avel de sa´ıda Y do algoritmo ´e chamada de rotulo de X. Inicialmente ´e assumido que h´a rela¸c˜ao entre X e Y , de forma que h´a uma fun¸c˜ao de classifica¸c˜ao desconhecida g,
na qual g : X → Y. Dependendo do tipo de sa´ıda: valores quantitativos, qualitativos ou categ´oricos, a predi¸c˜ao poder´a ser por regress˜ao ou classifica¸c˜ao.
Assumindo X como vari´avel aleat´oria seguindo uma distribui¸c˜ao PX, e admitindo
g(X) = Y , ent˜ao g(X) tamb´em ´e uma vari´avel aleat´oria que segue a distribui¸c˜ao Pg(X).
Por isso a inten¸c˜ao de encontrar a distribui¸c˜ao desconhecida P .
Para construir a regra de previs˜ao ´e necess´ario utilizar dados de treinamento, que ´e uma parcela da amostra. Isto ´e, seja {(X1, g(X1)), . . . , (Xi, g(Xi)), . . . , (Xm, g(Xm))}
uma amostra, e seja m > n, ent˜ao A = {(X1, g(X1)), . . . , (Xi, g(Xi)), . . . , (Xn, g(Xn))} ´e
uma amostra de treinamento utilizada no algoritmo para estimar g.
Na computa¸c˜ao, o estimador para g ´e chamado de hip´otese, e o espa¸co dos poss´ıveis estimadores onde o algoritmo procura um estimador chama-se de espa¸co das poss´ıveis hip´oteses ou classe de hip´oteses.
3.2
Efetividade do estimador de g
Foi visto que o objetivo do aprendizado ´e encontrar uma fun¸c˜ao ˆg que melhor repre-sente a fun¸c˜ao g. Uma vez que h´a apenas a possibilidade de uma amostra de treinamento para a cria¸c˜ao do modelo, pode-se pensar que existem diferentes estimadores de g para cada amostra utilizada, que correspondem `a ´unica fun¸c˜ao desconhecida da popula¸c˜ao real. Por isso ´e necess´ario verificar a efetividade da fun¸c˜ao ˆg escolhida.
Nesta se¸c˜ao ´e apresentado o conceito de risco de classifica¸c˜ao e risco emp´ırico. O risco de classifica¸c˜ao ´e definido como sendo a probabilidade do algoritmo predizer incorreta-mente o r´otulo dos dados amostrados.
Defini¸c˜ao 3.2.1 (Risco de classifica¸c˜ao) Para uma vari´avel aleat´oria X com distribui¸c˜ao PX e fun¸c˜ao de classifica¸c˜ao g, o risco de classifica¸c˜ao ´e definido por:
LPX,g(ˆg) = PX(ˆg(X) 6= g(X)) .
Parece ´obvio dizer que se deve minimizar ao m´aximo o risco de classifica¸c˜ao, mas vale lembrar que a distribui¸c˜ao da vari´avel aleat´oria X e a fun¸c˜ao g s˜ao desconhecidas. Ent˜ao a ´unica possibilidade ´e de calcular o risco amostral.
o risco utilizando a amostra de treinamento, chamada neste caso de risco emp´ırico.
Defini¸c˜ao 3.2.2 (Risco emp´ırico) Seja A = {(X1, Y1), . . . , (Xn, Yn)} uma amostra de
treinamento de tamanho n, X uma vari´avel aleat´oria com distribui¸c˜ao PX e ˆg : X → Y o
estimador da fun¸c˜ao de classifica¸c˜ao, e 1I a fun¸c˜ao indicadora. O risco emp´ırico ´e definido como: LA(ˆg) = n X i=1 1I{ˆg(Xi) 6= Yi} n .
Uma vez que a amostra ´e a representa¸c˜ao dispon´ıvel para estudo da popula¸c˜ao real, ´e coerente buscar um estimador que funcione bem nos dados dispon´ıveis. Ent˜ao, com o risco emp´ırico LA(ˆg) ∈ [0, 1] ´e poss´ıvel ter uma percep¸c˜ao do risco de classifica¸c˜ao, pois
alcan¸cando valores pr´oximos de zero conclui-se que ˆg ´e um bom estimador para a fun¸c˜ao de classifica¸c˜ao g.
3.2.1
Minimiza¸
c˜
ao do risco emp´ırico (MRE)
O intuito do algoritmo ´e encontrar uma estimativa da fun¸c˜ao desconhecida dentre todos os poss´ıveis estimadores do conjunto H que minimize o risco em rela¸c˜ao a g. Isto ´e, tentar encontrar um preditor ˆg que minimize LA(ˆg).
Defini¸c˜ao 3.2.3 (MRE) Seja LA(ˆg) ∈ [0, 1] o risco emp´ırico. O crit´erio de MRE ´e
definido como sendo o ˆg tal que:
M RE(A) = argminˆg∈H LA(ˆg).
Sendo argmin o argumento que minimiza o valor da fun¸c˜ao LA.
Apesar da inten¸c˜ao de encontrar um ˆgA que minimize o risco emp´ırico parecer uma
´
otima ideia, nem sempre um algoritmo que tenha riscos muito baixos ´e de utilidade. Quando o modelo n˜ao observa padr˜oes gerais, seguindo perfeitamente os dados de treino, isto ´e LA(ˆg) = 0, ocorre o que ´e chamado de sobreajuste. No momento em que isto
acontece, o algoritmo n˜ao funciona corretamente para os dados que n˜ao est˜ao presentes na amostra de treinamento, pois ele ´e perfeitamente ajustado apenas para a amostra escolhida.
Figura 1: Sobreajuste.
3.2.2
MRE com vi´
es indutivo
Foi visto na se¸c˜ao anterior que, em geral, um MRE leva a um sobreajuste. ´E necess´ario impor condi¸c˜oes das quais quando o MRE possua um bom desempenho em rela¸c˜ao aos dados de treinamento, muito possivelmente tamb´em tenha bom desempenho entre os outros dados da real distribui¸c˜ao.
O recurso utilizado para evitar o sobreajuste ´e aplicar o MRE em um espa¸co restrito de estimadores, induzido um conjunto particular de preditores, isto ´e restringir o conjunto de estimadores que podem ser utilizadas pelo algoritmo. Estas restri¸c˜oes s˜ao chamadas de vi´es indutivo. A escolha pr´evia da restri¸c˜ao ´e baseada no conhecimento preliminar do problema, apenas depois da escolha da restri¸c˜ao o algoritmo poder´a entrar em contato com os dados de treinamento.
Sendo os dados de treinamento A = {(X1, Y1), . . . , (Xn, Yn)} de tamanho n, a ideia
´e encontrar o ˆgA com o menor risco emp´ırico que n˜ao sofra sobreajuste, a subscri¸c˜ao
“A”enfatiza que o estimador do algoritmo depende da amostra utilizada. Ent˜ao, o objetivo ´e escolher como o melhor preditor o que estiver dentro da classe de hip´otese restrita H que minimize o risco emp´ırico para a amostra “A”.
ˆ
gA = M REH(A),
onde M REH(A) ´e o MRE aplicado na amostra A em um espa¸co restrito de
estima-dores, isto ´e, o MRE com vi´es indutivo.
um sobreajuste, ´e poss´ıvel que, ao restringir muito a classe das poss´ıveis estimadores, a opini˜ao pr´evia do problema atinja uma relevˆancia muito maior que o desejado, afetando negativamente o resultado do aprendizado do algoritmo.
Ent˜ao a escolha da classe de hip´oteses n˜ao basta para garantir que o M REH n˜ao
levar´a a um sobreajuste. Assim sendo, ´e necess´ario buscar quais classes de hip´otese que provavelmente n˜ao resultam em um sobreajuste.
3.2.3
Classes de hip´
oteses finita
Nesta se¸c˜ao ´e mostrado que, para classe de estimadores finita, o M REH
provavel-mente n˜ao levar´a a um sobreajuste sob condi¸c˜ao de que seja baseado em um conjunto de treinamento suficientemente grande, onde o tamanho da amostra depende de |H|.
Para restringir a classe de estimadores, ´e imposto um limite superior em seu tamanho, limitando o n´umero de preditores ˆg em H.
A princ´ıpio, ´e realizada uma suposi¸c˜ao da qual ser´a desconsiderada mais a diante. Suponha que a fun¸c˜ao desconhecida g pode ser fielmente representada por uma fun¸c˜ao ˆg∗ dentro da classe de estimadores H, isto ´e:
LPX,g(ˆg
∗
) = 0, ou seja,
PX(ˆg∗(X) 6= g(X)) = 0 .
Esta suposi¸c˜ao ´e chamada de suposi¸c˜ao realiz´avel. A intui¸c˜ao desta suposi¸c˜ao ´e que h´a uma garantia da presen¸ca de uma fun¸c˜ao ˆg∗ em que o risco de classifica¸c˜ao ´e zero.
Defini¸c˜ao 3.2.4 (Suposi¸c˜ao realiz´avel): Seja o risco de classifica¸c˜ao LPX,g, sendo PX a
distribui¸c˜ao desconhecida da popula¸c˜ao real. Ent˜ao, existe ˆg ∈ H tal que LPX,g(ˆg
∗) = 0.
Como A = {(X1, g(X1)), . . . , (Xn, g(Xn))} ´e uma amostra aleat´oria da popula¸c˜ao
de estudo, sendo X1, X2, . . . , Xn vari´aveis aleat´orias independentes e identicamente
dis-tribu´ıdas com distribui¸c˜ao PX , ´e vi´avel calcular a probabilidade do erro emp´ırico de ˆg∗
P (LA(ˆg∗) = 0) = P (A : LA(ˆg∗) = 0) = P Pn i=11I {ˆg ∗(X i) 6= g(Xi)} n = 0 = P (ˆg∗(Xi) = g(Xi) ∀i = 1, · · · , n) = n Y i=1 P (ˆg∗(Xi) = g(Xi)) = n Y i=1 (1 − P (ˆg∗(Xi) 6= g(Xi))) = n Y i=1 (1 − 0) = 1. Portanto, se P (LPX,g(ˆg ∗) = 0) = 1, ent˜ao P (L A(ˆg∗) = 0) = 1.
Pela suposi¸c˜ao realiz´avel, a probabilidade de existir uma amostra aleat´oria A, tal que LA(ˆg∗) = 0 ´e igual a 1.
Seja ε o parˆametro de precis˜ao, ε ∈ (0, 1), quando LPX,g(ˆg) ≤ ε, ´e dito que ˆg parece
ser um bom estimador para g, caso LPX,g(ˆg) > ε, ´e dito que houve falha de aprendizagem.
Por conseguinte, define-se o conjunto dos estimadores ruins da seguinte forma:
Defini¸c˜ao 3.2.5 (Conjunto dos estimadores ruins): Seja H o conjunto finito dos esti-madores, ˆg a regra de predi¸c˜ao, LPX,g o risco de classifica¸c˜ao e ε o parˆametro de precis˜ao.
O conjunto dos estimadores ruins HB, ´e definido por
HB= {ˆg ∈ H : LPX,g(ˆg) > ε}.
Suponha que ao calcular o risco emp´ırico de um estimador pertencente ao conjunto dos estimadores ruins o retorno seja zero. Isto s´o pode ocorrer caso a amostra utilizada n˜ao represente o real comportamento da popula¸c˜ao, este tipo de amostra ´e chamada de amostra ilus´oria.
Defini¸c˜ao 3.2.6 (Conjunto das amostras ilus´orias): Seja A = {(X1, Y1), . . . , (Xn, Yn)}
risco emp´ırico. O conjunto das amostras ilus´orias ´e denotado por M , definido por M = {A : ∃ˆgA∈ HB | LA(ˆgA) = 0}. Note que, M = [ ˆ gA∈HB {A : LA(ˆgA) = 0}.
Uma vez que a suposi¸c˜ao realiz´avel implica que existe um estimador ˆg ∈ HB tal que
LA(ˆgA) = 0, o evento LPX,g(ˆgA) > ε quando LA(ˆgA) = 0 ocorre apenas se for utilizada
uma amostra que n˜ao representa toda a popula¸c˜ao, isto ´e, uma amostra pertencente ao conjunto M .
Note que:
{A : LPX,g(ˆgA) > ε} ⊆ M .
´
E sabido que apesar de A = {(X1, Y1), . . . , (Xn, Yn)} ser uma amostra aleat´oria, sendo
X1, . . . Xn vari´aveis aleat´orias independentes identicamente distribu´ıdas com distribui¸c˜ao
PX, sempre existe a possibilidade de ser adotada uma amostra n˜ao representativa.
Se a probabilidade de uma amostra n˜ao representativa ´e denotada por α, e conside-rando ˆgA o estimador que minimiza o erro emp´ırico. Pode ser escrito o seguinte com o
objetivo de limitar a probabilidade de ocorrer uma falha de aprendizagem:
P (A : LPX,g(ˆgA) > ε) ≤ α .
Mas antes ´e necess´ario fazer as seguintes considera¸c˜oes:
1. Lema 3.2.1 (Limite da uni˜ao): Para quaisquer conjuntos A, B e uma distribui¸c˜ao P, tem-se que P (A ∪ B) ≤ P (A) + P (B).
Ent˜ao da defini¸c˜ao dos estimadores ruins que parecem bons:
P [ ˆ g∈HB {A : LA(ˆg) = 0} ! ≤ X ˆ g∈HB P ({A : LA(ˆg) = 0})
2. Considere a seguinte inequa¸c˜ao, 1 − ≤ e− , ∀ , est´a provada no anexo do cap´ıtulo 6.
in-forma¸c˜oes s˜ao utilizadas da seguinte forma:
1 − LPX,g( ˆgA) ≤ 1 − ε ≤ e
−ε
.
Utilizando as considera¸c˜oes acima, ´e colocado um limite superior na probabilidade de amostra n˜ao representativa. P ({A : LPX,g(ˆgA) > ε}) ≤ P (M ) = P [ ˆ g∈HB {A : LA(ˆgA) = 0} ! ≤ X ˆ g∈HB P (A : LA(ˆgA) = 0)) = X ˆ g∈HB P (ˆgA(X1) = g(X1), . . . , ˆgA(Xn) = g(Xn)) = X ˆ g∈HB n Y i=1 P (ˆgA(Xi) = g(Xi)) = X ˆ g∈HB n Y i=1 (1 − LP,g(ˆgA)) ≤ X ˆ g∈HB (1 − ε)n ≤ X ˆ g∈HB e−εn = |HB|e−εn ≤ |H|e−εn
Ent˜ao se tem o seguinte:
P ({A : LPX,g(ˆgA) > ε}) ≤ |H|e
−εn ≤ α
|H|e−εn ≤ α e−εn ≤ α |H| ln e−εn ≤ ln α |H| −εn ≤ ln α |H| εn ≥ ln |H| α n ≥ ln|H|α ε .
Ent˜ao sendo H uma classe de estimadores finita, α ∈ (0, 1), ε ∈ (0, 1) e n pertencente aos inteiros positivos, o tamanho m´ınimo da amostra pode ser definido:
n ≥
ln|H|α
ε .
Percebe-se que o tamanho da amostra independe da distribui¸c˜ao desconhecida de X e da fun¸c˜ao classificadora.
Relembrando que o objetivo da se¸c˜ao 3.2.3 era mostrar que se H ´e uma classe de estimadores finita, ent˜ao M REH provavelmente n˜ao sofrer´a sobreajuste, se baseado em
um conjunto de treinamento suficientemente grande. Foi obtido o seguinte: P ({A : LPX,g(ˆgA) > ε}) ≤ α,
para n ≥ ln(
|H| α )
ε .
3.3
Aprendizado PAC - Aprendizado provavelmente
aproximadamente correto
Na se¸c˜ao anterior, foi visto que se o MRE em rela¸c˜ao `a classe de hip´otese finita for aplicado em uma amostra de treinamento suficientemente grande, ent˜ao com probabili-dade (1 − α) a hip´otese de sa´ıda estar´a correta considerando uma precis˜ao ε. Utilizando esta informa¸c˜ao, nesta se¸c˜ao ´e vista a defini¸c˜ao do conceito de aprendizado provavelmente
aproximadamente correto (aprendizado PAC).
A complexidade amostral representa o tamanho da amostra de treinamento necess´ario a evitar com probabilidade maior ou igual a α que ocorra falha de aprendizagem.
Defini¸c˜ao 3.3.1 (Complexidade Amostral) Dado ε, α ∈ (0, 1), toda classe de estimadores finita H ´e PAC com complexidade amostral se:
nH(ε, α) =
ln|H|α ε
A fun¸c˜ao nH : (0, 1)2 → IN∗ determina a complexidade amostral do conjunto de
estimadores finito H, o objetivo ´e que para qualquer ε, α, a complexidade amostral seja o menor inteiro que satisfa¸ca as condi¸c˜oes de aprendizado PAC.
Defini¸c˜ao 3.3.2 (Aprendizado PAC): Para X ∼ PX e g : X → {0, 1}. A classe H ´e
PAC-aprend´ıvel se:
1. A suposi¸c˜ao realiz´avel ´e satisfeita.
2. ∃ nH : (0, 1)2 → IN, tal que para ε e α ∈ (0, 1), se n ≥ nH(ε, α), o algoritmo retorna
ˆ
g, que satisfaz:
P (LPX,g(ˆg) ≤ ε) ≥ 1 − α .
O aprendizado PAC ´e uma estrutura para an´alise matem´atica do aprendizado de m´aquina. O objetivo ´e definir a quantidade de dados necess´ario amostrar para o algoritmo gerar uma fun¸c˜ao ˆg que consegue encontra os verdadeiros r´otulos com no m´aximo um erro de ε com uma probabilidade m´ınima especifica (1 − α).
Vale ressaltar que na defini¸c˜ao do aprendizado PAC a rotulagem ´e bin´aria, algo que at´e o momento n˜ao tinha sido imposto.
3.3.1
PAC Agnostic
A suposi¸c˜ao realiz´avel ´e muito forte para assumir que ela ser´a verdadeira para todos os problemas, tamb´em ´e muito inflex´ıvel `a ideia de uma fun¸c˜ao de classifica¸c˜ao que a partir de um valor possa corretamente retornar um ´unico e exato r´otulo. Ent˜ao no PAC Agnostic ´e assumido que os r´otulos n˜ao s˜ao totalmente determinados pelos preditores.
Agora a suposi¸c˜ao realiz´avel ´e relaxada e a fun¸c˜ao de classifica¸c˜ao g : X → Y vista at´e agora ´e substitu´ıda por uma fun¸c˜ao mais flex´ıvel. Assume-se que X e Y s˜ao vari´aveis aleat´orias em distribui¸c˜ao conjunta dada por (X, Y ) ∼ P
O risco de classifica¸c˜ao ´e redefinido para PAC Agnostic. Visando mensurar o quanto o ˆg pode estar errado de uma distribui¸c˜ao desconhecida P sobre X e Y.
Defini¸c˜ao 3.3.3 (Risco de classifica¸c˜ao do PAC agnostic) Para as vari´aveis aleat´orias X e Y com distribui¸c˜ao conjunta (X, Y ) ∼ P e regra de predi¸c˜ao ˆg, o risco de classifica¸c˜ao do PAC agnostic ´e definido por:
LPX,Y,g(ˆg) = P ({(X, Y ) : ˆg(X) 6= Y }) .
Vale salientar que no risco de classifica¸c˜ao na defini¸c˜ao dada no cap´ıtulo 3.2, foi utilizado g(X), enquanto agora na defini¸c˜ao do risco de classifica¸c˜ao do modelo PAC agnostic n˜ao ´e assumido Y como um valor retornado de uma fun¸c˜ao de classifica¸c˜ao pr´e determin´ıstica de X.
Lembrando que caso o risco real n˜ao possa ser calculado, o risco poder´a ser calculado pela amostra, chamado de risco emp´ırico do PAC agnostic. Considerando uma amostra de tamanho n, o risco para o modelo PAC Agnostic ser´a definido como anteriormente no cap´ıtulo 3.2:
Defini¸c˜ao 3.3.4 (Risco emp´ırico do PAC agnostic) Seja A = {(X1, Y1), . . . , (Xn, Yn)}
uma amostra de treinamento de tamanho n, X e Y vari´aveis aleat´orias com distribui¸c˜ao conjunta (X, Y ) ∼ P e regra de predi¸c˜ao ˆg. O risco emp´ırico do PAC agnostic ´e definido como:
LA(ˆg) =
Pn
i=11I{ˆg(Xi) 6= Yi}
n .
Defini¸c˜ao 3.3.5 (Aprendizado PAC Agnostic): Para (X, Y ) ∼ P , a classe H ´e PAC-agnostic se ∃ nH : (0, 1)2 → IN, tal que para ε, α ∈ (0, 1) e uma amostra maior que a
complexidade amostral nH, o algoritmo fornece ˆg tal que:
P LP (ˆg) ≤ mingˆ0∈HLP
ˆ
Percebe-se pela defini¸c˜ao que o aprendizado PAC Agnostic n˜ao est´a limitado a uma classifica¸c˜ao bin´aria, outro avan¸co proveniente da fun¸c˜ao de distribui¸c˜ao conjunta.
Apesar da suposi¸c˜ao realiz´avel n˜ao ser assegurada, o algoritmo encontrar´a um bom preditor se o risco de classifica¸c˜ao do mesmo n˜ao for maior que ε do melhor risco de classifica¸c˜ao poss´ıvel da classe H. E poss´ıvel observar que por esta generaliza¸c˜´ ao do aprendizado PAC, o parˆametro de precis˜ao ´e relativo ao menor risco de classifica¸c˜ao que a classe de estimadores possa alcan¸car.
3.4
Contexto da modelagem de aprendizagem
´
E desej´avel um modelo que possa ser aplicado a uma extensa variabilidade de tarefas de aprendizagem. Como mencionado anteriormente ´e interessante atingir uma capacidade de classifica¸c˜ao ampla, pois ´e necess´ario se empenhar em resolver problemas reais.
´
E pertinente lembrar que no cap´ıtulo 3.1.1 foi dito que dependendo do tipo de sa´ıda do algoritmo a predi¸c˜ao iria ser definida por regress˜ao ou classifica¸c˜ao. Neste ponto s˜ao considerados alguns exemplos de diferentes tarefas de aprendizado.
• Classifica¸c˜ao estat´ıstica
Tendo um espa¸co amostral e conjunto de r´otulos definidos, o objetivo ´e que o al-goritmo seja capaz de identificar a qual categoria o preditor pertence, baseado no conjunto de dados dos quais o r´otulo ´e conhecido. Isto ´e, procura encontrar rela¸c˜ao entre as vari´aveis de entrada e a vari´avel de sa´ıda Y , onde Y ´e uma vari´avel ca-teg´orica.
Para a medida de sucesso ´e adotado a propor¸c˜ao de acertos do preditor. • Modelo de Regress˜ao
A finalidade ´e de encontrar padr˜ao nos dados amostrados para a cria¸c˜ao de um modelo probabil´ıstico capaz de expressar a rela¸c˜ao entre as vari´aveis de interesse. Isto ´e, procura encontrar rela¸c˜ao entre as vari´aveis de entrada X e a vari´avel de sa´ıda Y , onde X e Y s˜ao vari´aveis num´ericas.
Para a medida de sucesso ´e adotada a avalia¸c˜ao da qualidade da fun¸c˜ao estimada com o uso do erro quadr´atico m´edio.
LP(ˆg) = E(X,Y )(ˆg − Y )2
.
3.4.1
Medida de sucesso
Para acobertar a gama de tarefas de aprendizagem, as medidas de sucesso devem ser generalizadas. Diante disso, ´e utilizada uma fun¸c˜ao, chamada de fun¸c˜ao de perda, que tem o prop´osito de penalizar pela imprecis˜ao das predi¸c˜oes.
Dado um conjunto qualquer H e um dom´ınio (X , Y), uma fun¸c˜ao l ´e uma fun¸c˜ao de perda, se l : H × (X , Y) → IR+.
Note que o conceito de fun¸c˜ao de perda vai al´em das tarefas de aprendizagem, permi-tindo (X , Y) a ser qualquer dom´ınio de exemplos.
A fun¸c˜ao de perda ´e capaz de aferir em ponto de dados, predi¸c˜oes e classifica¸c˜oes. Como pode ser visto nos exemplos que segue.
Exemplo 3.4.1 (Fun¸c˜ao de perda quadr´atica) Geralmente utilizada em problemas de re-gress˜ao, ´e calculada da seguinte forma:
lsq(ˆg, Z) = (ˆg − Y )2,
em que z uma vari´avel aleat´oria tal que Z ∈ Z, sendo Z o conjunto (X , Y).
Exemplo 3.4.2 (Fun¸c˜ao de perda 0-1) Geralmente utilizada em problemas de classi-fica¸c˜ao, ´e calculada da seguinte forma:
l0−1(ˆg, Z) =
(
0 , se ˆg = Y 1 , caso contr´ario
em que z uma vari´avel aleat´oria tal que Z ∈ Z, sendo Z o conjunto (X , Y). ´
E chamada de fun¸c˜ao de risco a esperan¸ca da fun¸c˜ao de perda de ˆg ∈ H sobre o dom´ınio Z que segue uma distribui¸c˜ao P .
Defini¸c˜ao 3.4.1 (Fun¸c˜ao do risco) Dado ˆg ∈ H, um dom´ınio (X, Y ) ∼ P e uma fun¸c˜ao de perda l : H × (X , Y) → IR+, a fun¸c˜ao de risco ´e definida como
LP(ˆg) = E [l(ˆg, (X, Y ))] .
´
E interessante observar que as defini¸c˜oes de risco de classifica¸c˜ao PAC Agnostic (3.3.1) e da fun¸c˜ao de risco (3.4.1) coincidem ao admitir a fun¸c˜ao de perda 0-1.
E [l0−1(ˆg, Z)] = 0 × P (l0−1(ˆg, (X, Y )) = 0) + 1 × P (l0−1(ˆg, (X, Y )) = 1)
= P (l0−1(ˆg, (X, Y )) = 1)
= P (h(X) 6= Y )
Sempre lembrando que ´e disposto apenas amostras para os c´alculos, ent˜ao ´e define-se como risco emp´ırico a perda esperada sobre uma amostra.
Defini¸c˜ao 3.4.2 (Risco emp´ırico da fun¸c˜ao de perda) Seja (X, Y ) ∼ P , A = ((X1, Y1), . . . , (Xn, Yn))
uma amostra aleat´oria de tamanho n e l : H × (X , Y) → IR+ uma fun¸c˜ao de perda. ´E
definido como risco emp´ırico da fun¸c˜ao de perda LA(ˆg) = 1 n n X i=1 l (ˆg, Xi, Yi) .
3.4.2
Aprendizado PAC Agnostic para fun¸
c˜
ao geral de perda
Nesta se¸c˜ao ´e inserida a medida de sucesso generalizada no aprendizado PAC Agnostic para torn´a-lo mais abrangente. Por isso, agora o aprendizado PAC Agnostic ´e redefinido para aprendizado PAC Agnostic para fun¸c˜ao geral de perda.
Defini¸c˜ao 3.4.3 (PAC Agnostic para fun¸c˜ao geral de perda): Para (X, Y ) ∼ P , a classe H ´e PAC-agnostic se em rela¸c˜ao a um conjunto (X , Y) e uma fun¸c˜ao de perda lH :
(X , Y) → IR+, se ∃ nH : (0, 1)2 → IN tal que para ε, α ∈ (0, 1) e uma amostra maior que
a complexidade amostral, o algoritmo fornece ˆg tal que:
P E(X,Y )∼P [l(ˆg, X, Y )] ≤ minˆg0∈HE(X,Y )∼P
h
l(ˆg0, X, Y )i+ ε≥ 1 − α .
3.5
Aprendizado por convergˆ
encia uniforme
At´e ent˜ao foi visto que dado uma classe de estimadores H, quando o algoritmo recebe uma amostra A, o mesmo avalia o risco de cada ˆgA em H e retorna o estimador que
minimiza o risco emp´ırico. Mas al´em de procurar o MRE, ´e tamb´em relevante garantir que o risco emp´ırico de todos integrantes de H sejam boas aproxima¸c˜oes do risco real.
Neste cap´ıtulo, ´e utilizada convergˆencia uniforme para mostrar que uma classe de hip´otese ´e PAC agnostic aprend´ıvel com uma fun¸c˜ao de perda geral uma vez que a abrangˆencia da fun¸c˜ao de perda seja limitada.
Primeiramente ´e necess´ario definir o conceito de amostra ε-representativa.
Defini¸c˜ao 3.5.1 (Amostra ε-representativa) Com uma classe de hip´otese H, uma fun¸c˜ao de perda l e (X, Y ) ∼ P , uma amostra A ´e chamada de ε-representativa se:
∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| ≤ ε .
A proposta desta defini¸c˜ao ´e de chamar de amostra ε-representativa, a amostra em que o risco emp´ırico n˜ao seja muito diferente da real fun¸c˜ao de risco, sendo o valor desta diferen¸ca apenas menor ou igual a um ε.
Da defini¸c˜ao, se A ´e uma amostra ε2-representativa, ent˜ao para ˆgA= ming∈HLA(ˆg) ∈
H:
|LA(ˆgA) − LP(ˆgA)| ≤
ε 2 . Ent˜ao se tem o seguinte,
−ε 2 ≤ LA(ˆgA) − LP(ˆgA) ≤ ε 2 −ε 2 − LA(ˆgA) ≤ −LP(ˆgA) ≤ ε 2− LA(ˆgA) LA(ˆgA) − ε 2 ≤ LP(ˆgA) ≤ LA(ˆgA) + ε 2 =⇒ LP(ˆgA) ≤ LA(ˆgA) + ε 2 ´
E pertinente fazer a seguinte considera¸c˜ao: ∀ˆg ∈ H, se ˆgA´e um MRE e ˆg
0
que retorna o menor risco de classifica¸c˜ao poss´ıvel, ent˜ao LA(ˆgA) ≤ LA
ˆ g0 .
Importante tamb´em considerar que,
−ε 2 ≤ LA ˆ g0− LP ˆ g0≤ ε 2 LP ˆ g0 − ε 2 ≤ LA ˆ g0 ≤ LP ˆ g0 +ε 2 LP ˆ g0≤ LA ˆ g0+ ε 2 ≤ LP ˆ g0+ε 2 + ε 2 LP ˆ g0≤ LA ˆ g0+ ε 2 ≤ LP ˆ g0+ ε E consequentemente segue: LP(ˆgA) ≤ LA(ˆgA) + ε 2 ≤ LA ˆ g0+ε 2 ≤ LP ˆ g0+ ε = minˆg∈HLP(ˆg) + ε
Lema 3.5.1 Assumindo que uma amostra A ´e uma amostra ε2-representativa em uma classe de hip´otese H, com uma fun¸c˜ao de perda l e (X, Y ) ∼ P , ent˜ao o M REˆg(A)
satisfaz a seguinte inequa¸c˜ao:
LP(ˆgA) ≤ mingˆ0∈HLP ˆ g0 + ε .
Deste lema, se a amostra ´e ε2-representativa ent˜ao a regra de predi¸c˜ao ˆgA ∈ H ´e um
aprendizado PAC Agnostic. ´
uma vez que possui a propriedade de convergˆencia uniforme para a classe de hip´otese finita.
Nesta se¸c˜ao ´e mostrado que se H possui propriedade da convergˆencia uniforme, ent˜ao ele ´e PAC-Agnostic
Para quaisquer ε e α, ´e necess´ario encontrar uma amostra da popula¸c˜ao (X, Y ) ∼ P de tamanho n, que garanta que:
P ({A : ∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| ≤ ε}) ≥ 1 − α
ou
P ({A : ∀ˆg ∈ H, |LA(ˆg) − LP(ˆg)| > ε}) < α ,
ou seja, ´e ε−representativa com probabilidade de pelo menos (1 − α). Primeiramente se faz necess´ario tomar as seguintes considera¸c˜oes:
1. Novamente ´e utilizado o teorema do limite da uni˜ao que foi visto em 3.2.3 . Onde se conseguiu o seguinte resultado:
P [ ˆ g∈HB {A : |LA(ˆg) − LD(ˆg)| > ε} ! ≤ X ˆ g∈HB P ({A : |LA(ˆg) − LD(ˆg)| > ε}) .
2. Para qualquer ˆg fixado, a diferen¸ca entre o risco real e o emp´ırico ´e razoavelmente pequeno. Pois de tem-se:
LD(ˆg) = EZ∼P[lgˆ(Z)] = µ LA(ˆg) = 1 n n X i=1 lgˆ(Zi),
onde Z = (X, Y ), sendo Zi uma amostra aleat´oria independente e identicamente
distribu´ıda seguindo uma distribui¸c˜ao P. Pode-se perceber que lˆg(Zi) tamb´em ´e uma
vari´avel aleat´oria independente e identicamente distribu´ıda. Sendo assim, ´e r´apido provar que 1nPn
E " 1 n n X i=1 lˆg(Zi) # = 1 nE " n X i=1 lˆg(Zi) # = 1 n n E[lgˆ(Zi)] = µ
E pela lei dos grandes n´umeros, quanto maior o tamanho da amostra, mais a m´edia amostral calculada se aproxima da m´edia real da popula¸c˜ao.
3. Lema 3.5.2 (Desigualdade de Hoeffding ) Seja lˆg(Z1), . . . , lgˆ(Zn) vari´aveis aleat´orias
independentes e identicamente distribu´ıdas, e considere que ∀i, E[lgˆ(Zi)] = µ e
P (a ≤ lgˆ(Zi) ≤ b) = 1. Ent˜ao para qualquer ε > 0:
P " 1 n n X i=1 lˆg(Zi) − µ > ε # ≤ 2 e−2n ε2(b−a)2 .
Com as considera¸c˜oes abordadas, ´e poss´ıvel colocar um limite superior na probabilidade de uma amostra que n˜ao seja ε-representativa.
P ({A : ∃ˆg ∈ H, |LA(ˆg) − LD(ˆg)| > ε}) = P [ ˆ g∈HB {A : |LA(ˆg) − LD(ˆg)| > ε} ! ≤ X ˆ g∈HB P ({A : |LA(ˆg) − LD(ˆg)| > ε}) = X ˆ g∈HB P 1 n n X i=1 lˆg(Zi) − µ > ε ! ≤ X ˆ g∈HB 2 e −2n ε2 (b−a)2 = 2 |H| e −2n ε2 (b−a)2
2 |H| e −2n ε2 (b−a)2 ≤ α e −2n ε2 (b−a)2 ≤ α 2 |H| −2n ε2 (b − a)2 ≤ ln α 2 |H| n ≥ (b − a)2 ln α 2 |H| −2 ε2
Ent˜ao sendo H uma classe de estimadores finita, α ∈ (0, 1), ε > 0 e n pertencente aos inteiros positivos, o tamanho m´ınimo da amostra pode ser definido:
n ≥
(b − a)2 ln α 2 |H|
−2 ε2 .
Corol´ario 3.5.1 Seja H uma hip´otese finita, Z o dom´ınio e lH(Z) → [a, b] a fun¸c˜ao
de perda. Ent˜ao o H possui a propriedade de convergˆencia uniforme com complexidade amostral dada por,
nU CH (ε, α) = (b − a)2 ln2 |H| α 2 ε2 .
Al´em disso, ´e provado a seguir que a classe ´e PAC Agnostic aprend´ıvel usando o algoritmo MRE com a complexidade amostral:
nH(ε, α) ≤ nU CH ε 2, α = 2 ln2 |H|α ε2 .
nH(ε, α) nU C H ε 2, α = ln(|H|α ) ε ln(2|H|α ) 2(ε2)2 = ln(|H|α ) ε 2ln(2|H|α ) ε2 = ln|H|α ε × ε2 2ln2|H|α = ε 2× ln(|H|) − ln(α) ln(2) + ln(|H|) − ln(α)
Lembrando que α ∈ (0, 1), ent˜ao −ln(α) > 0. Se ln(|H|) − ln(α) = w, ent˜ao
nH(ε, α) nU C H ε 2, α = ε 2× w ln(2) + w.
Note que ε ∈ (0, 1), ent˜ao 0 < 2ε < 1. Como 0 < w < w + ln(2) e w+ln(2)w toma valores positivos menores que 1, temos que:
nH(ε, α) nU C H ε 2, α < 1,
o que prova que nH(ε, α) < nU CH ε 2, α .
Defini¸c˜ao 3.5.2 (Convergˆencia Uniforme): Sejam (X, Y ) ∼ P e l uma fun¸c˜ao de perda. A classe H tem a propriedade de convergˆencia uniforme se ∃ nU C
H : (0, 1)2 → IN, tal que
para todo ε, α ∈ (0, 1) e para uma amostra, i.i.d com distribui¸c˜ao P , de tamanho maior que a complexidade amostral nU C
H (ε, α), tem-se:
P (LP( ˆgA) ≤ mingˆ0∈HLP
ˆ
Ou seja, com probabilidade de pelo menos 1 − α a amostra ´e ε-representativa.
Se a propriedade de convergˆencia uniforme ´e assegurada para uma classe de estima-dores H, ent˜ao, na maioria dos casos, os riscos emp´ıricos representam o risco real.
Corol´ario 3.5.2 Se a classe H possui a propriedade de convergˆencia com a complexidade da amostra obtida pela propriedade de convergˆencia uniforme, ent˜ao a classe de hip´otese ´e PAC agnostic aprend´ıvel com complexidade amostral
nH(ε, α) ≤ nU CH
ε 2, α
.
A fun¸c˜ao nU CH mede a complexidade da amostra obtida pela propriedade de con-vergˆencia uniforme, isto ´e, mensura quantos exemplos s˜ao necess´arios para assegurar que com probabilidade de pelo menos 1 − α a amostra seja ε-representativa.
3.6
Dimens˜
ao VC
A defini¸c˜ao de aprendizado PAC carece que a fun¸c˜ao de perda seja limitada. Mas a hip´otese finita n˜ao ´e uma condi¸c˜ao para o aprendizado, pois classes infinitas podem ser aprend´ıveis.
Vladimir Vapnik e Alexey Chervonenkis em 1970 [4] se baseiam em uma no¸c˜ao com-binat´oria chamada de dimens˜ao Vapnik-Chervonenkis (dimens˜ao VC), onde a dimens˜ao VC de um conjunto F de fun¸c˜oes possui a cardinalidade do maior conjunto que possa ser dividido por f ∈ F . Disto, ´e poss´ıvel perceber que o tipo das fun¸c˜oes determina a dimens˜ao VC.
Para apresentar a caracteriza¸c˜ao da classe aprend´ıvel na configura¸c˜ao de classifica¸c˜ao de valor bin´ario com fun¸c˜ao de perda 0-1, esta dimens˜ao ´e definida como o n´umero m´aximo de elementos que podem ser particionados em dois subconjuntos.
Defini¸c˜ao 3.6.1 (Vapnik e Chervonenkis (1971) - Dimens˜ao VC de um conjunto de fun¸c˜oes indicadoras [5]) A dimens˜ao VC de um conjunto de fun¸c˜oes indicadoras, ´e o n´umero m´aximo h de elementos, dos quais podem ser separados de 2h formas diferentes,
isto ´e, a cardinalidade do maior subconjunto, sendo que 2h ´e o n´umero m´aximo de divis˜oes
Para melhor explicar a defini¸c˜ao da dimens˜ao Vapnik-Chervonenkis utiliza-se o exem-plo encontrado em [6], onde dado um problema de classifica¸c˜ao bin´ario ´e poss´ıvel verificar o n´umero m´aximo de exemplos onde trˆes dados representados podem ser separados em dois subconjuntos por fun¸c˜oes linear.
Figura 2: Exemplo de classifica¸c˜oes bin´arias, sendo que h´a 3 dados representados em IR2.
Deste exemplo ´e obtido 23, isto ´e, 8 combina¸c˜oes bin´arias de r´otulos.
Um hiperplano se refere a um plano (k-1)-dimensional em IRk, isto posto, em um plano, o hiperplano ´e caracterizado por uma reta. Como neste exemplo, a dimens˜ao VC para hiperplano ´e trˆes. Generalizando em k-dimens˜oes, um hiperplano em IRk ´e capaz de partir qualquer conjunto de h = k + 1 pontos linearmente independentes.
´
E poss´ıvel notar na figura 3 que para quatro pontos ´e necess´ario recorrer a fun¸c˜oes mais complexas do que retas para a classifica¸c˜ao bin´aria.
Figura 3: Exemplo de classifica¸c˜ao bin´aria, sendo que h´a 4 dados representados em IR2.
Tomando como base a dimens˜ao VC, foi estabelecido o princ´ıpio indutivo Minimiza¸c˜ao do risco estrutural (SRM do inglˆes “Structural Risk Minimization”), do qual tem o
ob-jetivo equilibrar a complexidade do modelo em rela¸c˜ao ao seu sucesso na adequa¸c˜ao dos dados de treinamento finitos, assim evitando que ocorra um sobreajuste. O SRM possi-bilita a compensa¸c˜ao entre a complexidade do espa¸co de hip´otese e seu erro emp´ırico.
Com o numero m´aximo h de observa¸c˜oes que podem ser separadas, ´e poss´ıvel fornecer uma maneira de estimar o limite superior do erro.
Defini¸c˜ao 3.6.2 (Limite do risco esperado com dimens˜ao VC) Seja h a dimens˜ao Vapnik-Chervonenkis, n o tamanho da amostra de treinamento e α ∈ (0, 1). Define-se como limite no risco esperado P LP(ˆg) ≤ LA(ˆgA) + s h. ln 2nh + 1 − ln α4 n ≤ 1 − α
O SRM (“ Structural Risk Minimization”) significa minimizar LA(ˆgA)+
q h(ln(2n h)+1)−ln( α 4) n , onde q h(ln(2nh)+1)−ln(α 4)
n ´e conhecido com confian¸ca VC. Para minimizar o risco real, a
mi-nimiza¸c˜ao deve ser feita simultaneamente em ambos os termos: risco emp´ırico e confian¸ca VC, assim tornando a dimens˜ao VC uma vari´avel de controle.
A dimens˜ao VC em geral ´e f´acil de calcular para hiperplanos, Vapnik [7] pˆode mostrar que em um espa¸co especial de dimens˜oes infinitas de fun¸c˜oes chamado de n´ucleo reprodutor do espa¸co de Hilbert (Reproducing Kernel Hilbert Space (RKHS)) , um classificador linear ´e um classificador universal, e estes classificadores s˜ao chamados de m´aquinas de vetores de suporte (Suport vector machine).
3.7
Support vector machine
Uma m´aquina de vetores de suporte ´e um classificador formalmente definido por um hiperplano de separa¸c˜ao. O objetivo do SVM ´e encontrar dentre todos os hiperplanos o que minimiza o risco emp´ırico, isto ´e, procura maximizar a margem do classificador linear. A figura 4 tem como exemplo trˆes hiperplanos para a classifica¸c˜ao dos dados, ´e poss´ıvel perceber que o classificador linear que possui a maior margem ´e o destacado em verde.
Figura 4: Poss´ıveis hiperplanos.
Na imagem que segue est˜ao destacados e numerados por (2) os vetores de suporte, tamb´em conhecidos como pontos cr´ıticos. J´a em azul claro, indicado pelo n´umero (1), a margem do classificador linear.
Mas em situa¸c˜oes reais, n˜ao permitir que alguns dados permane¸cam na margem de-finida pelos hiperplanos reduz a generaliza¸c˜ao, incapacitando de lidar com conjuntos de treinamento mais gerais. Por isso, a ado¸c˜ao das margens suaves, onde h´a o relaxamento de restri¸c˜oes impostas ao problema de otimiza¸c˜ao com a introdu¸c˜ao de vari´aveis de folga. As SVMs obtidas permitindo a aplica¸c˜ao desse procedimento que permite a ocorrˆencia de alguns erros de classifica¸c˜ao s˜ao referenciadas como SVMs com margens suaves.
As SVMs lineares de margens suaves admitem a presen¸ca de alguns ru´ıdos e outliers al´em de apresentar desempenho suficiente para problemas linearmente separ´aveis, mas alguns conjuntos de dados exigem fronteiras mais complexas que lineares.
Com o emprego de um procedimento motivado pelo teorema de Cover, ´e poss´ıvel a generaliza¸c˜ao de SVMs para problemas n˜ao lineares.
Teorema 3.7.1 Teorema de Cover [8]
Um conjunto de dados n˜ao lineares em um espa¸co de alta dimens˜ao ´e mais suscet´ıvel a ser linearmente separ´avel do que em um espa¸co de menor dimens˜ao, na condi¸c˜ao de que o espa¸co n˜ao seja excessivamente povoado.
Mapeando as amostras de treinamento do espa¸co original e transformando por meio de uma fun¸c˜ao para um espa¸co de maior dimens˜ao, chamado de espa¸co de caracter´ısticas, se torna vi´avel a aplica¸c˜ao do SVM linear.
Na imagem que segue em 7(a), um exemplo do espa¸co de entrada, com os dados representados em IR2 por suas caracter´ısticas. J´a em 7(b) apresenta em IR3 o espa¸co de caracter´ısticas onde os dados representados s˜ao transformados da fun¸c˜ao Φ(X, Y ) = (X2,√2XY, Y2), tornando poss´ıvel uma separa¸c˜ao dos dados por um plano.
Figura 6: Mapeamento de dados de entrada para um espa¸co de maior dimens˜ao.
(a) Espa¸co de entrada (b) Espa¸co de caracteristicas
Mas a fun¸c˜ao Φ pode ter dimens˜ao muito alta e ser custosa computacionalmente. Todavia, a informa¸c˜ao relevante sobre o mapeamento ´e de como realizar o produto escalar
entre os pontos no espa¸co de caracter´ıstica, o que pode ser feito pela fun¸c˜ao kernel, desde que siga as condi¸c˜oes impostas pelo Teorema de Mercer [9].
Um kernel ´e uma fun¸c˜ao cont´ınua que de duas vari´aveis x e y as mapeia para um valor real tal que, k(x, y) = k(y, x), isto ´e, uma fun¸c˜ao sim´etrica. Mais detalhes no anexo 11.1. O objetivo da SVM ´e de encontrar um hiperplano que separe os dados do espa¸co caracter´ıstica de forma ´otima. Para os dados n˜ao linearmente separ´aveis originalmente, a utiliza¸c˜ao do Kernel evita o mapeamento expl´ıcito dado pela fun¸c˜ao Φ e torna o problema linearmente separ´avel. Pelo Teorema de Mercer [9], a fun¸c˜ao Kernel recebe os pontos do espa¸co de entrada e calcula o produto escalar entre eles no espa¸co caracter´ıstica, desde que defina Kernel como matriz positivamente definida e que tenha autovalores maior do que zero.
Os Kernels mais utilizados s˜ao:
• Polinomial
K(x, y) = (γ.(xTy) + c)d,
onde os Kernels polinomiais com o parˆametro d = 1 ´e considerado Kernel Linear. • Radial
K(x, y) = e−γ||x−y||2 • Tangente Hiperb´olica
K(x, y) = tanh(γ.(xTy) + c),
as condi¸c˜oes de Mercer s˜ao satisfeitas apenas para alguns valores de γ e de c.
Para a obten¸c˜ao de um classificador por meio do uso de SVMs, ´e preciso a escolha de uma fun¸c˜ao Kernel e seus parˆametros, assim como de um algoritmo para a determina¸c˜ao do hiperplano ´otimo. A escolha do Kernel e dos parˆametros considerados tem efeito no desempenho do classificador obtido, pois eles definem a fronteira de decis˜ao induzida.
4
Aplica¸
c˜
ao
Foi utilizado o pacote e1071[3], no R [2]. Segue as etapas para a aplica¸c˜ao do SVM no R:
Primeiro ´e necess´ario instalar o pacote e chamar a biblioteca.
install.packages("e1071", dependencies = T) library(e1071)
Ent˜ao ´e criada uma amostra de teste e outra de treinamento. A amostra de teste ´e qual ser´a utilizada para verificar a adequa¸c˜ao do modelo, enquanto a amostra de treinamento ´e utilizada na cria¸c˜ao do modelo. O tamanho da amostra de teste geralmente ´e menor que a amostra de treinamento, isto ´e, N ≥ n
amostra_teste = Amostra de tamanho n da popula¸c~ao de estudo
amostra_treinamento = Amostra de tamanho N da popula¸c~ao de estudo
Para a constru¸c˜ao do modelo foi utilizado o tipo “C-classification” para a classifica¸c˜ao da vari´avel X , o pacote tamb´em tem op¸c˜ao para regress˜ao. No trabalho foram testados os modelos com kernel linear e radial, “linear” e “radial” respectivamente.
modelo_svm = svm(x ~ ., data=amostra_treinamento, method="C-classification", kernel="linear")
´
E poss´ıvel visualizar os vetores de suporte, a divis˜ao realizada pelo modelo e a real classi-fica¸c˜ao. Para observar graficamente a modelagem, utiliza-se o seguinte comando.
plot(x=modelo_svm, data=amostra_treinamento)
Ent˜ao ´e realizada a predi¸c˜ao com a amostra de teste. Utilizada para ver se o modelo est´a bem adequado para a popula¸c˜ao real, e n˜ao s´o para a amostra de treinamento.
4.1
Duas popula¸
c˜
oes ambas com caracter´ıstica
expo-nencial
A seguir, s˜ao analisadas duas popula¸c˜oes, simuladas (ver em 7) com apenas uma carac-ter´ıstica.
Seja Y ∈ {1, 2} vari´avel aleat´oria referente a popula¸c˜ao, onde P (Y = 1) = P (Y = 2) = 12. Tem-se que as caracter´ısticas que seguem distribui¸c˜ao exponencial se diferem para cada grupo, isto ´e:
(X|Y = 1) ∼ Exponencial(1) (X|Y = 2) ∼ Exponencial(λ), onde λ = 1
2, 1 25, 1 50 e 1 100.
O intuito inicial ´e avaliar se o SVM consegue distinguir bem dois grupos quando o λ das exponenciais s˜ao pr´oximos. Foram utilizados os parˆametros padr˜ao da fun¸c˜ao do pacote utili-zado. A caracter´ıstica do grupo 1 foi mantida seguindo uma exponencial com m´edia 1. J´a a caracter´ıstica do segundo grupo foi modificada para o estudo, foram utilizadas as m´edias 2, 25, 50 e 100.
Tabela 1: M´edia e variˆancia de distribui¸c˜ao pelo λ escolhido. λ M´edia Variˆancia
1 1 1 1 2 2 4 1 25 25 625 1 50 50 2500 1 100 100 10000
Nas imagens que seguem, os dados em preto s˜ao as caracter´ısticas da popula¸c˜ao Y = 1, em que teve a distribui¸c˜ao exponencial mantida com λ = 1. Em vermelho a popula¸c˜ao Y = 2, em que houve a mudan¸ca do λ. Os objetos em forma de “X”s˜ao os pontos cr´ıticos.
No modelo onde foram estudadas as duas popula¸c˜oes:
(X|Y = 1) ∼ Exponencial(1) (X|Y = 2) ∼ Exponencial 1
2
Figura 7: Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial.
Com caracter´ıstica seguindo uma distribui¸c˜ao exponencial com λ = 1 e outra com λ = 12. Ao calcular o erro amostral com a amostra de teste, foi obtido erro de 60%.
Tabela 2: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = 12)
ˆ
Y \ Y 1 2
1 6 8
2 4 2
J´a adotando as popula¸c˜oes com as caracter´ısticas seguindo: (X|Y = 1) ∼ Exponencial(1), e (X|Y = 2) ∼ Exponencial λ = 1 25 , ao realizar o SVM foram utilizados 39 vetores de suporte,
e obteve um erro de 5%.
Tabela 3: ˆY × Y de duas popula¸c˜oes, uma com caracter´ıstica Exponencial(λ = 1) e outra com caracter´ıstica Exponencial λ = 251.
ˆ
Y \ Y 1 2
1 11 1
2 0 8
A modelagem para popula¸c˜oes com caracter´ıstica seguindo uma distribui¸c˜ao exponencial com
(X|Y = 1) ∼ Exponencial(1), e outra com
(X|Y = 2) ∼ Exponencial( 1 50). Foram utilizados menos vetores de suporte, apenas 35
Figura 9: Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial.
, e manteve o erro de 5%.
Tabela 4: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = 501)
ˆ
Y \ Y 1 2
1 13 1
2 0 6
Com as popula¸c˜oes Y ∈ {1, 2} com caracter´ısticas X, onde (X|Y = 1) ∼ Exponencial(1) e
(X|Y = 2) ∼ Exponencial(λ = 1 100),
o n´umero de vetores de suporte ca´ıram para 33
Figura 10: Duas popula¸c˜oes com caracter´ıstica seguindo distribui¸c˜ao Exponencial.
, mas manteve o erro de 5%.
Tabela 5: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ıstica seguindo uma dis-tribui¸c˜ao Exponencial(λ = 1) e outra com caracter´ıstica seguindo uma distribui¸c˜ao Exponencial(λ = 1001 )
ˆ
Y \ Y 1 2
1 8 1
2 0 11
Pelas figuras, percebe-se que quanto mais diferentes as m´edias da popula¸c˜ao, apesar da variˆancia aumentar muito junto com a m´edia, mais facilmente o SVM consegue encontrar uma separa¸c˜ao para a rotulagem.
Curioso notar tamb´em que ao separar as m´edias das caracter´ısticas, ainda se mant´em o erro amostral devido ao comportamento da distribui¸c˜ao exponencial. E este erro ´e permitido no modelo SVM por ter sido adotado o modelo com margens suaves.
4.2
Duas popula¸
c˜
oes ambas com duas caracter´ısticas
normais
Foi escolhido analisar duas popula¸c˜oes, simuladas (ver em 8) com duas caracter´ısticas se-guindo distribui¸c˜ao normal.
Onde Y ∈ {1, 2} ´e a vari´avel aleat´oria referente `a popula¸c˜ao, onde as caracter´ısticas depen-dem de cada popula¸c˜ao, isto ´e:
(X|Y = 2) ∼ N ormal(µ(X|Y =2)= 5, σ(X|Y =2)2 ), onde, σ 2
(X|Y =2) = 0.25 e 25,
(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ2(Z|Y =1)), onde, σ 2
(Z|Y =1)= 1, 100, 25 e 4,
(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ2(Z|Y =2)), onde, σ 2
(Z|Y =2)= 1, 100, 25 e 4,
sendo X a caracter´ıstica 1 e Z a caracter´ısticas 2.
Para ficar menos abstrato, segue um breve exemplo: S˜ao escolhidos homens e mulheres ao acaso, onde Y = 1 se for escolhido o gˆenero feminino e Y = 2 caso contr´ario. Estas popula¸c˜oes possuem as mesmas caracter´ısticas, das quais seguem distribui¸c˜oes normais e distintas com parˆametros dependentes de sua popula¸c˜ao de origem. Suponha X a caracter´ıstica altura e Z a caracter´ıstica peso.
O objetivo ´e avaliar se o SVM consegue distinguir bem dois grupos, relacionando isso `a variˆancia das caracter´ısticas. Por isso as m´edias das caracter´ısticas foram mantidas, e apenas foram trocadas as variˆancias.
As caracter´ısticas da popula¸c˜ao expressada em preto (Y = 1), uma possui m´edia 1 e outra 25. Em vermelho (Y = 2) a popula¸c˜ao ficou com as caracter´ısticas fixadas com µ(X|Y =2) = 5 e
µ(Z|Y =2) = 20. Os objetos em forma de “X”s˜ao os pontos cr´ıticos. No modelo onde foram estudadas duas popula¸c˜oes,
(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 0, 25), (Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ2(Z|Y =1)= 1), (X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 0, 25),
(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ2(Z|Y =2)= 1).
Foram utilizados apenas dois vetores de suporte
e obteve um erro de 0%.
Tabela 6: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 0.5,
σ(Z|Y =1) = 1, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas normais σ(X|Y =2) =
0.5, σ(Z|Y =2) = 1, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20
ˆ
Y \ Y 1 2
1 8 0
2 0 12
J´a mantendo, as m´edias das caracter´ısticas da popula¸c˜ao da figura 11 e aumentando as variˆancias,
(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),
(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ(Z|Y =1)2 = 100),
(X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 25),
(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ(Z|Y =2)2 = 100). para o modelo foram necess´arios 51 vetores de suporte,
Figura 12: Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal.
obtendo um erro de 40% .
Tabela 7: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,
σ(Z|Y =1) = 10, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas normais σ(X|Y =2) =
5, σ(Z|Y =2) = 10, µ(X|Y =2)= 5 e µ(Z|Y =2) = 20
ˆ
Y \ Y 1 2
1 7 4
2 4 5
Mudando apenas as variˆancias da caracter´ıstica 2 de ambas as popula¸c˜oes para σZ|Y = 5, a
(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),
(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ(Z|Y =1)2 = 25), (X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 25), (Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ(Z|Y =2)2 = 25).
foi obtido um valor um pouco menor de vetores de suporte, 47
Figura 13: Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal.
,enquanto a porcentagem de erros ca´ıra pela metade, 20%
Tabela 8: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ(X|Y =1) = 5,
σ(Z|Y =1) = 5, µ(X|Y =1) = 1 e µ(Z|Y =1) = 25 e outra com caracter´ısticas normais σ(X|Y =2) =
5, σ(Z|Y =2) = 5, µ(X|Y =2) = 5 e µ(Z|Y =2) = 20
ˆ
Y \ Y 1 2
1 12 1
2 3 4
Novamente mudando apenas as variˆancias de uma das caracter´ısticas de ambas as popula¸c˜oes para σZ|Y = 2,
(X|Y = 1) ∼ N ormal(µ(X|Y =1) = 1, σ2(X|Y =1)= 25),
(Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 25, σ2(Z|Y =1)= 4),
(X|Y = 2) ∼ N ormal(µ(X|Y =2) = 5, σ2(X|Y =2)= 25),
(Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 20, σ2(Z|Y =2)= 4). foram necess´arios 30 vetores de suporte, e foi obtido um erro de 10%.
Figura 14: Duas popula¸c˜oes com caracter´ısticas seguindo distribui¸c˜ao Normal.
Tabela 9: ˆY × Y de duas popula¸c˜oes, uma com caracter´ısticas normais σ1 = 5, σ2 = 5,
µ1 = 1 e µ2 = 25 e outra com caracter´ısticas normais σ1 = 5, σ2 = 5, µ1 = 5 e µ2 = 20
ˆ
Y \ Y 1 2
1 10 0
2 2 8
Supondo uma popula¸c˜ao com caracter´ısticas seguindo uma normal com os seguintes parˆametros: σ(X|Y =1)= 5, µ(X|Y =1)= 1, σ(Z|Y =1) = 10 e µ(Z|Y =1)= 25. E outra popula¸c˜ao com σ(X|Y =2)=
5, µ(X|Y =2)= 5, σ(Z|Y =2)= 1 e µ(Z|Y =2) = 20.
Figura 15: Popula¸c˜ao em preto com σ(X|Y =1) = 5, µ(X|Y =1) = 1, σ(Z|Y =1) = 10 e µ(Z|Y =1) =
25. Popula¸c˜ao em vermelho com σ(X|Y =2)= 5, µ(X|Y =2) = 5, σ(Z|Y =2) = 1 e µ(Z|Y =2) = 20.
(a) Kernel linear. (b) Kernel radial.
Com a variˆancia de uma popula¸c˜ao bem menor que de outra, o kernel radial parece distinguir melhor os grupos do que utilizando o kernel linear. Ao utilizar SVM para a categoriza¸c˜ao com o kernel radial, foram utilizados 37 vetores de suporte, enquanto com o linear foram necess´arios 45. A propor¸c˜ao de erros com a utiliza¸c˜ao do kernel linear foi de 20%, enquanto utilizando o kernel radial, foi de 15%.
Tabela 10: Kernel linear ˆ
Y \ Y 1 2
1 7 0
2 4 9
Tabela 11: Kernel radial ˆ
Y \ Y 1 2
1 8 0
2 3 9
4.3
Duas popula¸
c˜
oes ambas com duas caracter´ısticas,
uma normal e outra exponencial.
Primeiro foi escolhido analisar duas popula¸c˜oes, simuladas (ver em 9) com duas carac-ter´ısticas, uma seguindo distribui¸c˜ao normal e outra uma distribui¸c˜ao exponencial.
Seja Y ∈ {1, 2} vari´avel aleat´oria referente `a popula¸c˜ao, onde P (Y = 1) = P (Y = 2) = 12. Tem-se que cada uma das caracter´ısticas segue uma distribui¸c˜ao dependente da popula¸c˜ao de origem.
(X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) (X|Y = 2) ∼ Exponencial(λ(X|Y =2)), onde, λ(X|Y =2) = 1
2, 1 10 e
1 25 (Z|Y = 1) ∼ N ormal(µ(Z|Y =1)= 1, σ(Z|Y =1)2 ), onde, σ(Z|Y =1)2 = 16 e 100
(Z|Y = 2) ∼ N ormal(µ(Z|Y =2), σ2(Z|Y =2)), onde, σ2(Z|Y =2)= 16 e 100; µ(Z|Y =2) = 2, 10 e 25.
Ser˜ao adotadas como caracter´ıstica 1 e caracter´ıstica 2, X e Z respectivamente.
A finalidade desta se¸c˜ao ´e avaliar se o SVM consegue distinguir bem dois grupos, relacio-nando isso `a variˆancia das caracter´ısticas.
No modelo onde foram estudadas duas popula¸c˜oes: Popula¸c˜ao em preto com:
(X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1)
(Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ2(Z|Y =1)= 16)
Popula¸c˜ao em vermelho com:
(X|Y = 2) ∼ Exponencial(λ(X|Y =2) =
1 2)
(Z|Y = 2) ∼ N ormal(µ(Z|Y =2) = 2, σ2(Z|Y =2)= 16)
Foram utilizados 65 pontos cr´ıticos,
Figura 16: Duas popula¸c˜oes com caracter´ısticas uma seguindo distribui¸c˜ao Normal e outra com distribui¸c˜ao Exponencial.
e um erro amostral de 30%.
Tabela 12: Y × Y de duas popula¸c˜ˆ oes, uma com caracter´ısticas: (X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) e (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ(Z|Y =1)2 = 16) e
outra com caracter´ısticas (X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 12) e (Z|Y = 2) ∼
N ormal(µ(Z|Y =2) = 2, σ(Z|Y =2)2 = 16)
ˆ
Y \ Y 1 2
1 3 3
2 3 11
J´a mantendo as caracter´ısticas da popula¸c˜ao em preto, e apenas mudando µ 1
(Z|Y =2) =
λ(X|Y =2) = 101, tem-se: Popula¸c˜ao em preto com
(X|Y = 1) ∼ Exponencial(λ(X|Y =1) = 1) (Z|Y = 1) ∼ N ormal(µ(Z|Y =1) = 1, σ2(Z|Y =1)= 16) Popula¸c˜ao em vermelho com
(X|Y = 2) ∼ Exponencial(λ(X|Y =2) = 1 10) (Z|Y = 2) ∼ N ormal(µ(Z|Y =2)= 10, σ2(Z|Y =2)= 16)