Aprendizagem de Máquina

(1)

Prof. Paulo Martins Engel

Aprendizado baseado em instâncias

Informática

UFRGS 2

• Quando as suposições feitas por métodos paramétricos não são válidas para todo o espaço de entrada, provocando erros preditivos grandes, podemos usar métodos que fazem suposições locais, que não assumem a priori uma forma paramétrica para as distribuições, os chamados métodos não-paramétricos. • De uma forma geral, um modelo não-paramétrico não é fixo e sua

complexidade depende do tamanho do arquivo de treinamento, mas também da complexidade do problema relacionado aos dados.

• Em aprendizagem de máquina, métodos não-paramétricos são chamados de algoritmos de aprendizagem baseados em instância, ou em memória, pois eles armazenam as instâncias de treinamento e generalizam por interpolação a partir das instâncias mais similares ao dado de teste.

• O armazenamento das instâncias de treinamento requer memória de O(N) e computação de O(N) para encontrar as instâncias mais similares a uma entrada. • Métodos paramétricos tem um número pequeno de parâmetros, da ordem da

dimensionalidade dos dados, O(d) ou O(d2_{), e uma vez ajustados, eles não}

precisam mais dos dados de treinamento para calcular a saída.

• A maior necessidade de memória e computação é a desvantagem dos métodos não-paramétricos.

(2)

• Métodos de aprendizado baseado em instâncias não constróem

modelos globais, a partir de um conjunto de dados, mas utilizam

apenas informação local para induzir o valor da função de saída

desejada.

• A informação local é determinada dinamicamente para um certo

dado de entrada (consulta) a partir de um subconjunto dos dados

de treinamento que estabelecem a sua vizinhança.

• Assim, a função alvo é estimada localmente, para cada nova

instância a ser classificada.

• A vizinhança pode ser determinada a partir de cálculos de

distância entre atributos descritores, ou podem ser utilizados

métodos simbólicos de descrição dos casos.

Aprendizado baseado em instâncias

Informática

UFRGS 4

• Forma mais simples de aprendizado: memorizar

– Dentre os exemplos de treinamento se busca aquele que é mais

similar à nova amostra apresentada

– Os próprios exemplos representam o conhecimento

– Também chamado de aprendizado baseado em casos

• Função de similaridade define o que é “aprendido”

• Aprendizado baseado em casos é aprendizagem

preguiçosa: adia os cálculos até o momento da consulta

• Métodos: vizinho mais próximo, k vizinhos mais

próximos, ...

(3)

• Caso mais simples : um atributo numérico

– Distância é a diferença entre os dois valores de atributo

envolvidos (ou, alternativamente, uma outra função)

• Vários atributos numéricos: normalmente, distância

euclidiana é usada e os atributos são normalizados

• Atributos nominais: distância é definida como 1 se os

valores são diferentes, ou 0 se eles são iguais

• Todos os atributos são igualmente importantes?

– Pode ser necessário ponderar os atributos

A função de distância

Informática

UFRGS 6

• Só precisam ser armazenados os exemplos envolvidos

numa decisão

• Exemplos ruidosos devem ser retirados

• Idéia: usar apenas exemplos protótipos

(4)

• O algoritmo dos k vizinhos mais próximos (k-NN) é usado para

estimar o valor de uma função alvo num determinado ponto do

espaço de características (correspondente à posição da amostra

consultada), a partir do valor desta função nos k pontos mais

próximos da amostra consultada.

• A função alvo pode ser discreta (correspondente a um modelo de

classificação, por exemplo), ou contínua (correspondendo a um

modelo de regressão).

• O algoritmo k-NN não forma uma hipótese geral explícita para a

função alvo, ele apenas calcula a classificação (ou valor da

função contínua) para uma amostra específica consultada.

• O valor da função é estimado no momento da consulta.

Algoritmo k-NN

Informática

UFRGS 8

• Assume que as amostras correspondam a pontos no espaço de

características R

n

• Os vizinhos mais próximos (NN – nearest neighbors) de uma

amostra são definidos em termos da distância euclidiana.

• Dada uma amostra x descrita por um vetor de características

<a

₁

(x), a

₂

(x), ..., a

_n

(x)>

onde a

_r

(x) representa o valor do r-ésimo atributo da amostra x.

• A distância de duas amostras x

_i

e x

_j

é definida como d(x

_i

, x

_j

):

Algoritmo dos k vizinhos mais próximos – k-NN













n r j r i r j i

x

a

x

a

x

d

1 2

)

(

)

(

)

,

(

(5)

• Considere a função discreta (por ex., classificação) f: R

n

→ V,

com V = {v

₁

, ..., v

_s

} (rótulos de classe)

• Treinamento:

–Para cada exemplo de treinamento <x, f(x)>, acrescente o

exemplo à lista exemplos_treinamento.

• Classificação

–Dada uma amostra de consulta x

_q

para ser classificada, sendo

x

₁

. . . x

_k

os k exemplos de treinamento mais próximos a x

_q

,

–Retornar

–onde



(a, b) = 1 se a = b, ou



(a, b) = 0, caso contrário

Algoritmo k-NN para valores discretos







 



k i i V v q

v

f

x

f

1

)

(

,

max

arg

)

(

ˆ

_

Informática UFRGS 10

Exemplo do algoritmo k-NN para valores discretos

          q

x

• O algoritmo 1-NN classifica x

_q

como positivo

• O algoritmo 5-NN classifica x

_q

como negativo

(6)

Superfície de decisão induzida pelo algoritmo 1-NN

• Diagrama de Voronoi: poliedros convexos em torno dos

exemplos de treinamento

         Informática UFRGS 12

• O aprendizado de uma função contínua é feito de forma análoga

ao caso de função discreta.

• O algoritmo calcula a média dos valores da função para os k

exemplos de treinamento mais próximos.

• Para aproximar uma função alvo de valor real f: R

n

→ R,

substituímos a última linha do algoritmo k-NN discreto por:

Algoritmo k-NN para função alvo de valor contínuo

k

x

f

x

f

k i i q







1

)

(

)

(

ˆ

(7)

• Pode-se ponderar a contribuição de cada um dos k vizinhos de

acordo com a sua distância à amostra consultada.

• Quanto mais próximo o vizinho, maior o peso atribuído a ele.

• Pode-se ponderar o voto de cada vizinho de acordo com o inverso

do quadrado da sua distância a x

_q

; substituindo a estimação (para

valor discreto) por:

Algoritmo k-NN ponderado discreto







 



k i i i V v q

w

v

f

x

f

1

)

(

,

max

arg

)

(

ˆ

_

onde

2

)

,

(

1

i q i

x

d

w



Informática UFRGS 14

• Podemos também ponderar pela distância os exemplos para

funções alvo de valor real, substituindo a fórmula da estimação

do valor por:

Algoritmo k-NN ponderado contínuo

onde

2

)

,

(

1

i q i

x

d

w





 



_k i i k i i i q

w

x

f

w

x

f

1 1

)

(

)

(

ˆ

(8)

• Diferentemente de outros métodos, como árvores de decisão e

regras de produção, o algoritmo dos k vizinhos mais próximos

leva em consideração todos os atributos dos exemplos para

calcular as distâncias.

• Isto pode não ser interessante quando, por ex., de 20 atributos,

apenas 2 são relevantes para determinar a classificação.

• Assim, duas amostras com os 2 valores relevantes coincidentes

podem, apesar disso, ficar distantes entre si no espaço de 20

dimensões, levando a erros de classificação.

• A solução usual para isso é atribuir pesos diferentes para cada

atributo, no momento do cálculo da distância.

• A determinação dos pesos pode ser obtida por métodos como

cross-validation e árvores de decisão.

Ponderação de atributos para o algoritmo k-NN

Informática

UFRGS 16

• A ponderação dos atributos é equivalente a escalar os eixos de

cada atributo correspondentemente à sua importância relativa

para a estimação da função desejada.

• A distância de duas amostras x

_i

e x

_j

, levando em consideração

pesos diferentes para cada atributo, é definida como d(x

_i

, x

_j

):

Cálculo da distância ponderada













n r j r i r r j i

x

w

a

x

a

x

d

1 2 2

₍

₎

₍

₎

)

,

(

(9)

• Métodos de classificação “Lazy”

• IB1 – Classificador pelo vizinho mais próximo

• Usa distância euclidiana para encontrar a instância mais próxima à instância testada e prediz a mesma classe que a instância de treinamento.

• Se várias instâncias tiverem a mesma menor distância, escolhe a primeira.

• IBk – Classificador pelos k vizinhos mais próximos

• Normaliza atributos (default, mas pode ser desabilitado)

• Pode selecionar o valor de k por CV (leave-one-out) ou permite a escolha de k • CV: utiliza erro médio absoluto (default) ou erro médio quadrado

• Pode ponderar a escolha levando em consideração as distâncias

Algoritmos no Weka

Informática

UFRGS 18

• Os estimadores de densidade por k-NN realizam uma aproximação local da densidade de probabilidade dos dados, p(x), em torno de uma instância de teste x.

• Neste caso, a densidade em x, p(x), é estimada pelo volume ocupado pelos k vizinhos mais próximos de x, ou seja:

Estimador de densidade por k-NN

NV k p(x)

• onde N é o número total de instâncias e V é o volume (da esfera) que contém os

k vizinhos mais próximos a x.

• O volume V é aproximado a partir da distância entre x e o seu k-ésimo vizinho:

) ( 2 ) ( ˆ x x k Nd k p  • com: t t

(10)

Informática

UFRGS _{Prof. Paulo Martins Engel}

20

Regressão não paramétrica

• Na regressão não paramétrica, não se assume conhecimento a priori sobre a forma da função que se quer estimar.

• A função é estimada usando uma equação contendo parâmetros livres mas numa forma que permite ao modelo representar uma classe muito ampla de funções.

• Tipicamente a regressão não paramétrica envolve um grande número de parâmetros sem significado físico em relação ao problema.

• As redes neurais, e particularmente as redes de função de base radial (RBF) são modelos não paramétricos e seus pesos não têm um significado particular em relação aos problemas aos quais elas estão sendo aplicadas.

• Neste caso, o objetivo principal não é estimar os valores dos parâmetros (pesos) e sim estimar a função subjacente, ou no mínimo as suas saídas para certos valores desejados de entrada.

• A rede RBF implementa uma combinação linear de funções de base radiais, elas mesmo não lineares:

h(x) =



w_j_j(x)

j=1 N

(11)

21

Topologia da Rede RBF

h(x) =



w_j_j(x)

j=0 N

• A rede RBF típica tem uma camada de entrada para distribuir o sinal de entrada, uma camada oculta, composta de nós de funções radiais, e uma camada de saída com um nó linear.

• Tipicamente, numa rede RBF, a forma das funções de base é escolhida a priori, de modo que ela tenha um comportamento adequado ao problema de regressão: a sua resposta deve decrescer (ou crescer) monotonamente com a distância em relação a um ponto central.

• O problema consiste então em localizar os centros e outros parâmetros das funções de base e ajustar os pesos em relação ao arquivo de treinamento.

N(x) 1(x) j(x) x₁ x_i x_p h(x) w1 wj wN



w0 +1 Informática

22

Funções Radiais

• As funções radiais são uma classe especial de funções.

• A sua característica principal é que sua resposta diminui (ou aumenta) monotonamente com a distância de um ponto central.

• O centro, a escala de distância e a forma da função radial são parâmetros do modelo. • Uma função radial típica é a gaussiana, que no caso esférico tem a forma:

onde c corresponde ao centro da função e  controla a suavidade da interpolação.

_j(x) = exp

[

(x  cj)

]

2

2_j2



(12)

23

Gaussiana multivariada

• A função radial gaussiana pode ser generalizada para permitir matrizes de covariâncias arbitrárias



_j.      _ _ _ _  ₍ ₎ ₍ ₎ 2 1 exp ) ( 1 j T j j x x μ x μ 

















22 12 12 11



Informática

24

Funcionamento da rede

• A rede RBF é projetada para realizar um mapeamento não linear do espaço de entrada para o espaço oculto, seguido de um mapeamento linear do espaço oculto para o espaço de saída.

• Considerando que a rede tenha p entradas, N unidades ocultas e uma saída, podemos pensar que a rede represente um mapeamento s de um espaço p para um espaço unidimensional:

• A rede opera em duas fases: treinamento e generalização:

• Fase de treinamento: procedimento de ajuste otimizado da superfície , de mapeamento da entrada para a saída, baseado nos pontos de dados apresentados à rede na forma de exemplos de padrões entrada-saída. • Fase de generalização: interpolação entre dados, sendo realizada ao

longo da superfície gerada pelo processo de ajuste.

s: Rp R1

(13)

25

O Problema de Interpolação exata

• Os métodos de funções de base radiais têm origem em técnicas para realizar interpolação exata de um conjunto de dados num espaço multidimensional. • O problema da interpolação exata requer que cada vetor de entrada seja

mapeado exatamente para o seu vetor de saída correspondente.

• Considere um mapeamento do espaço de entrada x de dimensão d para um espaço de saída t unidimensional.

• O conjunto de dados consiste de N vetores de entrada xn_{, com os seus alvos t}n_.

• O objetivo é encontrar uma função h(x) tal que

h(xn_{) = t}n_, _{n = 1, ..., N}

• A abordagem RBF para interpolação exata introduz um conjunto de N funções de base, uma para cada dado, da forma (||x – xn||), onde (.) é uma

função não linear.

• A saída do mapeamento é uma combinação linear das funções de base:











n n n

w

h

(

x

)



x

Informática

26

Solução do problema de interpolação exata

• A condição de interpolação, h(xn_{) = t}n_{, pode ser então escrita na forma matricial:}

 w = t onde t (tn), w (w

n) e a matriz quadrada  tem elementos nn´= 

(

||xn– xn’||

)

.



 









 









 







                                                  N N N N N N N N t t t w w w          2 1 2 1 2 1 2 2 2 1 2 1 2 1 1 1 x x x x x x x x x x x x x x x x x x         

• Desde que exista a matriz inversa 1_{, pode-se resolver para w:}

w = 1_t

• Pode-se mostrar que para uma ampla classe de funções (.), a matriz  é não-singular, desde que os pontos de dados sejam distintos.

• A função h(x) resultante é uma superfície contínua diferenciável passando pelos dados.

(14)

27

Interpolação exata

• A interpolação passando exatamente por todos os pontos do arquivo de dados tende a gerar uma função de interpolação oscilatória para dados ruidosos. • No MATLAB, a função newrbe(X,D,spread) gera uma rede RBF com

um neurônio para cada vetor de entrada, com uma largura das funções de base determinada por spread.

RBF: 31 neurônios

Informática

28

RBF incremental

• No MATLAB, a função newrb(X,D,goal,spread) gera uma rede RBF de maneira incremental, acrescentando um neurônio por vez, até que o erro da rede satisfaça o EMQ dado por goal.

(15)

29

A Rede GRNN – Generalized Regression Network

• A rede GRNN (do MATLAB), é uma alternativa à rede RBF exata, onde a camada oculta se conecta à de saída por meio de pesos de valor igual aos valores desejados: w = t

• O valor de saída é dado pela média ponderada das ativações intermediárias. • A rede responde com a média ponderada dos vetores alvo mais próximos ao

vetor de entrada:







j j

i

y

w

i

1(x) N(x) j(x) x₁ x_i x_p y w1 w_j w N i1 ij i_N  Informática

30

Interpolação por GRNN

• A interpolação por GRNN tende a ser mais suave.

• No MATLAB, a função newgrnn(X,D,spread) gera uma rede GRNN com um neurônio para cada vetor de entrada, com uma largura das funções de base determinada por spread.

(16)

31

Estratégias de Aprendizado

1. Seleção das funções radiais:

1.1 Assumir M funções fixas gaussianas esféricas, centradas em pontos c_j escolhidos aleatoriamente do arquivo de treinamento. Sendo d a distância máxima entre os centros, cada gaussiana terá a forma:

_j(x) = exp

(

M(xcj)

)

2

d2

1.2 Os centros podem ser escolhidos por clusterização dos vetores de treinamento.

2. Cálculo dos pesos:

2.1 Inversão da matriz de interpolação;

2.2 Aplicação do algoritmo LMS como regra de correção do erro na saída da rede.

Com isso, o desvio padrão de todas as gaussianas é dado por:  = d

2M

Informática

UFRGS 32

• Generaliza a abordagem NN, construindo uma aproximação da função alvo

f(x), na vizinhança de x_q.

• a_i(x) representa o i-ésimo atributo da instância x.

• Os coeficientes w₀... wnsão determinados por ajuste desta função linear a

um conjunto de treinamento, minimizando o erro quadrático sobre os k vizinhos mais próximos:

Locally Weighted Regression

) ( ) ( ) ( ˆ 1 1 0 wa x wa x w x f   _ _n _n







    NN k x q f x f x x E ( ) ˆ( )2 2 1 ) (

• O que leva à regra da descida do gradiente:







     NN k x j j f x f x a x w  ( ) ˆ( ) ( )

(17)

• Uma função de custo alternativa considera cada exemplo de treinamento ponderado por uma função K decrescente com a distância de x_q:

Locally Weighted Regression







 





    NN k x q q f x f x K d x x x E ( ) ˆ( ) , 2 1 ) ( 2

• O que leva à regra da descida do gradiente modificada:

 











     NN k x j q j K d x x f x f x a x w  , ( ) ˆ( ) ( ) Informática UFRGS 34

• Os estimadores de densidade por núcleo aproximam p(x) a partir de N funções de núcleo, cada qual representando o volume de influência de cada instância de treinamento.

• O volume de influência de cada instância é ajustado por um parâmetro de suavização (smoothing parameter).

• O estimador de Parzen utiliza gaussianas centradas em cada instância de treinamento como funções de núcleo

Estimador de densidade por núcleo

 



         _   N n n h h N p 1 2 2 2 1 2 exp 2 2 1 1 ) (x x x



• onde h representa o desvio padrão da gaussiana, correspondendo ao parâmetro de suavização .

(18)