Aprendizado de Máquina

(1)

Aprendizado de Máquina

Regressão I

Fabio G. Cozman

André C. Ponce de Leon Ferreira de Carvalho Sylvio Canuto

(2)

Tópicos do módulo

 Introdução

 Aproximação de funções

 Tarefas de regressão

 Regressão simples

 Regressão linear

 Regressão polinomial

 Regressão múltipla

(3)

Tópicos desta parte do módulo



Regressão



Aproximação de funções



Tarefas de regressão



Regressão simples



Regressão linear



Ajuste de parâmetros



Efeitos do ajuste

(4)

Motivação

 Supor que você quer prever que nota vai tirar em uma prova de uma disciplina

 Previsão de um valor real (y)

 Assumir que a nota depende de quantas horas você estudou para a prova (x)

 Supor ainda que você sabe para n alunos que cursaram a mesma disciplina no ano passado

 O número de horas de estudo (x) e a nota da prova (y)

(5)

Motivação



Para prever sua nota...

 Você pode estimar uma função (modelo) preditiva

 Função de regressão

 Usando para isso dados conhecidos de outros alunos

 Usar a função para, a partir do seu número de horas de estudo, prever sua nota

(6)

Introdução

 Regressão é uma das principais tarefas preditivas

 Objetivo:

 Aprender (aproximar) uma função que associa:

 A descrição de um objeto, vetor de valores, conjunto de variáveis independentes (atributos preditivos), a

 Um valor real de uma variável dependente (atributo alvo) que rotula o objeto

 Que pode ser utilizada para prever, com boa

capacidade preditiva, o rótulo de um novo objeto

(7)

Aproximação de funções

 Procura uma função hipótese que se ajuste aos dados disponíveis

 Permite prever o valor de saída para um novo objeto

 Representado por um vetor de valores de entrada

 Supor que você estudou 9 horas para a prova

Nota da prova

(8)

Aproximação de funções

 Procura uma função hipótese que se ajuste aos dados disponíveis

 Permite prever o valor de saída para um novo valor de entrada

 Supor que você estudou 9 horas para a prova

y

x

(9)

Aproximação de funções



Alternativa mais simples: aproximar uma função linear aos dados

 Função linear:

 y = f(x) = ax + b

 Descobrir valor de a e de b

 Função linear pode ser usada para prever valor da nota

Tarefa de regressão

Coeficiente angular Coeficiente linear

(10)

Aproximação de funções

y

10 9 8 7 6 5 4 3 2 1

x

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

f(x)



Se você estudou 9 horas (x=9)

 Sua nota será 5,0 (y = f(x)=5)

(11)

Aproximação de funções

y

10 9 8 7 6 5 4 3 2 1

x

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

f(x)

Erro Erro



Se você estudou 9 horas (x=9)

 Sua nota será 5,0 (y = f(x)=5)

(12)

Tarefas de regressão

 Buscam função de regressão que melhor se aproxime aos dados

 Minimizando o erro para todo o conjunto de dados

 Algoritmo de regressão linear ajuda a encontrar esta função (hipótese, modelo)

ℎ_𝛽 𝑥 = 𝛽₀+ 𝛽₁𝑥₁ + 𝜀 (função afim f(x) = ax + b) onde: 𝛽_j é o j^ésimo parâmetro (j = 1,...,d)

𝛽₀ é o termo de interceptação (viés) x₁ é a variável independente

𝜀 é o termo residual (erro, ruído)

(13)

Tarefas de regressão

ℎ_𝛽 𝑥 = 𝛽₀+ 𝛽₁𝑥₁ (função afim f(x) = ax + b) onde: 𝛽_j é o j^ésimo parâmetro (j = 1,...,d)

𝛽₀ é o termo de interceptação (viés) x₁ é a variável independente

(14)

Tarefas de regressão

ℎ_Ɵ 𝑥 = Ɵ₀+ Ɵ₁𝑥₁ (função afim f(x) = ax + b) onde: Ɵ_j é o j^ésimo parâmetro (j = 1,...,d)

Ɵ₀ é o termo de interceptação (viés) x₁ é a variável independente

(15)

Tarefas de regressão

ℎ_w 𝑥 = w₀+ w₁𝑥₁ (função afim f(x) = ax + b) onde: w_j é o j^ésimo parâmetro (j = 1,...,d)

w₀ é o termo de interceptação (viés) x₁ é a variável independente

(16)

Tarefas de regressão

 Necessário encontrar valores de w₀ 𝑒 w₁ que minimizem o erro da função

hipótese

 ℎ_w 𝑥 = w₀ + w₁𝑥, onde

 ℎ_w 𝑥 : função linear

 w₀: coeficiente linear da reta

 w₁: coeficiente angular da reta

 Erro cometido pela função hipótese pode ser estimado por uma função de custo

(17)

Tarefas de regressão

 Necessário encontrar valores de w₀ 𝑒 w₁ que minimizem o erro da função

hipótese

 𝑓 𝑥 = w₀ + w₁𝑥, onde

 𝑓 𝑥 : função linear

 w₀: coeficiente linear da reta

 w₁: coeficiente angular da reta

 Erro cometido pela função hipótese pode ser estimado por uma função de custo

(18)

Aprendizado



Busca minimizar função de custo

 Achar valores de w (w₀ 𝑒 w₁) que gerem a função J(w) de menor custo (taxa de erro)

 Pode ser ilustrado por um gráfico que

relacione valor dos parâmetros com valor do erro

 Procura valor de w que minimiza (y -𝑓 𝑥 )²

(19)

Aprendizado

 Busca minimizar função de custo

 Busca w que minimiza (y -𝑓 𝑥 )²

wmin₀w₁(y −𝑓 𝑥 )²

w𝑚𝑖𝑛₀w₁

1 𝑛 ෍

𝑖=1 𝑛

𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

w𝑚𝑖𝑛₀w₁෍

𝑖=1 𝑛

𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

w𝑚𝑖𝑛₀w₁ J(w₀, w₁) Erro quadrático médio (MSE) Erro total Erro médio

J(w)

w Possível posição

atual (valor atual de w)

Posição desejada

(20)

Aproximação da função hipótese

 Minimizar erro quadrático médio (MSE)

 Média da área dos quadrados entre a saída verdadeira (𝑦^𝑖) e a saída estimada (𝑓 𝑥^𝑖 )

y

10 9 8 7 6 5 4 3 2 1

x

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

𝑀𝑆𝐸 = 1 f(x)

𝑛 ෍

𝑖=1 𝑛

𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

(21)

Trabalhamos com duas funções

 Função hipótese:

 𝑓(𝑥) = 2 +w₁x₁(w₀= 2)

 𝑓(𝑥) = 2 + 0,9x

 Função de custo:

 J(w₁) = _𝑛¹ σ_𝑖=1^𝑛 𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

 J(0,9) = 0 + 0 + 0 + 0 = 0

y

10 9 8 7 6 5 4 3 2 1

1 2 3 4 5 6 7 8 9 10

f(x)

J(w1)

10 9 8 7 6 5 4 3 2 1

-1,0 -0,5 0,5 1,0 1,5 2,0 2,5 3,0

(22)

Trabalhamos com duas funções

 𝑓(𝑥) = 2 +w₁x₁(w₀= 2)

 𝑓(𝑥) = 2 + 0,9x

 J(w₁) = _𝑛¹ σ_𝑖=1^𝑛 𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

 J(0,9) = 1²+1²+1²+1² /4 =1

y

10 9 8 7 6 5 4 3 2 1

1 2 3 4 5 6 7 8 9 10

f(x)

J(w1)

10 9 8 7 6 5 4 3 2 1

w

-1,0 -0,5 0,5 1,0 1,5 2,0 2,5 3,0

x

(23)

Avaliando diferentes valores de w

₁

 𝑓(𝑥) = 2 +w₁x₁(w₀= 2)

 Diversos valores de w₁

 Calculada para cada valor

 J(w₁) = _𝑛¹ σ_𝑖=1^𝑛 𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

y

10 9 8 7 6 5 4 3 2 1

1 2 3 4 5 6 7 8 9 10

f(x)

J(w1)

10 9 8 7 6 5 4 3 2 1

-1,0 -0,5 0,5 1,0 1,5 2,0 2,5 3,0

𝑚𝑖𝑛w₁ J(w₁)

x

(24)

Avaliando diferentes valores de w

₁

 𝑓(𝑥) = 2 +w₁x₁(w₀= 2)

 Diversos valores de w₁

 Calculada para cada valor

 J(w₁) = _𝑛¹ σ_𝑖=1^𝑛 𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

J(w1)

10 9 8 7 6 5 4 3 2 1

w₁

-1,0 -0,5 0,5 1,0 1,5 2,0 2,5 3,0

y

10 9 8 7 6 5 4 3 2 1

1 2 3 4 5 6 7 8 9 10

f(x)

x

(25)

Avaliando diferentes valores de w

₁

(e w

₂

)

 Função de custo (w₁):

 J(w₁) = _𝑛¹ σ_𝑖=1^𝑛 𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

 Função de custo (w₁ e w₂ ):

 J(w₁, w₂) = _𝑛¹σ_𝑖=1^𝑛 𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

J(w1)

10 9 8 7 6 5 4 3 2 1

w₁

-1,0 -0,5 0,5 1,0 1,5 2,0 2,5 3,0

w₂ w₁

J(w^{1 ,}w2)

w𝑚𝑖𝑛₀w₁ J(w₁, w₂)

(26)

Avaliando diferentes valores de w

₁

(e w

₂

)

 Representação usando gráfico 3D e figura de contorno

J(w^{1 ,}w2)

w₁ w₂

Olhando de cima para baixo

w w₁

(27)

Efeito do intervalo de valores de x



Supor duas variáveis, x1 e x2

w₁ w₁

(28)

Efeito do intervalo de valores de x



Supor duas variáveis, x

₁

e x

₂

w w

w₁ w₁

Intervalo de valores de x grande, w pequeno Intervalo de valores de x pequeno, w grande Escalar valores das variáveis acelera treinamento

(29)

Ajuste de parâmetros

(30)

Ajuste de parâmetros

(31)

Ajuste de parâmetros

(32)

Ajuste de parâmetros

(33)

Ajuste de parâmetros

F(x) = 28 + 0X F(x) = 26 + 0,5X

F(x) = 22 + X F(x) = 20 + 1,5X

(34)

Ajuste de parâmetros

(35)

Ajuste de parâmetros

(36)

Ajuste de parâmetros

(37)

Ajuste de parâmetros

(38)

Sumarizando

 Função hipótese: ℎ_w 𝑥 = w₀ + w₁𝑥 ou 𝑓 𝑥 = w₀ + w₁𝑥

 Parâmetros: w₀ , w₁

 Função custo: J(w₀, w₁) = ¹

𝑛 σ_𝑖=1^𝑛 𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

 Para simplificar cálculos, pode ser usada a função J(w₀ , w₁) = ¹

2𝑛 σ_𝑖=1^𝑛 𝑦^𝑖 − 𝑓 𝑥^𝑖 ²

 Objetivo: 𝑚𝑖𝑛

w₀w₁ J(w₀ , w₁)

(39)

Aprendizado de Máquina