Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 11
Sistemas Inteligentes
Sistemas Inteligentes
e
e
“
“
soft
soft
computing
computing
”
”
Paulo Salgado
Paulo Salgado
psal@utad.pt
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 33
Conte
Conte
ú
ú
do
do
Sistemas Inteligentes
Sistemas Inteligentes
Soft
Soft
computing
computing
Á
Áreas de Aplica
reas de Aplicaç
ção
ão
Redes Neuronais
Redes Neuronais
Fuzzy
Fuzzy
Logic
Logic
(Ló
(L
ógica Difusa)
gica Difusa)
Sistemas Evolutivos
Sistemas Evolutivos
(
(
Prof. Paulo Oliveira
Prof. Paulo Oliveira
)
)
Sistemas Inteligentes
Sistemas Inteligentes
Inteligência: Os Sistemas devem realizar
operações sem significado.
Interpretar as informações.
Compreender as relações entre fenómenos e
objectos.
Aplicar os conhecimentos adquiridos a novas
condições.
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 55
Objectivos dos sistemas inteligentes
Objectivos dos sistemas inteligentes
Rotinas das necessidades humanas
Rotinas das necessidades humanas:
:
visão , processamento de linguagem,
visão , processamento de linguagem,
razão, aprendizagem, rob
razão, aprendizagem, rob
ó
ó
tica.
tica.
Rotinas Artificiais
Rotinas Artificiais: jogos, matem
: jogos, matem
á
á
tica,
tica,
l
l
ó
ó
gica, programa
gica, programa
ç
ç
ão.
ão.
Expert
Expert
systems
systems
(ES)
(ES)
Aproxima
Aproxima
ç
ç
ões tradicionais
ões tradicionais
Modelos Matem
Modelos Matemá
áticos:
ticos:
Black
Black
boxes (caixa negra),
boxes (caixa negra),
F
F
í
í
sicos (baseados nas leis
sicos (baseados nas leis
da conserva
da conserva
ç
ç
ão da massa,
ão da massa,
energia,
energia,
…
…
).
).
Sistemas baseados em
Sistemas baseados em
Regras (disjuntas &
Regras (disjuntas &
bivalente):
bivalente):
Lista de regras numerosas.
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 77
Black
Black
Box
Box
Entradas
Saídas
Entradas
Saídas
Open
Open
Box
Box
Modelos
Modelos
Soft computing (SC)
Soft computing (SC)
Objectivo:
Objectivo:
Imitar a razão humana (lingu
Imitar a razão humana (lingu
í
í
stica
stica
ou outra)
ou outra)
Á
Áreas principais:
reas principais:
--
Fuzzy
Fuzzy
systems
systems
--
Neural
Neural
networks
networks
--
Evolutionary
Evolutionary
computing
computing
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 99
Constituintes da SC
Constituintes da SC
Fuzzy
Fuzzy
systems
systems
=> imprecisão
=> imprecisão
Neural
Neural networks
networks
=> aprendizagem
=> aprendizagem
Probabilistic
Probabilistic
reasoning
reasoning
=> incerteza
=> incerteza
Evolutionary
Evolutionary
computing
computing
=> optimiza
=>
optimizaç
ção
ão-
--pesquisa
pesquisa
Vantagens da
Vantagens da
Soft
Soft
Computing
Computing
Modelos baseados na razão humana.
Modelos baseados na razão humana.
Os modelos podem ser:
Os modelos podem ser:
--
lingu
lingu
í
í
sticos
sticos
--
simples (
simples (
não exaustivos
não exaustivos
),
),
--
compreens
compreens
í
í
veis (
veis (
opostos
opostos
à
à
s
s
black
black
boxes
boxes
),
),
--
r
r
á
á
pidos de executar (
pidos de executar (
computacionalmente
computacionalmente
),
),
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 1111
Poss
Possí
í
veis tipos de dados &
veis tipos de dados &
opera
operaç
ções
ões
Dados num
Dados numé
é
ricos:
ricos:
5, em torno de 5, 5 para 6, em torno de 5
5, em torno de 5, 5 para 6, em torno de 5
para 6
para 6
Dados Lingu
Dados Linguí
ísticos:
sticos:
barato, muito alto, não alto, m
barato, muito alto, não alto, m
é
é
dio ou mau
dio ou mau
Fun
Funç
ções & rela
ões & relaç
ções:
ões:
f(x
f(x
), em torno de
), em torno de
f(x
f(x
), muito similar, muito
), muito similar, muito
maior
maior
Neural networks (NN, 1940's)
Neural networks (NN, 1940's)
Neural
Neural
networks
networks
(redes neuronais)
(redes neuronais)
oferecem um
oferecem um
poderoso m
poderoso m
é
é
todo
todo
para explorar,
para explorar,
classificar, e
classificar, e
identificar padrões
identificar padrões
nos dados.
nos dados.
Inputs Neurons (1 layer) OutputsDoutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 1313
Aprendizagem supervisionada
Aprendizagem supervisionada
Reconhecimento de
Reconhecimento de
Padrões baseados
Padrões baseados
nos treinos de
nos treinos de
dados.
dados.
Classifica
Classificaç
ção
ão
supervisionada por
supervisionada por
um instrutor.
um instrutor.
Neural (disjunto
Neural (disjunto or
or
difuso),
difuso), neuro
neuro
-fuzzy
-
fuzzy
e
e fuzzy
fuzzy
models
models.
.
Pêssego
Ameixa
?
Instrutor
Aprendizagem não supervisionada
Aprendizagem não supervisionada
Reconhecimento de
Reconhecimento de
Padrões baseado no
Padrões baseado no
treino de dados.
treino de dados.
Classifica
Classificaç
ção baseada
ão baseada
na estrutura dos dados
na estrutura dos dados
(agrupamentos).
(agrupamentos).
Neural (disjunto ou
Neural (disjunto ou
difuso),
difuso), neuro
neuro-
-fuzzy
fuzzy
e
e
fuzzy
fuzzy
models
models.
.
Pêssego
Ameixas
Nectarinas
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 1515
Sistemas
Sistemas
Difusos
Difusos
(Zadeh
(
Zadeh, 1960's)
, 1960's)
Lidam com entidades imprecisas em ambientes
Lidam com entidades imprecisas em ambientes
automatizados (
automatizados (
computer
computer
environments
environments
)
)
Baseiam
Baseiam
-
-
se na teoria dos conjunto difusos e na
se na teoria dos conjunto difusos e na
l
l
ó
ó
gica difusa.
gica difusa.
A maior parte das aplica
A maior parte das aplica
ç
ç
ões são em controlo e
ões são em controlo e
tomada de decisões (
tomada de decisões (
decision
decision
making
making
).
).
Aplica
Aplicaç
ções: controlo
ões: controlo
Industria pesada
Industria pesada
(
(
Matsushita
Matsushita
,
,
Siemens
Siemens
,
,
Stora
Stora
-
-
Enso
Enso
)
)
Aplica
Aplica
ç
ç
ões
ões
domesticas (
domesticas (
Canon
Canon
,
,
Sony
Sony
,
,
Goldstar
Goldstar
,
,
Siemens
Siemens
)
)
Automobil
Automobil
í
í
stica
stica
(
(
Nissan
Nissan
,
,
Mitsubishi
Mitsubishi
,
,
Daimler
Daimler
-
-
Chrysler
Chrysler
,
,
BMW,
BMW,
Volkswagen
Volkswagen
)
)
Espacial (NASA) e
Espacial (NASA) e
militar
militar
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 1717
Aplica
Aplicaç
ções: rob
ões: robó
ótica
tica
Controlo
+
Planeamento
+
inteligência
Outras aplica
Outras aplicaç
ções
ões
• Técnicas Financeiras
• Estatística
• Ciências Sociais
• Ciência do ambiente
• Biologia
• Medicina
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 1919
Soft
Soft
Computing
Computing
e as T
e as T
écnicas
é
cnicas
Tradicionais
Tradicionais
Soft
Soft
Computing
Computing
e os mé
e os m
étodos
todos
convencionais podem ser usados em
convencionais podem ser usados em
conjunto.
conjunto.
Referencias
Referencias
J. Bezdek & S. Pal, Fuzzy models for pattern recognition (IEEE Press, New
York, 1992).
L. Zadeh, Fuzzy logic = Computing with words, IEEE Transactions on Fuzzy
Systems, vol. 2, pp. 103-111, 1996.
L. Zadeh, From Computing with Numbers to Computing with Words -- From
Manipulation of Measurements to Manipulation of Perceptions, IEEE
Transactions on Circuits and Systems, 45, 1999, 105-119.
L. Zadeh, Toward a theory of fuzzy information granulation and its centrality in
human reasoning and fuzzy logic, Fuzzy Sets and Systems 90/2 (1997) 111-127.
H.-J. Zimmermann, Fuzzy set theory and its applications (Kluwer, Dordrecht,
1991).
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 2121
Redes Neuronais
Redes Neuronais
M
Mé
étodo
todo Repropopaga
Repropopagaç
ção
ão
Paulo Salgado
Paulo Salgado
UTAD, 2006
UTAD, 2006
Í
Í
ndice
ndice
Perceptrons
Perceptrons
Aprendizagem
Aprendizagem
Redes Multi
Redes Multi
-
-
camada.
camada.
M
M
é
é
todo de
todo de
Backpropagation
Backpropagation
Bias
Bias
,
,
Overfitting
Overfitting
e 1
e 1
ª
ª
paragem
paragem
(Exemplos: Reconhecimento facial)
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 2323
C
C
é
é
rebro Humano
rebro Humano
Neur
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 2525
Aprendizagem Humana
Aprendizagem Humana
Numero de neur
Numero de neur
ó
ó
nios:
nios:
~ 10
~ 10
11
11
Liga
Liga
ç
ç
ões por neur
ões por neur
ó
ó
nio:
nio:
~ 10
~ 10
4
4
to 10
to 10
5
5
Tempo de processamento:
Tempo de processamento:
~ 0.001 segundo
~ 0.001 segundo
Tempo de reconhecimento
Tempo de reconhecimento
de uma cena:
de uma cena:
~ 0.1 segundo
~ 0.1 segundo
100 etapas de inferência não parecem ser muitas!
100 etapas de inferência não parecem ser muitas!
NN’s são constituídas por uma grande número de
elementos de processamento (nós ou unidades) fortemente
Partes constituintes do Neurónio:
• Núcleo da célula (cell body) ou soma.
• Dendrites
• Axom
• Sinapses (são excitadores/inibidores que deixam passar impulsos
que causam o disparo/inibição do neurónio receptor).
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 2727
Em resumo, as NN é uma estrutura de processamento de
informação paralela com as seguintes propriedades:
1. O seu modelo matemático é inspirada nos neurónios.
2. Consiste num largo número de elementos de processamento,
cujas interligações são pesadas.
3. As suas ligações (pesadas) retêm o conhecimento.
4. Um elemento de processamento responde dinamicamente aos
estímulos de entrada e a resposta depende unicamente da
informação em si localizada; isto é, os sinais de entrada
chegam aos elemento de processamento através das ligações
e dos seus pesos.
5. Possui a habilidade de aprender, relembrar-se e generalizar a
partir dos dados de treino, pelo assinalar ou ajuste dos pesos
das ligações.
6. Apenas de forma colectiva demonstra poder computacional.
Um único neurónio não contém informação especifica (
propriedade ⇒ representação distribuída).
Elemento de processamento
Elemento de processamento
Função de integração linear
1 m i i ij j i j
f
net
w
x
θ
==
∑
⋅ −
Função esférica(
)
2 2 1 m i j ij i jf
ρ
−x
w
θ
==
∑
−
−
ρ
→ raio ; wij → centro da esfera.Função quadrática 2 1 m i ij j i j
f
w
x
θ
==
∑
⋅ −
Função polinomial ou sigma-pi (ΣΠ)
1 1 j k m m i ijk j k j k i j k
f
w x x
x
αx
αθ
= ==
∑∑
+
+
−
ç
ç
ã
o
de
int
e
gra
ã
o
de
int
e
gra
ç
ç
ão
ão
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 2929
Elemento de processamento (EP)
Elemento de processamento (EP)
Fun
Fun
ç
ç
ão
d
e
acti
v
a
ão
d
e
acti
v
a
ç
ç
ão
ão
Função degrau( )
1 ; se
0
0 ; se
0
f
a f
f
≥
⎧
= ⎨
<
⎩
Hard limiter (função threshold)
( )
( )
1 ; se
0
sgn
1 ; se
0
f
a f
f
f
≥
⎧
=
= ⎨
−
<
⎩
Função rampa( )
1 ; se
; se 0
1
1
0 ; se
0
f
a f
f
f
f
≥
⎧
⎪
=
⎨
≤ <
⎪
<
⎩
Função sigmoid unipolar
( )
1
1
fa f
e
−λ=
+
Função sigmoid bipolar
( )
2
1
1
fa f
e
−λ=
−
+
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 3131
Liga
Liga
ções/Estrutura
ç
ões/Estrutura
n EP - cada EP com m pesos
Matriz de pesos ou matriz de ligações
em que
w
ij→ peso da ligação entre do j
esimoEP (nó fonte) para o i
esimoEP (nó destino).
Regras de aprendizagem
Regras de aprendizagem
Aprendizagem
Aprendizagem
Paramétrica
Estrutural
11 12 1 1 21 22 2 2 1 2 T m T m T n n nm nw
w
w
w
w
w
w
w
w
⎡
⎤ ⎡
⎤
⎢
⎥ ⎢
⎥
⎢
⎥ ⎢
=
⎥
⎢
⎥ ⎢
⎥
⎢
⎥ ⎢
⎥
⎢
⎥ ⎣
⎦
⎣
⎦
"
"
#
#
%
#
#
w
w
W
w
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 3333
Aprendizagem param
Aprendizagem param
é
é
trica
trica
(a)
Supervisionada
(b) reforçada
(reinforcement learning)
(c) Não supervisionada
Regra de aprendizagem supervisionada
(
, ,
)
r i ir
=
f
w x
d
( )
( )
( )
1( )
( )
t t t i
d
t
r
t
r
η
+η
= ⋅ ⋅
i=
i+ ⋅ ⋅
w
x
w
w
x
Sinal de supervisão
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 3535
Perceptron
Perceptron
w
2w
nw
1w
0x
0=1
o u t p u t y
x
2x
nx
1. . .
i n p u t x
∑
==
n i i ixw
net
0y
=
1 if net > 0
0 otherwise
{
(
)
( )
( )
11
1 ;
0
0 ;
m i ij j i jy t
a
w
x t
se net
a net
outros
θ
=⎛
⎞
+ =
⎜
⋅
−
⎟
⎝
⎠
≥
⎧
= ⎨
⎩
∑
Pode realizar operações lógicas
elementares como :
NOT, OR e AND.
Modelo Matemático (McCulloch e Pitts (1943))
Nega
Nega
ção
ç
ão
output
input
x1
0
1
1
0
x
1
w
1= −1
1
w
0= 0.5
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 3737
OR
OR
output
output
input
input
x2
x2
input
input
x1
x1
1
1
1
1
1
1
1
1
0
0
1
1
1
1
1
1
0
0
0
0
0
0
0
0
x
2
x
1
w
2=1
w
1=1
w
0= −0.5
1
AND
AND
output
output
input
input
x2
x2
input
input
x1
x1
1
1
1
1
1
1
0
0
0
0
1
1
0
0
1
1
0
0
0
0
0
0
0
0
x
2
x
1
w
2=1
w
1=1
w
0= −1.5
1
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 3939
XOR
XOR
output
output
input
input
x2
x2
input
input
x1
x1
0
0
1
1
1
1
1
1
0
0
1
1
1
1
1
1
0
0
0
0
0
0
0
0
x
2
x
1
Imposs
ível!
Separabilidade linear
Separabilidade linear
x
1
x
2
+
−
+
+
OR
x
1
x
2
−
−
−
+
AND
AND
x
1
+
−
+
−
XOR
XOR
0 para cada com saida desejada = +1
0 para cada com saida desejada = -1
T i T
>
<
w x
x
w x
x
O problema de separação linear por um perceptron só é realizável se
for possível encontrar os vectores de pesos w
i, i=1,2, ..., n , tais que:
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 4141
XOR
XOR
ouput
ouput
input
input
x2
x2
input
input
x1
x1
0
0
1
1
1
1
1
1
0
0
1
1
1
1
1
1
0
0
0
0
0
0
0
0
h
1
x
1
o
x
1
h
1
1
−1.5
AND
1
1
−0.5
OR
1
1
−0.5
XOR
−1
Regra de aprendizagem do
Regra de aprendizagem do Perceptron
Perceptron
i
i
i
w
←
w
+ Δ
w
i
i
w
η
r x
Δ
=
step size
saída do perceptron
entrada
Sinal de erro
incremento
peso novo
peso velho
incremento
i
i
r
d
−
y
saída desejada
η
≠
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 4343
[
] [
] [
]
{
}
[ ] [
] [
]
{
}
1, 0
,
1.5, 1 ,
1, 2
: Classe 1
2, 0
, 2.5, 1 , 1, 2
: Classe 2
T T T T T T−
−
−
− −
−
−
Exemplo:
Convergência, Se
Convergência, Se
…
…
…
…
os dados de treino forem linearmente
os dados de treino forem linearmente
separ
separ
á
á
veis
veis
…
…
tamanho do passo
tamanho do passo
η
η
suficientemente
suficientemente
pequeno
pequeno
…
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 4545
Redes neuronais feedforward multicamada
Como treinar redes
Como treinar redes
Multi
Multi
-
-
Layer
Layer
Perceptrons
Perceptrons
?
?
h
1
x
1
o
x
1
h
1
M
M
é
é
todo do gradiente descendente
todo do gradiente descendente
Fun
Funç
ção
ão
Sigmoidal
Sigmoidal
1
( )
1
x
x
e
σ
=
−
+
w
2w
nw
1w
0x
0=1
o u t p u t
x
2x
nx
1. . .
∑
==
n i i ixw
net
0 nete
o
−+
=
1
1
σ
′
( )
x
=
σ
( )(1
x
−
σ
( ))
x
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 4747
M
Mé
étodo de Gradiente Descendente
todo de Gradiente Descendente
Adaptar os pesos
Adaptar os pesos
w
w
i
i
que minimiza a soma
que minimiza a soma
dos erros quadr
dos erros quadr
á
á
ticos
ticos
2
1
[ ]
(
)
2
k
D
k
k
E w
d
y
ε
=
∑
−
G
D = Dados de treino
Gradiente Descendente
Gradiente Descendente
Gradiente:
0 1[ ]
,
,...,
nE
E
E
E w
w
w
w
⎡
∂
∂
∂
⎤
∇
= ⎢
⎥
∂
∂
∂
⎣
⎦
G
i iE
w
w
η
∂
Δ = −
∂
Regra de treino:
Δ = − ∇
w
G
η
E w
[ ]
G
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 4949
Gradiente
Gradiente
Descente (uma
Descente (
uma
camada)
camada
)
2 2 ,
1
(
)
2
1
(
)
2
1
2(
)
(
)
2
(
)
(
(
))
(
) (
(
))
(
) (
) (1
(
))
k k k i i k k k i k k k k k i k k k k k i k k k k i k k k k i k kE
d
y
w
w
d
y
w
d
y
d
y
w
d
y
d
w x
w
d
y
w x
w
d
y
w x
w x
x
σ
σ
σ
σ
∂
∂
=
−
∂
∂
∂
=
−
∂
∂
=
−
−
∂
∂
=
−
−
⋅
∂
∂
=
−
−
⋅
∂
= −
−
⋅
−
⋅
∑
∑
∑
∑
∑
∑
G G
G G
G G
G G
Batch Learning
Batch Learning
Iniciar cada peso
Iniciar cada peso
w
w
i
i
com um pequeno
com um pequeno
valor aleat
valor aleat
ó
ó
rio
rio
Repetir at
Repetir at
é
é
:
:
Δ
Δ
w
w
i
i
= 0
= 0
Para cada exemplo de treino k
Para cada exemplo de treino k
fazer
fazer
y
y
k
k
←
←
σ
σ
(
(
Σ
Σ
i
i
w
w
i
i
x
x
i,k
i,k
)
)
Δ
Δ
w
w
i
i
←
←
Δ
Δ
w
w
i
i
+
+
η
η
(
(
d
d
k
k
−
−
y
y
k
k
)
)
σ
σ
k
k
(1
(1
-
-
σ
σ
k
k
)
)
x
x
i,k
i,k
w
w
←
←
w
w
+
+
Δ
Δ
w
w
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 5151
Aprendizagem Incremental (
Aprendizagem Incremental (Online
Online)
)
Iniciar cada peso
Iniciar cada peso
w
w
i
i
com um pequeno
com um pequeno
valor aleat
valor aleat
ó
ó
rio
rio
Repetir at
Repetir at
é
é
:
:
Δ
Δ
w
w
i
i
= 0
= 0
Para cada exemplo de treino
Para cada exemplo de treino
k fazer
k fazer
o
o
d
d
←
←
Σ
Σ
i
i
w
w
i
i
x
x
i,k
i,k
Δ
Δ
w
w
i
i
←
←
Δ
Δ
w
w
i
i
+
+
η
η
(
(
d
d
k
k
−
−
y
y
k
k
)
)
σ
σ
k
k
(1
(1
-
-
σ
σ
k
k
)
)
x
x
i,k
i,k
w
w
i
i
←
←
w
w
i
i
+
+
Δ
Δ
w
w
i
i
Algoritmo de
Algoritmo de
Retropropagaç
Retropropaga
ção
ão
Generaliza
Generaliza
ç
ç
ão para m
ão para m
ú
ú
ltiplas camadas e
ltiplas camadas e
m
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 5353
Backpropagation
Backpropagation
Algorithm
Algorithm
“activações”
“erros”
Dados um par de dados entrada saída (x
(k), d
(k)), o algoritmo de
back-propagation realiza-se em duas fases:
1º O vector de entrada x
(k)é propagado da camada de entrada para a de saída
e, como resultado deste fluxo directo dos dados, é produzido a saída y
(k).
2º O sinal de erro resultante da diferença entre d
(k)e y
(k)é back-propagated
da camada de saída para as camadas precedentes, adaptando os seus pesos.
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 5555
Algoritmo
Algoritmo
Backpropagation
Backpropagation
Iniciar os pesos com valores pequenos e aleat
Iniciar os pesos com valores pequenos e aleat
ó
ó
rios
rios
Para cada exemplo de treino fazer
Para cada exemplo de treino fazer
–
–
Para cada unidade escondida
Para cada unidade escondida
h:
h:
–
–
Para cada unidade de sa
Para cada unidade de sa
í
í
da
da
k:
k:
–
–
Para cada unidade de sa
Para cada unidade de sa
í
í
da
da
k:
k:
–
–
Para cada unidade escondida
Para cada unidade escondida
h:
h:
Actualizar cada peso da rede
Actualizar cada peso da rede
w
w
ij
ij
:
:
ij j ij
x
w
=
η
δ
Δ
∑
=
i i hi hw
x
o
σ
(
)
∑
=
k h kh kw
x
o
σ
(
)
)
(
)
1
(
k k k k k=
o
−
o
t
−
o
δ
∑
−
=
k k hk h h ho
o
w
δ
δ
(
1
)
com
ij ij ijw
w
w
←
+
Δ
Exemplo de aprendizagem
Exemplo de aprendizagem
00000001
00000001
→
→
00000001
00000001
00000010
00000010
→
→
00000010
00000010
00000100
00000100
→
→
00000100
00000100
00001000
00001000
→
→
00001000
00001000
00010000
00010000
→
→
00010000
00010000
00100000
00100000
→
→
00100000
00100000
01000000
01000000
→
→
01000000
01000000
10000000
10000000
→
→
10000000
10000000
Output
Output
Input
Input
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 5757
Aprendizagem das camadas
Aprendizagem das camadas
escondidas
escondidas
.60 .94 .01
.60 .94 .01
.80 .01 .98
.80 .01 .98
.22 .99 .99
.22 .99 .99
.03 .05 .02
.03 .05 .02
.99 .97 .71
.99 .97 .71
.01 .97 .27
.01 .97 .27
.01 .11 .88
.01 .11 .88
.89 .04 .08
.89 .04 .08
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
00000001
00000001
→
→
00000001
00000001
00000010
00000010
→
→
00000010
00000010
00000100
00000100
→
→
00000100
00000100
00001000
00001000
→
→
00001000
00001000
00010000
00010000
→
→
00010000
00010000
00100000
00100000
→
→
00100000
00100000
01000000
01000000
→
→
01000000
01000000
10000000
10000000
→
→
10000000
10000000
Output
Output
Input
Input
Erro
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 5959
Pesos
Pesos
Teorema: A arquitectura de uma rede neuronal multicamada com pelo
menos uma camada intermédia (hidden) usando funções de activação compacta e
funções de integração linear ou polinomial pode virtualmente aproximar qualquer
(medida de Borel) função de interesse a qualquer desejado grau de exactidão,
desde que existam suficiente número de unidades nas camadas intermédias. A
função a:
M
→
[ ]
0,1
(ou [-1,1]) é uma função compacta se ela é não decrescente,
( )
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 6161
Redes neuronais com atrasos temporais
( )
(
)
(
)
( )
101
x t
a x t
b x t
t
x
t
τ
τ
∂
⋅
−
=
− ⋅
∂
+
−
Série caótica de Mackey-Glass
a=0.2, b=0.1 e
τ
=17Reconhecimento de Voz
Reconhecimento de Voz
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores de Computadores 6363
GD com momento
GD com momento
erro E
peso w
ij
w
ij
w
ij
new
ijw
E
∂
∂
ij ijw
E
w
∂
∂
−
←
Δ
η
Gradiente descente
ij ij ijw
w
E
w
+
Δ
∂
∂
−
←
Δ
η
μ
GD com Momento
( )
( )
(
1
)
w t
η
E t
α
w t
Δ
= ∇
+ Δ
−
Pode a estrutura cair num m
Pode a estrutura cair num m
í
í
nimo local
nimo local
Pesos podem divergir
Pesos podem divergir
…
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 6565
Problema
Problema
do Overfitting
do
Overfitting
(1
(1
ª
ª
paragem) Parar aprendizagem quando da valida
paragem) Parar aprendizagem quando da valida
ç
ç
ão come
ão come
ç
ç
a a subir.
a a subir.
left strt right up
Imagens de entrada típicas
Pose da cabeça(1-of-4):
90% accuracy
ANNs
Doutoramento em Eng
Doutoramento em EngªªElectrotElectrotéécnica e cnica e
de Computadores
de Computadores 6767