Sistemas Inteligentes e soft. computing

(1)

Doutoramento em Eng

Doutoramento em EngªªElectrotElectrotéécnica e cnica e

de Computadores de Computadores 11

Sistemas Inteligentes

e

“

soft

computing

”

Paulo Salgado

psal@utad.pt

(2)

Doutoramento em Eng

Conte

ú

do

Sistemas Inteligentes

Soft

computing

Á

Áreas de Aplica

reas de Aplicaç

ção

ão

Redes Neuronais

Fuzzy

Logic

(Ló

(L

ógica Difusa)

gica Difusa)

Sistemas Evolutivos

(

Prof. Paulo Oliveira

)

Sistemas Inteligentes

Inteligência: Os Sistemas devem realizar

operações sem significado.

Interpretar as informações.

Compreender as relações entre fenómenos e

objectos.

Aplicar os conhecimentos adquiridos a novas

condições.

(3)

Doutoramento em Eng

de Computadores

de Computadores 55

Objectivos dos sistemas inteligentes

Rotinas das necessidades humanas

Rotinas das necessidades humanas:

:

visão , processamento de linguagem,

razão, aprendizagem, rob

ó

tica.

Rotinas Artificiais

Rotinas Artificiais: jogos, matem

: jogos, matem

á

tica,

l

ó

gica, programa

ç

ão.

Expert

systems

(ES)

Aproxima

ç

ões tradicionais

Modelos Matem

Modelos Matemá

áticos:

ticos:

Black

boxes (caixa negra),

F

í

sicos (baseados nas leis

da conserva

ç

ão da massa,

energia,

…

).

Sistemas baseados em

Regras (disjuntas &

bivalente):

Lista de regras numerosas.

(4)

Doutoramento em Eng

de Computadores

de Computadores 77

Black

Box

Entradas

Saídas

Entradas

Saídas

Open

Box

Modelos

Soft computing (SC)

Objectivo:

Imitar a razão humana (lingu

í

stica

ou outra)

Á

Áreas principais:

reas principais:

--

Fuzzy

systems

--

Neural

networks

--

Evolutionary

computing

(5)

Doutoramento em Eng

de Computadores

de Computadores 99

Constituintes da SC

Fuzzy

systems

=> imprecisão

Neural

Neural networks

networks

=> aprendizagem

Probabilistic

reasoning

=> incerteza

Evolutionary

computing

=> optimiza

=>

optimizaç

ção

ão-

--pesquisa

pesquisa

Vantagens da

Soft

Computing

Modelos baseados na razão humana.

Os modelos podem ser:

--

lingu

í

sticos

--

simples (

não exaustivos

),

--

compreens

í

veis (

opostos

à

s

black

boxes

),

--

r

á

pidos de executar (

computacionalmente

),

(6)

Doutoramento em Eng

de Computadores

de Computadores 1111

Poss

Possí

í

veis tipos de dados &

opera

operaç

ções

ões

Dados num

Dados numé

é

ricos:

5, em torno de 5, 5 para 6, em torno de 5

para 6

Dados Lingu

Dados Linguí

ísticos:

sticos:

barato, muito alto, não alto, m

é

dio ou mau

Fun

Funç

ções & rela

ões & relaç

ções:

ões:

f(x

), em torno de

f(x

), muito similar, muito

maior

Neural networks (NN, 1940's)

Neural

networks

(redes neuronais)

oferecem um

poderoso m

é

todo

para explorar,

classificar, e

identificar padrões

nos dados.

Inputs Neurons (1 layer) Outputs

(7)

Doutoramento em Eng

Aprendizagem supervisionada

Reconhecimento de

Padrões baseados

nos treinos de

dados.

Classifica

Classificaç

ção

ão

supervisionada por

um instrutor.

Neural (disjunto

Neural (disjunto or

or

difuso),

difuso), neuro

neuro

-fuzzy

-

fuzzy

e

e fuzzy

fuzzy

models

models.

.

Pêssego

Ameixa

?

Instrutor

Aprendizagem não supervisionada

Reconhecimento de

Padrões baseado no

treino de dados.

Classifica

Classificaç

ção baseada

ão baseada

na estrutura dos dados

(agrupamentos).

Neural (disjunto ou

difuso),

difuso), neuro

neuro-

-fuzzy

fuzzy

e

fuzzy

models

models.

.

Pêssego

Ameixas

Nectarinas

(8)

Doutoramento em Eng

de Computadores

Sistemas

Difusos

(Zadeh

(

Zadeh, 1960's)

, 1960's)

Lidam com entidades imprecisas em ambientes

automatizados (

computer

environments

)

Baseiam

-

se na teoria dos conjunto difusos e na

l

ó

gica difusa.

A maior parte das aplica

ç

ões são em controlo e

tomada de decisões (

decision

making

).

Aplica

Aplicaç

ções: controlo

ões: controlo

Industria pesada

(

Matsushita

,

Siemens

,

Stora

-

Enso

)

Aplica

ç

ões

domesticas (

Canon

,

Sony

,

Goldstar

,

Siemens

)

Automobil

í

stica

(

Nissan

,

Mitsubishi

,

Daimler

-

Chrysler

,

BMW,

Volkswagen

)

Espacial (NASA) e

militar

(9)

Doutoramento em Eng

de Computadores

Aplica

Aplicaç

ções: rob

ões: robó

ótica

tica

Controlo

+

Planeamento

+

inteligência

Outras aplica

Outras aplicaç

ções

ões

• Técnicas Financeiras

• Estatística

• Ciências Sociais

• Ciência do ambiente

• Biologia

• Medicina

(10)

Doutoramento em Eng

de Computadores

Soft

Computing

e as T

écnicas

é

cnicas

Tradicionais

Soft

Computing

e os mé

e os m

étodos

todos

convencionais podem ser usados em

conjunto.

Referencias

J. Bezdek & S. Pal, Fuzzy models for pattern recognition (IEEE Press, New

York, 1992).

L. Zadeh, Fuzzy logic = Computing with words, IEEE Transactions on Fuzzy

Systems, vol. 2, pp. 103-111, 1996.

L. Zadeh, From Computing with Numbers to Computing with Words -- From

Manipulation of Measurements to Manipulation of Perceptions, IEEE

Transactions on Circuits and Systems, 45, 1999, 105-119.

L. Zadeh, Toward a theory of fuzzy information granulation and its centrality in

human reasoning and fuzzy logic, Fuzzy Sets and Systems 90/2 (1997) 111-127.

H.-J. Zimmermann, Fuzzy set theory and its applications (Kluwer, Dordrecht,

1991).

(11)

Doutoramento em Eng

de Computadores

Redes Neuronais

M

Mé

étodo

todo Repropopaga

Repropopagaç

ção

ão

Paulo Salgado

UTAD, 2006

Í

ndice

Perceptrons

Aprendizagem

Redes Multi

-

camada.

M

é

todo de

Backpropagation

Bias

,

Overfitting

e 1

ª

paragem

(Exemplos: Reconhecimento facial)

(12)

Doutoramento em Eng

de Computadores

C

é

rebro Humano

Neur

(13)

Doutoramento em Eng

de Computadores

Aprendizagem Humana

Numero de neur

ó

nios:

~ 10

11

11 Liga

Liga

ç

ões por neur

ó

nio:

~ 10

4

4 _{to 10}

_{to 10}

5

5 Tempo de processamento:

Tempo de processamento:

~ 0.001 segundo

Tempo de reconhecimento

de uma cena:

~ 0.1 segundo

100 etapas de inferência não parecem ser muitas!

NN’s são constituídas por uma grande número de

elementos de processamento (nós ou unidades) fortemente

Partes constituintes do Neurónio:

• Núcleo da célula (cell body) ou soma.

• Dendrites

• Axom

• Sinapses (são excitadores/inibidores que deixam passar impulsos

que causam o disparo/inibição do neurónio receptor).

(14)

Doutoramento em Eng

de Computadores

Em resumo, as NN é uma estrutura de processamento de

informação paralela com as seguintes propriedades:

1. O seu modelo matemático é inspirada nos neurónios.

2. Consiste num largo número de elementos de processamento,

cujas interligações são pesadas.

3. As suas ligações (pesadas) retêm o conhecimento.

4. Um elemento de processamento responde dinamicamente aos

estímulos de entrada e a resposta depende unicamente da

informação em si localizada; isto é, os sinais de entrada

chegam aos elemento de processamento através das ligações

e dos seus pesos.

5. Possui a habilidade de aprender, relembrar-se e generalizar a

partir dos dados de treino, pelo assinalar ou ajuste dos pesos

das ligações.

6. Apenas de forma colectiva demonstra poder computacional.

Um único neurónio não contém informação especifica (

propriedade ⇒ representação distribuída).

Elemento de processamento

Função de integração linear

1 m i i ij j i j

f

net

w

x

θ

=

∑

⋅ −

Função esférica

(

)

2 2 1 m i j ij i j

f

ρ

−

x

w

θ

=

∑

−

ρ

→ raio ; wij → centro da esfera.

Função quadrática 2 1 m i ij j i j

f

w

x

θ

=

∑

⋅ −

Função polinomial ou sigma-pi (ΣΠ)

1 1 j k m m i ijk j k j k i j k

f

w x x

x

α

x

α

θ

= =

=

∑∑

+

−

ç

ã

o

de

int

e

gra

ã

o

de

int

e

gra

ç

ão

(15)

Doutoramento em Eng

de Computadores

Elemento de processamento (EP)

Fun

ç

ão

d

e

acti

v

a

ão

d

e

acti

v

a

ç

ão

Função degrau

( )

1 ; se

0 0 ; se

0 f

a f

f

≥

⎧

= ⎨

_<

⎩

Hard limiter (função threshold)

( )

1 ; se

0 sgn

1 ; se

0 f

a f

f

≥

⎧

=

_{= ⎨}

−

<

⎩

Função rampa

( )

1 ; se

; se 0

1

1 0 ; se

0 f

a f

f

≥

⎧

⎪

=

⎨

≤ <

⎪

_<

⎩

Função sigmoid unipolar

( )

1

f

a f

e

−λ

=

+

Função sigmoid bipolar

( )

2

1

f

a f

e

−λ

=

−

+

(16)

Doutoramento em Eng

de Computadores

Liga

ções/Estrutura

ç

ões/Estrutura

n EP - cada EP com m pesos

Matriz de pesos ou matriz de ligações

em que

w

_ij

→ peso da ligação entre do j

esimo

_{EP (nó fonte) para o i}

esimo

_{EP (nó destino).}

Regras de aprendizagem

Aprendizagem

Paramétrica

Estrutural

11 12 1 1 21 22 2 2 1 2 T m T m T n n nm n

w

⎡

⎤ ⎡

⎤

⎢

⎥ ⎢

⎥

⎢

⎥ ⎢

₌

⎥

⎢

⎥ ⎢

⎥

⎢

⎥ ⎢

⎥

⎢

⎥ ⎣

⎦

⎣

⎦

"

#

%

#

w

W

w

(17)

Doutoramento em Eng

de Computadores

Aprendizagem param

é

trica

(a)

Supervisionada

(b) reforçada

(reinforcement learning)

(c) Não supervisionada

Regra de aprendizagem supervisionada

(

, ,

)

r i i

r

=

f

w x

d

( )

_{( )}

( )

1

( )

t t t i

d

t

r

t

r

η

+

η

= ⋅ ⋅

i

=

i

+ ⋅ ⋅

w

x

w

x

Sinal de supervisão

(18)

Doutoramento em Eng

Perceptron

w

2

w

n

w

1

w

0

x

0

=1

o u t p u t y

x

₂

x

_n

x

₁

. . .

i n p u t x

∑

=

n i i ix

w

net

0

y

=

1 if net > 0

0 otherwise

{

(

)

( )

1

1 1 ;

0 0 ;

m i ij j i j

y t

a

w

x t

se net

a net

outros

θ

=

⎛

⎞

+ =

_⎜

⋅

−

_⎟

⎝

⎠

≥

⎧

= ⎨

⎩

∑

Pode realizar operações lógicas

elementares como :

NOT, OR e AND.

Modelo Matemático (McCulloch e Pitts (1943))

Nega

ção

ç

ão

output

input

x1

0

1

0 x

₁

w

1

= −1

1 w

0

= 0.5

(19)

Doutoramento em Eng

OR

output

input

x2

input

x1

1

0

1

0

0 x

₂

x

₁

w

₂

=1

w

₁

=1

w

0

= −0.5

1 AND

AND

output

input

x2

input

x1

1

0

1

0

1

0

0 x

₂

x

₁

w

₂

=1

w

₁

=1

w

0

= −1.5

1

(20)

Doutoramento em Eng

XOR

output

input

x2

input

x1

0

1

0

1

0

0 x

₂

x

₁

Imposs

ível!

Separabilidade linear

x

₁

x

₂

+

−

+

OR

x

₁

x

₂

−

+

AND

x

₁

+

−

+

−

XOR

0 para cada com saida desejada = +1

0 para cada com saida desejada = -1

T i T

>

<

w x

x

w x

x

O problema de separação linear por um perceptron só é realizável se

for possível encontrar os vectores de pesos w

i

, i=1,2, ..., n , tais que:

(21)

Doutoramento em Eng

XOR

ouput

input

x2

input

x1

0

1

0

1

0

0 _h

1 x

₁

o

x

₁

h

₁

1 −1.5

AND

1

1 −0.5

OR

1

1 −0.5

XOR

−1

Regra de aprendizagem do

Regra de aprendizagem do Perceptron

Perceptron

i

w

←

w

+ Δ

w

i

w

η

r x

Δ

=

step size

saída do perceptron

entrada

Sinal de erro

incremento

peso novo

peso velho

incremento

i

r

d

−

y

saída desejada

η

≠

(22)

Doutoramento em Eng

[

] [

]

{

}

[ ] [

] [

]

{

}

1, 0

,

1.5, 1 ,

1, 2

: Classe 1

2, 0

, 2.5, 1 , 1, 2

: Classe 2

T T T T T T

−

− −

−

Exemplo:

Convergência, Se

…

os dados de treino forem linearmente

separ

á

veis

…

tamanho do passo

η

suficientemente

pequeno

…

(23)

Doutoramento em Eng

de Computadores

Redes neuronais feedforward multicamada

Como treinar redes

Multi

-

Layer

Perceptrons

?

h

₁

x

₁

o

x

₁

h

₁

M

é

todo do gradiente descendente

Fun

Funç

ção

ão

Sigmoidal

1 ( )

1 x

x

e

σ

=

₋

+

w

2

w

n

w

1

w

0

x

0

=1

o u t p u t

x

2

x

n

x

1

. . .

∑

=

n i i ix

w

net

0 net

e

o

₋

+

=

1

1 σ

′

( )

x

=

σ

( )(1

x

−

σ

( ))

x

(24)

Doutoramento em Eng

de Computadores

M

Mé

étodo de Gradiente Descendente

todo de Gradiente Descendente

Adaptar os pesos

w

_i

que minimiza a soma

dos erros quadr

á

ticos

2

1 [ ]

(

)

2 k

D

k

E w

d

y

ε

=

∑

−

G

D = Dados de treino

Gradiente Descendente

Gradiente:

0 1

[ ]

,

,...,

n

E

E w

w

⎡

∂

⎤

∇

_{= ⎢}

_⎥

∂

⎣

⎦

G

i i

E

w

η

∂

Δ = −

∂

Regra de treino:

Δ = − ∇

w

G

η

E w

[ ]

G

(25)

Doutoramento em Eng

de Computadores

Gradiente

Descente (uma

Descente (

uma

camada)

camada

)

2 2 ,

1 (

)

2

1 (

)

2

1 2(

)

(

)

2 (

)

(

))

(

) (

(

))

(

) (

) (1

(

))

k k k i i k k k i k k k k k i k k k k k i k k k k i k k k k i k k

E

d

y

w

d

y

w

d

y

d

y

w

d

y

d

w x

w

d

y

w x

w

d

y

w x

x

σ

∂

=

−

∂

=

−

∂

=

−

∂

=

−

⋅

∂

=

−

⋅

∂

= −

−

⋅

−

⋅

∑

G G

Batch Learning

Iniciar cada peso

w

_i

com um pequeno

valor aleat

ó

rio

Repetir at

é

:

Δ

w

_i

= 0

Para cada exemplo de treino k

fazer

y

_k

←

σ

(

Σ

_i

w

_i

x

_i,k

)

Δ

w

_i

←

Δ

w

_i

+

η

(

d

_k

−

y

_k

)

σ

_k

(1

-

σ

_k

)

x

_i,k

w

←

w

+

Δ

w

(26)

Doutoramento em Eng

de Computadores

Aprendizagem Incremental (

Aprendizagem Incremental (Online

Online)

)

Iniciar cada peso

w

_i

com um pequeno

valor aleat

ó

rio

Repetir at

é

:

Δ

w

_i

= 0

Para cada exemplo de treino

k fazer

o

_d

←

Σ

_i

w

_i

x

_i,k

Δ

w

_i

←

Δ

w

_i

+

η

(

d

_k

−

y

_k

)

σ

_k

(1

-

σ

_k

)

x

_i,k

w

_i

←

w

_i

+

Δ

w

_i

Algoritmo de

Retropropagaç

Retropropaga

ção

ão

Generaliza

ç

ão para m

ú

ltiplas camadas e

m

(27)

Doutoramento em Eng

de Computadores

Backpropagation

Algorithm

“activações”

“erros”

Dados um par de dados entrada saída (x

(k)

, d

(k)

), o algoritmo de

back-propagation realiza-se em duas fases:

1º O vector de entrada x

(k)

é propagado da camada de entrada para a de saída

e, como resultado deste fluxo directo dos dados, é produzido a saída y

(k)

.

2º O sinal de erro resultante da diferença entre d

(k)

e y

(k)

é back-propagated

da camada de saída para as camadas precedentes, adaptando os seus pesos.

(28)

Doutoramento em Eng

de Computadores

Algoritmo

Backpropagation

Iniciar os pesos com valores pequenos e aleat

ó

rios

Para cada exemplo de treino fazer

–

Para cada unidade escondida

h:

–

Para cada unidade de sa

í

da

k:

–

Para cada unidade de sa

í

da

k:

–

Para cada unidade escondida

h:

Actualizar cada peso da rede

w

_ij

:

ij j ij

x

w

=

η

δ

Δ

∑

=

i i hi h

w

x

o

σ

(

)

∑

=

k h kh k

w

x

o

σ

(

)

(

)

1 (

_k _k _k k k

=

o

−

o

t

−

o

δ

∑

−

=

k k hk h h h

o

w

δ

(

1 )

com

ij ij ij

w

←

+

Δ

Exemplo de aprendizagem

00000001

→

00000001

00000010

→

00000010

00000100

→

00000100

00001000

→

00001000

00010000

→

00010000

00100000

→

00100000

01000000

→

01000000

10000000

→

10000000

Output

Input

(29)

Doutoramento em Eng

de Computadores

Aprendizagem das camadas

escondidas

.60 .94 .01

.80 .01 .98

.22 .99 .99

.03 .05 .02

.99 .97 .71

.01 .97 .27

.01 .11 .88

.89 .04 .08

→

00000001

→

00000001

00000010

→

00000010

00000100

→

00000100

00001000

→

00001000

00010000

→

00010000

00100000

→

00100000

01000000

→

01000000

10000000

→

10000000

Output

Input

Erro

(30)

Doutoramento em Eng

de Computadores

Pesos

Teorema: A arquitectura de uma rede neuronal multicamada com pelo

menos uma camada intermédia (hidden) usando funções de activação compacta e

funções de integração linear ou polinomial pode virtualmente aproximar qualquer