6
6
Prof. Emilio Del Moral Hernandez
Disciplina PSI2533 – Prof. Emilio - 2015
Redes Neurais a Aprendizado de
Máquina
4as feiras – às 9:20hs; 6as às 7:30hs
Sala B2- 09
Prof. Emilio Del Moral Hernandez
emilio@lsi.usp.br
7
Prof. Emilio Del Moral Hernandez
Programa aproximado em 2015
8
8
Prof. Emilio Del Moral Hernandez
Programa aproximado em 2015
10
Conjuga capacidades da inteligência biológica com os ambientes de computação, de processamento embarcado, de sensoriamento e de controle automático
Emprega diferentes estratégias e metodologias, frequentemente integradas em sistemas híbridos Muitas vezes as duas seguintes vertentes caminham juntas (e particularmente em neurocomputação):
1) Inspirar-se nos sistemas biológicos para delineamento de novos modelos de computação
2) Emular ou subtituir parcialmente as capacidades dos sistemas biológicos
Computação Bioinspirada, Computação Neural e Eletrônica Neuromórfica
11
11
Prof. Emilio Del Moral Hernandez
Elencando alguns empréstimos da biologia
Redes Neurais Artificiais – nosso foco
– O processamento não linear dos neurônios – A plasticidade sináptica e o aprendizado
Lógica “Fuzzy” (Lógica Nebulosa)
– A representação de informação imprecisa – funções de
pertinência (conjuntos nebulosos)
Computação Evolucionária
– A terminologia e os conceitos da evolução biológica: uma
população composta por diversas soluções potenciais de um problema é refinada e evolui em novas gerações, que correspondem a novas populações de soluções potenciais, cada vez melhores
12
Prof. Emilio Del Moral Hernandez
Redes Neurais Artificiais
São: sistemas computacionais, de implementação em hardware ou software, que imitam as habilidades computacionais do sistema nervoso biológico, usando um grande número de processadores simples (neurônios artificiais) e interconectados entre si.
Emprestam da biologia:
A estrutura de processamento microscópico (processamento de informação de neurônios individuais)
Em algum grau, aspectos da organização de redes neurais biológicas – como os neurônios se interligam
14
14
Prof. Emilio Del Moral Hernandez Dentrites
Soma
Axon
(active cell membrane)
Fundamentos ... O neurônio biológico
Axon Hillock
15
Action Potential generation and Propagation
(Potenciais de Ação = nome técnico dos pulsos neurais)Tempo Potenciais de Ação
... ions principais ... Sódio, Potássio, Cloro...
16
16
Prof. Emilio Del Moral Hernandez
Sinapses
Conexões Sinápticas ... podem ser excitatórias ou inibitórias, mais fortes ou mais fracas, mais lentas ou mais rápidas, ... de acordo com o tipo (dopamina, serotonina, etc ...) e com a quantidade de neurotransmissores envolvidos.
Conceitos de Peso Sináptico e de Plasticidade Sináptica
17
Prof. Emilio Del Moral Hernandez
Phenomenology of spike generation
iu
i
j
Spike reception: EPSP,
summation of EPSPs
Spike reception: EPSP
ϑ
Threshold
Spike emission
(Action potential)
threshold
18
18
Prof. Emilio Del Moral Hernandez
Integrate-and-fire Model and the Electronic Version
i
u
i
ϑ
)
(t
RI
u
u
dt
d
i i=
−
+
⋅
τ
( )
t
=
ϑ
⇒
u
iFire+reset
linear
threshold
Spike emission
reset
ϑ
I
j
(Slide from Gerstner’s
webpage)
19
Sinal gerado por circuito com transistores CMOS,
para codificação por pulsos neurais individuais
Prof. Emilio Del Moral Hernandez Grupo ICONE-EPUSP-PSI
20
20
Prof. Emilio Del Moral Hernandez
Circuito neuromórfico para codificação temporal
de informação, em redes neurais pulsadas
Prof. Emilio Del Moral Hernandez Grupo ICONE-EPUSP-PSI
Trabalho de pós graduação de Julio Cesar Saldaña
24
Prof. Emilio Del Moral Hernandez
Action Potential generation and Propagation
(Potenciais de Ação = nome técnico dos pulsos neurais)
Tempo Potenciais de Ação
... ions principais ... Sódio, Potássio, Cloro...
25
25
Prof. Emilio Del Moral Hernandez
Me mostra potenciais de ação medidos em axônios
reais e sem estilização?
26
Codificação de informação em neurônios
biológicos
Frequencial Phase
Sincronização ??? Outros ???
– Os modelos neurais mais clássicos >>>
27
27
Prof. Emilio Del Moral Hernandez
Freq. De Pulsos (potenciais de ação) Estímulo Sublimiar (Freq. Sat.) Depolarização da Membrana Saturação Tempo Potenciais de Ação
Estudando a relação não linear entre volume de
estímulo e volume de atividade de saída
28
Prof. Emilio Del Moral Hernandez
Modelando a Relação Entrada / Saída do neurônio
∑
∑
∑
∑
T
Função de Soma Função de Transferência Saída i Entradas x1 x0 x2 wj2 wj1 wj0 Pesos incluamos uma função de transferência29
29
Prof. Emilio Del Moral Hernandez
1) Uma linear (soma ponderada das
entradas)
2) Outra não linear (Função de
transferência da classe sigmoidal)
Temos pois duas componentes de cálculo
complementares no neurônio:
31
Computação não linear com codificação frequencial
y = fT ( ΣΣΣ wΣ i xi) Estímulos Sublimiar (Freq. Sat.) Volume de Estímulo Saturação -1,5 -1 -0,5 0 0,5 1 1,5 -6 -4 -2 0 2 4 6
x
0x
N -1 SAÍDAy
w
0w
N -1x
0x
N -1 SAÍDAy
x
0x
N -1 SAÍDAy
w
0w
N -133
33
Prof. Emilio Del Moral Hernandez
Outras funções de transferência não linear
Com escalamento do argumento, pode-se abarcar os universos digital e analógico / linear e não linear simultaneamente
H a r d L i m it e r R a m p in g F u n c t i o n ( l im i t e r á p i d o ) ( f u n ç ã o d e r a m p a ) S i g m o i d e F u n c t io n S i g m o id e F u n c t io n ( f u n ç ã o s i g m ó i d e ) ( f u n ç ã o s i g m ó i d e ) x x x x y y y y s < 0 , y = - 1 s > 0 , y = 1 s < 0 , y = 0 0 < = s < = 1 , y = s s 1 , y = 1 1 1 - 1 1 1 1 y = 1 / ( 1 + e- s) - 1 x > = 0 , y = 1 - 1 / ( 1 + s ) x < 0 , y = - 1 + 1 / ( 1 - s ) 34
Prof. Emilio Del Moral Hernandez
O Perceptron Digital:
y=signal(Σ
Σ
w
w
iix
x
ii-
-
θ
θ)
(função de transferência tipo “degrau”)
Viabiliza a classificação de padrões com separabilidade linear
O algoritmo de aprendizado adapta os Ws de forma a encontrar o hiperplano de separação adequado
Aprendizado por conjunto de treinamento
A A B B A A A A AA A A A A A A A A A A A A B B B B B B BB BB B B B B B B xi xo Hiperplano Hiperplano Separador Separador Exemplos - de Pares (x0;x1) -da classe A Exemplos Exemplos--dede Pares (x0;x1) Pares (x0;x1) - -da classe da classeBB
35
35
Prof. Emilio Del Moral Hernandez
E se a saída do nosso problema não for digital?
O “Perceptron Contínuo”:
y=tgh(
Σ
Σ
w
w
iix
x
ii-
-
θ
θ)
Que problemas de entradas contínuas conseguimos atacar usando uma função de transferência tangente hiperbólica) xi xo Hiperplano Hiperplano em que y=0 em que y=0 W.X > 0 y > 0 W. X < 0 y < 0 y vetor W 36
Cômputos mais complexos … são realizados
pelo encadeamento de vários nós
Axônio
Dendritos
Sinapse
A conexão entre um axônio de um neurônio e um
dendrito de outro é denominada Sinapse
37
37
Prof. Emilio Del Moral Hernandez
Três arquiteturas neurais importantes:
x0 xN -1 ENTRADA SAÍDA y w0 wN -1 x0 xN -1 ENTRADA SAÍDA y x0 xN -1 ENTRADA SAÍDA y w0 wN -1
1) MLP 2) Memória 3) Mapas Auto-- Multi Layer Associativa Organizáveis
Perceptron de Hopfield de Kohonen
38
Prof. Emilio Del Moral Hernandez
Foco deste Curso:
o Multi Layer Perceptron (MLP)
Múltiplas entradas / Múltiplas saídas / Múltiplas camadas Variáveis (internas e externas) analógicas ou digitais Relações lineares ou não lineares entre elas
39
39
Prof. Emilio Del Moral Hernandez
MBP – uma plataforma didática para redes neurais gratuita, de fácil uso e com 12 excelentes tutoriais
site http://mbp.sourceforge.net/
Ambiente desenvolvido pelo Prof. Noel Lopes e colaboradores – Instituto Politécnico da Guarda – Portugal
40
Exemplo de tela do ambiente MBP definindo uma Rede Neural
41
41
Prof. Emilio Del Moral Hernandez
Algumas Telas do MBP Mudando a função do nó neural
42
Prof. Emilio Del Moral Hernandez
Modelagem com o MLP
43
43
Prof. Emilio Del Moral Hernandez
Saldo Bancário médio Burlador significativo de impostos Salário Médio Consumidor Influenciável por propaganda Medida de confiabilidade de
crédito do indivíduo segundo agência XYZ Consumidor de Baixo Risco de Inadimplência Micro-empreendedor de sucesso
Um hipotético universo de variáveis
inter-dependentes, passível de modelagem/ens
44 Saldo Bancário médio (x1) Burlador significativo de impostos Salário Médio (x4) Consumidor Influenciável por propaganda (x3binário) Medida de confiabilidade de
crédito do indivíduo segundo agência XYZ (x2) Consumidor que honra(rá) crédito solicitado (“y” binário”) Micro-empreendedor de sucesso
Um hipotético universo de variáveis
inter-dependentes, passível de modelagem/ens
45
45
Prof. Emilio Del Moral Hernandez
RNAs como reconhecedor de padrões ...
X
X é um “padrão” notável? Sim ( ) Não ( )RNA
X
y
rede +1 ( ) - 1 ( ) ... ou alternativamente yrede> 0 ( ) yrede< 0 ( ) sistema a modelar y ... mundo binário (sim x não) 46Prof. Emilio Del Moral Hernandez
Caso de classificação binária / reconhecimento
de padrões, será do tipo ...
xo xi y +1.0 0.0 -1.0
X
y (... restrita a
valores +1 e –1)
CLASSIFICADOR;
RECONHECEDOR DE
PADRÕES NOTÁVEIS
X
sistema a modelar comportamento do sistema a modelar (decisor ”perfeito” – ou decisor “padrão ouro”)(classe A)
47
47
Prof. Emilio Del Moral Hernandez
Exemplo de Arquitetura MLP para apoio à
decisão (aprovação / recusa de crédito)
Camada de entrada Camada de saida Camada oculta bias bias Neurônios de Entrada: 4 Neurônios na Camada Escondida: 4 Neurônio de Saída: 1 Discretizador 16 pesos + 4 bias 4 pesos + 1 bias >=0 aprovado < 0 reprovado discretizador >=0 crédito aprovado < 0 crédito reprevado (exemplo desenvolvido pelo Prof. Leandro
Augusto da Silva)
48
Capacidade de reconhecimento de padrões em
casos complexos NÃO LINEARES
Com as RNAs, a hipersuperfície de separação entre classes vai muito além dos hiperplanos
A A B B A A A A A A A A A A A A A A A A A A B B B B B B BB B B B B B B B B A A A A A A A A A A A A A A A A A A A A A A AAAAAA A A A A A A A A A A AA A A A A A A A A B B A A A A AA A A A A A A A A A A A A B B B B B B BB BB B B B B B B A A A A A A A A A A A A A A A A A A A A A A A A A A A A
51
51
Prof. Emilio Del Moral Hernandez
Modelagem de um sistema por função de mapeamento X -> y (a RNA como regressor contínuo não linear multivariável)
X
y
RNA
X
y
redeAssumimos que a variável y do sistema a modelar é uma função
(normalmente desconhecida e
possivelmente não linear) de
diversas outras variáveis desse mesmo sistema
A RNA , para ser um bom modelo do sistema, deve reproduzir essa relação entre X e y, tão bem quanto possível
sistema a modelar y ... do mundo analógico (contínuo) 52
Prof. Emilio Del Moral Hernandez
Anos de vida Anos de educação formal Número de filhos Dias de Férias / ano Volume de bens dos genitores Frequência a atividades religiosas Frequência em eventos sociais Frequência em eventos artísticos
Um hipotético universo de variáveis
inter-dependentes, passível de modelagem/ens
53
53
Prof. Emilio Del Moral Hernandez
Anos de vida (“y” contínuo) Anos de educação formal (x3) Número de filhos Dias de Férias / ano Volume de bens familiares (x2) Grau de periculosidade da atividade (x1) Frequência em eventos sociais Frequência em eventos artísticos
Um hipotético universo de variáveis
inter-dependentes, passível de modelagem/ens
54
A função y(X) “a descobrir”, num caso geral de
função contínua y(X) ....
xo xi y +1.0 0.0 -1.0
X
y
(.... VALORES CONTÍNUOS!!!)- ESTIMADOR ;
- MODELAGEM POR
MAPEAMENTO X→
→
→
→y
X
SS: sistema regido por função F genérica, y=F(X)
comportamento do sistema a modelar (ou então, comportamento “padrão ouro”)
55
55
Prof. Emilio Del Moral Hernandez
O Multi Layer Perceptron (MLP)
Múltiplas entradas / Múltiplas saídas / Múltiplas camadas Variáveis (internas e externas) analógicas ou digitais Relações lineares ou não lineares entre elasDecisão
Estimação Proc. Não Linear de Sinais
Kolmogorov, Cybenko (~1990)
57
Prof. Emilio Del Moral Hernandez
Três arquiteturas neurais importantes:
x0 xN -1 ENTRADA SAÍDA y w0 wN -1 x0 xN -1 ENTRADA SAÍDA y x0 xN -1 ENTRADA SAÍDA y w0 wN -1
1) MLP 2) Memória 3) Mapas Auto-- Multi Layer Associativa Organizáveis
58
58
Prof. Emilio Del Moral Hernandez
Recursões acopladas implementando memórias
associativas através de atratores da rede
atratores espaço temporais definem a informação gerada na associação
Prof. Emilio Del Moral Hernandez Grupo ICONE-EPUSP-PSI
Trabalho com participação de orientados Leandro Augusto da Silva e Humberto Sandmann
59
Alguns dos Projetos de PSI 2672
(em www.lsi.usp.br/icone/psi2672)
60
60
Prof. Emilio Del Moral Hernandez
Destacando algumas aplicações e temáticas de
ponta em neurocomputação eletrônica
Brain Computer Interface - BCI
Eletrônica Neuromórfica e Redes Neurais
Pulsadas
62
Prof. Emilio Del Moral Hernandez
Anos de vida (“y” contínuo) Anos de educação formal (x3) Número de filhos Dias de Férias / ano Volume de bens familiares (x2) Grau de periculosidade da atividade (x1) Frequência em eventos sociais Frequência em eventos artísticos
Um hipotético universo de variáveis
inter-dependentes, passível de modelagem/ens
64
64
Prof. Emilio Del Moral Hernandez
O Multi Layer Perceptron (MLP)
Múltiplas entradas / Múltiplas saídas / Múltiplas camadas Variáveis (internas e externas) analógicas ou digitais Relações lineares ou não lineares entre elasDecisão
Estimação Proc. Não Linear de Sinais
Kolmogorov, Cybenko (~1990)
65
Resumindo os aspectos conceituais principais
1) Não linearidade com a função neural sigmoidal 2) Possibilidade de conjugar na mesma estrutura ...
– Cálculos digitais
– Cálculos lineares multivariáveis
– Funções genéricas não lineares multivariáveis
3) Comportamento adaptativo com aprendizado através de exemplos
---Problemas complexos, multidimensionais, não lineares e mesmo aqueles sem teoria conhecida
Decisão automática, estimação, reconhecimento de padrões, classificação, processamento não linear de sinais, clustering multidimensional ...
66
66
Prof. Emilio Del Moral Hernandez
Foco deste Curso:
o Multi Layer Perceptron (MLP)
Múltiplas entradas / Múltiplas saídas / Múltiplas camadas Variáveis (internas e externas) analógicas ou digitais Relações lineares ou não lineares entre elas
67
Prof. Emilio Del Moral Hernandez
X y v x1 x2 x3 x de viés (fixo em 1) Grafo de cálculos para um único nó neural ... w1 w2 w3 w0 f(.) W ... inclui w1a w3 e também o viés (w0) v = X.W = Σwixi y = f (v)
68
68
Prof. Emilio Del Moral Hernandez
X
V1a
Y1a Y2a Y3a
Y4a V2a V3a V4a Grafo de cálculos para um MLP “3-3-3-3-1”, Com 3 nós de entrada +3 nós +3 nós +3 nós escondidos + +1 nó de saída, todos com viés
69 X
V1a
Y1a Y2a Y3a
Y4a
V2a V3a
70
70
Prof. Emilio Del Moral Hernandez
Como saber se a rede é boa ou ruim (como modelo)
para cada configuração de pesos
w
ijpossível?
X
yrede71
Prof. Emilio Del Moral Hernandez
Exemplo de tela do ambiente MBP definindo uma Rede Neural
72
72
Prof. Emilio Del Moral Hernandez
MBP – uma plataforma didática para redes neurais gratuita, de fácil uso e com 12 excelentes tutoriais
site http://mbp.sourceforge.net/
Ambiente desenvolvido pelo Prof. Noel Lopes e colaboradores – Instituto Politécnico da Guarda – Portugal
73
... erro da rede com relação ao conjunto de treinamento como um todo; simbologia (Xµ; yµ); Erro quadrático de exemplar (Eqµ); Erro quadrático
médio (Eqm)
∑
= − = M rede X y y M Eqm 1 2 ) ) ( ( 1 µ µ µResumo de principais resultados em lousa ...
74
74
Prof. Emilio Del Moral Hernandez
Conjunto de treino em arquiteturas supervisionadas (ex.
clássico: MLP com Error Back Propagation)
X
y
RNA
X
y
redeA computação desejada da rede pode ser definida
simplesmente através de amostras / exemplos do comportamento requerido Conjunto de Amostras (Xµµµµ; y µµµµ)
Aprendizado: Espaço de pesos W é explorado visando aproximar ao máximo a computação da
rede da computação desejada
∑
= − = M rede X W y y M Eqm 1 2 ) ) , ( ( 1 µ µ µ_
. Eqm
W
=
−
∇
∆
η
Sistema Físico, Econômico, Biológico ... S 75Prof. Emilio Del Moral Hernandez Algumas Telas do MBP: acompanhando a queda do erro (RMS)
76
76
Prof. Emilio Del Moral Hernandez
78
78
Prof. Emilio Del Moral Hernandez
grafo de cálculos no sentido “direto”
79
Prof. Emilio Del Moral Hernandez y_referência ( . )2 erro d a r ede er ro qu ad rá tico +1 -1
80
80
Prof. Emilio Del Moral Hernandez
Notação
81
Plano para 4a aula (fechando pacote 1 a 4) ...
Retomar o grafo de cálculos do fluxo direto Explicitar o cálculo direto com Matlab Relacionar Grad (Eqm) com Grad (Eqµ)
Usar o grafo direto para definir a cadeia relevante a uma componente do Grad (Eqµ)
Usar a regra da cadeia para obter a expressão analítica dessa componente do Grad (Eqµ)
Usar estes resultados para compor o algoritmo Error Back Propagation, de adaptação de pesos pelo método do gradiente
Seguir em direção à retropagação camada a camada (fluxo direto) ... aulas 4 e 5
82
82
Prof. Emilio Del Moral Hernandez
Ex 1 de Redes Neurais em PSI 2533-2015
Para uma rede 2-3-2-1 (2 entradas; 1 saída; 5 nós escondidos em duas camadas: 3+2)
Desenhe o grafo de cálculos diretos detalhado
Deduza passo a passo e de próprio punho as expressões do Grad (Eqµ) nas suas componentes de um nóda primeira
camada escondida (um de 3 nós)
Isto deve ser feito para todos os pesos do nó, inclusive o peso de bias / viés
Desafio extra: faça isso também para os pesos de um dos nós da segunda camada escondida (a camada que tem 2 nós) Escaneie as suas soluções, adicione capa com os dados usuais, componha tudo num único PDF, verifique a legibilidade dos seus escaneados e depois disso submeta o PDF ao STOA, no escaninho adquado
Prazo: 23/nov/2015
83
Prof. Emilio Del Moral Hernandez
Discussões em lousa até a aula de número 4 ...
esmiuçando o treino de um MLP de duas camadas
85
85
Prof. Emilio Del Moral Hernandez y_referência ( . )2 erro d a r ede erro qu ad rá tico +1 -1 ∂ Eq_µ / ∂ w do nó H =
= (2. erro_rede). (∂ y_rede / ∂ y_nó H . (∂ y_nó H / ∂ w do nó H) = (2. erro_rede). (FatorRetroprop_nó H). (∂ y_nó H / ∂ w do nó H) nó “H”
nó “A”
86 EBP – Error Back Propagation = Processo de aproximações sucessivas ao Eqm mínimo,
com mudanças de W planejadas para isso:
Chute um vetor W inicial, e chame-o de “Wcorrente”, ou “W melhor até agora” Em loop EXTERNO, repita 1, 2 e 3 a seguir, até obter Eqm zero, ou Eqm baixo o suficiente, ou Eqm estável, ou estourar um número limite de iterações (de adaptações em ∆W):
– 1) Determine o vetor gradiente do Eqm, nesse espaço de Ws. Essa determinação é
feita através de um loop varrendo todos os M exemplos (Xµ;yµ). Cada passo desse
loop INTERNO envolve 1.1, 1.2 e 1.3 como segue:
1.1) Calcule o gradiente de Eqµassociado a apenas um exemplo µ:
1.2) Cada cálculo desses, associado a um µ apenas, envolve calcular tantas derivadas parciais de Eqµquantos pesos existam na rede. Isso exige primeiro
calcular o valor do argumento de cada tangente hiperbólica e depois usar esses valores dos argumentos nas derivadas da regra da cadeia, necessárias ao cálculo das derivadas parciais de Eqµcom relação aos vários pesos da rede;
1.3) Vá varrendo µ (lembre que µ vai de 1 até M), e somando os gradientes obtidos para cada Eqµ, para ir compondo o vetor gradiente de Eqm, que na verdade é a
soma de todos os gradientes coletados para os diversos µ; saia deste loop INTERNO somente quando passar por todos os µ.
– 2) Ao sair do Loop INTERNO acima, estamos prontos para dar um pequeno passo
vetorial ∆W no espaço de pesos, com a direção e magnitude dados por
–η . vetor gradiente de Eqm. Com isso, atualizamos / melhoramos o vetor Wcorrente
– 3) Em seguida a dar tal passo ∆W, avalie se Eqm é zero / ou pequeno / ou estável /
etc, e se não decidir parar o processo, prepare-se para um novo pequeno passo ∆W (volte ao passo do cálculo do gradiente – passo 1)