CURSO
DE
Pos-GRADUAÇÃO
EM ENoENHAR|A
ELETR|cA
SENs|B||_|DADE PARA|v|ÉTR|cA
como
Gu|A
PARA
o
TRE|NAMENTo
HíBR|Do
DE
REDEs
NEuRA|s
Tese
submetida
como
partedos
requisitospara
a
obtenção
do
grau
de
Doutor
em
Engenharia
Elétrica.
João da
SilvaDias
PARAMÉTRICA
COMO
GUIA
PARA
O
TREINAMENTO
HÍBRIDO
DE REDES
NEURAIS
João
da
Silva Dias 4Esta tese foi julgada
adequada
para obtençãodo
Título deDOUTOR
EM
ENGENHARIA
ELÉTRICA
Área de
concentração
em
Sistemas de
Informação
e aprovada
em
sua
forma
final peloCgãso de Pós-Graduação
Prof. Jorge
Muniz
Barreto, Dr.d0I`
5 ~- .
Pro . 'É -
mar
Cassana
Decker,DÍÉ`c.Coordenador do Curso
Banca
Examinadora:
Prof. orge
M
'iz Barreto, Dr.
\ Presidente
P
of”. Sil a.odesi
Nassar, Dr”.P
Co-
ientadora'
,/Vaz./.¿~/4%?/Í/f/Á/õâf/1
Prof. Paulo
Sé
i/o/da}Ã/lva Borges, Dr.I
A
'ãmw
ru
mbwglg
of
JulioCe
,_ Nievola, Dr.
Prof.
Eugenio
I{ahrí"EpprIecht, Dr.~
aa
k
A
A
minha
filhaMARINA
AGRADECIMENTOS
Aos
professores
Jorge
M.
Barretoe
SilviaM.
Nassar
pela
orientação
competente,
apoioe
amizade.
Ao
professor Carlos
InácioZanchin
pelo incentivodado
desde
o
mestrado
e
também
em
reconhecimento
peloseu
trabalhosério
e competente.
.
Ao
colega
John
Wisbeck
pelasinúmeras discussões
e
divagações
ao
longo deste
trabalho.Ao
colega Emil
Kupek
pelas discussões
e
apoio.A
todos
os
amigos que de alguma
forma apoiaram
este
trabalho.
Aos
brasileirosque
parcialmente
financiaram
este trabalhoPuB|_|cAçöEs
Dias,
Joäo
da Silva; Barreto, Jorge Muniz; Nassar, Silvia; e Brasil, L. M..“Genetic
and
Back-Propagation Algorithm in Hybrid Training of ArtificialNeural Networks:
A
Unimodal Search Procedure". Proceedings of the 16""IASTED
- International Conference Applied lnformatics-
ISSN: 1027-2666, ISBN: O-88986-250-8 February 23-25, 1998, Garmisch-
Partenkirchen,
Germany.
Dias,
João
da Silva; Barreto, Jorge Muniz; e Nassar, Silvia. “AlgoritmoGenético
Guiado
pela Sensibilidade no Treinamento Híbridode
Redes
Neurais
com
Back-Propagation”. I Congresso Latinoamericanode
Ingeniería Biomédica
-
MAZATLAN
98-
ISBN: 968-5063-00-1, Outubrode 1998, México.
Dias, João da Silva, Barreto, Jorge Muniz e Vilvahuamán, Luis A.
“Otimização do Algoritmo Back-propagation
com
Algoritmo Genét¡co”.VIlSimposio Latinoamericano
de
Ingeniería Biomédica,Bucaramanga
-Colombia, Outubro
de
1996.Dias,
João
da Silva;Zimmermann,
A. C.; Borges, P. S. da S.; Barreto,Jorge Muniz. “Aprendizado e Evolução: de
Lamarch
a Baldwin”. I SimpósioBrasileiro
de Redes
Neurais-
SBRN
98, Belo Horizonte,Dezembro de
Dias,
João
da Silva, Barreto, Jorge Muniz. “Heurísticas na Implementaçãode
Algoritmo Genético no Treinamento deRedes
MuIticamadas“.Submetido ao I Simpósio de Logística da Marinha, Rio
de
Janeiro,Dezembro
de 1996.Dias,
João
da Silva; e Barreto, Jorge Muniz. “Algoritmo Genético:Inspiração Biológica na Solução
de
Problemas-
Uma
Introdução”.Pesquisa Naval
-
ISSN: 1414-8595-
Suplemento Especial da RevistaMarítima Brasileira, N. 11
-
Outubrode
1998, Riode
Janeiro.Dias,
João
da Silva; Barreto, Jorge Muniz; e Nassar, Silvia. “AlgoritmoGenético Guiado pela Análise de Sensibilidade”. IV
Fórum
Nacionalde
Ciência e Tecnologia
em
Saúde -
FNCTS
98-
ISBN: 85-7014-006-1,Outubro de 1998, Curitiba, Brasil.
H
D'angelo, Guido G.;
Zimmermann,
A. C.; Borges, P. S. da S.; Barreto, J.M.; e Dias, J. da S.. “Algoritmos
de
Redes
Neuraiscomo
Filtro deImagens
Rad¡ográficas". IV
Fórum
Nacional de Ciência e Tecnologiaem
Saúde
-
suIvIÁRIO
AGRADECIMENTOS
... ..PUBLICAÇÕES
... ._SUMÁRIO
... ._ LISTADE
FIGURAS ... ._ LISTADE
TABELAS
... _. LISTADE ABREVIATURAS
... ._RESUMO
... _.ABSTRACT
... ..XI 1INTRODUÇAO
... .. 1.1 CONSIDERAÇÕES INICIAIS ... __ 1.2 OBJETIVOS ... _. 1.2.1 Objetivo Gera/ ... _. 1.2.2 Objetivos Específicos ... _. 1 _3 PROPOSTA DO TRABALHO ... _.1.4 ESPECIFICAÇÃO DO DOMINIO DA APLICAÇÃO “BENCHMARK" ... ._
1.5 DESCRIÇÃO DO DOMINIO DA APLICAÇÃO ... ._ IV
V
VII IXX
XI XII II 1 U1U'I‹k-À-\ 8 101.6 SUPERFÍCIE DE ERRO DO
XOR
... _. 111.7 PONTOS ÓRIGINAIS DO TRABALHO ... _.
'I .8 ESTRUTURA DO TRABALHO
... ._ 2 FUNDAIIIIENTAÇAO
TEÓRICA
... _.2.1 REDES NEURAIS ... ._
2.1.1 Introdução ... ._ 2.1.2 Modelo Generalizado do Neurônio ... _. 2.1.3 Redes Mu/ticamada do Tipo Direta (RMD) ... _. 2.1.4 Algoritmo de Treinamento ... ._ 13 13 14 15 15 18 19 21 a) Algoritmo de Retropropagaçäo ... ... ... _. 22 25 b) Algoritmo Quickprop ... _. 2.1.5 Problemas no Treinamento com o Algoritmo de Retropropagaçäo ... ._
a) Minimo Loca/ ... ._
b) Paralisia ... ... ._ 2.2 COMPUTAÇÃO EvOLuTIvA ... ._
2.2.1 Inspiração Biológica para Evolução e Aprendizado ... ._ 2.2.2 Conceitos Fundamentais e Terminologia do Algoritmo Genético ... _. 2.2.3 Operadores Genéticos (OGS) ... _.
a) Cruzamento (“crossover") ... ._ 26 26 27 28 31 35 38 39
b) Mutação ... ._ 41
2.2.4 Operação do Algoritmo Genético ... ._ 43
a) Geração da População Inicia/ ... _. 43
b) Adaptação da População ... _. 44
c) Convergência ... _. 45
d) Seleção ... _. 46
e) Aplicação dos Operadores Genéticos ... ._ 49
1) Nova População ... _. 50
2.2.5 Teorema Fundamental do Algoritmo Genético ... ._ 51
2.2. 6 Evolução e Aprendizado Individual ...
._ 58 2. 2. 7 Inclusão do Aprendizado ... 61
a) Aprendizado Lamarckiano ... ._ 62
b) Aprendizado Baldwiniano ... ._ 63
2.3 ESTADO DA ARTE No TREINAMENTO HIBRIDO DE
RNA
... ._ 642.3.1 Introdução ... _. 64 a) Otimização da Topo/ogia ... ... _. 64 b) Otimização do Treinamento ... __ 65 2.3.2 Revisão da Literatura ... ._ 67 2.4 SENSIBILIDADE ... _. 71 2.4.1 Gradiente Descendente (GD) ... ._ 72 2.4.2 Variação dos Pesos (VP) ... ._ 73 3
METODOLOGIA
DA
PROPOSTA
... _. 753.1 INTRODUÇÃO ... ._ 75
3.2 IMPLEMENTAÇÓES DA BUSCA UNIMODAL ... ._ 77
a) Busca Unimodal Direta .... ... _. 78 b) Busca Unimodal Reversa ... ._ 80
c) Busca Unimodal com Sensibilidade Global ... ._ 80
d) Busca Unimodal Parcial com Sensibilidade ... ._ 81
e) Busca Unimodal Parcial com Sensibilidade por Padrão ... _. 82
3.3 INSPIRAÇÃO DA PROPOSTA DE BUSCA UNIMODAL ... _. 84
a) Inspiração Biológica ... ._ 84
b) Inspiração Matemática ... __ 86
4
RESULTADOS
... .. 884.1 REPRESENTATIVIDADE DA FUNÇÃO CUSTO ... _; ...
._ 88
4.2
A
ANÁLISE DE SENSIBILIDADE E A DISTRIBUIÇÃO DO CONHECIMENTO SOBRE OS PESOS DAREDE ... _______ ._ 89
4.2.1 Delineamento do Experimento ... _. 90 4.2.2 Amostra ... _. 91 4.2.3 Resultados ... .. 92
4.2.4 Conclusões do experimento ... ._ 94
4.3 TRANSIÇÃO ENTRE O ALGORITMO GENETICO E O ALGORITMO BASEADO NO GRADIENTE
DESCENDENTE ... __ 94 4.4 CRUZAMENTO UNIFORME E MUTAÇÃO: O QUE HÁ DE COMUM? ... ._ 98 4.5 ASPECTOS GERAIS DA TÉCNICA HIBRIDA ... ._ 100 4.6 ALGORITMO DE RETROPROPAGAÇÃO E QUICKPROP ... ._ 103
5
coNcLusöEs
... ... ... __ 1065.1 CONCLUSÕES ... ._ 106
5.2 TRABALHOS FUTUROS ... ._ 109 6
REFERÊNCIAS
BIBLIOGRÁFICAS ... _. 111DE FIGURAS
Figura 2. 1
Modelo do
neurônio artificialFigura 2.2
Exemplo de
rede multicamada do tipo diretacom
3camadas
de neurônios e 2
camadas
de
pesosFigura 2.3 Paralisia devido a presença
de
planaltoFigura 2.4
Exemplo de
cruzamento uniforme Figura 2.5Exemplo de
cruzamentocom
1-partiçãoFigura 2.6
Exemplo de
cruzamentocom
2-partiçõesFigura 2.7
Exemplo
demutação
(troca simples).Figura 2.8 Ciclo básico
do
algoritmo genético.Figura 2.9
Comparação
da aptidão: roleta simples e ponderadaFigura 2.10 Pressão seletiva da evolução e do aprendizado
Figura 2.11 Variação dos pesos originais
Figura 3.1 Codificação do
cromossomo
comforme
sequência dos pesosF igurav3.2 Representação
do
cromossomo
e caracteristicasFigura 4.1 Histograma da distribuição dos pesos
Figura 4.2a Intervalo
de
confiança para a média dos pesossegundo
o Gradiente DescendenteFigura 4.2b lnten/alo
de confiança
para a média dos pesossegundo
a Variação dosPesos
Figura 4.3 Detalhamento da metodologia
de
transiçãodo
algoritmogenético para o algoritmo
de
retropropagaçãoFigura 4.4
Desempenho
comparativo do cruzamento emutação
parauma
populaçãode 20
individuos-Figura 4.5
Desempenho
comparativo do cruzamento emutação
paraDE TABELAS
Tabe
Tabe
Tabe
Tabe
Tabe
Tabe
la 1 Relação da terminologia do
AG
com
a Biologia la 2Dados
para roleta simplesa 3 Roleta ponderada
a 4 Indivíduos x adaptação
a 5
Exemplo de
um
indivíduo e4
possíveisesquemas
a 6
Exemplo
deum
indivíduo e 2 possíveisesquemas
Tabe
a 7 Valoresde
média e desvio padrão para o gradienteDE ABREVIATURAS
AE
AG
AGS
AS
CE
ECG
EE
EEG
EMG
GD
IA IACOAG
OG
P
i PzPE
PG
PIDPm
Pzz PsmQP
RMD
RNA
RNN
RolPRP
RS
SEP
SMI
SNC
VP
Algoritmo Evolutivo Algoritmo GenéticoAlgoritmo Genético Simples Análise
de
SensibilidadeComputação
Evolutiva Eletrocardiograma Estratégia Evolutiva Eletroencefalograma Eletromiograma GradienteDescendente
inteligência ArtificialInteligência Artificial Conexionista
Operadores do
Algoritmo GenéticoOperador
GenéticoProbabilidade
de
seleção do indivíduo iProbabilidade
de
sofrer cruzamentoProgramação
EvolutivaProgramação
GenéticaControlador proporcional integral derivativo
_
Probabilidade
de
sofrermutação
Probabilidade
de
sobrevivência após cruzamento Probabilidadede
sobrevivência apósmutação
Quickprop
Redes
Multicamada do tipo Direta _Redes
Neurais ArtificiaisRedes
Neurais NaturaisRoleta
Ponderada
Retropropagação
Roleta Simples
Sensibilidade
do
Erroem
relação aoPeso
Sistema Multiváriavel lnterdependente
Sistema Nervoso Central
RESUMO
A
técnica híbridade
treinamentode
redes neurais artificiais atravésdo
algoritmo genético e
do
algoritmode
retropropagação apresenta limitaçõesde
convergência e é restrita apequenas
redes. Este trabalho discute as razões destas deficiências ebaseado
nos resultados obtidos, propõe aanálise
de
sensibilidadecomo
forma de guiar o algoritmo genético parauma
condição
do espaço de
busca mais promissora.A
principal alteração proposta é aabordagem
unimodaldo
algoritmogenético utilizando a sensibilidade paramétrica
como
guia.Ao
contrário damaioria das propostas, esta processará somente alguns pesos
do
conjuntosegundo
a seqüência estipulada pela análise de sensibilidade.Os
pesosserão processados individualmente, enquanto os demais pesos serão
mantidos fixos. Finalizada a última geração, o melhor indivíduo é inserido no
conjunto
de
pesos e mantido fixo, enquanto 'que o próximo peso éprocessado. lsto ocorrerá até
que
todos os pesos da rede sejam processados pelo algoritmo genético.Ao
final, ter-se-á passadouma
etapa.Após
completarum
certonúmero
de etapas, o melhor conjuntode
pesos érepassado a
um
algoritmobaseado
na técnica de gradiente descendente,para
que
este continue o ajustefino do
conjunto de pesos. `t
Entre os estudos efetuados cita-se o da distribuição de conhecimento
sobre a rede neural,
bem
como
a forma de utilizar esta informaçãocomo
guia para a busca a ser realizada pelo algoritmo genético, alémde
discutir aviabilidade
do emprego do
algoritmo de retropropagação na técnica híbridacom
o algoritmo genético.Palavras-Chave: Algoritmo Genético,
Redes
Neurais, Inteligência Artificial, Treinamento Híbrido deRedes
Neurais, Análise de Sensibilidade.ABSTRACT
Parametric Sensitivity as
Guide
to Hybrid Training of the Neural NetworkHybrid techniques to training artificial neural networks through genetic
algorithm
and
back-propagation, present convergence Iimitations and arerestricted to small nets. This work discusses the reasons of these deficiencies
and,
based
on the results obtained, proposes the sensitivity 'analysis as aform of guiding the genetic algorithm to achieve the convergence faster. This
leads to a methodology of incorporating the sensitivity to the genetic
algorithm.
The
main alteration proposal is the unimodal approach of the geneticalgorithm using a parametric sensitivity as guide. Unlike most other
proposals, it processes only
some
of the weights according to thesequence
specified by the sensitivity analysis while the rest is kept fixed. At the end of the last generation, the best individual weight is kept fixed, while the next
one
is beeing processed. This cycle is repeated until the genetic algorithm
processes all the network weights, which constitutes a phase. After
completing a certain
number
of phases, the best group of the weights ispassed on-to na algorithm
based
on the technique of gradient descent tocontinue their fine adjustment.
Among
the performed studies it is also cited the distribution of theknowledge about the neural network, as well as the form of using this
information as guide for the search to be accomplished by the genetic
algorithm.
Key-words: Genetic Algorithm, Neural Networks, Artificial Intelligence,
|NTRoDuçÃo
1. 1
CONSIDERAÇÕES
INICIAISA
motivação para a buscade
inspiração nos neurônios e no sistema nervosocentral
(SNC)
para a resolução de problemas deve-se à elevada capacidadedo cérebro
em
realizar certas atividades corriqueiras,como
a classificaçãode padroes.
Além
desta, há problemasque
sao resolvidos mais efetivamentepelo cérebro
humano
do que
por computadores. Tipicamente essesproblemas têm
duas
característicasem
comum:
eles geralmente são problemas mal definidos, e viade
regra requeremenorme
quantidadede
processamento[1].
As
redes neurais artiflciais(RNA) nasceram
da tentativa de imitar asredes neurais naturais (RNN). Inicialmente esperava-se
que
estes modelos matemáticos apresentassem características semelhantes àsRNN,
apresentando
bom
desempenho
em
tarefas não algorítmicas e dificuldadescom
as de natureza intrinsecamente algorítmica [2,3]. .A RNA
apresenta-secomo
um
sistema computacional distribuído,composto
deum
número de
elementos de processamento (neurônios)operando
em
paralelo, conectados conforme alguma topologia específica(arquitetura) e tendo a capacidade
de
auto-ajustar a intensidade de suasconexoes (peso) e os parâmetros dos elementos de processamento
(treinamento).
Em
geral a rede neural representauma
funçãode
processamento de
alguma
informação (reconhecimento de padrões,compressão de
dados, etc.).As
RNAs
podem
aprender regras complexas.Elas diferem
em
sua eficiência e rapidez de treinamento, sua habilidadede
fazer distinçoes, sua capacidade
em
generalizar, e o tipo de máquina ouDentre as vantagens potenciais de
um
sistemamaciçamente
paralelo,destaca-se a velocidade
de
processamento,bem
como
a habilidadede
processar
dados
com
ruído,dados
corrompidos oucom
perdas [4].O
emprego de
RNAs
tem-se mostrado promissor principalmenteonde
o ambiente apresenta
modelo
complexo, não-linear oucom
presençade
incertezas. Portanto, as
RNAs
sãoum bom
paradigma para resolverproblemas cuja solução algorítmica seja desconhecida ou
em
que
existauma
má
definiçãodo
problema.As
aplicações deRNA
inicialmentedesenvolveram-se
com
maior ênfaseem
áreas taiscomo
reconhecimentode
padrões e na área da saúde,onde
a maioria das técnicas clássicasfalhavam. Mais tarde, as
RNAs
começaram
a entrarem
áreasonde
astécnicas clássicas
dominavam
ou não existiam técnicas gerais paraproblemas não-lineares,
como
é o caso dos sistemasde
controle [5].Na
área médica é crescente a utilização de técnicasde
InteligênciaArtificial (lA)1, tanto no processamento de sinais biomédicos
(eletroencefalograma (EEG), eletrocardiograma (ECG), eletromiograma
(EMG), etc.)
como
em
sistemasde
apoio a decisão médica [6-10].As
RNAs
apresentam-secomo
uma
ferramenta poderosa no tratamento destes sinais e principalmente na sua análise,onde
asdificuldades para o serhumano
são elevadas devido principalmente a quantidade e qualidade dosdados
disponíveis .
A
escolhade
uma
classede
redes neurais, antes de mais nada, éuma
função
do
problema ao qual ela se destina.No
tocante à topologia, existemduas
principais subdivisõesde
redes, as diretas (feed-fon/vard) e asrecorrentes (feedback)[11]. Enquanto que
uma
rede recorrentepode
serutilizada tanto para problemas dinâmicos quanto para estáticos, as redes
estáticas destinam-se exclusivamente aos problemas estáticos. Pelo fato
deste trabalho estar vinculado à área de Engenharia Biomédica,
mesmo
não
tendo sido utilizado
um
problema específico da área, há preocupação deque
o conhecimento adquirido seja utilizado na área na qual este trabalho se
vincula. Assim,
em
linhas gerais, pretende-se que o conhecimento gerado1 “IA
seja aplicável
em
RNAs
para processamento de informação biomédicaz. Estetipo
de
problemapode
ser caracterizado poruma
função associando acada
sinal
um
significado dentrode
um
conjunto de possiveis significados. Este éum
problema tipicamente estático. Portanto, se poderia escolher qualqueruma
das duas classesde
redes (estática ou recorrente).No
entanto, asdificuldades de trabalho e a possível instabilidade no treinamento por parte
das redes recorrentes, aliada à facilidade de uso das redes estáticas, tornam
estas redes preferívels [2].
ç Dentre os vários tipos
de
RNAs
descritas até omomento,
as redesmulticamada do tipo direta (RMD), proposta inicialmente por Rumelhart et al
em
1986[12], têm-se mostrado práticas e interessantes para aplicações nasmais variadas áreas
do
conhecimento. -Após
a definição da rede a ser utilizada, classe, tipo e topologia, énecessário escolher o
método
de treinamento da rede. Dentre muitosmétodos
de treinamentode
uma
RMD,
destaca-se o algoritmode
treinamento de retropropagação (back-propagation).
D
Basicamente, o algoritmo
de
treinamento de retropropagação (RP) éuma
técnica de otimizaçãoque
usa to gradiente descendente,buscando
minimizar algum critério
de
erro.No
entanto, estemétodo
não garante serimune a falha,
podendo
apresentar problemas, principalmente devido ãparalisia da rede, mínimos locais e lenta convergência.
A
paralisia da redeestá ligada, por exemplo,
ao
valor dos pesos. Valores elevados para ospesos
podem
levar a funçãode
ativação a saturação e devido a faltade
habilidade do algoritmo de
RP em
manipular estes valores, a convergência élenta ou
pode
ocorrer atémesmo
a paralisia da rede.O
problema dosminimos locais está relacionado
com
a quantidade e qualidade dos mínimoslocais existentes na superficie
de
erro.Como
o algoritmode
treinamentode
RP
baseia-se na técnicado
gradiente descendente,pode
acontecer de, nabusca
de
um
minimo global, passar porum
minimo local mais profundo enão
mais conseguir sair. Desta forma, no caso de problemas
com
muitos mínimos2
Conhecimento adquirido por determinado meio, podendo ser: sinal, sintoma e/ou exames
locais a convergência
pode
ser lenta e haveruma
convergência paraum
destesmínimos
locais.No
entanto, passada a fase de inicialização e naproximidade
de
um
mínimo global, a técnicado
gradiente descendente ébastante eficaz.
Já o algoritmo genético (AG) é
uma
abordagem
para problemascomplexos
de
busca e treinamento atravésde
modelos computacionaisde
processos evolutivos.
O
AG
constitui-seem um
ótimo processo de buscada
região
onde
a probabilidadede
se encontrar o mínimo global é maior, tendoem
vistaque
este trabalhacom uma
populaçãode
indivíduos candidatos asolução e
não somente
com
um
único indivíduo. ,Com
estemétodo
atenuam-se os dois principais problemasdo
algoritmo
de
RP
que
são a paralisia e os mínimos locais. Porém, aconvergência na região próxima ao mínimo global é lenta, tendo
em
vistaque
a convergência ocorre
com
praticamente toda a população. Logo, a técnicade
AG
é recomendável para iniciar a busca deuma
regiãode
provávellocalização
do
mínimo global, enquanto que o algoritmode
RP
é indicadopara a finalização do processo
de
busca ou ajuste fino. `O
treinamento híbridode
redes neurais utilizando oAG
e oRP
visaaumentar a imunidade
do
treinamento à paralisia e aos mínimos locais. Contudo, apesar da aparente possibilidade de sucesso, a junção destastécnicas
não tem
respondido às expectativas. Torna-se relevante a análisedestas técnicas, visando identificar os seus pontos críticos e principalmente responder se a ferramenta é
adequada
ou não a tarefascomo
o treinamentode
redes neurais, ou se é mal empregada.1.2 OBJETIVOS
1.2.1 Objetivo Geral
Estudar o treinamento híbrido
de
redes neurais artificiaiscom
o algoritmogenético e a técnica
baseada
no gradiente descendente, levantando e1.2.2 Objetivos Específicos
Dentre os objetivos específicos a
serem
buscados, cita-se:a) Estudar a influência da representatividade
da
função custo nodesempenho
do algoritmo genético;b) Desenvolvimento de
uma
proposta deabordagem
de sistemas“
interdependentes por algoritmo genético (como é o caso do conjunto
de
pesos);
c) Analisar a diferença
de
sensibilidade dos pesos entre ascamadas
e amelhor forma de abordar esta sensibilidade
com
o algoritmo genético; d) Proporuma
metodologia para determinar omomento
da transiçãoautomática e otimizada entre o algoritmo genético e o algoritmo
de
retropropagação; ,
e) Analisar o
desempenho
do
AG
com
a utilizaçãodo
cruzamento uniformeao
invés do cruzamentocom
1-partição;f) Estudar as características e o
tamanho
da população,número
de etapase a taxa
de
cruzamento ede
mutação;g) Avaliar a importância da diversidade da população no processo
de
buscapara a proposta
em
questão;h) Avaliar a influência das técnicas
baseadas
no gradiente descendente nodesempenho
da proposta híbridacom
algoritmo genético. ,1.3
PRoPosTA Do TRABALHO
Na
maioria das técnicas híbridas de treinamento de RNA,.envolvendo oAG
eo RP, os pesos
formam
um
cromossomo
e este é processado pelo algoritmogenético
com
o auxílio da função custo representada pelo inversodo
erroda
época,
que
étomado
como
o erro médio quadráticode
todos os padrõesdo
conjunto de treinamento. Desta forma todos os pesos, ou cada parte deste
(bit),
tem
amesma
probabilidadede serem
processados geneticamente. Istoseria relevante se todos os pesos tivessem o
mesmo
graude
importânciaem
todos os
momentos
do
treinamento. Esta técnica serádenominada
daqui porA
técnica convencional foi estudada de forma bastante consistente porKitano[13]
que
através dos resultados de vários experimentos avaliou odesempenho
do
treinamentode
RNA
usando
AG
e a técnicabaseada
nogradiente descendente (GD),
como
é o casodo
algoritmode
retropropagação (RP). Neste trabalho, ele afirma
que
no tocanteao
treinamento
de
RNA
a proposta híbrida .de treinamento,AG
e RP,sistematicamente é melhor
do
que somente
com
AG
e inferior ou próximoda
variante mais rápida
do
RP, o QuickProp [14]. Contudo, odesempenho
degrada a
medida que aumenta
onúmero de
conexõesda
rede.Com
osresultados obtidos
após
vários experimentos sob a técnica convencional,Kitano
afirmou
que: “...tarefascomo
treinamento deRNA's não
sãoboas
tarefas para
AG
devido a interdependência entre as regiõesdo
cromossomo". Conclusões semelhantes são relatadas por Whitley3 [15].
A
partir da implementação da técnica convencionalde
treinamentohíbrido
de
RNA
atravésdo
AG
edo
algoritmobaseado
em
GD,
obsen/ou-seo
comportamento
descrito por Kitano[13]. Contudo, a conclusãode que
a ferramenta (AG) não era apropriada ao problema (treinamento de RNA),não
foi visualizada.
Opresente
trabalho inicia-se a partir da premissade
que
a deficiêncianão
reside na ferramenta e sim na formacomo
esta é empregada. Assim,apresentar-se-á
como
um
dos motivos para a falha na utilizaçãodo AG,
afunção custo
comumente
empregada
(inverso do erromédio
quadrático dos padrõesde
treinamento)[4,16-18].Apesar
de sua representatividade para o conjuntode
pesos, elanão
informa qual ou quais os pesos são significativosno
momento
da avaliação. isto implicaem
dizerque
não se sabe a priori asregiões
do espaço
de busca mais promissoras. Este problema é tanto maisrelevante quanto maior for o
número de
pesos constituintes da rede neural.Portanto, falta
uma
orientação aoAG
no seu trabalho de aproximar oconjunto
de
pesos iniciais do provável localonde
localiza-seum
minimoglobal. `
3
O
domínio da aplicação adotado por Kitano e por Whitley são diferentes, conforme será
Após
a percepçãode que
a escolha da função custo poderia serum
grande problema para a implementação
do AG,
estudou-se o comportamento dos pesos aleatoriamente gerados e distribuídos na topologia deuma
RNA,
segundo
um
conjuntode
padrõesde
treinamento paraum
problemaespecífico. Estes estudos foram executados principalmente
com
o auxílioda
análise
de
sensibilidade (AS) a qual foi utilizada para avaliar a contribuiçãode
cada peso (do conjuntode
pesosque
compõe
a rede) para o erromédio
quadrático produzido pelo conjunto
de
padroes de treinamento [19].A
aplicaçãoda
AS
mostrouque
é possível determinar regiõesdo
espaço de
busca mais promissoras para o treinamento atravésdo AG.
Com
esta possibilidade e
com
base nas premissas anteriores, estudou-se váriasalternativas complementares à forma tradicional de aplicar o
AG
notreinamento híbrido de
RNA.
A
inovação da sistemática apresentada aqui está na formacomo
oAG
atuará sob cada pesodo
conjuntoque
compõe
a rede,bem
como
noconjunto
de
heurísticas empregadas.O
AG,
ao contrárioda
maioria das propostas,não
irá abordar oconjunto
de
pesoscomo
sendo
um
único indivíduo. Será realçada aindividualidade
de
cada peso no conjunto, o qual será trabalhado peloAG
individualmente, enquanto
que
osdemais
são mantidos fixos. Apresenta-sealgumas
formasde
como
oAG
deve atuar sobre o conjunto de pesos,mas
de
uma
forma geral,somente
alguns pesos do conjunto éque
são treinadosa cada geração pelo
AG.
Os
pesosque
serão processados peloAG
sãoescolhidos conforme a sensibilidade
do
erro globaldo
conjuntode
treinamento a cada peso
da
rede.No
início de cada geração, após aaplicação dos operadores
do AG,
a análise de sensibilidade é refeita para definir quais os pesosque
serão processados nesta geração.Além da
sistemática
de
atuaçãodo
AG
em
cada peso do conjunto, este trabalhopreocupa-se
com
os detalhes envolvidos no processode
otimização,principalmente na atuação
do
AG
e na transição entre oAG
e oGD._A
inicial
do
conjunto de pesos, pois da qualidade da busca e dos valoresde
pesos a
serem
passados aoGD'depende
o sucessodo
treinamento.Foram
estudados vários detalhes da implementaçãodo AG,
sejabuscando
a sua própria otimizaçãobem
como
odesempenho
da técnicahíbrida
de
treinamento,AG
eGD. Quanto
aoGD
comparou-se odesempenho
do
RP
com
o QuickProp.A
comparação
efetuada não visou a velocidadede
convergência, a qual foi exaustivamente apresentadaem
vários trabalhos [13,14,20-221.
A
preocupação aqui reside na qualidade dospesos entregues pelo
AG
aoRP
ou qualquer outro algoritmobaseado
em
GD
e a habilidade deste
em
manipular estes pesos. Esta preocupação justifica-se por ser
comum
apassagem
de
valores numéricos elevados peloAG
ao
RP, o
que conduz
auma
lenta velocidadede
convergência devido aosvalores obtidos pela derivada
da
funçãode
ativação.Dentre os pontos originais deste trabalho destacam-se:
a) Implementação da análise
de
sensibilidadecomo
guia para o algoritmogenético no
espaço de
buscado
treinamento deRNA;
b) Proposta e análise
de
viabilidade da implementação da variação dospesos
como
alternativa ao cálculoda
análise de sensibilidade clássica;c) Determinação da localização preferencial
do
conhecimento nacamada
de
saída
de
uma
rede 2-2-1 para o domínio da aplicaçãodo
XOR;
d)
Uma
nova visão da inspiração biológica aplicada ao algoritmo genético; e)Abordagem
unimodal do algoritmo genéticoem
sistemas multivariáveis.1.4 EsPEc/F/cAçÃo
Do
DoMíN/oDA APL/cAçÃo
“BENc|-|MARK”A
fase inicial,onde
foram avaliadas de forma preliminaralgumas
heurísticas,também
tinhacomo
objetivo a especificação deum
domínio de aplicação “benchmark”. Assim, no transcorrer dos trabalhosiforam levantados váriosrequisitos necessários, tais como:
a) Ser
não
linearmente separável: para forçar o algoritmode
treinamento atrabalhar todos os pesos por necessidade do problema e não por
potencialidade do algoritmo;
b) Ser matematicamente
bem
definido, paraque
em
casode
dúvidas quantoao
desempenho
de alguma
variável dos experimentos seja possível, ou no mínimo facilitada, a identificação da causa do sintoma observado;c) Ser simples o bastante para
que
seja possíveluma
depuração rápida econfiável
do
softwareem
caso de dúvida e/ou erro;d) 'Possuir
uma
boa
basedeinformação
sobre o treinamento realizado poroutros autores, para
que possam
sercomparadas
e/ou explicadasparticularidades dos
desempenhos
obtidos durante os experimentos edesenvolvimento
do
presente trabalho;e) Possuir
um
conjuntode
treinamento viável e representativo: viável a nívelde quantidade
de
dados, oque
poderia inviabilizaruma
depuraçãocompleta, e representativo quanto à completude
do
conjuntode
treinamento
em
relação ao problema;f)
O
mesmo
problema deve ser utilizadoem
todos os experimentos paraque
namedida do
possível os resultados parciais permitam asuperposiçao das informaçoes e heurísticas encontradas.
O
método de
treinamento híbrido propostopode
ser consideradocomo
sendo
ode
aprendizado supervisionado.O
AG,
por trabalharcom
uma
população,
tem
forte tendência a eliminar problemasde
paralisia, soluçõeslocais, etc.
Além
disso, sua aplicação não exige derivabilidade da funçãoerro
com
relação aos valores das conexões sináptlcas. Por outro lado, oalgoritmo
de
RP
ou outro algoritmo de treinamentobaseado
no gradienteexige
que
a função erro seja derivávelcom
relação aos valores dos pesos. Assim, o algoritmo proposto e estudado exigeapenas
derivabilidade dafunção erro para valores próximos da solução.
A
partir dos requisitos levantados notou-seque
a maioria dos problemas ou tinhaum
conjunto de treinamento pouco representativo oumuito grande, o
que
dificultavaem
muito acompreensão do
desempenho
durante o treinamento realizado
com
observaçõesem
tempo
real. Destaforma, optou-se por manter o domínio da aplicação no problema do ou-
possuir extensa base
de comparação
com
outras publicações [23-281. Logo,uma
vez definido o domínio a ser utilizado nas avaliações, torna-seimportante
compreender
a superfície de erros produzida peloXOR.
Esteconhecimento será utilizado
de
forma a direcionar os experimentos aserem
realizados no transcorrer deste trabalho.
1.5
DEscRlçÃo
Do
DoMí/woDA
APL/cAçÃo
O
ou-exclusivo ouXOR
éum
dos mais populares “benchmarcks” para treinamentode RNA.
Este “benchmarck" tomou notoriedadecom
a exposiçãorealizada por Minsky
and
Pappert no livro Perceptrons[25],onde
os autoresprovaram
que
o perceptronnão
era capaz de implementar oXOR
por este ser linearmente não separávelfiOutro fator
que
torna oXOR
relevante é a sua utilizaçãocomo
parteda implementação de
um
autômato da paridade. Enquantoque
adeterminação
da
paridade atravésde
uma
rede neuraldo
tipo direta permite a determinação da paridadeem
seqüências fixas de O's e 1's, o autômatoda
paridade
pode
ser utilizadoem
aplicações onde o comprimento da seqüênciaseja variável. Isso porque este aprende o conceito da paridade [29].
A
implementaçãodo
XOR
geralmente é realizada atravésde duas
arquiteturas:
a)
Rede
2-2-1 [23]: écomposta de
trêscamadas
de neurôniossendo
uma
de
entrada
com
dois neurônios,uma
intermediáriatambém
com
dois neurônios e a últimacom
um
neurônio.Com
a utilização dos três pesosde
“bias”, há 9 pesos treináveis;b)
Rede
2-1-1 [23,27,28]:também
é composta de trêscamadas
sendo que
na
camada
de
entrada há dois neurônios, na intermediáriaum
neurônio ena
de
saidatambém
um
neurônio.A
particularidade desta arquitetura éque
os dois neurônios da entradapossuem conexão
diretacom
oneurônio
da
saída. Esta rede tem 7 pesos treináveis ao todo, incluindo osO
treinamento geralmente é executado atéque
a rede respondaperfeitamente aos 4 padrões do conjunto de treinamento.
A
precisão requerida para valores de saída binário varia de estudo para estudo. Isto geralmente dificulta as comparações. Para uniformidade dos resultados,alguns pesquisadores têm sugerido usar o critério 40-20-40 para saídas booleanas o reinício
do
treinamentoquando
não houver convergênciaem
tempo
razoável. Este critério,em
outras palavras, propõeque
os valoresinferiores a
40%
da faixade
saída são considerados nível lógico zero.Valores
de
saída superiores a60%
da faixade
saída é considerado nívellógico um.
Os
20%
restantes ficam entre o nível lógico zero e um, criandouma
faixa de valores indeterminados. Este critério é largamenteempregado
por
não
exigir extrema precisão na saída (carga computacional)mas
requerque
os valoresde
saída sejam distintos o bastante parauma
certaquantidade de imunidade ao ruído.
Os
valores estipulados pelo critério 40-20-40
não
devem
ser confundidoscom
os valores desejadosque
sãoutilizados para calcular o erro a ser utilizado na retropropagação [30].
1. 6 SUPERFÍCIE
DE
ERRO
Do
XOR
A
preocupaçãocom
a formada
superfície de erro é importanteprincipalmente
quando
o algoritmode
'treinamento a serempregado
ébaseado
nas técnicasde
gradiente descendente. Vários pesquisadorestêm
analisado a superfície
de
erro criada pelo conjunto de pesos pertinentes aoXOR[23,24,27,28].
Sprinkhuizen-Kuyper e Boers [27] realizaram
um
dos estudosanaliticamente mais completos sobre superfícies de erro.
Os
autoresiniciaram provando
que
um
mínimo global éum
ponto estacionário estável ecaracteriza-se por apresentar gradiente zero para todos os padrões
individualmente.
O
mínimo instável foi definidocomo
sendo
o mínimoonde
ogradiente é zero para todo o conjunto
de
treinamento,mas
não paracada
padrao separadamente. Esta distinçao é importante,
desde que
uma
soluçaoexata
pode
ser representada pela rede, então somente o mínimo absolutode
que
todo mínimo local é instável,pode
ser explorado pelo algoritmode
treinamento para escapar deste mínimo.
Os
pontos de cela por exemplo,apresentam gradiente zero para o erro de
um
conjunto fixode
padrõesde
treinamento,
mas
não para o erro dos padrões individualmente. Assim, otreinamento “on-line”
pode
escapar destes pontos[27].Para o
XOR
com
arquitetura 2-1-1, Sprinkhuizen-Kuyper e Boers[27]estudaram-na e afirmaram
que
a superfície de erro da rede não apresentamínimos locais,
somente
ponto de sela,onde
alguns algoritmospodem
paralisar o treinamento ou retardá-lo.
A
solução corretacom
erro zero seráencontrada no limite,
com
probabilidade 1[27].Já para as redes 2-2-1, Sprinkhuizen-Kuyper e Boers[27] provaram
analiticamente
que
a superfície de erro possuium
mínimo global estávelcom
erro zero e
não
apresenta mínimos locais,desde que
os pesos sejam finitos.Mas
se houver pesos tendendo ao infinito,aparecem
regiõescom
mínimoslocais as quais são envolvidas por pontos de cela,
que
caracterizam-se porserem
pontos estacionários e erro não igual a zero[26-28].Quando
um
pontode
sela é encontrado, o processode
treinamentoem
lote (ajuste dos pesos só ocorre após a apresentação de todos os padrõesde
treinamento)com momento
igual a zeropode
paralisar.Mas com
o treinamento “on-line” (ajuste dos pesos após a apresentação
de
cada padrãode
treinamento) provavelmente pode escapar do pontode
sela.Experimentos conduzidos iniciando o treinamento “on-line” exatamente sob
um
ponto de sela,com
taxade
treinamentopequena
(0,01) emomento
iguala zero, o treinamento
escapou do
ponto de sela e buscouuma
soluçãocom
erro zero
num
tempo
finito. Jácom
o . processamentoem
lote,
nenhum
progresso foi feito
que
permitisse escapar do pontode
sela.A
paralisiado
treinamento nestes pontos
de
sela éque
tem levado alguns pesquisadores aafirmar
que
há mínimos locaisem
problemascomo
oXOR
[27].Como
pode
ser visto, é raro encontrarum
problema “benchmark”com
tal quantidade e qualidade de informações.
Algumas
avaliações conduzidasdisponibilidade de informações e a facilidade de identificação visual
do que
estava ocorrendo
em
determinadosmomentos
durante o treinamento.1.7
PoNTos
ORIGINAISDo
TRABALHO
Dentre os pontos originais
do
trabalho destacam-se:a) Aplicação da análise
de
sensibilidadecomo
guia para o algoritmogenéüco;
b)
Obtenção
da análise de sensibilidade através da variação dos pesos;c) Maior sensibilidade dos pesos
da
camada
de saídaem
uma
rede 2-2-1para o domínio da aplicação
do
XOR;
d)
Nova abordagem
da inspiração biológica na aplicaçãodo
algoritmo genético;e)
Abordagem
unimodaldo
algoritmo genético no treinamentode
redesneurais artificiais.
1.3
ESTRUTURA
DO
TRABALHO
A
seguir, no capitulo 2, será apresentadouma
rápida revisão das técnicasenvolvidas,
RNA
eAG, sendo dado
maior ênfase aoAG
por este ser maisrecente e
não
ser tão consolidado quanto aRNA.
Também
apresenta-se oestado da arte_no treinamento híbrido
de
RNA
atravésde
AGs
e o algoritmode treinamento
baseado
em
GD,
bem
como
a fundamentação teórica daanálise
de
sensibilidade (AS).O
capítulo 3 abordará a propostade
trabalhoda tese.
No
capítulo 4 apresentam-se os resultados do processoobservacional e empírico realizado no transcorrer do presente trabalho.
As
conclusões são apresentados no capítulo 5.
As
Referências Bibliográficas2
FUNDAMENTAÇAO
TEORICA
Neste capítulo são apresentadas as principais técnicas a
serem
utilizadasno
transcorrer deste trabalho.
Apesar
de aparentemente independentes,aos
poucos o papel
de cada
uma
das técnicas e suas interligações serão compreendidos.Apesar
da vasta literatura existente sobreRNA,
apresenta-seum
mínimo
de
exposição sobre o tema, tendoem
vista a inexistência deuma
padronização da terminologia. Já no caso doAG,
por ser esteuma
técnicamais recente e apresentar ainda muitas controvérsias e/ou pontos dúbios,
será
dada
maior ênfase.Após
a apresentação daRNA
edo AG,
mostra-se o estado da arte notreinamento híbrido
de
RNA
através do algoritmo deRP
eAG.
Neste ponto,além
de
mostrar a metodologia convencional,também
são apresentadas ascríticas a esta metodologia. Apresenta-se a análise de sensibilidade
como
uma
das possíveis ferramentas aserem empregadas
na avaliaçãoda
veracidade destas críticas
bem
como
na atenuação dos problemasda
técnica híbrida convencional.
No
transcorrerda
apresentação são usados os termos minimização emaximização
com
certa freqüência.O
termo maximização está relacionadoaos objetivos do
AG
enquantoque
a minimização do erro refere-seao
objetivo final
do
algoritmode
treinamento deuma
RNA.
Portanto, paraque
seja possível
empregar
oAG
como
algoritmo de treinamentode
uma
RNA,
torna-se necessária
adequação
da função custo doAG
e daRNA.
Assim, afunção custo a ser maximizada pelo
AG
será proporcional ao inversoda
função custo
da
RNA
a qual deverá necessariamente ser minimizada. DestaV
Ao
final deste capítulo, ter-se-á visto as técnicas envolvidas no
treinamento híbrido
de RNAs,
os problemas inerentes a esta euma
propostade
ferramentas aserem
utilizadas na avaliação e atenuação dos problemascomumente
encontrados na técnica convencional.2.1
REDES
NEUR/us
Esta revisão faz-se necessária tão
somente
pela ausência deuma
normatização
da
terminologia na áreade
inteligência artificial (lA). Portanto,será restrita a presente
abordagem
aos elementos essenciais aos capítulossubseqüentes.
Em
casode
necessidadede
aprofundar-seem
algum
assunto relatadoneste capítulo sugere-se o livro
de
Simon
Haykin [17] e Barreto [31].2.1.1 Introdução
A
motivação inicial para buscar nos neurônios e no sistema nervoso central(SNC) alguma
inspiração para a resolução de problemas, deve-se à elevada capacidadedo
cérebrohumano
em
realizar certas atividades corriqueiras,como
a classificaçãode
padrões. Desta inspiraçãonasceram
as redesneurais artificiais
(RNAs)
das quais inicialmente esperava-seque
emergissealgum comportamento
inteligente. Esperava-setambém
que
asRNAs
apresentassem características semelhantes às redes neurais naturais (RNN),
dos seres vivos, por exemplo, apresentando
bom
desempenho
em
tarefasnão algorítmicas e tendo dificuldades
em
realizar tarefasde
naturezaintrinsecamente algorítmica [2,3]. A
_
z
A
principal característica daRNA
é sua capacidadede
generalização,ou seja,
uma
vez tendo aprendidoum
conceito, aRNA
é capaz de operarcom
conceitos similaresque
não
foram aprendidos,sem
esforço suplementar
[2l-_
A
viabilidadedo emprego
daRNA
nas mais diversas áreas fez delauma
das principais áreasda
IA,denominada de
inteligência artificialconexionista (IAC).
A
IAC apresenta excelentedesempenho
com
problemasporém
com
imprecisao.A
atuaçaoda
IAC nestes casos torna se possíveldevido a sua capacidade
de
“adquirir o modelo” a partirde
exemplosdo
problema
em
estudo.A
No
início dosanos
40, os pioneiros da área, McCulloch e Pitts [32],estudavam
o potencial e a capacidade emergente da interconexão de várioscomponentes baseados
nomodelo do
neurônio e células nervosas naturais.Com
base nestes estudos, os pesquisadores propuseram o primeiromodelo
de neurônio artificial (McCulloch and Pitts - 1943). Outros
como Hebb
(1949),preocuparam-se
com
as leisde
ajuste dos pesos envolvidosem
sistemasneurais.
A
introdução dos perceptrons por Rosenblatt no final dos anos50
criou grande agitação, principalmente sobre
como
os sistemas inteligentespoderiam ser construídos a partir dos perceptrons. Rosenblatt -(1962),
através
do
teorema da convergência dos perceptrons, garanteque
operceptron encontrará
um
estadode
soluções se este existir, isto é, eleaprenderá a classificar qualquer conjunto de entradas
desde que
para esteproblema exista
uma
solução [33]. Contudo, no livro Perceptrons (1969),Minsky
and
Papert [25] colocaramum
fim nessas especulações, atravésde
uma
análise rigorosado
perceptron, provando muitas propriedades eapontando limitações
de
muitos modelos.Obsen/aram
que,embora
oteorema
da
convergência garantisse a classificação correta, estesdados
deveriam obrigatoriamente ser Iinearmente separáveis. Infelizmente a
maioria dos problemas encontrados
não
são Iinearmente separáveis. Logo, operceptron inicialmente proposto
não
é capaz de processar problemasIinearmente
não
separáveis,como
é o caso dofamoso
exemplo do ou-exclusivo ou
XOR
como também
é conhecido [17].Inspirado na regra delta, introduzida por
Widrow
et al [1],em
1974Paul
Werbos
apresentou a base conceitualdo
algoritmode
treinamentode
retropropagação (RP),
(em
inglês “back-propagation”),que
independentemente foi reinventado por David Parker
em
1982 e Rumelhartand McClelland
em
1986 (no livro “Paralell Distributed Processing”). Devidoa inspiração na regra delta, o algoritmo de
RP
também
é conhecidocomo
Com
o advento da rede multicamadado
tipo direta (RMD),bem como
do
algoritmode
retropropagação (RP), a IAC teveum
grande impulso,imergindo nos anos .8O
do
marasmo
em
que
se encontrava nos anos 70,devido as afirmações
de
Minsky and Papert. Devido a estas afirmações, agrande maioria das pesquisas na área da IAC tinham sido praticamente
canceladas.
Com
a faltade
investimentos a paralisia das pesquisas foiinevitável,
apenas
quebradaalgumas
vezes por trabalhosde
algunspoucos
pesquisadores, tais
como
os do próprio Widrow,Werbos,
Grosberg,Kohonen, dentre outros.
Conforme
já descrito anteriormente, este trabalho mescla as técnicasdo
algoritmo genético eRNA. Dos
vários tipos deRNA
o trabalho focalizaráas redes multicamada do tipo direta (“feed-forvvard"), o algoritmo
de
treinamento mais difundido, o
de
retropropagação e o algoritmo Quickprop.As RMDs,
devido à sua versatilidade, apresentamuma
vastagama
de
aplicações.
De
uma
forma geral,podem
serempregadas
na classificaçãode
padrões, generalização,
memorização
(“look-up table"), aproximadoruniversal, etc.
A
habilidade para estedesempenho
depende
fundamentalmente da utilização
de
uma
funçãode
ativação adequada,do
número de
camadas
de
neurônios edo
conjuntode
treinamentoda
RNA.
Devido à versatilidade e a relativa facilidade
de
uso, aRMD
é até osdias
de
hoje a mais popular das redes neurais artificiais. Atualmente, écomum
a aplicaçãode
RMD
em
classificação, controlede
processos,processamento
de
sinais, diagnóstico médico e previsões financeiras.Este trabalho focaliza
somente
aRMD
de
3camadas
sendo
totalmente conectada (pesos). Esta escolha deve-se ao domínio da aplicação
especificado no capítulo anterior, o
XOR,
a ser implementadocom
aRMD
2- 2-1.V
Após
a exposiçãodo modelo
do neurônio adotado, apresentar-se-á alguns detalhes da rede multicamada diretabem
como
as fórmulas2.1.2
Modelo
Generalizadodo
Neurônio
Apesar da
diferença entre asRNNs
e asRNAs,
estas foram inspiradas nocérebro
humano. Apesar
da
simplicidade do primeiro neurônio artificial,proposto
em
1943
por McCulloch and Pitts, este serviude modelo
paraestudos
do
sistema nervoso e para estimular a área de inteligência artificialconexionista (IAC). Atualmente, há
uma
grande variedadede
modelosque
em
sua larga maioria estão deixandodeter como
princípio básico amodelagem
do
SNC
e sim o desejode
construir neurocomputadores.Assim
sendo, adotar-se-á
como
modelo
geral do neurônio, o descrito por Barreto[2], conforme mostra a figura 2.1. Este modelo é
uma
generalização domodelo
proposto por McCulloch and Pitts [2,32].O
neurônio artificial, elemento básico dasRNAs,
éuma
unidadede
processamentode
informações [17]. Basicamente, consiste deuma
unidadede
soma
(no presente caso),denominada
no modelode
CD e da funçãode
ativaçao,
denominada de
n.Wn
U1 Wi2O
uz\
.w
*¢
77 A ' 'Z is V›
`›
u3_____í'
x
1' Í w--/
‹9. ÉFigura 2. 1
Modelo
do neurônio artificial [31]A
função ‹I>combina
as entradas u¡ ponderadas por constituindouma
combinação
linear.O
estado de ativação do neurônio produzido pela função d) através da função 1;, produzirá a saída do neurônio.A
função 17,também
denominada de
funçãode
ativação, Iimitará o sinalde
saídado
neurônio
em
algum
valor finito. Tipicamente, este valor é normalizado nointervalo [0,1] no caso
da
função de ativação do tipo sigmóide e no intervalo[-1, 1] no caso
da
utilizaçãoda
funçãode
ativação tangente hiperbólica.Em
termos matemáticos paraum
neurônio estático4, x,., temos:x,.=<I>(w,.,u,.)=Zw,¡-o¡+®,. (1)
e a saída
Q
do
neurôniodada
por:Q- = f1(x,-) (2)
2.1.3
Redes
Multicamada
do
Tipo Direta(RMD)
O
presente trabalho,como
já mencionado, utilizará asRNAs
multicamadado
tipo direta (“feed-forward"), as quais são caracterizadas por
um
conjuntode
neurônios arranjados
em
camadas,
como
mostra a figura 2.2.Nestas, todos os sinais se
propagam
no sentido direto, dacamada
de
entrada para a
de
saídapassando
pelacamada
intermediária.Não
existe realimentação.Os
neurôniosem
uma
rede multicamada do tipo diretapodem
serde
três tipos, conforme a
camada
em
que
se localizam:camada
de
neurôniosde
entrada;
camada
de
neurônios internos ecamada
de
neurônios de saída.Os
neurônios dacamada
de entrada,como
o próprionome
sugere,sao os responsáveis por transmitir o vetor de
dados
da entrada para ointerior
da
rede. Isso é realizadosem
que
nenhum
processamentopropriamente dito seja realizado, ou seja, pode-se fazer
uma
analogia destes neurônioscom
condutores passivos, os quaispropagam
uma
informaçãosem
alterá-Ia. VA
4
O
neurônio pode ser estático ou dinâmico[31]. Neste trabalho será empregado somente o