CURSO DE ENGENHARIA DE CONTROLE E AUTOMAÇÃO PUC - MG

(1)

- REDES NEURAIS ARTIFICIAIS

01 - Introdução -

A questão da inteligência humana sempre foi um dos problemas filosóficos mais interessantes, intrigantes e debatidos que se conhecem. Nas inúmeras tentativas de sua proposição não faltam imaginação criadora nem diversidade de idéias, sem, contudo haver nenhum paradigma unificador que permita ao menos algumas conclusões definitivas.

Uma das abordagens mais aceita na atualidade é a de considerar a questão sob múltiplos aspectos, passando necessariamente pela questão do conhecimento, de sua representação e de seu aprendizado, pelas evidências descobertas nas Ciências Biológicas, por desenvolvimentos matemáticos e pelos experimentos com artefatos construídos para mostrar um ou mais componentes do que se admite, subjetivamente ser a inteligência humana.

Um dos paradigmas de maior notoriedade hoje é o “conexionista”, que privilegia a evidência biológica de uma imensa multiplicidade de pequenos agentes com alto grau de coesão, como a existente no cérebro, para a explicação de comportamentos ditos inteligentes.

Cabe observar que o paradigma conexionista não diz respeito apenas à questão da inteligência, sendo aplicado também em campos tão diversos, quanto os das Ciências Sociais e da Economia.

02 - Histórico

A reprodução de características “Inteligentes” em máquinas construídas pelo homem é um dos objetivos mais perseguidos pela comunidade científica e tecnológica já há muito tempo.

No que diz respeito ao aspecto “Conhecimento”, remonta da Grécia antiga uma das primeiras experiências para a sua representação, feita através da “Lógica”. Na época a metodologia era exercida através da cuidadosa manipulação das estruturas lingüísticas, realizando-se com frases bem construídas e apelando-se para princípios de “Inferência”, hoje muito bem formalizado, que condiziam com as bases filosóficas da cultura na época.

As três leis fundamentais do pensamento segundo Aristóteles espelham rigorosamente os conceitos usados na formalização teórica do que hoje conhecemos como “Lógica Matemática”

A formalização acima referida deu-se mais de dois mil anos depois, a partir dos trabalhos de “Frege”, que propiciaram o desenvolvimento dos meios teóricos para “Representação Simbólica de Conhecimento” e também para a rigorosa fundamentação de toda a matemática.

(2)

A passagem dos conceitos teóricos para a prática tecnológica teve grande impulso na época da “Segunda Guerra Mundial”. A construção dos primeiros computadores digitais no fim da década de 1940 foi fruto de uma grande concentração de cientistas do mais alto gabarito em propostas de realização do que se chamava “Cérebro Eletrônico”, qualificação que há até bem pouco tempo ainda se atribuía aos processadores digitais.

Simultaneamente aos avanços das técnicas digitais, a partir de 1943 dois pesquisadores da área biológica McCulloch & Pitts (1) propuseram o primeiro modelo matemático do funcionamento de um neurônio. Este modelo, apesar de muito simples, trouxe uma grande contribuição para as discussões sobre o cérebro eletrônico, estimulando especulações sobre a verdadeira estrutura de um cérebro e, principalmente, permitindo a criação dos primeiros modelos matemáticos de dispositivos artificiais que buscavam analogias biológicas.

Sem dúvida os sonhos proliferaram e muitos recursos financeiros foram distribuídos aos grupos de pesquisa na área, uma vez que as promessas eram fantásticas. Esta situação perdurou até meados da década de “60”, quando os organismos financiadores retiraram seu apoio tendo em vista o não cumprimento das propostas contidas nos projeto. Para colocar uma pá de cal nas discussões que ocasionalmente ainda ocorriam, Minsky & Pappert (2) em 1969 publicaram um livro denominado “Perceptrons”, onde provavam que a estruturas utilizadas nos dispositivos da época eram incapazes de aprender regras lógicas tão simples quanto à do “ou - exclusivo”.

Pouquíssimos pesquisadores continuaram a trabalhar no assunto, entre os quais destacam-se:

Teuvo Kohonen ( Finlândia); Edoardo Caianiello (Itália); Stephen Grossberg, (E.U.A); James Anderson (E.U.A); Kunihiko Fukushima (Japão);

Bernard Widrow (USA ), estes estavam ligados a vertente do modelo biológico.

A vertente ligada à Lógica Matemática, entretanto estava mais bem apoiada institucionalmente, dada a grande conquistas realizadas na área de computação que, se não geraram o cérebro eletrônico como se propôs originalmente, obtiveram um dispositivo que inegavelmente revolucionou o ambiente tecnológico existente.

Estes pesquisadores “lançaram as bases” do que hoje entendemos por “Inteligência Artificial”, obtendo logo no início da década de 70 resultados bastante concretos em diversas e importantes aplicações de caráter prático. Da mesma forma que a “lógica proposicional” (ou lógica de ordem zero) foi à base para o desenvolvimento dos “computadores digitais”, a lógica de predicados de primeira ordem o foi para a Inteligência Artificial. O início da década de 80 marcou a consolidação desta vertente e o crescimento acentuado das aplicações como é do conhecimento geral.

(3)

Pelo outro lado, entretanto, o “renascimento” do interesse científico teve início através dos físicos com uma aplicação dos conceitos “conexionistas” ao problema de modelagem de materiais paramagnéticos como o “vidro spin” realizada por Hopfield (3) e publicada em 1982. A idéia básica era a da analogia entre o spin magnético de um átomo influenciando a todos os demais existentes no vidro e evidentemente, sofrendo a influência de todos na determinação de sua própria orientação magnética. Esta analogia gerou um modelo dinâmico não linear que se provou ser estável desde que a matriz de pesos que medem a força de interação entre cada par de fosse simétrica. Esta condição é naturalmente verificada no problema físico que estava sendo modelado e, portanto, não causou dificuldades para sua aplicação.

A partir daí, diversas possibilidades de aplicação foram exploradas, como por exemplo, em otimização, em reconhecimento de padrões etc., com resultados bastante encorajadores. As boas condições de financiamento da pesquisa na área voltaram e o volume de trabalhos publicados começou a crescer significativamente.

Em 1986 ocorreu o fato que efetivamente colocou a área de “Redes Neurais Artificiais” como uma das prioritárias na obtenção de recursos. Este fato foi à explicação por Rummelhart, Hinton e Williams (4) de um algoritmo de aprendizado (backpropagation) para redes do tipo Perceptron com estrutura multicamadas, fazendo cair definitivamente à alegação de que estes tipos de redes resolviam apenas problemas triviais. Cabe aqui observar, a bem da verdade, que Minsky e Pappert (et alli) estavam absolutamente corretos no que afirmaram, pois os algoritmos de aprendizagem existente na época eram capazes de aprender apenas a solução para problemas simples de classificação, não sendo conhecido nenhum outro com a generalidade do “backpropagation”. É importante ainda salientar que este algoritmo foi desenvolvido anteriormente por outros pesquisadores (Werbos 1974, Parker 1975 e Le Cun 1975) que, entretanto, o estavam aplicando em problemas não relacionados diretamente com redes neurais.

Hoje redes neurais constituem uma teoria para estudo problemas ou fenômenos complexos. É considerada como um ramo ou sub especialidade da inteligência artificial. Após a publicação em 1986 do clássico “Parallel Distributed Processing” editado por Rummelhart e McClelland ambos do PDP Research Group da Universidade de San Diego na California, a área de redes teve um crescimento vertiginoso.

Cabe ressaltar que esta área está sendo reativada desde a década de 1980 e um volumoso número de pesquisa e trabalhos têm sido realizados, apesar da falta de um corpo teórico consolidado, e a inexistência de livros abrangentes.

A proliferação de publicações inexpressivas, contradições em diversas conjecturas de trabalhos, resultados divergentes, caracterizam a área ainda pouco conhecida, ou seja, onde o conhecimento científico é pouco consolidado. Por outro lado às perspectivas que se abrem para pesquisadores e tecnólogos são tentadoras.

Desta forma, assistimos a partir de 1986 a um crescimento exponencial dos financiamentos e das atividades na área. Hoje se pode dizer que na maioria das Universidades e Centro de Pesquisa existem grupos trabalhando no assunto.

(4)

Após as considerações sobre a evolução histórica das redes neurais, cabe uma pergunta. Quando utilizar a redes neurais?

Esta pergunta pode ser respondida da seguinte maneira:

1) Quando as conclusões são baseadas em dados de natureza fuzzy. Se os dados são opiniões pessoais, categoria mal definida, ou estão sujeitos a grandes erros, os comportamentos robustos das RNs é decisivo para a solução do problema.

2) Os fatores importantes para a tomada de decisões são quase que imperceptíveis. Uma das principais vantagens de um RN é a sua habilidade de descobrir padrões tão obscuros que passam desapercebidos por especialistas humanos e métodos estatísticos tradicionais.

3) Os dados apresentam um grau significativo de não-linearidade difícil de ser prevista. Modelos tradicionais para previsão de série temporais, tais como ARMA e filtro de Kalman, são baseados em modelos pré-definidos. Se os dados não podem ser ajustados ao modelo, os resultados são inúteis. RNs são extremamente adaptáveis. 4) Os dados são caóticos (no senso matemático). Caos pode ser encontrado em ruídos

de linha telefônica, cotações de mercado de capitais, carga elétrica, e em diversos outros processos. Tal comportamento tem efeito devastador para a grande maioria de técnicas. Entretanto, RNs são geralmente robustas em relação a dados desta natureza.

Complementando as respostas possíveis, podemos dizer que nos últimos anos as Redes Neurais Artificiais tem recebido uma grande atenção como ferramenta de computação em diversas áreas, entre as quais:

1) Representação de função; 2) Modelagem de processo;

3) Aprendizado de processo de decisão; 4) Problema de previsão;

5) Estimação da inversa de um sistema; 6) Determinação de ação de controle;

7) Descobrimento de similaridade de padrões; 8) Filtragem de dados;

9) Aquisição automática de conhecimento; 10) Monitoramento e diagnóstico rápido;

11) Processamento de informações distorcidas e/ ou incompletas; 12) Memória accessível pelo conteúdo;

13) Orientação na solução de problemas de otimização combinatória; 14) Processamento de sinais e/ou imagens

Exemplos:

- Reconhecimento de Padrões -

Reconhecemos com relativa facilidade um rosto visto anteriormente, mas um algoritmo para realizar esta tarefa pode ser bastante complexo;

(5)

No clássico problema do caixeiro viajante, para um número razoável de cidades o homem acha uma solução ótima (quase ótima) com relativa facilidade. Mas algoritmos para esta tarefa são complexos e extensos.

O cérebro apresenta também outras características muito desejáveis para uma máquina que são:

- Capacidade de aprender sem que seja necessário conhecer o algoritmo que resolve o problema;

Exemplo: qual algoritmo para identificar um rosto? - Capacidade de generalizar;

Exemplo: somos capazes de reconhecer o mesmo rosto em posição ou condição de iluminação diferente.

- Robustez - isto quer dizer que a perda de algumas unidades de processamento, ou neurônios, não implica na perda de uma quantidade considerável de informação.

Em vista do exposto anteriormente, leva-nos a reproduzir artificialmente as redes neuronais biológicas, e usá-las como ferramenta de computação em engenharia.

Para um bom desempenho do leitor é necessário um conhecimento básico de: - Cálculo; - Equações diferenciais; - Equações às diferenças; - Probabilidade; - Álgebra linear; - Sistemas lineares

O que são redes neurais artificiais?

1. Segundo Alexandre P. Alves da Silva: “Uma rede neural artificial é uma estrutura de processamento de informação não - algorítmica na forma de um grafo direcionado, onde cada nó, denominado neurônio, possui muitas entradas e um único sinal de saída que pode ser desmembrado. O processamento em cada nó depende exclusivamente das entradas desse nó e dos valores acumulados em uma pequena memória local do mesmo”.

2. Segundo Simon Haykin: “Uma rede neural é um processador maciçamente paralelamente distribuído constituído de unidades de processamento simples, que têm a propensão natural para armazenar conhecimento experimental e torná-lo disponível para uso. Ela se assemelha ao cérebro em dois aspectos”:

a) O conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de aprendizagem.

b) Forças de conexão entre neurônios, conhecidas como pesos sinápticos, são utilizadas para armazenar o conhecimento adquirido.”

(6)

03 - FUNDAMENTOS - Neurônio Biológico

Antes de iniciarmos o estudo sobre redes neurais artificiais, considero importante fazer algumas considerações sobre o neurônio biológico por ser ele a inspiração para o neurônio artificial, e este por sua vez, é a unidade processadora da rede neural artificial. O neurônio biológico é constituído de um corpo celular denominado soma. Local no qual ocorre o processamento metabólico da célula nervosa ou neurônio.

Deste corpo projetam-se extensões filamentares, os dendritos, e o axônio, este modelo anatômico foi identificado por Ramon Cajal (Neurologista) em 1894.

As manifestações elétricas dos neurônios biológicos foram observadas pela primeira vez no século XIX por Dubis Reymond auxiliado por um galvanômetro, todavia o entendimento do funcionamento só foi melhorado a partir das observações de Erlanger e Gasser em 1920. O resultado desta pesquisa rendeu – lhes o prêmio Nobel em fisiologia no ano de 1944. Com base nesta pesquisa e outras posteriores passou-se a entender o comportamento do neurônio biológico como sendo o dispositivo computacional do sistema nervoso o qual possui muitas entradas e uma única saída.

(7)

As entradas ocorrem através das conexões sinápticas, que conectam a árvore dendrital aos axônios de outras células nervosas. Os sinais que chegam pelos axônios são pulsos elétricos conhecidos como impulsos nervosos ou potenciais de ação, e constituem a informação que o neurônio processará de alguma forma para produzir como saída um impulso nervoso no seu axônio.

As sinapses são regiões eletroquimicamente ativas, compreendidas entre duas membranas celulares: a membrana pré-sináptica, por onde chegam o estímulo vindo de uma célula e a membrana pós-sináptica, que é a do dendrito.

Na região pré-sináptica, o estímulo nervoso que chega é transferido à membrana dendrital através de neurotransmissores (substância eletrolítica). O resultado desta transferência é uma alteração do potencial elétrico da membrana pós-sináptica. Dependendo do neurotransmissor, a conexão sináptica é excitatória ou inibitória.

A conexão excitatória provoca uma alteração no potencial da membrana que contribui para formação do impulso nervoso no axônio de saída, enquanto que a conexão inibitória age no sentido contrário.

Como é formado o potencial de ação? Segundo estudiosos da área de neurologia, o axônio ou fibra nervosa de um neurônio é um tubo filamentar delimitado pela membrana celular. Assim existe uma região interior a membrana e outra exterior a ela. Assim em repouso, sem a presença de um impulso nervoso, o interior da membrana está num potencial eletronegativo de alguns milivolts em relação ao exterior da membrana. Este é o potencial de repouso da membrana. Essa diferença de potencial é sustentada por um processo de difusão de íons de sódio e potássio através da membrana, processo este conhecido como bomba de sódio.

O mecanismo como é criado o potencial de ação pode explicado da seguinte maneira: quando o potencial da membrana está menos eletronegativo do que o potencial de repouso, diz – se que ela está despolarizada e quando está mais negativo diz – se que

(8)

ela está hiperpolarizada. O impulso nervoso ou potencial de ação é uma onda de despolarização de uma certa duração que se propaga ao longo da membrana (duração da ordem de algumas centenas de microssegundos). A formação de um potencial de ação na membrana axonal ocorre quando a membrana sofre despolarização suficientemente acentuada para cruzar um determinado valor conhecido como limiar de disparo. Neste momento a membrana despolariza rapidamente em questão de microssegundo, quando o vai muito além do valor do limiar e em seguida retorna, bem mais lentamente ao valor de repouso.

Este fenômeno é o potencial de ação, que passa propagar ao longo da fibra nervosa (axônio), na forma de uma onda, com velocidade de dezenas de centímetros por segundo, em fibras mielinizadas pode atingir até 150m / seg.

Após a ocorrência de um impulso nervoso a membrana entra num período conhecido com refração absoluta, durante o qual é incapaz de produzir outro potencial de ação independente da intensidade da despolarização. Seguido a este período tem-se o período de refração relativa, correspondente a um período de redução do potencial eletronegativo até o limiar de disparo. Durante o período de refração relativa, a fibra nervosa (axônio) é

(9)

capaz de produzir potencial de ação, porém com potencial de despolarização mais intenso do que no momento em que se tem o do limiar de disparo.

(10)

Modelo do Neurônio Artificial -

Redes Neurais – Modelo do Neurônio Artificial

O primeiro modelo matemático do neurônio artificial desenvolvido na tentativa de representar o comportamento do neurônio biológico, foi proposto pelos pesquisadores Warren McCulloch (médico, filosofo, matemático e poeta) & Walter Pitts (estatístico) em 1943, inspirados nas propriedades eletrofisiológicas do neurônio biológico e também nos resultados de Alan Turing e John Von Neumann, que indicavam ser a natureza da inteligência humana essencialmente Booleana. Esse modelo foi publicado no boletim “Mathematical Biophysics” com o título “A Logical Calculus of the Ideas Immanent in Nervous Activy”, é considerado referência zero para a teoria das redes neurais artificiais.

Neste modelo cada entrada recebe um estímulo que é ponderado por algum valor wij que representa a coesão sináptica que existe no neurônio biológico. Todas as entradas ponderadas são somadas, e se a combinação das entradas alcança um certo nível limiar, uma resposta é gerada, a qual é posteriormente modulada por uma função de transferência não linear. A saída é então expressa por:

xj ( 1 )

(

)

(

)

Ο

_i

=

f

∑

xji wij

−

θ

_i

)

(

)

(

∑

xji wij ≥ θ_i condição para disparar o neurônio (a soma ponderada das excitações igual ou maior que o nível do limiar);

onde: xji é o sinal de entrada ou estímulo na entrada j sobre o i - ézimo neurônio;