Conclusões

7.1 Resumo

A maior parte dos trabalhos de redes neurais utiliza os modelos neurais com peso devido ao seu excelente desempenho, porém esse tipo de rede neural não é implementável em hardware, o que dificulta sua utilização em certas áreas de pesquisas, como por exemplo, as pesquisas espaciais, onde o peso e o tamanho dos equipamentos são muito custosos, assim a pesquisa de redes neurais com neurônios baseados em memória RAM, que são implementáveis em hardware, possui grande relevância. Neurônios baseados em memória RAM são bem adequados para problemas definidos em espaços de entradas binárias. Para problemas definidos no espaço de entradas reais, no entanto, existe uma tarefa difícil que é encontrar a representação adequada desses valores no espaço binário.

O método mais utilizado para codificar valores reais em binários para o treinamento de redes booleanas é o CMAC and Gray coding, proposto por Allinson e Kolcz (1994). O desempenho obtido por esse tipo de codificação é bastante satisfatório [Rohwer & Morciniec 1998], no entanto requer uma grande quantidade de bits por variáveis numéricas [Linnerberg & Jorgensen 1999]. A codificação de valores numéricos em binários através da inserção de ruídos foi proposta por Ding [Ding 1996]. Em sua pesquisa Ding propôs a inserção do ruído gaussiano ainda no domínio contínuo para posterior codificação, que pode ser feita em representação binária densa, sem qualquer preocupação com relações de distância na vizinhança; apenas com o nível de precisão na discretização dos valores contínuos.

Esta dissertação teve como objetivo principal investigar o desempenho de uma rede neural baseado em neurônio RAM, o n-tuple classifier, com inserção de ruído gaussiano nas variáveis de entradas numéricas durante o treinamento. Essa abordagem aumenta o poder de generalização da rede, pois uma maior quantidade de posições de memória pode ser “treinada”, formando uma região de vizinhança comum para padrões semelhantes, conhecida como bacias de atração [Adeodato 1997].

7.2 Principais contribuições

Considerando o que foi exposto até este ponto, é possível listar as contribuições mais relevantes deste trabalho:

1. Desenvolvimento de um simulador para o treinamento do n-tuple classifier com adição de ruído, tendo em vista que não existem simuladores com esse propósito. O simulador desenvolvido foi utilizado com sucesso nos quatro problemas selecionados para o estudo, o software mostrou-se robusto e com bom desempenho em todos os experimentos realizados. A ferramenta foi desenvolvida utilizando o paradigma da orientação objetos, através da linguagem Delphi 2006, com arquitetura em três camadas e padrões de projetos.

2. Análise da influência da adição de ruídos durante o treinamento de uma rede booleana, o n-tuple classifier. A análise demonstrou que essa abordagem aumenta o poder de generalização da rede, pois uma maior quantidade de posições de memória pode ser acessada, conforme descrito no estudo realizado no Capítulo 4, no qual duas redes booleanas foram treinadas, uma com ruído e outra sem ruído. Para o estudo utilizou-se um repositório de dados público do projeto European Community ESPIRIT, o projeto STATLOG, que foi desenvolvido para comparar e avaliar algoritmos de classificação. O estudo mostrou que a adição de ruídos nas variáveis de entradas numéricas durante o treinamento aumentou a quantidade de endereços acessados em 263%, o que aumenta a chance de um padrão desconhecido acessar um endereço já treinado, aumentando assim o poder de generalização da rede, conforme verificado na análise feita para o conjunto de teste. Para a rede treinada sem ruído, 76.11% dos endereços

acessados pelo conjunto de teste havia sido acessado no treinamento, aplicando-se o mesmo conjunto de teste ao modelo treinado com ruído, esse percentual aumentou para 97.35%. Outra análise realizada foi em relação ao nível de ruído ideal. Foram realizados dez experimentos variando o nível de ruído de forma linear e observou-se que à medida que o nível de ruído aumenta, o poder de discriminação do modelo também aumenta, porém após um determinado nível de ruído a performance começa degradar, assim como aumenta a instabilidade do modelo.

3. Testes sistemáticos e controlados foram realizados para comparar o desempenho do modelo investigado. O estudo comparativo mostrou que o desempenho do modelo investigado obteve resultados equivalentes ao da rede MLP para os quatros problemas selecionados, conforme descrito no Capítulo 6. A comparação foi realizada seguindo a metodologia experimental definida do Capítulo 5, utilizando-se as principais métricas de avaliação de desempenho para problemas de classificação binária, um projeto experimental para escolha da melhor topologia de cada modelo e a utilização do n-fold

cross-validation, com n igual a dez, repetido dez vezes para obtenção de estimativas

mais confiáveis, como recomendado pelos autores Witten e Frank [Witten & Frank 2005].

7.3 Limitações

Durante os experimentos, ficou claro que há uma substancial dependência do resultado final do método com a escolha inicial do nível de ruído ideal para o treinamento da rede, que depende diretamente da característica das variáveis do problema, e com a quantidade de coberturas. Para seleção desses parâmetros um projeto experimental foi criado, porém essa não é uma estratégia prática e eficiente para escolhas desses parâmetros.

O estudo investigou apenas o treinamento com inserção de ruído para a rede com neurônio RAM e uma arquitetura de uma camada, o n-tuple classifier, outras redes neurais sem pesos poderiam ter sido investigadas, como por exemplo: o GSN, pRAM e PLN. A comparação de desempenho foi realizada apenas em relação a rede MLP, outros

classificadores poderiam ser utilizados, como por exemplo: KNN [Cover & Hart 2003] e Regressão logística [Kleinbaum & Klein 2002].

7.4 Trabalhos futuros

A partir das considerações previamente expostas, a primeira evolução natural para o modelo investigado deverá vir do estudo mais aprofundado em relação ao nível de ruído adicionado durante o treinamento e a quantidade de coberturas. A seleção ótima desses parâmetros é um problema combinatorial, com um espaço de busca potencialmente complexo que não pode ser investigado idealmente usando apenas o método de tentativa e erro. Para este tipo de problema, o mais apropriado é a utilização de métodos de busca global tais como, por exemplo, os algoritmos genéticos [Holland 1975] [Goldberg 1989] e simulated annealing [Kirkpatrick et al. 1983]. Métodos como estes são capazes de sistematicamente encontrar soluções ótimas ou subótimas em espaços de busca complexos aplicando uma função de custo adequada para avaliar soluções candidatas e um conjunto de operadores apropriados para percorrer o espaço de busca. Assim, aplicando um destes métodos, seria possível investigar, para cada caso, o espaço de combinações possíveis destes parâmetros e, eventualmente, de forma automática, encontrar a combinação ideal que corresponda a resultados superiores.

Outra análise que pode ser realizada é a avaliação de desempenho do sistema com inserção de ruído no conjunto de teste. Estudo similar já foi realizado para o caso particular de ruído binário em arquiteturas piramidais utilizando neurônios pRAM [Guan et al. 1994]. A idéia seria verificar como o reconhecimento é afetado pelo nível de ruído gaussiano adicionado aos novos padrões e que relação entre os níveis de ruído de treinamento e de reconhecimento produziria melhor desempenho.

Além da investigação sobre os valores dos parâmetros, outro trabalho que merece ser realizado é a utilização de outros tipos de neurônios e topologia de redes booleanas no treinamento com ruído, como neurônios GSN, PLN ou pRAM e arquitetura piramidal. Assim como comparar o desempenho com outros classificadores conhecidos na literatura como, por exemplo, KNN [Cover & Hart 2003] e Regressão logística [Kleinbaum & Klein 2002].

Referências Bibliográficas

[Adeodato et al. 2004] ADEODATO, P. L.; VASCONCELOS, G. C.; ARNAUD, A. L.; SANTOS, R. F., CUNHA, R. C. L.; MONTEIRO, D. S. M. Neural Networks vs Logistic Regression: a Comparative Study on a Large Data Set. International Conference on

Pattern Recognition, Cambridge, pp. 355-358, 2004.

[Adeodato 1997] ADEODATO, P. J. L. Theoretical Investigation of RAM-

Based Neural Networks, PhD thesis, University of London,

UK, 1997.

[Aleksander & Morton 1995] ALEKSANDER, I; MORTON, H. An introduction to

Neural Computing, London: International Thompson

Computer Press, 1995.

[Aleksander & Stonham 1979] ALEKSANDER, I.; STONHAM, T. J. Guide to pattern recognition using random-access memories, Computers and

digital techniques, pp. 29-40, 1979.

[Aleksander et al. 1984] ALEKSANDER I.; THOMAS, W.V.; BOWDEN, P.A. WISARD a radical step forward in image recognition, Sensor

Review, pp.120-124, 1984.

[Aleksander 1965] ALEKSANDER, I. Fused adaptive circuit which learns by example, Electronics Letters 1, pp. 173-174, 1965.

[Aleksander 1971] ALEKSANDER, I. Microcircuit learning computers, London: Milla and Boon Ltda, 1971.

[Anderson 1995] ANDERSON, J. A. An Introduction to Neural Networks, Cambridge: MIT Press, 1995.

[Argüelles et al. 2005] ARGÜELLES, A. J. C.; LEON, J. L. D. S.; YÁÑEZ, C. M.; CAMACHO, O. N. Pattern recognition and classification using weightless neural networks (WNN) and Steinbuch Lernmatrix. Mathematical Methods in Pattern and Image

Analysis, pp. 59238-59246, 2005.

[Beale & Jackson 1994] BEALE, R.; JACKSON, T. Neural Computing, An

[Bishop 1995] BISHOP, C. Training with noise is equivalent to Tikhonov regularization, Neural Computation, pp. 108-116, 1995.

[Bledsoe & Browning 1959] BLEDSOE, W.W.; BROWNING, I. Pattern Recognition and Reading by Machine, Proceedings of the Eastern Joint

Computer Conference, pp. 225-232, 1959.

[Blue & Grother 1992] BLUE, J. L.; GROTHER, P.J. Training Feed-forward Neural Networks using Conjugate Gradients, In Conference on

Character Recognition and Digitizer Technologies, pp.

179-190, 1992.

[Blum et al. 1999] BLUM, A.; KALAI, A.; LANGFORD, J. Beating the hold- out: Bounds for k-fold and progressive cross-validation,

Proceedings of the International Conference on

Computational Learning Theory, pp. 203-208, 1999.

[Braga et al. 2000] BRAGA, A. P.; CARVALHO, A. P. L.; LUDEMIR, T. B.

Redes Neurais Artificiais: teoria e aplicações, Rio de

Janeiro: Livros Técnicos e Científicos, 2000.

[Clarkson et al. 2001] CLARKSON, T. G.; CHRISTODOULOU, C.C.; GUAN, Y.; GORSE, D.; TAYLOR, J. G. Speaker identification for security systems using reinforcement-trained pRAM neural network architectures, IEEE Transactions on Systems, Man,

and Cybernetics, pp. 65-76, 2001.

[Conover 1999] CONOVER, W. J. Pratical Nonparametric Statistics, New York, John Wiley & Sons, 1999.

[Cover & Hart 2003] Cover, T.; Hart, P. Nearest neighbor pattern classification,

IEEE Transactions on Information Theory, pp. 21-27,

2003.

[Ding 1996] DING, Y. Pattern recognition with probabilistic RAM

neural network and its applications in fingerprinter identification and human thermogram discrimination,

PhD thesis, University of London, UK, 1996.

[DMC 2007] DATA MINING CUP. Disponível em: < http://www.data- mining-cup.com />. Ultimo acesso em: 10 de maio, 2007.

[Fawcett 2003] FAWCETT, T. Roc Graphs: Notes and Pratical

Considerations for Data Mining Researchers, Technical

Report, HPL-2003-4, HP Labs, 2003.

[Filho et al. 1991] FILHO, E. C.; FAIRHURST, M. C.; BISSET, D. L. Adaptive Pattern Recognition Using Goal-Seeking Neurons, Pattern

Recognition Letters, pp. 131-138, 1991.

[Filho 1990] FILHO, E. C. Investigation of boolean neural network

based on a novel Goal-Seeking-Neuron, PhD thesis,

University of Kent, UK, 1990.

[Goldberg 1989] GOLDBERG, D. E. Genetic Algorithms in Search,

Optimization, and Machine Learning, Massachusetts:

Addison-Wesley, 1989.

[Goncalves et al. 2004] GONCALVES, C. H. R.; OLIVEIRA, A. M. B.; M. F.; CASTRO, R. A. Applying Artificial Neural Networks for Fault Prediction in Optical Network Links, Lecture Notes in

Computer Science, pp. 707-712, 2004.

[Gorse & Taylor 1988] GORSE, D.; TAYLOR, J. G. On the equivalence and properties of noise neural and probabilistic ram nets, Physics

Letters A, pp. 326-332, 1988.

[Guan et al. 1994] GUAN, Y.; CLARCKSON, T.; TAYLOR, J. G.; GORSE, D. Noisy reinforcement training for pRAM Nets, Neural

Networks, pp. 523-538, 1994.

[Han & Kamber 2006] HAN, J.; KAMBER, M. Data Mining: Concepts and

techniques, San Francisco: Morgan Kaufmann, 2006.

[Haykin 1994] HAYKIN, S. Neural networks: A Comprehensive

Foundation, New York: Prentice Hall, 1994.

[Hecht-Nielsen 1990] HECHT-NIELSEN, R. Neurocomputing, New York: Addison-Wesley, 1990.

[Holland 1975] HOLLAND, J. H. Adaptation in Natural and Artificial

Systems, Ann Arbor: University of Michigan Press, 1975.

[Honavar & Uhr 1989] HONAVAR, V.; UHR, L. Brain-Structured Connectionist Networks That Perceive and Learn, Connection Science, pp. 139-159, 1989.

[Hoque & Fairhurst 2000] HOQUE, M. S.; FAIRHURST, M. C. Face Recognition Using the MovingWindow Classifier, In Proceedings of the 11th

British Machine Vision Conference, pp. 312-321, 2000.

[Jain et al. 2000] JAIN, A. K.; DUIN, R. P. W.; MAO, J. Statistical pattern recognition: A review, IEEE Transactions on Pattern

Analysis and Machine Intelligence, pp. 4-37, 2000.

[Jain 1991] JAIN, R. Art of Computer Systems Performance Analysis

Techniques For Experimental Design Measurements Simulation And Modeling, New York: John Wiley & Sons,

1991.

[Jorgensen & Linnerberg 1999] JORGENSEN, T. M.; LINNERBERG, C. Theoretical analysis and improved decision criteria for the n-tuple classifier, IEEE

Transactions on pattern analysis and machine intelligence,

pp. 336-347, 1999.

[Kaelbling et al. 1996] KAELBLING, L.P.; LITTMAN, L. M.; MOORE, A. W. Reinforcement learning: a survey, Journal of Artificial

Intelligence Research, pp. 237-285, 1996.

[Kan & Aleksander 1987] KAN, K. W.; ALEKSANDER, I. A Probabilistic Logic Neural Network for Associative Learning, IEEE Proceedings

of the First International Conference on Neural Networks,

pp. 156-171, 1987.

[Kearns & Ron 1997] KEARNS, M. J.; RON, D. Algorithmic stability and sanity- check bounds for leave-one-out cross-validation, In

Proceedings of the Tenth Annual Conference on Computational Learning Theory, pp. 152-162, 1997.

[Kirkpatrick et al. 1983] KIRKPATRICK, S.; GELLAT, C. D. JR.; VECCHI, M.P. Optimization by Simulated Annealing, Science, pp. 671-680, 1983.

[Kleinbaum & Klein 2002] Kleinbaum, D. G.; Klein, M. Logistic Regression, New York: Springer-Verlog, 2002.

[Kohavi 1995] KOHAVI, R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection, In Proceedings of

Artificial Intelligence, pp. 1137-1143, 1995.

[Kolcz & Allinson 1994] KOLCZ, A.; ALLINSON, N. M. Application of the CMAC input encoding in the N-tuple approximation network, IEE

Proceedings - Computers and Digital Techniques, pp. 177-

183, 1994.

[Levine & Berenson 2000] LEVINE, D. M.; BERENSON, M. L. Estatística: teoria e

aplicações usando o microsoft excel, LTC, 2000.

[Lingras 1996] LINGRAS, P. Unsupervised learning using Rough Kohonem Neural Networks Classifiers, IEEE International Symposium on Modelling, Analysis and Simulation,

pp.753-757, 1996.

[Michie et al. 1994] MICHIE, D.; SPIEGELHALTER, D. J.; TAYLOR, C. C.

Machine Learning, Neural and Statistical Classification,

New York: Ellis Horwood, 1994.

[Moss & Gielen 2001] MOSS, F.; GIELEN, S. Neuro-Informatics and Neural

Modelling, Amsterdam: Elsevier, 2001.

[Møller 1993] MØLLER, M. F. A scaled conjugate gradient algorithm for fast supervised learning, Neural Networks, pp. 525-533, 1993.

[Myers & Aleksander 1988] MYERS, C. E.; ALEKSANDER, I. Learning Algorithms for Probabilistic Neural Nets, 1st INNS Annual Meeting, pp. 205, 1988.

[Müller et al. 1995] MÜLLER, B.; REINHARDT, J.; STRICKLAND, M. T.

Neural Networks: An Introduction, Berlin: Springer, 1995.

[Prechelt 1994] PRECHELT, L. PROBEN1-A set of benchmarks and

benchmarking rules for neural network training algorithms, Technical report 21, Fakultät für Informatik,

Universität Karlsruhe, 1994.

[Provost & Fawcett 1998] PROVOST, F.; FAWCETT, T. Robust classiification systems for imprecise environments. In Proc. 15th Nat. Conf. on

Artificial Intelligence, pp. 706-713, 1998.

[Reidmiller & Braun 1993] REIDMILLER, M.; BRAUN, H. A direct adaptative method for faster backpropagation learning: the RPROP algorithm,

Proceedings of the IEEE Int. Conf. On Neural Networks,

San Francisco, pp. 586-591, 1993.

[Rohwer & Morciniec 1998] ROHWER, R.; MORCINIEC, M. The Theoretical and Experimental Status of the n-tuple Classifier, Neural

Networks, pp. 1-14, 1998.

[Rosenblatt 1958] ROSENBLATT, F. The Perceptron: A probabilistic model for information storage and organization in the brain,

Psychological Review, pp. 386-408, 1958.

[Rumelhart & McClelland 1986] RUMELHART, D.; MCCLELLAND, J. Parallel Distributed

Processing: exploitations in the microstructure of cognition, Cambridge: MIT Press, 1986.

[Rumelhart et al. 1986] RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning internal representations by error propagation, in

Parallel Distributed Processing: Explorations in the Microstructures of Cognition, pp. 318–362, 1986.

[Sierra et al. 2001] SIERRA, A.; MACIAS, J.A.; CORBACHO, F. Evolution of functional link networks, IEEE Trans. Neural Networks, pp. 54–65, 2001.

[Sirlantzis et al. 2003] SIRLANTZIS, K.; HOQUE, M. S.; FAIRHURST, M. C. Input Space Transformations for Multi-classifier Systems Based on n-tuple Classifiers with Application to Handwriting Recognition, Lecture Notes in Computer Science, pp. 159, 2003.

[Tafner et al. 1995] TAFNER, M. A.; XEREZ, M.; FILHO, I. W. R. Redes

neurais artificiais: introdução e princípios de

neurocomputação, Blumenau: Eko, 1995.

[Tikhonov & Arsenin 1977] TIKHONOV, A. N.; ARSENIN, V. A. Solutions of Ill-posed

Problems, Washington: Winston & Sons, 1977.

[West 2000] WEST, D. Neural network credit scoring models, Computers

and Operations Research, 2000.

[Widrow & Hoff 1960] WIDROW, B.; HOFF, M. E. Adaptive switching circuits. Institute of Radio Engineers, In IRE WESCON Convention

Record, pp. 96-104, 1960.

[Witten & Frank 2005] WITTEN, I. H.; FRANK, E. Data Mining: Pratical Machine

Learning Tools and Techniques with Java

Implementations, San Mateo: Morgan Kaufmann, 2005.

[Yao & Liu 1997] YAO, X.; LIU, Y. A new evolutionary system for evolving artificial neural networks, IEEE Trans. Neural Networks, pp. 694–713, 1997.

[Yong et al. 2004] YONG, S.; LAI, W. K.; GOGHILL, G. Weightless Neural Networks for Typing Biometrics Authentication. Lecture

Oliveira Neto, Rosalvo Ferreira de

Investigação sobre o efeito de ruído na generalização de redes neurais sem peso em problemas de classificação binária / Rosalvo Ferreira

de Oliveira Neto – Recife: O Autor, 2008. xi, 92 folhas : il., fig., tab.

Dissertação (mestrado) – Universidade Federal de Pernambuco. CIn. Ciência da Computação, 2008.

Inclui bibliografia.

Redes Neurais. I. Título.

No documento Investigação sobre o efeito de ruído na generalização de redes neurais sem peso em problemas de classificação binária (páginas 82-94)