MELHORANDO A PERFORMANCE ATRAVÉS DA COMBINAÇÃO DE

COMBINAÇÃO DE ATRIBUTOS

O algoritmo Naive Bayes para Regressão (NBR) (FRANK et al., 2000) usa a metodologia do Naive Bayes para tarefas de predição numéricas, modelando a distribuição de probabilidade do valor objetivo com estimadores de densidades por kernels. Entretanto, a incrível performance do Naive Bayes para problemas de classificação não é observada para problemas de regressão. Baseados em resultados experimentais que isolam a suposição de independência como a principal razão da pobre performance do NBR, Frank et al. (2000) concluíram que o algoritmo só deve ser aplicado a problemas de regressão quando a suposição de independência é verdadeira. Infelizmente, alguns dos métodos mencionados anteriormente não podem ser aplicados ao NBR e outros necessitariam do uso de discretização. Em (PINA e ZAVERUCHA, 2007a) é apresentada a análise e avaliação experimental de uma nova abordagem para melhorar os resultados do algoritmo NBR. Isso é realizado através da combinação de atributos por meio de algoritmos de regressão auxiliares.

8.1. Combinando Atributos

Uma vez que a principal razão da baixa performance do NBR é a suposição de independência, tentou-se superar essa situação combinando atributos relacionados. A abordagem proposta é similar a descrita em (PAZZANI, 1996), na qual atributos nominais são combinados se isso gera aumento da acurácia preditiva. A principal

diferença é que em (PAZZANI, 1996) os atributos originais são substituídos por um novo, cujos valores possíveis são as combinações de todos os valores possíveis para cada um deles (atributos numéricos são discretizados), enquanto que na abordagem proposta os atributos (nominais ou numéricos) são combinados por meio de um algoritmo de regressão auxiliar. A princípio, esse algoritmo auxiliar, chamado combinador, pode ser qualquer método de regressão. O valor da combinação é a predição do atributo objetivo fornecida por um combinador baseado apenas nos atributos sendo combinados, isto é, o combinador usa somente aqueles atributos para fazer uma predição. A Figura 51 mostra o algoritmo NBR e um modelo construído para combinar dois atributos: o combinador faz uma predição C’ do atributo objetivo C baseado apenas nos atributos A3 e A4.

(a) (b)

Figura 51. Naive Bayes para Regressão (a) e o modelo conseguido pela combinação dos atributos A3 e A4 (b).

O procedimento para treinar o modelo funciona como segue. Primeiro, o algoritmo NBR é treinado tratando todos os atributos como condicionalmente independentes. Então ele considera a substituição de cada par de atributos por um novo

atributo combinado. Para isso, usando o conjunto de treinamento, é gerado um conjunto de instâncias, chamadas instâncias parciais, formado apenas pelo par de atributos e pelo atributo objetivo. Essas instâncias parciais são usadas para treinar o combinador, como é mostrado na Figura 52: as geradas pelo combinador por meio de validação cruzada leave-one-out serão os valores para o novo atributo combinado, substituindo os valores dos atributos sendo combinados no conjunto de treinamento original, assim gerando o conjunto de treinamento para o NBR. Usando esse conjunto gerado, o NBR é treinado, considerando a estrutura modificada, como vista na Figura 53.

Figura 52. Gerando o conjunto de treinamento para o NBR.

A performance do modelo gerado, como na Figura 54, é avaliada com um conjunto de validação. Se a combinação resulta em melhoria, o modelo atual é selecionado e o procedimento continua, considerando combinações dois a dois no modelo modificado. Esse procedimento e a complexidade do algoritmo usado como combinador determinam o custo computacional da abordagem.

Figura 54. Modelo final gerado pela combinação dos atributos A3 e A4.

8.2. Avaliação Experimental

Uma extensa avaliação experimental foi realizada com o objetivo de analisar a performance da nova abordagem. Esta seção descreve os experimentos e apresenta seus resultados.

Uma vez que o NBR é um algoritmo lento (devido a suas características inerentes), Decision Stumps (IBA e LANGLEY, 1992) para regressão (baseadas no erro médio quadrático) foram escolhidas como combinadores, porque, embora sejam algoritmos de aprendizado fracos, elas são rápidas, permitindo a obtenção de resultados em um tempo de execução viável. Algoritmos de regressão melhores serão usados como

combinadores em experimentos futuros. A função de perda usada nos experimentos com o NBR foi o erro quadrático. A implementação do algoritmo NBR foi fornecida por Eibe Frank, um de seus autores. Foi usada a implementação da Decision Stump do sistema WEKA (WITTEN e FRANK, 2005). Todo o código fonte foi escrito em Java.

Tabela 15. Conjuntos de dados.

Conjunto de Dados Inst. Ats. Ats. comb.

autoMpg1 ₃₉₈ ₇ _4,8 bank8FM2 ₈₁₉₃ ₈ _4,2 baskball1 ₉₆ ₄ _3,1 bolts1 ₄₀ ₇ _3,9 breastTumor1 ₂₈₆ ₉ _4,2 cloud1 ₁₀₈ ₆ _4,1 cpu_small2 ₈₁₉₂ ₁₂ _7,7 cpu1 ₂₀₉ ₇ _4,8 delta_ailerons2 ₇₁₂₉ ₅ _3,4 delta_elevators2 ₉₅₁₇ ₆ _3,8 detroit1 ₁₃ ₁₃ _7,0 diabetes_numeric2 ₄₃ ₂ _2,0 echoMonths1 ₁₃₀ ₉ _3,6 elusage1 ₅₅ ₂ _2,0 fishcatch1 ₁₅₈ ₇ _4,3 fruitfly1 ₁₂₅ ₄ _1,4 gascons1 ₂₇ ₄ _2,4 hungarian1 ₂₉₄ ₁₃ _9,2 longley1 ₁₆ ₆ _3,2 lowbwt1 ₁₈₉ ₉ _4,6 mbagrade1 ₆₁ ₂ _2,0 pharynx1 ₁₉₅ ₁₁ _5,5 puma8NH2 ₈₁₉₂ ₈ _4,0 pwLinear1 ₂₀₀ ₁₀ _6,5 quake1 ₂₁₇₈ ₃ _1,8 sensory1 ₅₇₆ ₁₁ _5,8 servo1 ₁₆₇ ₄ _3,0 strike1 ₆₂₅ ₆ _3,5 veteran1 ₁₃₇ ₇ _5,4 vineyard1 ₅₂ ₃ _2,3

Nos experimentos, 30 conjuntos de dados foram utilizados a fim de incluir muitos domínios e dificuldades. Os conjuntos de dados foram obtidos a partir do repositório de Aprendizado de Máquinas da Universidade da Califórnia (BLAKE e MERZ, 2005) e da página pessoal de Luís Torgo (http://www.niaad.liacc.up.pt/~ltorgo/). Nas primeiras três colunas da Tabela 15, apresentamos cada um dos conjuntos de dados usados, seu número de instâncias e seu número de atributos (excluindo o atributo objetivo). O método de teste usado nesta pesquisa foi o teste t emparelhado com validação cruzada de 10 partições (DIETTERICH, 1997; MITCHELL, 1997).

A quarta coluna da Tabela 15 mostra o número médio de atributos após o passo de combinação. Analisando os valores pode-se verificar que 2,7 combinações são aceitas em média.

A Tabela 16 mostra para cada conjunto de dados o erro médio quadrático (emq) alcançado pelo algoritmo NBR e pelo modelo com combinadores. Onde está marcado com “**”, a performance foi significativamente mais alta com nível de significância de 0,05, e onde está marcado com “*”, a performance foi significativamente mais alta com nível de significância de 0,1.

A Tabela 17 apresenta um resumo dos resultados. O modelo construído com combinadores alcançou EMQ menor em mais da metade dos conjuntos de dados testados. Se forem considerados apenas os resultados estatisticamente significativos nos níveis citados acima, a nova abordagem apresentou melhor performance que o NBR em sete conjuntos de dados (cinco com nível de significância de 0,05 e dois com nível de significância de 0,1) enquanto que o algoritmo NBR venceu significativamente (com nível de significância de 0,1) em apenas um conjunto de dados. Em cinco conjuntos de

dados houve empate. Três deles são conjuntos de dados com apenas dois atributos. Para estes conjuntos de dados não houve melhoria com o passo de combinação. Os outros dois empates foram verificados em conjuntos de dados para os quais ambos os modelos alcançaram erro praticamente zero.

Tabela 16. Resultados experimentais.

Conjunto de Dados NBR NBR + Combinadores

autoMpg _15,9308 _16,6334 bank8FM _0,0049 _0,0042** baskball _0,0090* _0,0103 bolts _87,2708 _62,7886 breastTumor _104,2892 _101,8824 cloud _0,3373 _0,3873 cpu_small _18,9957 _18,4744 cpu _11353,9600 _5669,3247 delta_ailerons _0,0000 _0,0000 delta_elevators _0,0000 _0,0000 detroit _3023,5271 _874,9849 diabetes_numeric _0,3564 _0,3564 echoMonths _152,6883 _123,2886* elusage _155,0093 _155,0093 fishcatch _58501,5113 _51005,7864 fruitfly _297,4220 _269,5326* gascons _235,5067 _210,1115 hungarian _0,2067 _0,2528 longley _795914,3021 _1034660,3298 lowbwt _305216,4736 _262223,0827 mbagrade _0,0960 _0,0960 pharynx _105828,4724 _118369,0570 puma8NH _17,4688 _16,1270** pwLinear _533,2886 _493,7218** quake _0,0381 _0,0356** sensory _0,7730 _0,7368 servo _1,4082 _0,7372** strike _301324,7891 _317903,4610 veteran _19574,5786 _20325,9729 vineyard _9,3684 _14,7656

Tabela 17. Resumo dos resultados

Medida NBR NBR + Combinadores

Número de vitórias 9 16

Número de vitórias significativas 1 7

Nos experimentos reportados em (FRANK et al., 2000), regressão linear superou significativamente o algoritmo NBR em 18 conjuntos de dados, enquanto que o inverso ocorreu em apenas 8, em um total de 32 conjuntos de dados testados. Portanto, o NBR teve uma performance menor que regressão linear em mais de 56% dos testes, alcançando melhores resultados em apenas 25% deles.

A abordagem proposta foi comparada com regressão linear a fim de verificar se o uso de combinadores pode melhorar a performance do NBR para ser pelo menos comparável à regressão linear (PINA e ZAVERUCHA, 2008).

A Tabela 18 mostra os resultados da comparação. Onde está marcado com “(++)_{” (“}(−−)_{”), a performance foi significativamente maior (menor) que regressão linear}

no nível de significância de 0,05, e onde está marcado com “(+)” (“(−)”), a performance foi significativamente maior (menor) que regressão linear no nível de significância de 0,1.

Comparando NBR e regressão linear, pode ser visto que regressão linear alcança resultados significativamente melhores em 10 dos 30 conjuntos de dados, isto é, 33% deles, enquanto que o NBR alcança resultados significativamente melhores em 6 conjuntos de dados, ou seja, 20% deles. Deve-se notar que somente 20 dos 30 conjuntos de dados usados nesta pesquisa foram usados nos experimentos descritos em (FRANK et al., 2000), daí as diferentes porcentagens.

Tabela 18. Comparação com regressão linear.

Data Set Linear Regression NBR NBR + Combiners

autoMpg 14,6252 15,9308 16,6334 bank8FM 0,0015 0,0049(- -) _0,0042(- -) baskball 0,0073 0,0090(-) _0,0103(- -) bolts 139,2701 87,2708(++) _62,7886(++) breastTumor 98,3335 104,2892 101,8824 cloud 0,1692 0,3373(- -) _0,3873(- -) cpu_small 97,7955 18,9957(++) 18,4744(++) cpu 7077,5757 11353,9600 5669,3247 delta_ailerons 0,0000 0,0000 0,0000 delta_elevators 0,0000 0,0000 0,0000 detroit 3670,5263 3023,5271 874,9849(+) diabetes_n. 0,4072 0,3564 0,3564 echoMonths 117,1016 152,6883(- -) _123,2886 elusage 132,2234 155,0093 155,0093 fishcatch 16875,3082 58501,5113(-) _51005,7864 fruitfly 261,1713 297,4220(-) _269,5326 gascons 1757,5933 235,5067(++) _210,1115(++) hungarian 0,1347 0,2067(- -) _0,2528 longley 626534,0651 795914,3021 1034660,3298 lowbwt 290406,6596 305216,4736 262223,0827(+) mbagrade 0,0848 0,0960(- -) _0,0960(- -) pharynx 185388,5343 105828,4724(++) _118369,0570(+) puma8NH 19,9074 17,4688(+) _16,1270(++) pwLinear 494,49719 533,2886 493,7218 quake 0,0358 0,0381(-) _0,0356 sensory 0,8835 0,7730 0,7368 servo 0,7180 1,4082(- -) _0,7372 strike 293905,0630 301324,7891 317903,4610 veteran 21724,2110 19574,5786 20325,9729 vineyard 14,2825 9,3684(+) _14,7656

Para 6 conjuntos de dados, nos quais NBR perdia para regressão linear significativamente, o uso de combinadores pôde melhorar a performance o bastante para tornar o NBR estatisticamente igual a regressão linear.

Para 2 conjuntos de dados, nos quais a diferença entre as performances do NBR e de regressão linear não era significativa, o uso de combinadores melhorou a performance do NBR de forma que este se tornou significativamente melhor que regressão linear.

Apenas para 3 conjuntos de dados a performance do NBR foi prejudicada significativamente pelos combinadores em comparação com regressão linear.

Como resumo desses resultados, o modelo construído com combinadores superou regressão linear em 7 conjuntos de dados (23% deles), ao passo que regressão linear só foi significativamente melhor em apenas 4 (13% deles).

A fim de verificar os resultados alcançados na comparação de EMQ, foi realizada a análise REC. Dois dos gráficos REC gerados podem ser vistos nas Figuras 55 e 56. Analisando os valores de AOC e a posição relativa das curvas REC, pôde-se concluir que o modelo construído com combinadores alcançou performance melhor. Pode-se notar que a curva para NBR + combinadores cobre as outras e portanto tal modelo é preferível.

9. CONCLUSÕES

As técnicas mais conhecidas e utilizadas para a previsão de séries temporais são baseadas em modelagem paramétrica. Os filtros de partículas que compõem o estado-da-arte para o tratamento de sistemas não-lineares e não-Gaussianos requerem a definição das funções que representam os modelos de espaço de estados escolhidos. Esta pesquisa apresenta uma abordagem para o uso de filtros de partículas que elimina a necessidade de definição de um modelo, aprendendo a dinâmica do sistema a partir de estimação não-paramétrica com kernels. As partes componentes do novo algoritmo, chamado filtro de partículas não-paramétrico, foram estudadas e decisões de projeto foram tomadas com a finalidade de maximizar a performance do sistema. A avaliação experimental mostrou que o filtro de partículas não-paramétrico apresenta um bom desempenho quando comparado com filtros de Kalman tradicionais e filtros de partículas utilizando redes neurais parea modelar a função de transição de estados e a função observacional. Mesmo quando comparado a outros algortimos que se beneficiaram de uma boa escolha de modelo de espaço de estados, o FPNP conseguiu resultados comparáveis. Deve-se notar que a escolha do modelo é crucial para a boa performance dos algoritmos que dependem de sua definição. Como pôde ser visto nos experimentos, algoritmos que apresentaram performance melhor que os demais para uma determinada escolha de modelo, se mostraram bastante ineficientes quando um modelo mais adequado foi definido para todos os algoritmos. Esse foi o caso, por exemplo, do GSPF. É muito importante salientar também que o filtro de partículas não- paramétrico não usou qualquer tipo de informação externa para fazer suas previsões e nenhum pré-processamento foi realizado nas entradas. Como trabalho futuro pretende-

se alterar a abordagem para que seja feito o pré-processamento da série de forma automática, de modo a determinar características que possam auxiliar as previsões e melhorar a performance do sistema. Também será feita uma análise para tentar identificar as caracteristicas das séries temporais mais adequadas à abordagem proposta.

O preço que é pago pela alta performance de um sistema baseado em filtro de partículas é o elevado custo computacional. Pode ser que para alguns problemas a performance melhor de um filtro de partículas compense tal esforço computacional, enquanto que para outros não. Esse trade-off depende do problema tratado e deve ser investigado de forma individual. Entretanto, com a evolução da tecnologia e o aparecimento de computadores cada vez mais rápidos, o custo computacional de um sistema baseado em partículas como o proposto torna-se cada vez mais acessível.

Além do filtro de partículas não-paramétrico, nesta Tese foi introduzido o uso de curvas características de erro de regressão não só na avaliação comparativa de previsores de séries temporais e comitês de previsores, como também na seleção de componentes em comitês. Foi desenvolvido o algoritmo de boosting para regressão usando curvas REC para a seleção de modelos de comitês de redes neurais, e então a análise foi estendida à comitês de filtros de filtros de Kalman tradicionais e comitês de filtros de partículas. Uma extensa avaliação experimental foi realizada a fim de selecionar os melhores modelos de comitês de previsores de séries temporais. Foi também analisado o uso do filtro de partículas não-paramétrico como base de comitês, como forma de reduzir bias e variância do sistema. Os resultados foram melhores que os do algortimo funcionando individualmente, como esperado.

Como contribuição final, foi desenvolvido um método de combinação de atributos para melhorar a performance do algoritmo NBR, que considerando o atributo

objetivo como hidden, pode ser usado para estimação de probabilidades, da mesma forma que o Naive Bayes já foi usado antes (LOWD e DOMINGOS, 2005), permitindo sua aplicação em previsão de séries temporais.

REFERÊNCIAS BIBLIOGRÁFICAS

ALI, K. M., PAZZANI, M. J., 1996, “Error reduction through learning multiple descriptions”, Machine Learning, 24(3), pp. 173−202.

ANDERSON, B. D. O., MOORE, J. B., 1979, Optimal Filtering, Prentice Hall Inc., Englewood Ciffs, New Jersey 07632.

ANDREWS, M. W., 2005, Bayesian Learning in Nonlinear State-Space Models, Technical Report.

AVNIMELECH, R., INTRATOR, N., 1999, “Boosting Regression Estimators”, Neural Computation, 11, pp. 491−513.

BAUM, L. E., EGON, J.A., 1967, “An Inequality with Applications to Statistical Estimation for Probabilistic Functions of a Markov Process and to a Model for Ecology”, Bull. Amer. Meteorol. Soc., 73, pp 360–363.

BI, J., BENNETT, K. P., 2003, “Regression Error Characteristic Curves”, In: Proceedings of the 20th International Conference on Machine Learning (ICML 2003), Washington, DC, pp. 43–50.

BILMES, J. A., 1998, A gentle tutorial of the EM algorithm and its applications to parameter estimation for gaussian mixture and hidden Markov models, Technical Report TR-97-021, International Computer Science Institute, Berkeley, California.

BLAKE, C. L., MERZ, C. J., 2005, UCI Repository of Machine Learning Database, Machine-readable data repository, Department of Information & Computer Science, University of California, Irvine.

[http://www.ics.uci.edu/~mlearn/MLRepository.html]

BORMAN, S., 2004, The Expectation Maximization Algorithm, Technical Report.

BREIMAN, L., 1996, “Bagging predictors”, Machine Learning, 24(2), 123-140.

BROCKWELL, P. J., DAVIS, R. A., 2002, Introduction to Time Series and Forecasting, Springer-Verlag, New York.

BROWN, G., WYATT, J. L., TIÑO, P., 2005, “Managing Diversity in Regression Ensembles”, Journal of Machine Learning Research, 6, pp. 1621–1650.

CARUANA, R., NICULESCU-MIZIL, A., 2004, “An Empirical Evaluation of Supervised Learning for ROC Area”, In: Proceedings of the First Workshop on ROC Analysis (ROCAI 2004), pp. 1−8.

CASELLA, G., ROBERT, C. P., 1996, “Rao-Blackwellisation of sampling schemes”, Biometrika, 83, pp. 81-94.

DEMSAR, J., 2006, “Statistical Comparisons of Classifiers over Multiple Data Sets”, Journal of Machine Learning Research, 7, pp. 1–30.

DIETTERICH, T. G., 1997, “Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms”, Neural Computation, 10, pp. 1895−1924.

DIETTERICH, T. G., 1998, “Machine Learning Research: Four Current Directions”, The AI Magazine, 18, pp. 97−136.

DIETTERICH, T. G., BARIKI, G., 1995, “Solving multiclass learning problems via error-correcting output codes”, Journal of Artificial Intelligence Research, 2, 263- 286.

DOUCET, A., 1998, On sequential Monte Carlo methods for Bayesian filtering, Technical Report, Department of Engineering, University of Cambridge, UK.

DOUCET, A., de FREITAS, N., MURPHY, K., RUSSELL, S., 2000, “Rao- Blackwellised particle filtering for dynamic Bayesian networks”. In: Proceedings of the Sixteenth Conference on Uncertainty in Artificial Intelligence, pages 176- 183, Stanford.

DOUCET, A., de FREITAS, J. F. G., GORDON, N. J., 2001, Sequential Monte Carlo Methods in Practice, Springer-Verlag.

DZEROSKI, S., ZENKO, B., 2004, “Is combining classifiers with stacking better than selecting the best one?”, Machine Learning, vol. 54, pp. 255−273.

ELMAN, J. L., 1990, “Finding structure in time”, Cognitive Science, 14, pp. 179- 211.

FRANK, E., TRIGG, L., HOLMES, G., WITTEN, I. H., 2000, “Naive Bayes for regression,” Machine Learning, vol. 41, pp. 5–25.

FREUND, Y., SCHAPIRE, R. E., 1996, “Experiments with a new boosting algorithm”, In: Proceedings of the Thirteenth International Conference on Machine Learning, Bari, Italy, pp. 148−156.

FRIEDMAN, M., 1937, “The Use of Ranks to Avoid the Assumption of Normality Implicit in the Analysis of Variance”, Journal of the American Statistical Association, 32, pp. 675–701.

FRIEDMAN, J., 1999, Greedy function approximation: a gradient boosting machine, Technical report, Stanford University Statistics Department.

FRIEDMAN, J., HASTIE, T., TIBSHIRANI, R., 2000, Additive logistic regression: a statistical view of boosting, Technical report, Stanford University Statistics Department.

GEMAN, S., BIENENSTOCK, E., DOURSAT, R., 1992, “Neural networks and the bias/variance dilemma”, Neural Computation, 4(1), pp. 1–58.

GHAHRAMANI, Z., ROWEIS, T., 1999, “Learning Nonlinear Dynamical Systems using an EM Algorithm”, Advances in Neural Information Processing Systems, 11, Cambridge, MA, MIT Press.

GORDON, N., SALMOND, D., SMITH, A., 1993, “Novel approach to nonlinear and non-Gaussian Bayesian state estimation”, Proc. Int. Elect. Eng., 104, pp. 107- 113.

HARRISON, P. J., STEVENS, C., 1976, “Bayesian forecasting (with discussion)”, J. Roy. Statist. Soc., 38, 205-247.

HASTIE, T., TIBSHIRANI, R., FRIEDMAN, J., 2001, The Elements of Statistical Learning – Data Mining, Inference, and Prediction, Springer Series in Statistics.

HOLM, S., 1979, “A Simple Sequentially Rejective Multiple Test Procedure”, Scandinavian Journal of Statistics, 6, pp. 65–70.

HUEBNER, U., KLISCHE, W., ABRAHAM, N. B., WEISS, C. O., 1989, “Comparison of Lorenz-like Laser Behavior with the Lorenz Model”, Coherence and Quantum Optics VI, Plenum Press, New York, p. 517.

IBA, W., LANGLEY, P., 1992, “Induction of one-level decision trees,” In: Proceedings of the 9th International Conference on Machine Learning, Morgan Kaufmann, Aberdeen, Scotland, pp. 233–240.

IMAN, R. L., DAVENPORT, J. M., 1980, “Approximations of the Critical Region of the Friedman Statistic”, Communications in Statistics, pp. 571–595.

ITO, K., XIONG, K., 2000, “Gaussian Filters for Nonlinear Filtering Problems”, IEEE Transactions on Automatic Control, 45, pp. 910−927.

JAZWINSKY, A., 1970, Stochastic Processes and Filtering Theory, Academic Press, New York.

JORDAN, M. I., 1986, “Attractor dynamics and parallelism in a connectionist sequential machine”, In: Proc. of the Eighth Annual Conference of the Cognitive Science Society, NJ: Erlbaum, pp. 531-546.

JORDAN, M. I., 2002, A Introduction to Probabilistic Graphical Models, University of California, Berkeley.

JULIER, S., 2000, “The Scaled Unscent Transformation”, Automatica.

JULIER, S., UHLMANN, J., 1996, A General Method for Aproximating Nonlinear Transformations of Probability Distributions, Technical Report, Department of Engineering Science, Oxford Univerty.

JULIER, S., UHLMANN, J., DURRANT-WHYTE, H., 1995, “A New Approach for Filtering Nonlinear Systems”, In: Proceedings of the American Control Conference, pp. 1628−1632.

KALMAN, R. E., 1960, “A New Approach to Linear Filtering and Prediction Problems, Journal of Basic Engineering”, Transactions ASME, Series D 82, pp. 35–45.

KANAZAWA, K., KOLLER, D., RUSSELL, S., 1995, “Stochastic Simulation Algorithms for Dynamic Probabilistic Networks”, In: Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, Montreal, pp. 346-351.

KANTZ, H., SCHREIBER, T., 1999, Nonlinear Time Series Analysis, Cambridge University Press.

KEDEM, B., FOKIANOS, K., 2002, Regression Models for Time Series Analysis, John Wiley & Sons, Inc., New Jersey.

KELVIN, T., LEUNG, D., PARKER, S., 2003, “Empirical Comparisons of Various Voting Methods in Bagging”, In: Procedings of KDD 2003.

KITAGAWA, G., 1987, “Non-Gaussian state space modelling of non-stationary time series”, Journal of American Statistical Association, 82, pp. 503–514.

KITAGAWA, G., 1996, “Monte Carlo Filter and Smoother for Non-Gaussian Nonlinear State Space Models”, JCGS, 5, pp. 1-25.

KOHAVI, R., JOHN, G. H., 1997, “Wrappers for Feature Subset Selection”, Artificial Intelligence, vol. 97, pp. 273−324.

KOTECHA, J. H., DJURIC, P. M., 2003, “Gaussian Sum Particle Filtering”, IEEE Transactions on Signal Processing, vol. 51, no. 10, pp. 2602-2612.

LAVRAC, N., DZEROSKI, S., 1994, Inductive Logic Programming: Techniques and Applications, Ellis Horwood, New York.

LIU, J. S., CHEN, R., 1998, “Sequential Monte Carlo Methods for Dynamical Systems”, J. Amer. Statist. Assoc., vol. 93, pp. 1032–1044.

LOWD, D., DOMINGOS, P., 2005, “Naive Bayes Models for Probability Estimation”, In: Proceedings of the 22nd ICML, Alemanha, pp. 529-536.

MAYNE, D. Q., 1966, “A Solution of the Smoothing Problem for Linear Dynamic Systems”, Automatica, 4, pp. 73-92.

McNAMES, J., SUYKENS, J., VANDEWALLE, J., 1999, “Winning Entry of the K.U. Leuven time-series prediction competition”, International Journal of Bifurcation and Chaos, Vol.9, No.8, pp.1485-1500.

van der MERWE, R., de FREITAS, N., DOUCET, A., WAN, E., 2000, The Unscented Particle Filter, num. CUED/F-INFENG/TR 380, Cambridge University Engineering Department, Cambridge, England.

van der MERWE, R., WAN, E., 2001, “Efficient Derivative-Free Kalman Filters for Online Learning”, In: Proceedings of the 9th European Symposium on Artificial Neural Networks (ESANN 2001), Bruges, Bélgica.

van der MERWE, R., WAN, E., 2003a, “Gaussian Mixture Sigma-Point Particle Filters for Sequential Probabilistic Inference in Dynamic State-Space Models”, In: Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Hong Kong.

van der MERWE, R., WAN, E., 2003b, “Sigma-Point Kalman Filters for Probabilistic Inference in Dynamic State-Space Models”, In: Proceedings of the Workshop on Advances in Machine Learning, Montreal, Canadá.

MIGON, H. S., GAMERMAN, D., LOPES, H. F., FERREIRA, M. A. R., 2005, “Bayesian Dynamic Models”, In: Handbook of Statistics, 25, pp. 553-588.

MITCHELL, T. M., 1997, Machine Learning, New York, McGraw-Hill.

MUSSO, C., OUDJANE, N., LeGLAND, 2001, Improving Regularized Particle Filters, In Sequential Monte Carlo Methods in Practice, Springer, New York.

NEMENYI, P. B., 1963, Distribution-Free Multiple Comparisons, Ph.D. Thesis, Princeton University.

OMOHUNDRO, S. M., 1991, “Bumptrees for Efficient Function, Constraint, and

No documento Publicações do PESC Aprendizado Não-Paramétrico de Filtros de Partículas em Previsão de Séries Temporais (páginas 142-175)